1,800円以上の注文で送料無料
生成AIのしくみ 〈流れ〉が画像・音声・動画をつくる 岩波科学ライブラリー328
  • 新品
  • 書籍
  • 書籍
  • 1211-03-01

生成AIのしくみ 〈流れ〉が画像・音声・動画をつくる 岩波科学ライブラリー328

岡野原大輔(著者)

追加する に追加する

生成AIのしくみ 〈流れ〉が画像・音声・動画をつくる 岩波科学ライブラリー328

1,650

獲得ポイント15P

在庫あり

発送時期 1~5日以内に発送

商品詳細

内容紹介
販売会社/発売会社 岩波書店
発売年月日 2024/12/01
JAN 9784000297288

生成AIのしくみ

¥1,650

商品レビュー

3.7

13件のお客様レビュー

レビューを投稿

2025/12/14

【カバー範囲】 「生成AIのしくみ」というタイトルではありますが、ここでは基本的に画像生成の原理に触れているだけです。潜在変数モデル(VAE)を歴史として紹介したのち、拡散モデルによる画像の学習と生成について、著者の視点で語られています。それらについて読んで面白かったですが、それ...

【カバー範囲】 「生成AIのしくみ」というタイトルではありますが、ここでは基本的に画像生成の原理に触れているだけです。潜在変数モデル(VAE)を歴史として紹介したのち、拡散モデルによる画像の学習と生成について、著者の視点で語られています。それらについて読んで面白かったですが、それは勉強というより専門家とされる人とカジュアルな会話している感じでした。 【特徴的と思った点】 (1) 確率モデルの説明で自由エネルギーの話をするとき、イジングモデルから説明をされていました。分配関数など統計力学の素養があるようで、それが他の類書?と異なっている気がしました。分配関数についてもページ数を割いていました。ただ、触れているだけで、知っている人が聞けば「そうだね」という感じではあります。 (2) 拡散過程については、私は元の論文を読んだことはないのですが、関連論文(Stable diffusionなど)は読んで、公開コードに目を通し動かしたことはあるレベルでした。拡散過程は直観的に分からないのですが、巷できく「確率過程について、学習においてはマクロな数学的記述(フォッカー・プランク方程式)、生成においてはミクロな記述(ランジェバン方程式)の特性を利用している」という話と整合性のある説明があり、自分の中で直観的な理解のヒントにさせていただこうと思いました。 (3) VAE、拡散モデルなど、発表時期、発表者を書いていて、これは良いと思いました。2010年代の話であり、私も紹介された内容は狭い学会で閉じた枝葉末節ではなく、紹介されるに値する内容であり、また、2025年現在の立ち位置を理解するのにも役に立つと思います。 【おすすめ?】 文章(プロンプト)から画像が生成される原理については触れられていません。音、テキストにも触れられていなかったと思います。おすすめかと言われれば、「誰向け?」という感じで微妙です。AIを使うだけの人、エンジニアでも既存のコードを利用するだけの人、アルゴリズムに興味がる人、には強くは薦められないと思いました。欲を言えば、同じくらいの文章の量で良いので、横書きで数式を出して説明してくれるものを読みたいなと思いました。 【蛇足】 最後の「○○モデルは○○モデルの一例とみなせる」は読んでいて「うーん、、、」と思いました。 一度目に読んだときは読み流して何も残らず、読書メモを書こうと読み返したときに初めて「ふむふむ」と読めました。

Posted by ブクログ

2025/10/17

言語処理(離散的)を除く、連続的な動画、音声、画像の生成AIの現状の技術レベルを数式を使わず、説明している。あくまで現状なので、まだ汎化にはいたっていない。 難しかった、分からなかったという感想が多いが、私にはよく分かった。 理由を考えると、 1.熱力学・統計力学の知識があった...

言語処理(離散的)を除く、連続的な動画、音声、画像の生成AIの現状の技術レベルを数式を使わず、説明している。あくまで現状なので、まだ汎化にはいたっていない。 難しかった、分からなかったという感想が多いが、私にはよく分かった。 理由を考えると、 1.熱力学・統計力学の知識があった。エネルギーや分配関数への理解が容易になる。 2.多様体、対称性など現代数学の知識があった。 3.計算量や並列処理など計算機工学の知識があった。 4.物理的な意味での位相配位空間の知識があった。 5.流体力学の知識があった。 などが挙げられる。 しかし、本書では喩えを用いながら、簡便に説明されているので、前提知識はいらないという感想ももったが、概して大学学部レベルの物理学の知識があると、理解が容易になる。

Posted by ブクログ

2025/09/14

数式を使わない解説書は判り易そうで判りにくい。生成AIの歴史のキーワードだけはメモしておこう。 イジングモデル:粒子が隣の粒子の向きと同じになりたいという目標とエネルギーの低い状態になりたいという目標にもとづいて全体が調整されるモデル。相転移などが説明できる ホップフィールドネ...

数式を使わない解説書は判り易そうで判りにくい。生成AIの歴史のキーワードだけはメモしておこう。 イジングモデル:粒子が隣の粒子の向きと同じになりたいという目標とエネルギーの低い状態になりたいという目標にもとづいて全体が調整されるモデル。相転移などが説明できる ホップフィールドネットワーク:ニューロンがイジングモデルの粒子の役割を果たし、ニューロン間の相互作用やニューロンの状態に応じて全体のエネルギーが定義される。イジングモデルと違い、学習によってパラメータが決まる。 エネルギーベースモデル:適当に初期化した状態から、エネルギーが低くなるように状態が自発的に更新されていくモデル。 潜在変数モデル:データが直接生成されるのではなく、最初に潜在変数が生成され、次に洗剤変数をもとにデータが生成されるモデル。 変分自己符号化器(VAE):変分ベイズという方法で学習目標を定め、認識モデルと生成モデルの更新を同時に行う。 正規化フロー;流れを使って分配関数を求めずに確率分布を表す。事前分布を可逆な変換で徐々に変換し、複雑な確率分布をつくる 拡散モデル:秩序をもった対象にノイズが加えられて徐々に破壊されて完全に無秩序になる過程を逆向きにたどることで、無秩序から秩序を生み出す 潜在拡散モデル:拡散モデルで、元のデータ空間でそのまま学習するのではなく、一度、別の空間に変換し、その潜在空間上で流れを学習させるモデル。 やっぱり、言葉で説明されても 良く判らない。 生成AIの主用アプリである画像生成の過程を各手法を用いて説明してくれると判り易いのだが・・・・ エネルギーベースもでるのところででてきた犬の絵の生成を他の手法でやるとどのようになるか  著者は賢いから不要なのだろうが、凡人向け書籍は もう少し優しさが欲しい・・・・

Posted by ブクログ