商品詳細
内容紹介 | |
---|---|
販売会社/発売会社 | 岩波書店 |
発売年月日 | 2023/06/20 |
JAN | 9784000297196 |
- 書籍
- 書籍
大規模言語モデルは新たな知能か
商品が入荷した店舗:店
店頭で購入可能な商品の入荷情報となります
ご来店の際には売り切れの場合もございます
オンラインストア上の価格と店頭価格は異なります
お電話やお問い合わせフォームでの在庫確認、お客様宅への発送やお取り置き・お取り寄せは行っておりません
大規模言語モデルは新たな知能か
¥1,540
在庫あり
商品レビュー
4
43件のお客様レビュー
やや難解だが、長期記憶やメタ学習が実現されていることを説明した部分は読みごたえがあった。 chatGPTが学習した情報の量は1兆文字、書籍で1000万冊相当分。 1948年、シャノンは情報量(情報エントロピー)と呼ばれる概念を導入した。ある情報がどれだけ予想していない驚くべき...
やや難解だが、長期記憶やメタ学習が実現されていることを説明した部分は読みごたえがあった。 chatGPTが学習した情報の量は1兆文字、書籍で1000万冊相当分。 1948年、シャノンは情報量(情報エントロピー)と呼ばれる概念を導入した。ある情報がどれだけ予想していない驚くべき情報かを表し、起こりにくい事象が起きた場合は情報量が大きくなる。この情報理論によって、情報を数学的な枠組みの中で扱えるようになった。 2020年、学習する際に使う訓練データの量、利用するモデルのパラメーター数(モデルサイズ)、投入計算量の3つの要因と、言語モデルの検証データの予測誤差との間には、べき乗測が成り立つことが発見された。さらに、検証データの単語の予測性能と、言語理解などの後続タスクのとの間にも、正の相関が見られる。これは言語モデルが自己教師あり学習によって、言語理解に必要な能力を獲得していることを支持する。 ニューラルネットワークでは、誤差逆伝搬法を使って学習に必要な修正量を効率的かつ正確に求められる。 注意機構は、過去の単語列で重要な部分を思い出す短期記憶と考えることができる。トランスフォーマーは、自己注意機構と、三層の全結合層を使ったニューラルネットワーク(MLPブロック)を交互に重ねてデータを処理するモデル。 MLPブロックは、今処理している情報と関連する情報を読み出して処理する長期記憶とみなすことができる。 注意機構はデータを集約する役割があるが、重みパラメーターを一時的に変えているとみなすことができる。大規模言語モデルに使われている自己注意機構は、パラメーターを変えて学習した場合と同様に、指示や今生成しているデータに合わせてモデルを適用させていくことがわかった。言語モデルと自己注意機構の組み合わせによって、複数のタスクを学習することで学習方法自体を学習するメタ学習が意図せずに実現された。
Posted by
書評読んでの拝読 大規模言語モデルについて知識ほぼゼロのひとでもスッと入ってくる丁寧な説明、これからAIと共存し上手く活用していくためのアドバイスをもらえる。拒絶反応起こしたり闇雲に怯えているような人は手に取ってみたらいいと思う。
Posted by
この著者によれば「人とは違う新たな知能」だそうな。なかなかイメージが掴めないでいたattentionの概要が少し把握できたのは収穫。
Posted by