07. ChatGPTの秘密を解明！言語モデルアーキテクチャの世界

「LLM」と言います。素晴らしい。でも、大規模言語モデルとは正確には何でしょうか？

このレッスンでは、明確なメンタルモデルを提供します。言語モデルが構築される3つの方法、それぞれが得意なこと、そしてChatGPT、Claude、Geminiなどのツールを支えるものです。

最後には、3つの言語モデルファミリーを一目で認識できるようになります。Encoder-Only（アナリスト）、Encoder-Decoder（翻訳者）、Decoder-Only（著者）。そして、今日のアシスタントを支えるDecoder-onlyアーキテクチャが、このプログラムでマスターするものである理由がわかりますよ。

LLMアーキテクチャの理解：基礎
Transformer：現代のLLMの基礎
1. 元のTransformerデザイン
2. 3つのTransformerアーキテクチャ
Encoder-Decoderモデル（翻訳者）
Encoder-Onlyモデル（アナリスト）
Decoder-Onlyモデル（著者）
1. 自己回帰モデルって？
Decoder-Onlyモデルが現代のLLMエンジニアリングを支配する理由
次のステップ

LLMアーキテクチャの理解：基礎

ChatGPT、Claude、またはGeminiとチャットするとき、あなたは言語モデルと対話しています。高品質で人間らしいテキストを生成するようにトレーニングされた機械学習システムです。

興味深いことに、これらのアシスタントは異なる会社から来ていますが、すべて言語生成のための同じコアアーキテクチャを共有しているんです。

しかし、そのアーキテクチャは、言語モデリングに関してそこにある唯一の種類ではありません。

実際、言語モデルの分野には複数のアーキテクチャが含まれており、それぞれが異なる目標を念頭に置いて設計されています。一部のモデルは、テキストの理解とラベル付けに特化しています。他のモデルは、翻訳や要約に優れています。そして、ChatGPTのように、流暢なマルチターン応答を生成するために構築されたものもあるんです。

このレッスンでは、それぞれの明確な全体像を得て、現代のアシスタントの背後にあるアーキテクチャがチャットボット、コーディングアシスタント、タスク自動化などの実世界のアプリケーションにとって最適な選択となった理由を見ていきます。

それらすべてが共有する共通の基盤、Transformerから始めます。

Transformer：現代のLLMの基礎

検索、チャット、翻訳、要約のいずれに使用される現代の言語モデルは、すべて2017年にGoogleによって論文「Attention Is All You Need」で導入されたTransformerに基づいて構築されています。

何が革命的だったのでしょうか？Transformerの自己注意メカニズムは、すべてのトークンを並列に処理します。シーケンシャルなボトルネックはありません。

この並列化により、数兆のトークンで大規模にトレーニングすることが可能になり、それが現代のLLMを生み出したんです。それが次のような文でどのように知っているかです。

「The bank was steep,」

bankという単語は、お金ではなく川に関連しています。文脈から意味を理解できるんですね。

元のTransformerデザイン

元のTransformerには2つのパーツがあります。

Encoderは、入力テキスト全体を同時に読み取り、その意味の内部表現を構築します。左側に見られるこのパーツは、テキストを理解するために設計されました。

Decoderは、このパーツ（右側に見られる）は、これまでに書かれたものとエンコーダーの理解を使用して、一度に1単語ずつ出力を生成します。

この完全なエンコーダー-デコーダーセットアップは、機械翻訳のために設計されました。エンコーダーは1つの言語で文を理解し、デコーダーは別の言語でそれを書きます。

3つのTransformerアーキテクチャ

研究者はすぐに、常に両方のパーツが必要なわけではないことに気付きました。タスクに応じて、エンコーダーのみ、デコーダーのみ、または両方を使用してモデルを構築できます。それが3つの主要なアーキテクチャタイプを生み出しました。

Encoder-Decoder：1つのシーケンスを別のシーケンスに変換する
Encoder-Only：テキストの理解と分類
Decoder-Only：一度に1トークンずつ新しいテキストを生成

それぞれを分解してみましょう。

Encoder-Decoderモデル（翻訳者）

これは元の完全なTransformerです。エンコーダーを使用して入力を完全に理解し、次にデコーダーを使用してそれを新しいものに変換します。

得意なことは、翻訳、要約、言い換え、その他の「X → Y」タスクです。

例えば、こんな感じです。

タスク：翻訳と要約
入力：量子コンピューティングに関する長い英語のドキュメント
出力：短いフランス語の要約

このファミリーには、T5、BART、PEGASUSなどのモデルが見られます。

プログラムでこれに焦点を当てない理由は、Decoder-onlyモデルは現在、これらのタスクの多くをほぼ同じように実行し、チャット、コーディング、汎用生成も可能にするからなんです。

Encoder-Onlyモデル（アナリスト）

これらのモデルは、エンコーダーのみを使用します。完全な入力を同時に見て、深い理解を構築します。しかし、流暢なテキストは生成しません。

得意なことは、分類、NER（固有表現認識）、トピック検出、意味的類似性、埋め込みです。

タスク：サポートチケットの分類
入力：「注文が届いておらず、2週間経ちました」
出力：カテゴリ = 「配送問題」、緊急度 = 「高」

ここには、BERT、RoBERTa、ALBERT、DistilBERTなどのモデルが見られます。

プログラムでこれに焦点を当てない理由は、Encoder-onlyモデルは理解タスクに優れていますが、生成には向いていないからなんです。BERTをチャットボットにファインチューニングすることはできません。

Decoder-Onlyモデル（著者）

Decoder-onlyモデルは、現代のLLMの支配的なアーキテクチャになりました。左から右へ、一度に1トークンずつテキストを生成します。指示に従う、チャット、創造的な執筆に最適なんです。

得意なことは、チャットアシスタント、コード生成、メールの下書き、創造的な執筆などです。

タスク：丁寧なメールを書く
入力：「会議のリクエストを断る」
出力：
「Dear [Name],
Thank you for the invitation... [polite decline message]」

これらのモデルは自己回帰的です。これまでに書かれたすべてのものに基づいて次の単語を生成します。以前のコンテキストしか見ていないにもかかわらず、流暢で一貫性があり、目標駆動型の応答を生成するんですよ。

自己回帰モデルって？

自己回帰モデルは、以前の要素を入力として使用して、シーケンスの次の要素を予測します。

GPTのようなLLMでは、これは一度に1トークンずつテキストを生成することを意味し、予測された各単語はすべての先行単語に依存します。

重要なアイデアは、各出力は、次の予測の入力の一部になるということです。

あなたはすでにこのファミリーのモデルを使用しています。

GPT-3.5, GPT-4 (OpenAI)
Claude 3 (Anthropic)
Gemini (Google)
LLaMA 2, LLaMA 3 (Meta)
Mistral, Mixtral
Qwen, Phi, DeepSeek, and many others

このプログラムがここに焦点を当てる理由は、これは、今日のほぼすべての本番アシスタントの背後にあるアーキテクチャだからです。実世界のアプリケーションにとって最も汎用性が高く、スケーラブルで、よくサポートされています。そして、現代のLLMエンジニアリングが起こる場所なんです。

これらのアシスタントは、そのコアの上に構築された完全な製品です。メモリシステム、検索ツール、API、モデレーションレイヤー、ガードレール、オーケストレーションロジックなどの他のコンポーネントが含まれています。

このプログラムは、言語モデルレイヤー自体に焦点を当てています。独自のユースケースのためにファインチューニングしてデプロイする方法です。

Decoder-Onlyモデルが現代のLLMエンジニアリングを支配する理由

現代のLLMランドスケープは、decoder-onlyモデルに決定的にシフトしました。その理由を理解することは、このプログラム全体で何を扱うかを理解するための鍵です。

汎用性

単一のdecoder-onlyモデルは次のように動作できます。

チャットアシスタント
コードジェネレーター
翻訳者
要約者
推論エンジン
またはドメイン固有の専門家（例：法律、医療、数学解決）

かつて他のアーキテクチャのドメインだったタスク、感情分類（encoder-only）や機械翻訳（encoder-decoder）などは、現在、decoder-onlyモデルによって日常的に処理されています。

ChatGPTを使用してテキストを要約、翻訳、または解釈した経験があるかもしれませんね。

この柔軟性により、組織は複数の専門システムを管理することなく、数十のユースケースで単一のモデルアーキテクチャに依存できます。

スケーラビリティ

Decoder-onlyモデルは非常によくスケールします。数兆のトークンでトレーニングされ、モデルサイズとデータが増加するにつれて改善し続けます。

この予測可能なスケーリングにより、最先端の研究とエンタープライズデプロイメントの選択肢のアーキテクチャになったんです。

エコシステムの成熟度

Hugging Face TransformersとPEFTからDeepSpeed、Axolotl、無数のコミュニティツールまで、オープンソースエコシステム全体がdecoder-onlyモデルの周りに統合されました。

実世界でLLMをファインチューニング、評価、またはデプロイするとき、これはあなたが扱っているアーキテクチャなんです。

結論として、今日、ほとんどの人が「LLM」と言うとき、彼らはdecoder-onlyモデルを意味します。

そして、それはまさにこの認定プログラムが焦点を当てる場所です。

独自のユースケースのためにこれらのモデルをファインチューニングする方法を学びます。カスタマーサービスアシスタント、ドメイン固有のチャットボット、タスク自動化エージェント、または完全に新しいものを構築している場合でも。

これは現代のAIを支えるアーキテクチャです。そして、このプログラムの終わりまでに、それを自分のものにする方法を知っているでしょう。

次のステップ

あなたは今、3つのTransformerアーキテクチャの明確なメンタルモデルを持っています。そして、decoder-onlyモデルが今日のAIランドスケープを支配する理由です。

これらは、ChatGPT、Claude、および本番環境のほぼすべてのLLM搭載アシスタントを支えるモデルです。また、このプログラム全体でファインチューニング、評価、デプロイするモデルでもあります。

次のレッスンでは、より広いLLMエコシステムにズームインします。オープンソース対フロンティアモデル、ベース、指示、ファインチューニングされた段階、そして、開始するための適切なモデルを選択する方法です。

それはあなたにLLMエンジニアとしてスマートな選択をするためのコンテキストを与え、あなたが構築しようとしているモデルがより大きな全体像にどのように適合するかを見るのに役立ちます。

続けましょう。AIの世界は広大で、学ぶべきことはまだまだたくさんありますよ！

07_Language_Model_Architectures