08. LLMの世界地図！フロンティアvsオープンソースモデルを理解しよう

LLMの世界は、2つの主要なエコシステムに分かれています。API経由でアクセスするフロンティアモデル（GPT-4やClaudeなど）と、ダウンロードして自分で実行できるオープンウェイトモデル（LLaMAやMistralなど）です。

それぞれは、制御、コスト、プライバシーのために異なるトレードオフを提供します。

これらのエコシステム内で、モデルは異なるトレーニングバリアント（変種）で登場します。生のベースモデルと指示調整されたアシスタントから、推論最適化されたものやドメイン特化バージョンまで。各バリアントは理由があって存在し、LLM開発とデプロイメントパイプラインで異なる役割を果たしているんです。

このレッスンでは、そのランドスケープの明確なマップを提供します。各バリアントが何をするか、エコシステムがどのように異なるか、そして実世界での使用のために構築されたオープンウェイトのdecoder-onlyモデルをファインチューニングする方法を学ぶプログラムがどこに焦点を当てているかです。

2つのLLMエコシステムの理解
フロンティアモデル：オンデマンドの力
1. でも、制約もある
オープンウェイトモデル：制御、カスタマイゼーション、コミュニティ
1. なぜ開発者が愛するか
「フロンティア」ラベルの理解
LLMトレーニングバリアントの理解
このプログラムがどこに適合するか
次のステップ

2つのLLMエコシステムの理解

これまでに扱うすべてのLLMは、2つのエコシステムのいずれかに存在します。技術的なカテゴリーではなく、哲学なんです。AIコミュニティがモデルを構築、リリース、共有する2つの非常に異なる方法なんですよ。

シンプルな思考実験から始めましょう。明日車が必要だと想像してください。2つの選択肢があります。

レンタルできます。日単位で支払い、メンテナンスなし、ただ運転するだけ。

または所有できます。それはあなたのものです。いつアップグレードするか、どのように変更するか、誰が乗るかを決めます。

それがフロンティアモデルとオープンウェイトモデルの違いなんです。

フロンティアモデル：オンデマンドの力

フロンティアモデルは、ヘッドラインを飾るものです。GPT-4、Claude 3、Gemini、Grok。

それらは、驚異的な計算予算と膨大な独自データセットでトレーニングされた、巨大で閉じられた重みのシステムです。

これらのモデルをダウンロードすることはありません。API経由でリクエストを送信し、クラウドから回答を返します。最高のパフォーマンスにすぐにアクセスできますが、制御を放棄します。

フロンティアモデルは、迅速に移動する必要がある場合に理想的です。プロトタイプを構築し、アイデアを検証し、インフラストラクチャを管理せずにユーザーにサービスを提供します。

プロバイダーは、スケーリング、最適化、安全性更新を処理します。エンドポイントに接続して構築を開始するだけなんですよ。

でも、制約もある

しかし、その便利さには3つの予測可能な制約があります。

トークンごとのコスト。すべてのリクエストとすべての生成された単語にお金がかかり、使用量に応じてスケールします。たくさん使うと、コストが膨らむんですね。

データプライバシーの考慮事項。入力と出力は外部サーバーを経由します。多くのアプリケーションには問題ありませんが、すべてではありません。

ほとんどの人が始めるとき、フロンティアモデルは魔法のように感じます。高性能、低セットアップ。

しかし、プロジェクトが成熟すると、データプライバシー、コスト、または再現性が優先事項になると、チームはしばしばオープンウェイトの代替案に目を向けます。

オープンウェイトモデル：制御、カスタマイゼーション、コミュニティ

オープンウェイトモデルは、ダウンロード可能なものです。実際に所有できるものなんです。

ローカルでホストし、ニーズに合わせてファインチューニングし、効率のためにマージまたは量子化することもできます。

LLaMA 3、Mistral 7B、Mixtral、Phi-3、Qwen、DeepSeekなどの名前を考えてください。それらは、進歩が迅速に進み、コラボレーションがオープンに行われる活気のあるエコシステムを形成しています。

なぜ開発者が愛するか

開発者と研究者がそれらを愛する理由は次のとおりです。

深いカスタマイゼーション。ファインチューニング、圧縮、またはアーキテクチャの詳細を変更することもできます。自由度が高いんですね。

予測可能なコスト。一度計算に支払い、トークンごとには支払いません。使えば使うほどお得になる可能性があります。

デフォルトでのプライバシー。送信しない限り、何も環境を離れません。機密データを扱う場合、これは大きなメリットです。

もちろん、オープンウェイトモデルは新しい責任をもたらします。インフラストラクチャのセットアップ、GPU管理、監視、最適化です。

しかし、独立性と再現性を望むチームにとって、それらは自然な選択なんです。

そのため、この認定では、主にオープンウェイトのdecoder-onlyモデルに焦点を当てています。それらは現代の応用LLMエンジニアリングのバックボーンなんですよ。

「フロンティア」ラベルの理解

「フロンティア」という用語は、OpenAIやClaudeなどの独自の閉じたソースモデルを説明するためによく使用されます。これらのモデルは、従来、生成AIの最先端を行く組織から来ているため、最先端と見なされてきました。

しかし、「フロンティア」という用語は少し誤解を招く可能性があります。LLaMAやMistralなどのオープンウェイトモデルは遅れを取っていましたが、パフォーマンスのギャップは着実に縮まっています。

実際、オープンウェイトモデルは、フロンティアモデルの能力に迅速に近づいているんです。

このレッスンでは「フロンティア」対オープンウェイトのラベルを使用し続けます。なぜなら、それは広く使用されているからです。しかし、それらの間の区別がますます不明確になっており、オープンウェイトモデルがすぐにAIの真のフロンティアを表すかもしれないことに注意することが重要です。

時代は変わっているんですね。

LLMトレーニングバリアントの理解

モデルがどこに存在するか、フロンティアまたはオープン、がわかったので、トレーニングでどの程度進んでいるかについて話しましょう。

すべてのLLMが同じ目的のために構築されているわけではありません。一部は、カスタマイゼーションの準備ができている白紙の状態です。他のものは、指示に従うまたはステップバイステップで推論するようにファインチューニングされた洗練されたアシスタントです。

これらをバリアントとして考えると便利です。ステップではありません。それらは、成長するエコシステムの並列カテゴリーであり、それぞれが目的を果たしているんです。

1. ベースモデル — 生の基盤

ベースモデルは、最も純粋な形のLLMです。数兆のトークンで事前トレーニングされ、一般的な言語パターンを学習しましたが、指示に従う方法は教えられていません。

質問すると、テキストを続けようとします。必ずしもあなたに答えるわけではありません。

ユーザー: 量子コンピューティングを説明してください。
ベースモデル: 量子コンピューティングを説明してください。古典的なコンピューターとどう違うのですか？
量子コンピューティングは新しいタイプです...

フレーズを模倣し、質問を繰り返し、独自の質問をし、または単に漂います。それはバグではありません。トレーニング通りに動作しています。次の単語を予測しているだけなんです。

ベースモデルを使用する場合は、独自の指示調整を適用したい場合、またはゼロから特殊なドメインデータを注入したい場合です。研究者はしばしばここから始めます。ほとんどの実践者は必要ありません。

2. 指示モデル — 役立つアシスタント

これらは、私たちのほとんどが毎日使用するモデルです。

それらはベースモデルとして始まり、その後、指示調整を受けます。数千の質問-回答例でトレーニングします。そして時には人間のフィードバックからの強化学習（RLHF）を受けます。

今、何かを尋ねると、テキストを完成させるだけでなく、あなたに応答します。

ユーザー: 量子コンピューティングを説明してください。
指示モデル: 量子コンピューティングは量子ビット、またはキュービットを使用し、複数の状態を表すことができます...

指示モデルは、すでに会話の意図を理解しているため、ファインチューニングのための理想的な出発点です。

1つをファインチューニングすると、すでに整合され、適切に動作するアシスタントの上にドメイン専門知識を重ねているんです。

それはまさにこのプログラムで行うことなんですよ。

3. 推論モデル — 深い思考者

新しいバリアントは構造化された推論に焦点を当てています。回答に飛びつく代わりに、これらのモデルは応答する前に「作業を示します」。

それらは、中間推論ステップを生成するようにトレーニングされています。時には思考の連鎖と呼ばれます。そして、標準チャットモデルを困らせる数学、コード、論理の複雑なタスクに取り組むことができます。

ユーザー: 列車が午後3時に時速60 kmで駅を出発します。別の列車が午後4時に同じ駅から同じ方向に時速90 kmで出発します。速い列車はいつ追いつくでしょうか？

推論モデル:
<thinking>
1時間のアドバンテージで、最初の列車は60 km進みます。
速度差は90 - 60 = 30 km/hです。
時速30 kmで60 kmのギャップを閉じるには2時間かかります。
したがって、速い列車は午後4時の2時間後に追いつきます。それは午後6時です。
</thinking>
回答: 午後6時。

それらは実行が遅く、コストが高くなりますが、分析精度ではるかに優れています。

ほとんどのビジネスアプリケーションでは、指示モデルで十分です。しかし、計画と精度が必要な場合、推論バリアントが輝きます。

4. ファインチューニングされたモデル — スペシャリスト

最後に、ファインチューニングされたモデルがあります。特定のドメインの専門家になるために特殊なコーパスでトレーニングされたLLMです。法的文書、臨床メモ、財務報告、またはプログラミング言語など。

これらのモデルは、一般的な言語の流暢さと深い主題知識をブレンドします。日常英語と彼らの分野の方言の両方を話す専門家と考えてください。

ユーザー: 間接的損害に対する責任を制限する条項を起草してください。
法的モデル: 当事者は、いずれも間接的、偶発的、または結果的損失に対して責任を負わないことに同意します...

それらは、ニッチで一般モデルを上回りますが、一部の汎用柔軟性を失う可能性があります。

プログラムの後半で、独自のファインチューニングプロジェクトでこれらに遭遇するか、作成します。

このプログラムがどこに適合するか

今では、完全なランドスケープを見ました。2つのエコシステム、フロンティアとオープンウェイト、そして4つの機能バリアント、ベース、指示、推論、ドメイン。

この認定では、LLaMA 3、Mistral、Phi-3などのオープンウェイト、指示調整されたdecoder-onlyモデルで主に作業します。

これらは、アクセシビリティ、制御、本番のリアリズムの理想的なバランスを取ります。

迅速なベンチマークのためにフロンティアAPI（GPT-4など）を試しますが、コア学習は実践的に行われます。ファインチューニング、評価、自分でデプロイできるモデルでね。

それが雇用主が価値を置く真のスキルです。オープンウェイトモデルを有用で信頼性が高く再現可能なものに変えること。

次のステップ

LLMランドスケープ、モデルがどのようにリリースされ、専門化され、進化するか、を理解したので、次の大きな質問に取り組む準備ができています。

実際にモデルをファインチューニングする必要があるのはいつですか？

すべてのLLMアプリケーションがファインチューニングを必要とするわけではありません。実際、多くの問題は、プロンプトまたは検索ベースのアプローチを通じて効果的に解決できます。

次のレッスンでは、ファインチューニングが意味をなす理由と時期、どのような代替案が存在するか、そして特定のユースケースに適したパスを選択する方法を探ります。

それは理論を実際の設計決定に変え始める場所です。楽しみにしていてくださいね！

08_LLM_Landscape_Frontier_vs_Open_Source