09. ファインチューニング？それともRAG？最適な選択肢を見つけよう

ファインチューニングすべきでしょうか？

ファインチューニングは強力ですが、常に必要なわけではありません。

時には、巧妙なプロンプトまたはRAGでモデルを外部データに接続することで、素晴らしい結果が得られます。他の時には、独自のデータでトレーニングすることだけが、必要な精度と一貫性を提供します。

このレッスンは、それらの状況を区別するのに役立ちます。ファインチューニングがコストに見合う価値がある場合、より軽いアプローチで十分な場合、そして3つの方法すべてがどのように協力して本番対応システムを構築できるかを理解します。

料理に例えるなら、既製品をそのまま使うか、少しアレンジするか、一から作るか。状況に応じて最適な選択は変わりますよね。

LLMを適応させる3つの方法

ユースケースのためにLLMをカスタマイズし始めるとき、キットに3つの主要なツールがあります。

プロンプトエンジニアリングは、指示と例を通じてモデルの動作をガイドします。

RAG（Retrieval-Augmented Generation）は、回答する前にモデルに外部知識へのアクセスを与えます。

ファインチューニングは、モデル自体を再トレーニングして、パターンとデータを学習させます。

それぞれが他のものに構築されます。競合するオプションというよりも、レイヤーとして考えてください。

プロンプトは出力を形作ります。RAGはモデルが知っていることを拡張します。ファインチューニングはモデルが何であるかを変えます。

それぞれのアプローチが実際に何をするか、そしていつそれに手を伸ばすかを見てみましょう。

プロンプトエンジニアリング：ここから始める、常に

プロンプトエンジニアリングは、LLMをカスタマイズする最もシンプルで最速の方法です。

望む動作に向けてモデルを促す指示、例、またはフォーマットを作成します。

カスタマーサポートアシスタントを構築しているとしましょう。

あなたは、TechFlowのための役立つ、丁寧なサポートエージェントです。
常に2つの短い段落で応答してください。
答えがわからない場合は、丁寧にそう言ってください。

このプロンプトだけで、GPT-4またはMistralは、カスタマーサービスエージェントのように振る舞うことができます。トレーニングなし、データ収集なし、GPUなし。すごいですよね。

プロンプティングの利点

プロンプティングは、すべてのプロジェクトが始まる場所です。なぜなら、

安いです。API使用量に対してのみ支払います。

即座です。結果はすぐに表示されます。

反復的です。テストと微調整によって改善できます。

でも限界もある

しかし、プロンプティングには限界があります。毎回何をすべきかを正確に伝える聡明なインターンのようなものです。有用ですが、繰り返しです。

各インタラクションはモデルのメモリをリセットし、入力ウィンドウ内で常にコンテキストを再提供しています。それがRAGが介入する場所です。

RAG：モデルがもっと知る必要がある場合

Retrieval-Augmented GenerationはLLMを外部知識に接続します。ドキュメント、データベース、または内部システム。

トレーニングを通じてモデルに新しい事実を教える代わりに、実行時に正しい情報を供給します。

フローは次のとおりです。

ユーザーが質問します。

システムはあなたのデータを検索します（埋め込みまたはベクトルデータベースを使用）。

関連するスニペットが取得され、プロンプトに挿入されます。

LLMはそれらのスニペットを読み、根拠のある回答を作成します。

例で見てみよう

ユーザー: 「Proプランにはどのような保証範囲が含まれていますか？」

RAGが提供：
「TechFlow Proプラン：ハードウェアの2年間延長保証、24時間年中無休のチャットサポート、偶発的損害の補償なし。」

LLM出力：
「Proプランには、2年間のハードウェア保証と24時間年中無休のチャットサポートが含まれていますが、偶発的損害は補償されません。」

モデルはこのポリシーを記憶したことはありません。動的に読みました。それがRAGの魔法なんです。あなたのデータは新鮮でプライベートで、更新が簡単なんですよ。

RAGを使用する場合

正確で最新の回答が必要です。

データが頻繁に変更されます。

データプライバシーを気にします（検索をローカルに保つことができます）。

透明性が必要です。モデルはソースを引用することさえできます。

しかし、RAGはモデルをより賢くしません。コンテキストを供給するだけです。

モデルが情報を解釈するのに苦労したり、ドメインの規約に従うのに苦労したりする場合、ファインチューニングが必要になります。

ファインチューニング：真の適応が必要な場合

ファインチューニングは、独自のデータセットでトレーニングすることによって、モデルに新しい動作を教えることを意味します。

例を与えるだけではありません。モデルの内部重みを更新して、動作が永続的になるようにします。

「伝える」から「教える」に移行すると考えてください。

次の場合にファインチューニングします

専門タスクのために一貫性のある反復可能な出力が必要です。

モデルにドメイン固有の言語を理解させる必要があります。

長いプロンプトまたは検索パイプラインに依存できません。

データプライバシーを気にし、モデルをオフラインで実行したいと考えています。

一般モデルは、医療質問に安全に答えるために詳細なプロンプトが必要かもしれません。または、RAGを使用して適切なコンテキストを提供することもできます。

しかし、厳選された臨床データでトレーニングされたファインチューニングされたバージョンは、そのドメインで自然かつ確実に話すことができます。例を再供給したり、コンテキストのためにRAGを必要としたりすることなくね。

ファインチューニングの条件

少なくとも数百の高品質な指示-応答ペアと明確な評価目標がある場合、ファインチューニングが最適に機能します。

そうでなければ、モデルを以前よりもわずかに悪化させるために時間と計算を費やすリスクがあります。

隠れた変数：データ品質

ファインチューニングは、悪いデータセットをより良くするのではありません。その欠陥を永続的にします。

最も強力なモデルでさえ、一貫性がなく、ノイズが多く、ラベルが不十分なデータから有用な動作を学ぶことはできません。

トレーニング例があいまい、繰り返し、またはタスクから外れている場合、ファインチューニングされたモデルはそれらの同じ弱点を反映します。ただより速く、より自信を持って。

そして、ここにコストのかかる部分があります。LLMは、トレーニングされたものを忘れることはできません。欠陥のあるデータでファインチューニングした場合、「元に戻す」ボタンはありません。

特定の動作を簡単に修正または修正することはできません。クリーンなデータを使用してゼロからファインチューニングプロセスをやり直す必要があります。

これにより、前払いのデータ品質が最も重要な投資になります。

品質データとは？

では、品質データとは何を意味するのでしょうか？

各例は、教えているタスクを明確に反映する必要があります。

応答は、トーンと構造において一貫している必要があります。

指示は、あいまいさがなく、ドメインに正確である必要があります。

データは、ハッピーパスだけでなく、エッジケースをカバーする必要があります。

来週、データセットの収集と準備について深く掘り下げます。

今のところ、この経験則を覚えておいてください。ファインチューニングは、すでにそこにあるものを増幅します。したがって、増幅する価値のあるデータから始めてください。

正しいアプローチを選択する

実用的にしましょう。異なる課題に直面している3人のエンジニアを想像してください。

Maya — スタートアップの創設者

彼女は、SaaSツールのためにメールとサポート返信を下書きするAIが必要です。

彼女はプロンプトエンジニアリングから始めます。応答がプロフェッショナルに聞こえるまで指示を反復します。

それで十分です。GPUは必要ありません。

Leo — エンタープライズアーキテクト

彼のチームは、内部ポリシーの質問に安全に答えたいと考えています。

彼は会社のドキュメント上にRAGパイプラインを構築し、モデルが実行時に検証されたデータを取得できるようにします。

再トレーニングはありませんが、多くの制御と透明性があります。

Aisha — ヘルスケア研究者

彼女の研究室は、一貫した構造化された臨床要約を生成するモデルが必要です。

プロンプトとRAGでは不十分です。彼女は、ラベル付けされたケースノートを使用して医療LLMをファインチューニングし、コンプライアンスと精度を保証します。

3つの異なる目標。3つの異なるアプローチ。正しい選択は、誇大広告ではなく、データ、要件、制約に依存します。

これらの方法がどのように連携するか

実世界のシステムは、1つだけを選ぶことはめったにありません。

最も効果的なパイプラインは、3つのアプローチすべてを組み合わせます。

プロンプティングは、トーン、タスク、構造を定義します。

RAGは、最新情報でモデルを根拠づけます。

ファインチューニングは、ドメイン知識と一貫した動作を焼き付けます。

例：法律事務所のシステム

法律事務所は、法的コーパスでオープンウェイトモデルをファインチューニングし、RAGを使用して関連する条項を取得し、プロンプトを適用して最終的な執筆スタイルを形作るかもしれません。

「どちらか一方」ではありません。レイヤーデザインです。各方法が他を強化します。

ファインチューニングしない場合

ファインチューニングは印象的に聞こえますが、しばしば過度に使用されます。一時停止して再考すべき場合は次のとおりです。

限られたデータがあります。数百例未満。

タスクは一般的です（要約、Q&A、分類）。

厳しい締め切りまたは予算の制約下にあります。

良いプロンプティングとRAGで目標の90%を達成できます。

次のステップ

LLMをカスタマイズする3つの主要な方法を理解しました。そして、それぞれがいつ意味をなすか。

次のレッスンでは、ファインチューニングすることを決定した後にすぐに来る実用的な質問に取り組みます。

トレーニングを実際にどこで実行すべきか？

ローカルセットアップからクラウドプラットフォームまで、ファインチューニングインフラストラクチャのオプションを探り、プロジェクトに適した環境を選択するのに役立ちます。

それが、決定から実行への移行の場所です。楽しみにしていてくださいね！

09_When_to_Fine_Tune_or_Use_RAG