Week 3概要:最初のLLMをEnd-to-EndでFine-Tuning

スポンサーリンク

Week 3概要:最初のLLMをEnd-to-EndでFine-Tuning

  • LLM Fine-Tuningロードマップ
  • LLM Fine-Tuningステップ
  • 実践的LLMトレーニング
  • トレーニングワークフロー

🏠
ホーム – 全レッスン

⬅️
前へ – Week 2 Knowledge Check

➡️
次へ – SAMSum Fine-Tuningプロジェクト

基礎を学びました。今度は実際にやってみる時間です。

今週は、ベースモデルを取り、実際のデータセットでfine-tuningし、特定のタスクで測定可能に改善されるのを見ます。

これはおもちゃの例ではありません。プロダクションMLチームが依存しているのと同じツール、ワークフロー、インフラストラクチャを使用します—Colabでシンプルに始めて、再現可能な設定駆動パイプラインでクラウドGPUにスケールします。

週末までに、最初のモデルをfine-tuningし、実験を適切に追跡し、ノートブックプロトタイピングからスケーラブルなトレーニング実行への移行方法を正確に理解できるようになります。

今週達成すること

Week 1と2では、基礎を構築しました—アーキテクチャ、ベンチマーク、トークン化、LoRA、量子化、そしてLLMが実際にどのように学習するかを学びました。

今度はすべてをまとめます。

今週は1つのシンプルなストーリーを語ります:ベースモデルを取り、改善し、それを証明します。

Samsum要約データセットでベースモデルを評価することから始め、異なる手法を使用してfine-tuningし、ROUGEスコアを比較し、プロフェッショナルグレードのクラウドGPUにワークフローをスケールします。

また、数学推論データセットGSM8Kでfine-tuningを試みた際に何が起こったかを簡単に見て、そのタスクが単純な教師ありfine-tuningを超えるものを必要とした理由を理解します。

最後には、完全で再現可能なfine-tuningパイプライン—任意のモデルやタスクに再利用できるもの—を持つことになります。

タスク:モデルに会話要約を教える

今週は、SAMSumを使用します—短いメッセンジャーのような対話と人間が書いた要約のペアのデータセットです。

Fine-tuningに最適な理由は次のとおりです:

  • 現実的:チャットやカスタマーサポートシナリオで人々が実際に会話する方法を反映しています。
  • コンパクト:高速なfine-tuning実行に十分小さいが、改善を示すのに十分大きい。
  • ROUGEで評価:モデルと参照要約間の重複を測定する標準的な要約メトリック。

Llama 3.2 1Bのようなベースモデルから始め、ベースライン要約品質を評価し、より簡潔で関連性の高い要約を生成するようにfine-tuningします。

最後には、読み方だけでなく、測定可能なROUGEスコアでも定量的に優れたモデルを持つことになります。

🎥 Week 3マインドセット:困難な部分への準備

このビデオは、Week 3以降—理論から実践的LLM fine-tuningへと移行する時点—に向けて準備します。この作業を困難にするもの、ベースラインを確立することが重要な理由、そしてチュートリアルフォロワーから実際のエンジニアを区別するトラブルシューティングスキルを開発する方法を学びます。

Week 3ロードマップ

Lesson 1 – データセット選択とベースライン評価
データセットをロードし、ベースライン評価を実行し、ターゲットメトリックを記録します。

Lesson 2 – フロンティアLLMのFine-Tuning(OpenAI)
OpenAI APIを通じてマネージドfine-tuningを試して、高速でホストされたワークフローを見ます。

Lesson 3 – 完全なQLoRAトレーニングパイプライン(SAMSum)
QLoRAを使用してSamsumでオープンウェイトモデルをend-to-endでfine-tuningし、トレーニング損失とROUGE改善を監視します。

Lesson 4 – RunPod紹介
RunPodクラウドGPUをセットアップして、リソース制限を減らしてより速くトレーニングします。

Lesson 5 – 実験追跡と再現性(W&B)
Weights & Biasesを統合して、再現性のためにメトリックとアーティファクトをログに記録します。

Lesson 6 – RunPod End-to-End Fine-Tuningと実験
設定と実験追跡を使用して、完全なfine-tuningパイプラインをリモートで実行します。

Lesson 7 – DeepSpeed ZEROによるマルチGPUトレーニング(オプション)
単一GPUを超えてスケールし、分散fine-tuningがどのように機能するかを見ます。

今週の3つの重要なシフト

理論から実践へ。
Fine-tuningについて学ぶことから実際に行うことへと移行します—実際のパフォーマンス改善を見ます。

ノートブックからインフラストラクチャへ。
ColabからクラウドGPUと設定駆動パイプラインへと移行し、実際のプロダクションワークフローを反映します。

「動く」から「再現可能」へ。
実験を追跡し、結果をバージョン管理し、プロセスを文書化します—プロフェッショナルMLエンジニアの習慣。

ペーシングについての簡単な注意

これは最も実践的な週です。バグ、依存関係の競合、GPUメモリエラーを予期してください—それらは仕事の一部です。

次のような問題に直面するかもしれません:

  • CUDAメモリ不足の問題
  • ライブラリバージョンの不一致
  • YAML設定ミス
  • RunPodセットアップの癖や認証の問題

それは正常です。トラブルシューティングはLLMエンジニアリングの核心です。各修正があなたの理解を深めます。

何かが壊れたら、ゆっくりとエラーを注意深く読み、それをガイドとして使用してください。ドキュメント、GitHubの問題を確認し、パラメータを試してみてください。パターンを認識し始めると—それが仕事が自然に感じられるようになる時です。

次のステップ

Lesson 1では、ベースラインを確立します:Llama 3.2 1Bをロードし、SAMSumで評価し、ベースラインROUGEパフォーマンスを記録します。

それがあなたの出発点です。週の残りは、これらの要約をより鋭く、短く、正確にすることについてです。

始めましょう。

  • Week 3:最初の完全なFine-Tuningジャーニー

コメント

タイトルとURLをコピーしました