31. LoRAのパラメータ調整術！実験データから学ぶベストプラクティス

こんにちは！今回は、LLM（大規模言語モデル）を自分のタスクに合わせて調整する「ファインチューニング」という手法の中でも、特に「LoRA」という効率的な方法のパラメータ調整について深掘りしていきますね。

「LoRAって何？」「パラメータって何を調整すればいいの？」という疑問を持っているあなたも大丈夫です。この記事では、実際の実験データを見ながら、どのパラメータがモデルの性能を左右するのか、そしてどう設定すれば最高の結果が得られるのかを、わかりやすく解説していきます！

LoRAって何？簡単におさらい
実験の目的：どのパラメータが効果的？
実験のセットアップ
ベースライン：スタート地点の性能
実験1：学習容量の最適化（LoRAランク）
実験2：学習速度の調整（学習率）
実験3：どの部分を調整すべきか（ターゲットモジュール）
最終的な「勝利の構成」
全体の進歩：どこまで来たか
トレードオフを理解する
さらに探索できること
今週構築したもの
次のステップ：さらに先へ
まとめ

LoRAって何？簡単におさらい

まず、LoRAについて簡単におさらいしておきましょう。

LLMは数億〜数千億個ものパラメータ（調整可能な数値）を持つ巨大なモデルです。このすべてのパラメータを再学習させるのは、膨大な時間とコストがかかってしまいますよね。

そこで登場するのが「LoRA（Low-Rank Adaptation）」という技術です。これは、モデル全体を再学習するのではなく、小さな「アダプター」と呼ばれる追加パーツだけを学習させる方法なんです。家のリフォームで例えるなら、家全体を建て直すのではなく、必要な部屋だけを改装するイメージですね！

このLoRAを使えば、少ないコストと時間で、モデルを自分のタスクに適応させることができるんです。

実験の目的：どのパラメータが効果的？

今回の実験では、LoRAのパラメータ設定がモデルの性能にどう影響するかを体系的に調べました。ランダムに試行錯誤するのではなく、重要なポイントに絞って科学的に検証したんですね。

具体的には、以下の3つの質問に答えることを目指しました：

1. アダプターにはどれくらいの「学習容量」が必要？

LoRAの「ランク（r）」というパラメータは、アダプターが学習できる情報量を決めます。少なすぎると学習が不十分になり、多すぎると無駄なコストがかかったり、逆にノイズを覚えてしまったりします。

今回は r = 4, 8, 16, 32 の4パターンをテストしました。

2. モデルはどれくらいの速さで学習すべき？

「学習率」というパラメータは、モデルが各ステップでどれだけ大きく変化するかを決めます。速すぎると学習が不安定になり、遅すぎると時間がかかりすぎてしまいます。

今回は 2e-5 と 2e-4 の2つを比較しました。

3. モデルのどの部分を調整すべき？

Transformerモデル（LLMの基本アーキテクチャ）には、複数のコンポーネントがあります。すべてを調整する必要はなく、重要な部分だけを選んで調整することで効率化できるんです。

今回は以下の3パターンを試しました：
– Query + Value のみ（ベースライン）
– Attention の全パーツ（q, k, v, o）
– Attention + MLP（多層パーセプトロン）

実験のセットアップ

すべての実験で、同じ条件を揃えました：

データセット: SAMSum（会話の要約タスク、約14,000サンプル）
量子化: 4-bit QLoRA（メモリ効率化のための圧縮技術）
検証用データ: 共通の200サンプル

この統一された環境で実験することで、パラメータの違いによる効果だけを正確に測定できるんですね。

実験の進捗はすべて「Weights & Biases」という実験管理ツールで記録しました。これにより、学習の進み具合や最終的な性能を視覚的に確認できました。

ベースライン：スタート地点の性能

まず、以前のレッスンで使った基本的な設定から始めました：

LoRAランク: r = 8
LoRA alpha: 16
学習率: 2e-4
ターゲットモジュール: q_proj, v_proj（QueryとValue）
トレーニングステップ: 300（約1エポック）
バッチサイズ: 4

この設定で、モデルは明らかに元のバージョンより良い要約を生成できるようになりました。でも、これが本当に最適なのか、もっと良い設定があるのかはまだわからない状態でしたね。

実験1：学習容量の最適化（LoRAランク）

最初に、LoRAランク（r）の影響を調べました。これはアダプターの「学習帯域幅」のようなものです。

結果：
– r = 4 から r = 16 まで性能が上昇
– r = 16 を超えると、性能向上は頭打ちに
– r = 8 から r = 16 への変更で、ROUGE-L（要約品質の評価指標）がわずかに向上
– r = 32 では追加のメリットがほとんどなし

推奨設定：
– バランス重視なら r = 16：性能と効率の最良のバランス
– 速度重視なら r = 8：わずか0.5%未満の性能低下で、より高速な実験が可能

つまり、r = 16 が「ちょうどいい」学習容量というわけですね！

実験2：学習速度の調整（学習率）

次に、学習率の影響を調べました。これは最も慎重に調整すべきパラメータの一つなんです。

結果：
– 2e-5（低い学習率）: モデルがほとんど動かない。300ステップでは学習が不十分で、初期の重みからほとんど改善せず
– 2e-4（高い学習率）: スムーズで効果的な収束。モデルが安定して速く学習

この違いは非常に明確でした！学習率が低すぎると、モデルが慎重になりすぎて、限られたトレーニング時間では十分に学習できないんですね。

推奨設定：
– 単一エポックのLoRA実行には 2e-4 を使用

実験3：どの部分を調整すべきか（ターゲットモジュール）

最後に、モデルのどのコンポーネントにLoRAアダプターを配置すべきかを調べました。

結果：
– Query + Value のみ（ベースライン）: 基本的な性能
– Full Attention（q, k, v, o）: 最大の改善！ 特にROUGE-Lで顕著な向上。これは要約の構造的な品質を測る指標です
– Attention + MLP: ROUGE-1でわずかな向上があるものの、全体的な品質向上は限定的。トレーニングのコストが増えるだけ

推奨設定：
– Full Attention（q, k, v, o）を使用：効率的でありながら、要約の一貫性を大きく向上させる

KeyとOutputのプロジェクション（k, o）を追加することが、性能向上の鍵だったんですね！

最終的な「勝利の構成」

すべての実験結果を統合すると、Llama 3.2 1B モデルでSAMSum要約タスクに取り組む際の最適設定は：

ハイパーパラメータ：
– LoRAランク: 16
– LoRA alpha: 32
– ターゲットモジュール: q, k, v, o（Full Attention）
– 学習率: 2e-4
– バッチサイズ: 4（勾配累積 = 4）

この設定により、ベースラインから +0.67% ROUGE-L の向上を達成しました。数字上は小さく見えるかもしれませんが、実際の要約品質では大きな違いがあります。要約がより簡潔で、一貫性があり、構造化されたものになったんです！

全体の進歩：どこまで来たか

この一連の実験を通じて、どれほどの進歩があったかを振り返ってみましょう。

スタート地点：
– ベースのLlama 3.2 1Bモデルは、会話をほとんど要約できない状態
– とりとめなく話したり、要点を完全に見逃したりしていた

到達点：
– 最適化された1Bモデルが、おそらく10〜20倍大きいGPT-4o-mini（ベース版）を上回る性能を発揮
– 開始ベースラインから +12.3 ROUGE-Lポイントの改善（27.24 → 39.55）
– これは段階的な改善ではなく、能力の大きな飛躍です！

ファインチューニングされたGPT-4o-miniにはまだ及びませんが、それは完全に異なるクラスのモデルです。さらに、サードパーティにデータを送信する必要もあります。

対照的に、今回のファインチューニングは：
– 完全にオープン：誰でも再現可能
– プライベート：データが外部に出ない
– 再現可能：同じ結果を繰り返し得られる

トレードオフを理解する

最終的に、これはトレードオフの問題に帰着します：

モデルサイズ: 小さいモデル vs 大きいモデル
コスト: 自前でホスティング vs クラウドAPIの利用料
レイテンシ: 推論速度の要件
データプライバシー: データを外部に送るか、内部に保つか

完全に制御できる小さなモデルが正しい選択である場合もあれば、マネージドフロンティアモデルの追加性能がコストを正当化する場合もあります。

重要なのは、推測ではなく証拠に基づいて決定を下せるようになったことです！

さらに探索できること

今回の実験は、まだ表面をかすめただけです。同じプロセスで、さらに以下のようなテストができます：

トレーニングダイナミクス

より多くのエポック（学習の繰り返し回数）
ウォームアップスケジュール（学習率の段階的な調整）
異なるバッチサイズ

LoRA構成

他のalphaレシオ（学習の強度）
ドロップアウト設定（過学習防止）
レイヤーごとの混合ランク

データバリエーション

より大きなデータセット
ドメイン固有のデータセット
他の要約タスクへの転用

あなたには今、必要なものがすべて揃っています：
– 再現可能なパイプライン
– クラウドGPUへのアクセス方法
– 実験追跡の仕組み
– 明確なベースライン

ここから実行する新しいテストはすべて、推測ではなく証拠に基づいて構築されるんですね！

今週構築したもの

少し振り返りましょう。

今週は、単にモデルをファインチューニングしただけではありません。再現可能な本番グレードのシステムを構築したんです：

データの準備方法
クラウドGPUのセットアップ
実験のログ記録
体系的な最適化

直感から証拠へ、「もしも？」から「これが機能する」へと移行しました。これが応用LLMエンジニアリングの本質なんですね。

信頼でき、再利用でき、拡張できるものを構築しました。どのモデル、どのデータセット、どのタスクにも適用できる基盤です！

次のステップ：さらに先へ

次の段階では、さらに深く掘り下げていきます：

高度な評価戦略

ROUGE（単語重複メトリクス）を超えた評価
事実の正確性の評価
一貫性の測定
指示への従順さの確認

デプロイメントへの準備

量子化（モデルの圧縮）
推論最適化（実行速度の向上）
実世界での使用のためのパッケージング

スケーラブルなトレーニング

Axolotlによる再現可能なトレーニング
マルチGPUセットアップ
モデルマージング（複数のモデルのブレンド）

これらは、環境全体で効率的にファインチューニングし、再トレーニングなしでモデルを組み合わせることができるツールです。

まとめ

今回の記事では、LoRAのハイパーパラメータチューニングについて、実際の実験データを基に詳しく見てきました。

重要なポイント：
1. LoRAランク r = 16 が性能と効率の最良のバランス
2. 学習率 2e-4 が単一エポックのトレーニングに最適
3. Full Attention（q, k, v, o）をターゲットにすることで最大の改善
4. 小さなモデルでも、適切な調整で大きなモデルに匹敵する性能を発揮

ファインチューニングする方法を学びました。次は、評価、スケール、出荷する方法を学んでいきましょう！

実験と学習の旅は続きます。次回もお楽しみに！