本サイトは広告により収益を得ています

第2章:LLM(大規模言語モデル)の高度なチューニングと最適化

第2章:LLM(大規模言語モデル)の高度なチューニングと最適化

2025年12月29日
フリー検定
広告

目次

現在: 2 / 5

AIエンジニアに関する検定はこちら

面倒な会員登録も不要!すぐに受験!

無料で受験する

1. Parameter-Efficient Fine-Tuning (PEFT)

数千億のパラメータを持つモデル全体を更新(フルチューニング)するのは、計算資源の観点から現実的ではありません。そこで、ごく一部のパラメータのみを訓練する「PEFT」が活用されます。

  • LoRA(Low-Rank Adaptation): モデルの重み行列を直接更新するのではなく、低ランクの小さな行列を追加して、その差分だけを学習させる手法です。メモリ消費を劇的に抑えつつ、フルチューニングに近い性能を実現します。

  • Prompt Tuning / P-Tuning: モデル本体の重みは一切変えず、入力の先頭に追加する特殊な「連続的なベクトル(ソフトプロンプト)」のみを最適化する手法です。

2. 人間の意図へのアライメント(RLHF / DPO)

単に「次の言葉を予測する」だけでは、有害な回答や的外れな回答をする可能性があります。これを「人間の好みに合わせる」プロセスが必要です。

  • RLHF(Reinforcement Learning from Human Feedback):

    1. 人間が回答の良し悪しをランク付けし、その好みを模倣する「報酬モデル」を作る。

    2. その報酬を最大化するように、**PPO(近接方策最適化)**という強化学習アルゴリズムを用いてLLMを訓練する。

  • DPO(Direct Preference Optimization): RLHFのように複雑な強化学習プロセスを経ず、人間の好みのペアデータ(良い回答と悪い回答)から直接モデルを最適化する新しい手法です。計算の安定性が高く、現在多くのモデルで採用されています。

3. コンテキストウィンドウの拡張と高速化

LLMが一度に扱える情報量(コンテキスト)を増やし、かつ高速に処理するための数学的工夫です。

  • Flash Attention: GPUのメモリ階層(SRAMとHBM)間のデータ転送を最適化し、Attention計算の速度を数倍に高め、メモリ消費を削減する技術です。これにより、数万〜数十万トークンの長い入力を扱えるようになりました。

  • RoPE(Rotary Positional Embedding): 単語の位置情報を、回転行列を用いて表現する手法です。これにより、学習時よりも長い文章を入力した際にも、位置関係を破綻させずに推論できる特性(外挿性)が向上しました。

AIエンジニアに関する検定はこちら

面倒な会員登録も不要!すぐに受験!

無料で受験する
広告

検定一覧はこちらから

様々なジャンルの検定から選んで、あなたの知識を試してみましょう。

検定一覧を見る

関連記事

広告