/work4ai/trl - Scrapbox Reader

generated at 2/17/2025, 5:47:39 PM
trl
https://github.com/lvwerra/trl
https://note.com/npaka/n/naf849d1f42ce
>「trl」(Transformer Reanforcement Learning)は、強化学習でTransformerモデルを強化学習するためのパッケージです。
>(1) ロールアウト：言語モデルは、文頭のクエリに基づいて応答や継続を生成。
> (2) 評価 : クエリとレスポンスは、関数、モデル、人間のフィードバック、またはそれらの組み合わせで評価。
> (3) 最適化 : クエリとレスポンスのペアを使用して、シーケンス内のトークンの対数確率を計算後、PPOで学習。