DARE

に軽薄な口調でまとめさせたらなんか読みやすくなったのでそのまま乗せてみる

この論文は、
言語モデル(LM)が他のモデルから能力を吸収できることを発見したという話です
LMは、特定のタスクに合わせて微調整(
SFT)されることで、新しい能力を得ることができます
しかし、SFTは、元のモデルのパラメータ(重みとかバイアスとかいうやつ)に微妙な変化(
デルタと呼ぶらしい)を与えるだけで、そんなに大したことはしていないことがわかりました
そこで、この論文では、
DAREという手法を提案して、デルタのほとんどを消しても、SFTの能力を保つことができることを示しました
さらに、DAREを使って、複数のSFTモデルを一つに統合することで、複数の能力を持つLMを作ることができることも示しました
例えば、数学の問題を解くモデルとコードを生成するモデルを統合すると、数学の問題を解いたりコードを生成したりできるLMができあがります
DARE
DAREは、デルタをランダムに消して、残ったものを
スケーリングするだけで、元のモデルの埋め込みを近似することができます
DAREは、デルタのみに適用されるため、元のモデルの知識を損なわないという利点があります
DAREでマージして作ったモデル
えぇ…そのまま?

Stable Diffusionに拡張