/work4ai/DeepSeek-R1 - Scrapbox Reader

generated at 2/14/2025, 3:06:31 AM
DeepSeek-R1
https://huggingface.co/deepseek-ai/DeepSeek-R1deepseek-ai/DeepSeek-R1
https://huggingface.co/deepseek-ai/DeepSeek-R1-Zerodeepseek-ai/DeepSeek-R1-Zero
671B, MoE (Active 37B)
MITライセンス
繰り返すがMITライセンス、つまり出力を何に使っても良いしライセンスの縛りも受けない(つまり蒸留しても何の問題もない)
DeepSeek-Zeroは強化学習のみで推論能力を手に入れている。(その為か色々な検閲的な事も施されていない)
ただし、下記のような問題があった
https://note.com/npaka/n/n6a5d43bf451c
>・可読性の低さ
> 出力されたテキストが人間にとって理解しにくい場合がある。
> ・言語の混在
> 複数の言語が混在した出力が生成される場合がある。
> ・終わりのない繰り返し
> 終わりのない繰り返しが出力される場合がある。
https://zenn.dev/asap/articles/34237ad87f8511
>そこで、「DeepSeek-V3-Base」に対して、少量のCoT（Chain of Thought）データセットを用いて、SFT（教師付き微調整）を行います。このデータは、著者らが収集・構築したものになります。
> その後、SFT後のモデルに対して、大規模強化学習を行います。
> このとき、「DeepSeek-R1-Zero」を作成した際の報酬に加え、「言語一貫性報酬」を導入して、上述した言語の不一致の問題を緩和させます。
> その後、得られたモデル（チェックポイント）を利用して、さらなるSFT（教師付き微調整）学習データを収集し、追加SFTを行います。
> さらに、その後、改めて２段階目の大規模強化学習を実施することで、最終的に「DeepSeek-R1」が得られます。


蒸留モデル群
> DeepSeek(@deepseek_ai)
> 🔥 Bonus: Open-Source Distilled Models!
> 
> 🔬 Distilled from DeepSeek-R1, 6 small models fully open-sourced
> 📏 32B & 70B models on par with OpenAI-o1-mini
> 🤝 Empowering the open-source community
> 
> 🌍 Pushing the boundaries of **open AI**!
> 
> 🐋 2/n 
> 

LLama 3.1ベース
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8Bdeepseek-ai/DeepSeek-R1-Distill-Llama-8B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70Bdeepseek-ai/DeepSeek-R1-Distill-Llama-70B
Qwen2.5ベース
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-7B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-14Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-14B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-32B

Reasoning Model

なんか、蒸留された32Bモデルでo1-mini並み(しかもApache2.0ライセンス)とかとんでもない事ゆってるのだが…？
14Bの4BIT量子化でマルバツゲーム位なら一発でエラーなくコード出せたらしい…
deepseek R1、少公式サイトのチャット機能で軽く使った感想。長考モデルとしては指示が甘いと割とズレた回答するものの、ちゃんと指示プロンプトを書けばかなり無茶振りな回答も可能。
2020年代ギャル風にsafetensorsフォーマットの説明して、だとsafetensorsとギャル風をバラバラに説明するけど、2020年代ギャル風口調でsafetensorsフォーマットの説明をして、だとギャル風口調でsafetensorsフォーマットの説明を返してくれるなどしてますね…(ただし政治関連はお国の都合中華志向強火なのでそっちの話題は基本NGと考えるべき)
NG話題の地雷原踏まなければ結構自由にやり取りできる
エ□方面はサービス側で規制してるようでモデル自体の自主規制はかなり制限ゆるそうである
ただし、WebUI場で提供してるサービスでは監視してるようでモデルがノリノリで応えようとしたら突然止められるなどする
> @kagami_kami_m
> 取り急ぎのご報告となりますが、DeepSeek-R1-Distill-Qwen-32B-GGUF iq3_xxsのローカル動作で、叡智な話が削除されずに最後まで語ってくれる事象を確認しました。
> 先日クリスタで作った悪堕ちCGの台詞テキストだけを入れて、登場人物の設定をまとめるよう指示したところ、人間時代と女怪人悪堕ち後の比較表まで生成いただきました。予感がします。こいつ官能小説いける。

>@_kaiinui: DeepSeekはDGXを使わず、独自設計したハードを使ってるらしい
>CPUはEPYC、DGXではないのでGPUはSXMではなくPCIe！(通常流通してるA100 80GB)
>NVLinkはGPUペア間のみで、ペア外とはPCIe経由での通信。
>ノード間はConnectX-6で200Gbps
>全部、流通で手に入る汎用品で構成
ほんとにソフトもハードも常識をぶち壊して行くなDeepseekは…
しかも量化投資(AIによる自動取引)による自己資金で運営してるのでVCとかからの資金調達だの利益還元だのの金回りの足かせが全く無い。なので客がいない、投資家がいない、資金がある、技術がある、こいつ無敵の人ならぬ無敵の企業か…
調査不足によるハルシネーション疑惑が出てきたので取り消し線追加、自己資金取引がメインならこうだがクオンツ企業は銀行などを顧客に持つことも多いらしい。(ただ、DeepSeekショックのせいで情報ノイズが多くなりすぎて親会社の企業形態がまともに調べられなくなってしまってる…)
資本主義の特異点すぎる

https://github.com/huggingface/open-r1huggingface/Open-R1
> このrepoの目標は、R1パイプラインの不足している部分を構築して、誰もがその上に再現して構築できるようにすることです。
分散コンピューティングで参加できるようになったら面白そう
最早なんでもありなのでは