/work4ai/DeepSeek V3 - Scrapbox Reader

generated at 2/14/2025, 3:09:38 AM
DeepSeek V3
https://huggingface.co/collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208bdeepseek-ai/deepseek v3
こちらを含め多くのDeepSeek社のモデルは独自のdeepseek Licenseなるものなので注意
基本的には商用利用含め制限はないが、法令遵守(中国国内法＋ユーザーのいる国)をしろと明示的に書かれている他、派生物に対する記述があるので(事実上の制限(法令遵守の範囲)は薄いにしても)いわゆる「License汚染」の伝搬性には注意が必要かもしれない
具体的にはデータセットをV3ベースで作ったりする際にはネックになるかも…？といったところ。
Licenseが伝搬する条件(訳文)
>「モデルの派生物」とは、モデルに対するすべての変更、モデルに基づく作品、またはモデルの重み、パラメータ、アクティベーション、または出力のパターンを他のモデルに転送することによって作成または初期化され、他のモデルがモデルと同様に機能するようにするその他のモデルを意味します。これには、中間データ表現の使用を伴う蒸留方法や、他のモデルをトレーニングするためのモデルによる合成データの生成に基づく方法が含まれますが、これらに限定されません。
解釈は別れるし多分Deepseek社がガチで訴える気になれば広く取れるのだろうけど、基本的にはデータセットを作るだけとか教師データの一部にするくらいなら多分そこまでネックにならないだろう…と思われる(まあ伝搬可能性が気になるなら今ならDeepSeek-R1があるので素直にそちらを使おう。)

ベンチマークの結果

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdfの7ページ目に詳細なアーキテクチャ図があるが、ルーティングせずに呼ばれる汎用の専門家と、ルーティングで呼ばれる特化型の専門家モデルを保つ構造をしており、MoEとしてもかなり独特の(そして複雑な)構造をしている。
https://scrapbox.io/files/679f8f752c410e2cd89a1443.webp

https://arxiv.org/html/2401.06066v1/#S2参考に下記は更に前のDeepSeekMoEというモデルの構造、だが、よりシンプルに常に呼ばれる共有の専門家を分けているのがわかる。
https://scrapbox.io/files/679f839b5cf1c05b89a7d561.webp


> 石川陽太 Yota Ishikawa(@ytiskw)
> また注目すべき点として、このモデルの学習にかかった費用は、たったの5.6M$ほど。これはこれまでのフラグシップ大規模言語モデルと比較すると驚異的な安さ。 
> 
> 

性能的にGPT-4oに迫る(超える)ともいわれている
体感レベルでも控えめな評価でもGPT-4oに関しては同等レベル、といった感じ(個人の感想です)
modelのweightが公開されているが流石にでかすぎてご家庭で動かすのは現実的ではない…

https://chat.deepseek.com/公式がChatGPTのようなWebサービスとして提供しているので性能を見てみたい人はこちらから使うのが無難か…？
どうしてもカントリーリスク的にChatGPT以上に重要な個人情報突っ込むのはためらわれるが、OSSのコードなどは気さくに突っ込めるので趣味レベルで調べ物や要約させるにはなかなか良さそう。
これまたお国柄かNSFW(主にエ□側)的な会話制限は米国のモデルに比べてかなりゆるいらしい
とはいえセンシティブ(エ□)を突っ込んでBANされても知りません。まぁ仮にバンされても被害範囲がこのChatだけだからあまり痛くもないかもしれないが…
モデル自体の制約は緩いようだがサービス側で結構ストップがかかる。(たぶんワードチェックなどで出力自体を確認して制限してそうな動きをしてる)
細かいところだがチャット履歴のタイトルが中国語になるので「これなんの会話だったっけ…」みたいにはなりやすいのは難点。システム言語設定を英語にしても自動でつくChatタイトルは中国語になる(まだ多少なりと漢字を読めるだけ日本人はマシなのだろうが…)
一応手動で好きなタイトルにはできる。
APIも激安なようなのでセクシーなキャラクターChatとか作るには良いかもしれない(同様に激安のGeminiはお国柄かセクシー方面厳しい上にあちらはBANされると非常に痛いGoogleアカウントなので…)
APIでWebUIサービスと同じレベルのチェックが入ってるならやはりなんとかしてローカルで動かさないと盛り上がるところで突然止められるとかはあり得そう…ではある
https://huggingface.co/mmnga/DeepSeek-V3-slice-jp64mmnga/DeepSeek-V3-slice-jp64
実験的にV3の日本語能力モデル部分のみを切り出したモデル