generated at
2/13/2025, 2:33:33 AM
sarashina2-8x70b
https://huggingface.co/sbintuitions/sarashina2-8x70b
sbintuitions/sarashina2-8x70b
残念ながら非商用ライセンスではある…
https://www.sbintuitions.co.jp/news/press/20241108_01/
プレスリリース
https://www.sbintuitions.co.jp/blog/entry/2024/11/25/175000
ブログ
出た当初は「流石にデカ過ぎんだろ…」と思ったが(ライセンスが更に緩いとは言え)
DeepSeek-R1
を頑張って動かす人が結構居るので
MoE
での400B超えの大規模モデル、という方向性はかなりいい線だった可能性がある
そして今更だがこのブログMoEの構造についてわかりやすく説明してくれてるね…(今更気づいた)