generated at
sarashina2-8x70b
残念ながら非商用ライセンスではある…

出た当初は「流石にデカ過ぎんだろ…」と思ったが(ライセンスが更に緩いとは言え)DeepSeek-R1を頑張って動かす人が結構居るのでMoEでの400B超えの大規模モデル、という方向性はかなりいい線だった可能性がある
そして今更だがこのブログMoEの構造についてわかりやすく説明してくれてるね…(今更気づいた)morisoba65536