3Dを作るための考え方レベルでいくつかの手法が存在している。

(拡散モデル)ベースがやや先行してる？

考え方としては3Dスキャンの補正データ付き(360°の2D画像があれば3Dになる)に近いか？

2025年2月4日現在、欠点も3Dスキャンに近い(非描画域が無茶苦茶になったりポリゴン数が無駄に増えたり等)

それとは別に「3DCGモデルは実体はテキスト」なものも多く、「それならHTMLみたいにLLMで生成すればよくね？」というやつも

こちらはトークン数やタグなどのフォーマットの整合性が課題か？

拡散モデルタイプとは逆にポリゴン数が増やせない。

で見られたように自分でレンダリングして整合性チェックを行える環境を整えれるなら拡散モデルタイプよりも「物理構造に配慮された」3Dモデルを作りやすいかも(特に理論上はボーンを仕込む余地がありそうなのは利点か？)