MeCab
辞書(システム辞書)
> 更新は時間がかかりますので、その場合はユーザー辞書を作る
neologd
ipadic
ユーザー辞書の作成
csvファイル
/usr/local/libexec/mecab/mecab-dict-index -d'システム辞書path' -u'ユーザー辞書path' ユーザー辞書path
辞書format表層形 | 左文脈ID | 右文脈ID | コスト | 品詞 | 品詞細分類1 | 品詞細分類2 | 品詞細分類3 | 活用型 | 活用形 | 原形 | 読み | 発音 |
工藤 | 1223 | 1223 | 6058 | 名詞 | 固有名詞 | 人名 | 名 | * | * | くどう | クドウ | クドウ |
13項目ある。
> 左文脈IDは, その単語を左から見たときの内部状態IDです. 通常システム 辞書と同一場所にある left-id.def から該当する ID を選択します. 空にしておくと mecab-dict-index が自動的に ID を付与します
右文脈も同じ。
> コストは,その単語がどれだけ出現しやすいか.... 小さいほど, 出現しやすい..... 似たような単語と 同じスコアを割り振り,
判断いるので、自動化したいけど、10とか, 100 でいいかな、、
品詞と品詞細分類1は、入れないとせっかっくユーザー辞書を運用するなら、、、あとは、読みかな。原型もいる?