generated at
SentencePieceのユニグラム言語モデル
SentencePieceのユニグラム言語モデルについて
サブワード正則化: 複数のサブワード分割候補を用いたニューラル機械翻訳 工藤 拓 2008
例えば、文字列ABCがあって、語彙集合に各文字とABとが入っている場合にp(AB) > p(A)p(B)が成り立つなら"AB/C"の分割の方が"A/B/C"の分割よりもP(x)が大きくなる
で、この手法だとVを事前に与える必要があるため、十分に大きな語彙からスタートして刈り込んで行く

Subword regularization: Improving neural network translation models with multiple subword candidates. In Proc. of ACL.

SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing
Taku Kudo, John Richardson (Submitted on 19 Aug 2018)