/miyamonz/BERT - Scrapbox Reader

generated at 2/12/2025, 6:33:03 PM
BERT
https://en.wikipedia.org/wiki/BERT_(language_model)
Bidirectional Encoder Representations from Transformers (BERT) is a technique for NLP (Natural Language Processing) pre-training developed by Google. 
BERT was created and published in 2018 by Jacob Devlin and his colleagues from Google.
Google is leveraging BERT to better understand user searches.

https://github.com/google-research/bert
https://arxiv.org/abs/1810.04805
https://arxiv.org/pdf/1810.04805.pdf

qiitaでBERTで検索しても結構見つかる
https://qiita.com/neonsk/items/27424d6122e00fe632b0


READMEの翻訳
https://qiita.com/uedake722/items/927bf491a025f1a88b17


自然言語処理の「BERT」とは何か

/nishio/BERTとTransformer
https://www.dropbox.com/s/g9mwglyugxwtvpo/BERTとTransformer.pdf?dl=0
>Transformerをたくさん積み重ねただけ
/nishio/BERT
>Transformerの実装はオリジナルの tensor2tensor ライブラリを使っていて、しかも何もいじってない
ただし
TransformerのEncoder部分だけ使ってるのでそもそも構造が違うのに注意
これについて明確に述べている文章がが調べた時点ではあまりなく、注意が必要だと思った
研究してる人らにとっては当たり前でわざわざ述べてない、ということな気がする

https://seiichiinoue.github.io/post/nlp/
TransformerのEncoderブロックから成る
ネットワーク側でなく学習データ側にマスクをかけている

ファインチューニングでいろんなタスクに使えるように
複数センテンス入力
１つのセンテンス入力
class label出力
start/end Span
とかがあるっぽい

ファインチューニングに関して
固定するパラメータはないはず