generated at
2/12/2025, 9:33:10 PM
本文抽出
#自然言語処理
あるURLが与えられたときに、ヘッダー・フッダー・広告などを除去して、本文のみを得るための技術。
HTMLを解析して
ヒューリスティクス
を使うか、サンプルがある場合は
パターン認識
を使う。