generated at
本文抽出

あるURLが与えられたときに、ヘッダー・フッダー・広告などを除去して、本文のみを得るための技術。
HTMLを解析してヒューリスティクスを使うか、サンプルがある場合はパターン認識を使う。