FireCrawl
FireCrawlは、あらゆるウェブサイトをクリーンでLLM対応のマークダウンに変換するように設計されたOSSツール。
高度なウェブクローリングおよびデータ変換が可能で、サイトマップが不要なサイトにも使える。
urlを指定するだけで、ウェブデータの収集、クリーニング、フォーマットを自動化してくれる。
Mendable.aiとfirecrawlコミュニティによって構築された。
AI開発者やデータサイエンティストに最適
無料でも、300回までクレジットが付与されている。
FireCrawlを使うときのコツ
中身だけを取得したい場合は、onlyMainContentを設定する。
before
after
FireCrawlは、アクセス可能なすべてのサブページをクロールしてくれる。
ドキュメント全体、複数のページが可能ということ。
参考