123
StormCrawler

StormCrawler

StormCrawlerは、Apache Stormを使用して分散Webクローラーを構築するためのオープンソースSDKです。このプロジェクトはApacheライセンスv2の下にあり、ほとんどがJavaで書かれた再利用可能なリソースとコンポーネントのコレクションで構成されています。StormCrawlerの目的は、次のようなWebクローラーの構築を支援することです。スケーラブルで復元力があり、待ち時間が短く、礼儀正しく、効率的なStormCrawlerは、開発者が独自のクローラーを構築するために活用できるライブラリとリソースのコレクションです。幸いなことに、そうすることは非常に簡単です。多くの場合、必要なことは、ストームクローラーをMaven依存関係として宣言し、独自のトポロジクラスを作成し(ヒント:ConfigurableTopologyを拡張できます)、プロジェクトが提供するコンポーネントを再利用し、いくつかのカスタムコンポーネントを作成することですあなた自身の秘密のソースのために。構成を少し調整して、すぐに始めましょう...コアコンポーネントとは別に、プロジェクトで再利用できる外部リソースを提供します。たとえば、ElasticSearchのスパウトとボルト、またはApache Tikaを使用するParserBoltなどです。さまざまなドキュメント形式を解析します。StormCrawlerは、取得して解析するURLがストリームとして使用されるケースに完全に適していますが、特に低遅延が必要な大規模な再帰クロールにも適したソリューションです。このプロジェクトは、いくつかの企業で生産に使用されており、積極的に開発および保守されています。

ウェブサイト:

カテゴリー

商用ライセンスを使用するLinuxのStormCrawlerの代替