Apache Nutch

Apache Nutch

Apache Nutchは、拡張性が高くスケーラブルなオープンソースのWebクローラーソフトウェアプロジェクトです。Nutchは完全にJavaプログラミング言語でコーディングされていますが、データは言語に依存しない形式で記述されています。高度にモジュール化されたアーキテクチャを備えているため、開発者はメディアタイプの解析、データ取得、クエリ、クラスタリング用のプラグインを作成できます。フェッチャー(「ロボット」または「ウェブクローラー」)は、このプロジェクト専用にゼロから作成されました。
apache-nutch

ウェブサイト:

カテゴリー

ライセンスのあるすべてのプラットフォームでのApache Nutchの代替