DiffBot

* Webページからデータを自動的に取得する：DiffbotのコンピュータービジョンAPIは、Webをデータベースに変換します。*自動API：記事、製品、その他の使い慣れたページタイプから構造化コンテンツを自動的に抽出します。

有料アプリ
Web

Diffbotを選ぶ理由より良いウェブデータを取得することに専念しています。数百人の顧客が毎月何百万人もの電話をかける理由のいくつかは次のとおりです。Webページからデータを抽出するより良い方法はありません。Diffbotが他のコンテンツ抽出方法にどのように積み重ねられているかをご覧ください：機能比較テキスト抽出品質シュートアウト＃ページを自動的に識別する：Analyze APIを使用して、サイトのクロール中にすべての製品、記事、ディスカッション、または画像を自動的に検索して抽出します。APIの分析＃詳細な製品データ：製品APIは、すべての価格設定データ、製品ID、ブランド、完全な仕様表など、完全な製品情報を自動的に返します。Product API #Clean text and html：記事、ディスカッションスレッド、製品の説明、画像のキャプションは、純粋なテキストとサニタイズされたHTMLで返されます。今日からテストを開始#Structured Search：Search APIを使用して、クロールから構造化コンテンツをオンザフライで検索し、一致する結果のみを返します。さらに...¤すべてのAPIはJavascriptを実行するため、コンテンツは通常のブラウザーのように解析されます。¤視覚処理により、英語以外のほとんどのページで機能します。¤日付の正規化：日付スタンプは正規化され、RFC 1123（HTTP / 1.1）標準形式で表示されます。¤複数ページの記事は、単一のAPIレスポンスで自動的に結合されます。¤エンティティ抽出：自動タグ付けは、記事テキスト内の主要なトピックとエンティティを識別します。¤API Toolkitで問題をリアルタイムで修正します。¤Bulk APIを使用すると、数百から数十万のページを抽出できます。¤完全なJSONまたはCSV形式でCrawlbotおよびBulkジョブデータにアクセスします。¤オプションで、さまざまなIPアドレスの配列を使用してクロールします。

ウェブサイト:

https://www.diffbot.com/

特徴

商用ライセンスを使用するLinuxのDiffBotの代替

Agenty

Machine Intelligenceのエージェント：Webデータスクレイピング、テキスト抽出、ocr、分類、変更検出、センチメント分析などのためのクラウドベースのエージェント。

DiffBot

ウェブサイト:

特徴

カテゴリー

商用ライセンスを使用するLinuxのDiffBotの代替

Agenty