0
Luigi
Luigiの目的は、長時間実行されるバッチプロセスに通常関連するすべての配管に対処することです。多くのタスクを連鎖させ、それらを自動化すると、障害が発生します。これらのタスクは何でも構いませんが、通常はHadoopジョブ、データベースとのデータのダンプ、機械学習アルゴリズムの実行など、長時間実行されます。Hive、Pig、Cascadingなど、データ処理の低レベルの側面に焦点を当てた他のソフトウェアパッケージがあります。Luigiはこれらを置き換えるフレームワークではありません。代わりに、各タスクがHiveクエリ、JavaのHadoopジョブ、ScalaまたはPythonのSparkジョブ、Pythonスニペット、データベースからのテーブルのダンプなど、多くのタスクをつなぎ合わせるのに役立ちます。数千のタスクで構成され、完了するまでに数日または数週間かかる長期実行パイプラインを簡単に構築できます。Luigiは多くのワークフロー管理を行っているため、タスク自体とその依存関係に集中できます。...ほぼすべてのタスクを作成できますが、Luigiには、いくつかの一般的なタスクテンプレートのツールボックスも付属しています使用する。これには、HadoopでPython mapreduceジョブ、Hive、Pigのジョブを実行するためのサポートが含まれています。また、HDFS用のファイルシステム抽象化、およびすべてのファイルシステム操作がアトミックであることを保証するローカルファイルも付属しています。これは、データパイプラインが部分的なデータを含む状態でクラッシュしないことを意味するため、重要です。
luigi