Tech Blog
AnyMind Group
Jun 21, 2022
[Tech Blog] Cloud Composer (Airflow) を用いた機械学習向けデータ基盤の作成
こんにちは。AnyMind で機械学習エンジニアをしている河本直起です。Anymind では 0 からデータパイプライン含めた MLOps 環境を作成しています。
今回は Cloud Composer (Airflow) を用いて実装している現状のデータパイプラインについて、現状と将来的な展望含めてご紹介できればと思います。
課題
機械学習モデルの生成に必要なデータはプロダクト側の RDB に保存されているんですが、私がチームに参加した段階ではモデル生成バッチがその RDB から直接データを取り出す形になっていました。そのため、プロダクト要件に適した RDB だと基本的に重い機械学習系のデータ処理に対応しきれないこと、機械学習系の機能が急激に増え負荷が大きくなってきたこと、RDB だと柔軟なデータを用いた検証がしづらいことなどが課題になっていました。
要件
上記課題から、まずはプロダクト側のデータセットと機械学習向けのデータセットを分離し、機械学習向けのデータセットはそれに適したデータストアに保存することが第一の要件となります。一方で、この開発に割くことのできるリソースが少なく、加えて急ぎで開発が必要だったため一旦要件を最低限にして以下のように定めました。
機械学習向けデータセットが B