Tech Blog
AnyMind Group
Dec 23, 2022
[Tech Blog] BigQuery View Table を用いた機械学習向けデータ基盤の作成
こんにちは。AnyMind で機械学習エンジニアをしている河本直起です。
AnyMind では 0 から MLOps 環境を作成しており、前回の記事では Vertex AI を用いた機械学習バッチ推論基盤の構成について紹介させていただきました。
今回は、以前のデータ基盤についての記事の続編として、現在使用している機械学習向けデータ基盤についてご紹介できればと思います。
背景
Cloud Composer (Airflow) を用いた機械学習向けデータ基盤の作成
上の記事で書いたように、従来は以下のようにモデル学習パイプラインがプロダクト側の RDB を直接参照するという形になっていました。
RDB はプロダクト要件に合わせて採用されたものであり、機械学習用のデータ処理に向かないことが課題となっていましたが、
RDB から BigQuery へのデータのコピー処理
コピーされたデータを用いたモデル学習用データセットの作成処理
を Cloud Composer (Airflow) をデータパイプラインとして以下のように導入することで、機械学習向けのデータセットとプロダクト向けのデータセットを分離すること、そして機械学習向けのデータ処理の実行を可能にすることができました。