News

Facebook Icon Twitter Icon Linkedin Icon

Influencer Marketing

Facebook Icon Twitter Icon Linkedin Icon

[TechBlog]AnyTagの類似インフルエンサー検索機能(lookalike)について

こんにちは。DataScientistの越水です。 先日、弊社のインフルエンサーマーケティングプラットフォームであるAnyTagの新機能として、類似インフルエンサーの表示機能(lookalike)の提供を開始しました。 本記事では、このlookalike機能のアルゴリズムや、モデルトレーニングやデプロイワークフローをご紹介します。

■ lookalike機能とは?

lookalike on AnyTag

AnyTag上の類似インフルエンサー検索画面

lookalike機能とは、AnyTagが保有するインフルエンサーデータベースを活用し、指名したインフルエンサーに類似するインフルエンサーを検索・表示する機能です。 この機能により、インフルエンサーマーケティングの担当者は、過去のキャンペーンで高い成果をあげたインフルエンサーと類似したインフルエンサーを簡単に検索し、新たなキャンペーンにアサインすることができます。 現在は、Instagramにのみ対応しておりますが、今後YouTubeやTwitterなど他のプラットフォームに対しても同様の機能を提供していく予定です。

■ lookalike機能を実現する推薦アルゴリズム

AnyTagのインフルエンサーデータベースは20万人以上のインフルエンサー情報とその投稿データを保有しています。 そのデータを活用して、各インフルエンサーの直近数件の投稿から特徴的な単語やハッシュタグを抽出し、そのインフルエンサーの特徴を表すベクトルを作り、インフルエンサー間の類似度を計算しています。 ここでは、より詳しくアルゴリズムを解説します。

まず、各インフルエンサーの投稿から、名詞・動詞・形容詞・ハッシュタグを抽出し集計します。 その後、正の相互情報量(Positive PMI, 以下PPMI)を用いて、各行がインフルエンサーベクトルからなる行列を作成します。

インフルエンサーiの投稿に単語wが現れた頻度を n(i,w)iの単語数をn(i)、投稿全体のwの出現頻度をn(w) 、全体の単語数をNとすると、 PPMIは以下のようになります。

PPMI

PPMI行列を使用することにより、単なる共起行列に比べ、「これ」や「する」などの一般的かつ高頻度な単語の影響を抑え、より特徴的な単語を重要視することができます。

このPPMI行列をそのままモデルとして用いると、単語の種類が増えるほど多くの要素が0となってしまい、頑健性に乏しくなってしまいます。 そこで、このPPMI行列に対し、特異値分解(singular value decomposition, SVD)を行い、次元削減したインフルエンサーベクトルからなる行列を得ます。

SVD

この行列を用いて、対象のインフルエンサーベクトルと他のインフルエンサーベクトルのコサイン類似度を計算することで、類似順にインフルエンサーを表示しています。

■ lookalikeモデルおよびAPIの作成

AnyTagデータベースには新しいインフルエンサーや投稿が蓄積されていくため、それに合わせてlookalikeモデルも毎日更新しています。 このモデルのトレーニングジョブやAPIの作成は、すべてGCP上で構成されたサービス群で行っています。

パイプラインの全体構成図は以下の通りです。

lookalike GCP pipeline

モデル作成およびAPIデプロイのパイプライン

① CloudSchedulerを用いて、CloudFunctionを叩く
② CloudFunctionを通して、モデル作成ジョブをAI Platform Trainingに送信する
③ AI Platform Trainingは、Influencer用DBからインフルエンサーデータを取り出し、lookalikeモデルを作成する
④ 作成したモデルをCloudStorageにアップロードする
⑤ CloudBuildが、モデルをダウンロードしてlookalike APIをビルドし、CloudRunへデプロイする。

構築したパイプラインが、ジョブの実行からモデルのトレーニング、APIのデプロイまでをすべて自動で行ってくれるため、人力を介することなく常に最新の情報に基づいた推薦が実現できています。

■ インフルエンサー可視化

上記のようにして作成した、ある日のインフルエンサーベクトルの具体例を以下に示します。

lookalike Mapping

インフルエンサーベクトルの可視化

これは、インフルエンサーベクトルの一部を抜き出して、t-SNEという手法で2次元へ可視化したものです。 インフルエンサー同士が近ければ近いほど、Instagram投稿の特徴が似ています。

赤枠は、大まかな傾向が読み取れるグループです。 例えば、右下の「Item&Product」には、アイテム紹介系の投稿が多いアカウントが配置されています。 中央上の「Sports&Activity」には、筋トレやゴルフなどに関する投稿をしているアカウントが多いです。

それ以外にも、同じYouTuberグループに所属するアカウント同士は近くに配置されているなど、様々な構造が見て取れます。 t-SNEによる可視化は実行のたびに結果が変わりますし、モデルは毎日更新されるので翌日の結果はまた少し変化しますが、 おおむね納得感の得られる結果となっているようです。

■ まとめと今後の展開

以上が、lookalike機能の全体構成です。

現状のモデルでも、弊社のインフルエンサーマーケティングチームにとって納得感のある推薦ができているようです。 しかし、今後さらに推薦の精度を向上していくためには、

  1. 1. テキスト情報だけでなく、投稿画像や動画、インフルエンサーのメタデータなども含めたモデルを作成する
  2. 2. 「ハッシュタグが似ているインフルエンサー」「画像が似ているインフルエンサー」など、異なる観点の類似検索に対応する

などの改善が必要です。 それに伴い、モデルサイズの肥大化やトレーニング時間の増加なども考えられるため、現在のパイプラインやインフラも随時見直しを行っていきます。

SNSを活用したインフルエンサーマーケティング領域は流行り廃りが激しく、適切な推薦が行えるようにロジックも日々改善しなければなりません。 まだまだ改善の余地はあり、アップデートをした際はまた記事を書きたいと思いますので、今後の展開にご期待いただけると幸いです。

Latest News