アカデミー

異なる数字、その先にある一つのチャネル：測定の視点から見るAppLovin

Shirley and Sue

私たちは広告主の皆さまと「計測」について多くの時間を費やして議論しています。それは計測がパフォーマンスマーケティングにおいて最も魅力的なテーマだからではありません。むしろ、そこに多くの混乱が存在するからです。そして実際には、予算やクリエイティブ以上に、その混乱こそがチャネルの価値を最大限に引き出すことを妨げているケースが少なくありません。

こうした会話は、大きく2つのパターンに分かれます。

ひとつは、「AppLovinの管理画面上では成果が出ているように見えるのに、サードパーティの計測ツールでは確認できない」というケース。

もうひとつは、「MMM（マーケティング・ミックス・モデリング）では、AppLovinが管理画面上の数値以上の成果を生み出していると評価されている」というケースです。

一見すると正反対のようですが、実はどちらも同じ結論にたどり着きます。それは、数値の違いが「どちらが正しいか」を示しているわけではないということです。数値の違いは、それぞれの計測モデルが何を捉えるよう設計されているのかを示しているに過ぎません。

ひとつの数字にすべてを語らせようとしない

シンプルな例で考えてみましょう。

あるユーザーが火曜日の午後、モバイルゲームをプレイしている最中にAppLovinの広告を目にしました。しかし、その場ではクリックしませんでした。3日後、そのユーザーはGoogleでブランド名を検索し、ECサイトへアクセスして商品を購入します。さらに同じキャンペーンによってリーチされた別のユーザーは、DTCサイトを一度も訪れることなく、Amazonで商品を購入しました。

この場合、現在のAppLovinの管理画面レポートでは、どちらのコンバージョンも計上されません。クリックベースのアトリビューションはクリックが前提であり、クリックが発生していないためです。

一方でMTA（マルチタッチアトリビューション）ツールはGoogle検索経由のコンバージョンを捉え、Google検索やその他の接点に成果を割り当てるかもしれません。MMMは、AppLovinへの投資が需要全体の増加と相関していることを捉え、Amazonでの購入を含めた売上への貢献を評価する可能性があります。

購入後アンケートでは、そもそもユーザーが回答しなければ把握できません。そして、適切に設計・実施されたインクリメンタリティテスト（増分効果測定）だけが、「キャンペーンがなければ本当に発生しなかったコンバージョンがどれだけあったのか」を統計的な確度を持って示してくれます。

ここで重要なのは、どの結果も間違っているわけではないということです。単に、それぞれが異なるものを測定しているだけなのです。

複数の計測手法を組み合わせて全体像を把握しようとする広告主は、存在しない「唯一の正解」を探し続ける広告主よりも、はるかに有利な立場にあります。

AppLovinが生み出す成果の半分はダッシュボードには現れない

成長中のECブランドを対象にAppLovinの効果測定を行っているFosphaの調査によると、ラストクリックやMTAモデルは、AppLovinの実際の貢献を大幅に過小評価していることが分かっています。その理由は、AppLovinが消費者の「発見（Discovery）」段階で機能するチャネルであり、ラストクリックやMTAといった計測手法は、そもそもその役割を十分に捉えられるよう設計されていないためです。

さらに、PrescientのMMMベンチマークシリーズは、この議論にもう一つの重要な視点を加えています。

「AppLovinを活用している広告主群を分析すると、MMMで測定された価値の約50%はハロー効果（Halo Effect）によるものでした。これはMeta（約42%）やGoogle（約40%）を上回る水準です。さらに、そのハロー効果の約半分はAmazonでの売上として現れています。Amazonでの販売比率が高いブランドでは、その傾向はさらに顕著で、ハロー効果はMMMで測定された価値の約60%にまで達します。この結果は理にかなっています。AppLovinはモバイル環境で購買意欲の高いユーザーにリーチし、そのユーザーが後日、購入先として信頼しているAmazonでコンバージョンしていると考えられるからです。」- Will Holtz, Prescient COO & CFO

FosphaとPrescientは、それぞれ異なる手法を用いながらも、同じ事実を指摘しています。AppLovinの管理画面レポートは保守的な数値を示しており、その実際の貢献はラストクリックアトリビューションで捉えられる範囲を大きく超えて現れているのです。

AppLovinのインパクトは、管理画面の数値以上のスピードで拡大している

私たちは過去17か月にわたり、AppLovinに関する増分効果測定（インクリメンタリティテスト）の結果を継続的に分析してきました。そこから見えてきた重要な傾向があります。

まず、テスト設計そのものの質が大きく向上しています。

広告主の皆さまは、ホールドアウトグループの役割や、テスト期間・地域バランスの重要性、信頼できる結果を得るために必要な条件を以前より深く理解するようになりました。

また、私たちはほとんどのテスト設計を事前レビューしているため、十分なサンプル数を確保できないまま実施されるテストや、地域分割に無理があるテストは大幅に減っています。

こうした改善は、単一の指標として表れるものではありません。しかし、結果としてブランドが安心して意思決定に活用できる、より信頼性の高い測定結果につながっています。

同時に、プラットフォーム側の状況も変化しています。

私たちが観測している「増分係数（Incremental Factor）」、つまり地域ホールドアウト実験で測定されたiROAS（Incremental ROAS）を、AppLovinの管理画面上で報告されるROASと比較した値は、この1年間で2倍以上に拡大しています。

現在のAppLovinの管理画面レポートはクリック経由のアトリビューションのみを対象としているため、プラットフォーム上の数値と実験結果との間にはギャップが存在します。

そしてそのギャップは、FosphaやPrescientが示している第三者データとも一致しています。

つまり、AppLovinが生み出している成果の相当部分は、AppLovin自身のレポートには現れていないということです。

まだテストできないからといって、最適化を止める必要はない

継続的に成果を上げているブランドは、インクリメンタリティテストが「その時点における実験」であり、さまざまな制約条件のもとで実施されることを理解しています。ホールドアウト比率、予算規模、テスト期間、地域構成、キャンペーンの安定性。これらすべてが結果に影響します。

私たちが特に重視している条件は明確です。

テスト開始前にキャンペーンが学習フェーズを完了していること、安定的に配信されていること、ホールドアウト比率が通常20〜50%であること、そして統計的検出力（Statistical Power）を最低90%確保することです。

学習途中のキャンペーンや、十分なサンプル数が確保できない状態で実施されたテストは、どれほど分析手法が適切でもノイズの多い結果になってしまいます。そのため、私たちのチームではすべてのテストに対して事前の準備状況チェックを実施しています。

一方で、現時点の予算規模では十分な精度のテストが難しい場合でも、「テストできるまで待ちましょう」とは言いません。

まず、信頼できる結果を得るために必要な最低予算を算出します。

その上で、テスト実施までの間はMTAの傾向、MMMの分析結果、管理画面上のパフォーマンス指標などを活用しながら最適化を進めます。そして、将来的にクリーンなインクリメンタリティテストが実施できる状態へと段階的に導いていきます。

テストとテストの間の期間においても、こうしたシグナルは重要です。

市場環境の変化を把握し、全体像を理解しながら、より確度の高い増分効果測定へとつなげる役割を果たします。その中でもMER（Marketing Efficiency Ratio）は最もシンプルな指標です。

総売上を総マーケティング費用で割るだけで算出され、どのチャネルに成果を割り当てるかを気にする必要はありません。

重要なのは、マーケティング投資全体としてリターンが増えているかどうかです。

複数の計測手法を組み合わせてこそ、本当の姿が見えてくる

これらの計測手法を組み合わせる最大の価値は、「三角測量（Triangulation）」にあります。複数の指標が同じ方向を示しているとき、私たちは高い確信を持って意思決定できます。

一方で、指標同士が食い違う場合もあります。しかし、その食い違いは決して無意味ではありません。それは、現在の計測環境やコンバージョンパス、あるいはその時々の市場状況について何か重要な示唆を与えてくれているのです。

どちらの場合も、チャネルを疑う理由にはなりません。むしろ、そのチャネルをより深く理解する機会なのです。そして私たちの経験では、より深く分析したブランドほど、当初想像していた以上の価値を発見しています。

テストの準備が整っていなくても、最適化を止める理由にはならない

継続的に成果を上げているブランドは、インクリメンタリティテストが現実的な制約の中で行われる「ある時点での実験」であることを理解しています。ホールドアウトの規模、予算レベル、テスト期間、地域構成、キャンペーンの安定性。これらはすべて相互に影響し合います。

私たちが特に重視している条件もあります。テスト開始前にキャンペーンが学習フェーズを終え、安定して配信されていること。ホールドアウト比率は通常、対象地域の20〜50％程度に設定すること。そして、すべてのテストを統計的検出力（Statistical Power）90％以上で設計することです。

キャンペーンがまだ最適化の途中であったり、十分なサンプルサイズが確保できていなかったりする状態でテストを実施すると、どれほど分析手法が適切でもノイズの多い結果になってしまいます。そのため私たちは、すべてのテストに対して事前の準備状況チェック（Readiness Check）を実施しています。

しかし、ブランドの予算が十分な検証を行うための水準に達していない場合でも、「テストできるようになるまで待ちましょう」とは言いません。

まず、信頼できる結果を得るために必要な最低日予算を算出します。そのうえで、インクリメンタリティテストを実施できる状態を目指しながら、現時点で活用可能なシグナルを用いて最適化を進めていきます。

具体的には、MTAのトレンド、MMMによる分析結果、プラットフォーム上のパフォーマンス指標などです。

テストとテストの間の期間においても、これらのシグナルは重要な役割を果たします。市場環境の変化を把握し、成果の方向性を確認しながら、より正確な全体像を描くための材料となるからです。

その中でも最もシンプルなのがMER（Marketing Efficiency Ratio）です。

MERは総売上を総マーケティング費用で割った指標であり、どのチャネルに成果を帰属させるかは問いません。

重要なのは、ビジネス全体として投資以上のリターンを得られているかどうかです。

複数の計測手法を活用するうえで最も重要なのは、それらを組み合わせて「三角測量（Triangulation）」することです。

すべての指標が同じ方向を示しているなら、高い確信を持って意思決定ができます。

一方で、指標同士が食い違うこともあります。しかし、その違いにも意味があります。

その乖離は、現在の計測環境やコンバージョンパス、あるいはその時点の市場状況について、何か重要な示唆を与えている可能性があります。

どちらの結果であっても、それはチャネルを疑う理由にはなりません。

むしろ、そのチャネルをより深く理解するための機会です。

そして私たちの経験では、深く掘り下げて分析したブランドほど、当初想定していた以上の価値を発見しています。