Academy

Khi các số liệu không khớp nhau: Cách nhìn đúng về hiệu quả của AppLovin

Shirley Deng & Sue Deng, Đối tác Sản phẩm & Khoa học Marketing

Chúng tôi dành rất nhiều thời gian để trao đổi với các nhà quảng cáo về việc đo lường hiệu quả quảng cáo. Không phải vì đây là chủ đề hấp dẫn nhất trong performance marketing, mà vì đây là nơi những hiểu lầm thường xuất hiện. Trong nhiều trường hợp, không phải ngân sách hay creative, chính những hiểu lầm đó mới là yếu tố khiến một thương hiệu chưa thể khai thác tối đa hiệu quả của một kênh quảng cáo.

Những cuộc trao đổi này thường diễn ra theo hai hướng. Có nhà quảng cáo cho biết AppLovin đang mang lại kết quả rất tích cực trên nền tảng, nhưng những công cụ đo lường bên thứ ba lại không phản ánh điều đó. Ngược lại, cũng có bên nhận thấy mô hình MMM của họ đang ghi nhận đóng góp từ AppLovin cao hơn cả số liệu mà nền tảng báo cáo. Dù xuất phát từ những góc nhìn khác nhau, các cuộc thảo luận này đều dẫn đến cùng một kết luận: sự khác biệt giữa các con số không phải để xác định ai đúng hay ai sai. Nó phản ánh cách mỗi mô hình đo lường được thiết kế để quan sát những khía cạnh khác nhau của hành trình chuyển đổi.

Không có một con số nào phản ánh toàn bộ hiệu quả của chiến dịch

Hãy thử hình dung một tình huống đơn giản. Một khách hàng nhìn thấy quảng cáo AppLovin khi đang chơi game trên điện thoại vào chiều thứ Ba. Họ không bấm vào quảng cáo. Ba ngày sau, họ tìm kiếm thương hiệu trên Google, truy cập website và hoàn tất đơn hàng. Cùng lúc đó, người bạn cùng phòng của họ cũng được tiếp cận bởi chiến dịch quảng cáo này, lại mua sản phẩm trên Amazon mà chưa từng truy cập website DTC của thương hiệu.

Trong trường hợp này, báo cáo trên AppLovin sẽ không ghi nhận cả hai chuyển đổi. Mô hình phân bổ chuyển đổi dựa trên lượt nhấp (click-through attribution) yêu cầu phải có lượt nhấp, trong khi điều đó không xảy ra. Công cụ MTA có thể ghi nhận lượt tìm kiếm trên Google và phân bổ công trạng cho kênh đó, hoặc ghi nhận một phần đóng góp từ các điểm chạm trước đó. MMM có thể cho thấy ngân sách trên AppLovin tương quan với mức tăng trưởng nhu cầu tổng thể của thị trường, bao gồm cả đơn hàng trên Amazon. Khảo sát sau mua hàng có thể bỏ sót cả hai khách hàng này nếu họ không được hỏi trực tiếp về nguồn tiếp cận. Trong số tất cả các phương pháp trên, chỉ có thử nghiệm đo lường tác động gia tăng (incrementality test) được triển khai đúng cách mới có thể cho bạn biết, với độ tin cậy thống kê, có bao nhiêu chuyển đổi thực sự sẽ không xảy ra nếu không có chiến dịch quảng cáo đó.

Không có câu trả lời nào là sai. Chúng đơn giản chỉ đang đo lường những điều khác nhau. Những nhà quảng cáo biết cách đối chiếu nhiều phương pháp đo lường để hoàn thiện bức tranh tổng thể luôn có lợi thế hơn những người vẫn đang tìm kiếm một "nguồn dữ liệu duy nhất" mà trên thực tế không tồn tại.

Một nửa giá trị mà AppLovin mang lại không xuất hiện trong báo cáo

Fospha, đơn vị đang đo lường hiệu quả của AppLovin cho ngày càng nhiều thương hiệu thương mại điện tử, nhận thấy rằng các mô hình phân bổ theo lượt nhấp cuối cùng (last-click attribution) và MTA đang đánh giá thấp đáng kể đóng góp của AppLovin. Nguyên nhân là do AppLovin hoạt động ở giai đoạn khám phá thương hiệu (discovery layer), trong khi các công cụ này vốn không được thiết kế để theo dõi.

Last-click chỉ ghi nhận 31% tác động thực sự của AppLovin.

Nghiên cứu benchmark MMM của Prescient tiếp tục bổ sung thêm một góc nhìn khác:

“Trong nhóm khách hàng sử dụng AppLovin mà chúng tôi phân tích, khoảng 50% giá trị được mô hình hóa đến từ hiệu ứng halo, cao hơn Meta (~42%) và Google (~40%). Gần một nửa phần hiệu ứng halo này đến từ Amazon. Với những thương hiệu có tỷ trọng doanh thu Amazon lớn, con số này thậm chí tăng lên khoảng 60%. Giả thuyết này hoàn toàn hợp lý: AppLovin đang tiếp cận những người dùng có ý định mua hàng cao trong môi trường di động và họ thực hiện chuyển đổi sau đó trên Amazon, nền tảng mà họ đã quen thuộc và tin tưởng để mua sắm.” - Will Holtz, COO & CFO, Prescient

Cả hai đối tác đều đang chỉ ra cùng một hiện tượng. Báo cáo trên nền tảng AppLovin mang tính thận trọng, và phần đóng góp thực tế của kênh đang vượt xa những gì các mô hình phân bổ theo lượt nhấp cuối cùng có thể ghi nhận.

Tác động thực tế của AppLovin lớn hơn những gì báo cáo trên nền tảng thể hiện

Trong 17 tháng qua, kể từ khi nhận được thử nghiệm đo lường tác động gia tăng đầu tiên, chúng tôi đã thực hiện ngày càng nhiều thử nghiệm trên AppLovin. Trong đó, có một số xu hướng đáng chú ý đang dần xuất hiện.

Điều đầu tiên là chất lượng các thử nghiệm đang ngày càng được cải thiện. Nhà quảng cáo hiện đã hiểu rõ hơn cách các thử nghiệm này vận hành: nhóm đối chứng (holdout group) thực sự có vai trò gì, vì sao thời lượng thử nghiệm và sự cân bằng giữa các khu vực địa lý lại quan trọng, cũng như những điều kiện cần thiết để tạo ra một kết quả đáng tin cậy. Bên cạnh đó, do đội ngũ của chúng tôi xem xét phần lớn các thiết kế thử nghiệm trước khi triển khai, số lượng test được chạy với quy mô quá nhỏ hoặc phân bổ địa lý không cân bằng đã giảm đáng kể. Những cải thiện này không thể hiện qua một con số nổi bật nào trong báo cáo. Chúng thể hiện qua những kết quả mà thương hiệu có thể tin tưởng để đưa ra quyết định, thay vì những kết quả mà chúng ta luôn phải dè dặt khi diễn giải.

Bức tranh tổng thể của nền tảng cũng đang thay đổi theo hướng rất đáng chú ý. Chỉ số tác động gia tăng mà chúng tôi quan sát được: iROAS của thương hiệu đo bằng thử nghiệm đối chứng theo khu vực địa lý (geo holdout experiment) so với ROAS được báo cáo trên nền tảng AppLovin đã tăng hơn gấp đôi trong vòng một năm qua. Hiện tại, báo cáo trên nền tảng AppLovin chỉ ghi nhận các chuyển đổi dựa trên lượt nhấp. Khoảng cách giữa những gì nền tảng ghi nhận và những gì các thử nghiệm có đối chứng cho thấy hoàn toàn nhất quán với các tín hiệu từ bên thứ ba đã đề cập ở trên: một phần đáng kể trong tác động mà AppLovin tạo ra hiện vẫn chưa được phản ánh trong chính báo cáo của nền tảng.

Chưa thể đo lường tác động gia tăng không có nghĩa là nên dừng tối ưu

Những thương hiệu đạt kết quả ổn định nhất hiểu rằng thử nghiệm đo lường tác động gia tăng (incrementality test) là một thử nghiệm được thực hiện tại một thời điểm nhất định và luôn đi kèm những giới hạn thực tế. Quy mô nhóm đối chứng, ngân sách, thời gian thử nghiệm, cấu trúc địa lý và độ ổn định của chiến dịch đều có tác động lẫn nhau. Có một số nguyên tắc mà chúng tôi luôn tuân thủ: chiến dịch cần vượt qua giai đoạn learning và duy trì hiệu suất ổn định trước khi bắt đầu thử nghiệm, nhóm đối chứng thường chiếm từ 20–50% phạm vi địa lý được triển khai và mọi thử nghiệm đều được thiết kế để đạt tối thiểu 90% độ mạnh thống kê (statistical power). Một thử nghiệm được thực hiện khi chiến dịch vẫn đang trong quá trình hiệu chỉnh, hoặc được thiết kế với quy mô quá nhỏ ngay từ đầu, sẽ luôn tạo ra tín hiệu nhiễu nhiều hơn, bất kể phương pháp phân tích có tốt đến đâu. Đó là lý do đội ngũ của chúng tôi luôn thực hiện quy trình đánh giá mức độ sẵn sàng trước khi bất kỳ thử nghiệm nào được triển khai.

Khi ngân sách của một thương hiệu vẫn thấp hơn ngưỡng cần thiết để thực hiện một thử nghiệm đủ mạnh, chúng tôi không yêu cầu họ chờ đợi. Thay vào đó, chúng tôi tính toán mức ngân sách tối thiểu cần thiết để tạo ra một kết quả đáng tin cậy và làm việc cùng thương hiệu dựa trên những tín hiệu hiện có trong giai đoạn chuyển tiếp: xu hướng từ MTA, kết quả từ MMM và các mô hình hiệu suất trên nền tảng, đồng thời từng bước đưa chiến dịch đến điều kiện phù hợp để triển khai một thử nghiệm đo lường tác động gia tăng hiệu quả. Trong thời gian giữa các lần thử nghiệm, những tín hiệu này giúp duy trì bối cảnh tổng thể, theo dõi các thay đổi về xu hướng và xây dựng một bức tranh toàn diện hơn về hiệu quả của kênh. MER, tổng doanh thu chia cho tổng chi tiêu marketing, là chỉ số đơn giản nhất trong số đó. Chỉ số này không quan tâm kênh nào được ghi nhận công trạng, mà chỉ quan tâm liệu doanh nghiệp có đang thu về nhiều giá trị hơn số tiền bỏ ra hay không.

Điều hữu ích nhất bạn có thể làm với tất cả những công cụ đo lường này là đối chiếu chúng với nhau. Khi tất cả đều chỉ về cùng một hướng, bạn có thể đưa ra quyết định với độ tin cậy cao. Khi chúng cho ra những kết quả khác nhau, chính sự khác biệt đó đang phản ánh điều gì đó về hệ thống đo lường, hành trình chuyển đổi hoặc bối cảnh thị trường tại thời điểm đó. Dù kết quả là gì, đó không phải là lý do để nghi ngờ hiệu quả của kênh. Ngược lại, đó là cơ hội để hiểu rõ hơn cách kênh đó đang hoạt động. Và theo kinh nghiệm của chúng tôi, những thương hiệu dành thời gian tìm hiểu sâu hơn thường khám phá được nhiều giá trị hơn những gì họ kỳ vọng ban đầu.