Przewodnik testowania pomiarów

Ten przewodnik zawiera wskazówki, jak przeprowadzać autonomiczny test interfejsu Attribution Reporting API w Piaskownicy prywatności. Więcej informacji znajdziesz w sekcji 12.

  • Pomiar wyników w grupie kontrolnej i eksperymentalnej w eksperymentalnych projektach 1 i 2 projektu CMA został opisany w wytycznych dotyczących testowania interfejsów API trafności, ponieważ celem tych eksperymentów jest przetestowanie skuteczności korzystania z interfejsu Protected Audience & Topics. Więcej informacji znajdziesz w Sekcji 11.

Zanim zaczniesz

Cele oceny i proponowana konfiguracja eksperymentu

Cel 1 – określanie skuteczności interfejsu Attribution Reporting API na potrzeby raportowania

Proponujemy konfigurację A/A, która pozwoli zmierzyć wpływ na raportowanie

  • Ta oferta jest zgodna z wytycznymi CMA dotyczącymi oceny wskaźników opartych na konwersjach. Więcej informacji znajdziesz w Sekcji 21 i artykule 12.
  • Preferujemy tę metodę zamiast trybu A/B, ponieważ interfejs Attribution Reporting API (ARA) pozwala jednocześnie mierzyć konwersje w ramach tego samego zestawu wyświetleń za pomocą 2 różnych metod pomiarowych (pliki cookie innych firm + dane z plików cookie innych firm oraz ARA + dane z plików cookie innych firm).
  • Eksperyment A/A wyizoluje też wpływ interfejsu Attribution Reporting API na pomiar konwersji (np. zapobiega zmianom współczynników konwersji z powodu braku plików cookie innych firm).

Sugerowane punkty analizy

  • Wybierz wycinek ruchu, który jest wystarczająco duży, aby uzyskać wyniki istotne statystycznie, i zawiera zarówno pliki cookie innych firm, jak i interfejsy API Piaskownicy prywatności. Najlepiej, jeśli będzie to cały ruch z wyjątkiem trybu B (który wyłącza pliki cookie innych firm).
    • Zalecamy wykluczenie Trybu B z eksperymentu A/A, ponieważ pliki cookie innych firm będą niedostępne i nie będzie można porównywać wyników ARA z wynikami atrybucji na podstawie plików cookie innych firm.
    • Jeśli chcesz stosować Tryb B, rozważ włączenie raportów debugowania dla wycinka ruchu w Trybie B. Raporty debugowania pomogą Ci w rozwiązywaniu problemów z konfiguracją i implementacją.
  • Jeśli planujesz testy na mniejszym odcinku ruchu, wyniki pomiaru powinny być zaszumione od oczekiwanych. Zalecamy, aby podczas analizy zaznaczyć, jaka część ruchu została wykorzystana i czy raporty są generowane na podstawie zaszumionych lub niezaszumionych raportów debugowania.
    • W raportach podsumowujących wartości podsumowania będą prawdopodobnie niższe, a usługa agregacji doda szum z tego samego rozkładu niezależnie od wartości podsumowania.
  • testować różne metodologie pomiarów w przypadku tego wycinka ruchu;
    • Grupa kontrolna 1 – stosuj bieżące metodologie pomiarów (pliki cookie innych firm + dane z plików cookie innych firm)
    • (opcjonalnie) Grupa kontrolna 2 – brak Piaskownicy prywatności i brak plików cookie innych firm, czyli tylko dane z plików cookie innych firm
      • Pamiętaj, że w przypadku niektórych witryn mogą być nadal dostępne pliki cookie innych firm – aby uzyskać jak najdokładniejsze wyniki, nie używaj ich do pomiarów w metodologii kontrolnej 2 lub Działania.
    • Grupa eksperymentalna i kontrolna – interfejsy API Piaskownicy prywatności i dane z plików cookie innych firm
      • Pamiętaj, że w przypadku niektórych witryn mogą być nadal dostępne pliki cookie innych firm – aby uzyskać jak najdokładniejsze wyniki, nie używaj ich do pomiarów w metodologii kontrolnej 2 lub Działania.

Wskaźniki

  • Określ, które dane mają sens w przypadku Twojej firmy do pomiaru wyników, i opisz, co oznaczają i w jaki sposób są mierzone.
    • Warto skupić się na wymiarach i danych, które są ważne dla reklamodawców. Jeśli np. reklamodawcy koncentrują się na konwersjach polegających na zakupie, mierz ich liczbę i wartość zakupów.
  • Dane oparte na liczbie lub sumie (np. współczynniku konwersji) są bardziej przydatne niż w przypadku kosztu (np. kosztu konwersji). W przypadku analizy A/A dane o kosztach mogą być w pełni pobierane na podstawie liczby lub sumy wartości konwersji.
  • Określ, czy dane mają być oparte na raportach na poziomie zdarzenia, raportów podsumowania czy na kombinacji obu tych raportów (i określ, czy zostały użyte raporty debugowania).
  • W tabelach z sugerowanymi szablonami znajdziesz wskazówki dotyczące formatowania informacji ilościowych.

Analiza

  • Zakres:
    • Czy jesteś w stanie prowadzić pomiary dotyczące podobnego zbioru użytkowników, jak w przypadku plików cookie innych firm? Czy widzisz większy zasięg (np. przechodzenie z aplikacji do witryny)?
    • Czy jesteś w stanie mierzyć konwersje (oraz wymiary lub dane), na których najbardziej zależy Tobie lub Twoim reklamodawcom?
  • Ilościowe informacje zwrotne
    • W raportach dotyczących reklamodawcy możesz na przykład sprawdzić, jaki procent kluczowych konwersji byłby w stanie odnotować w przypadku tego reklamodawcy lub jaki odsetek kampanii osiągnął pasek jakości raportowania (pasek jakości pomaga dostosować go do kampanii o niewielkiej liczbie konwersji).
    • Podział według reklamodawcy może na przykład zależeć od tego, czy niektórzy reklamodawcy są obecnie bardziej lub mniej zależni od plików cookie innych firm w raportach?
  • Inne oceny jakościowe:
    • Jak interfejs ARA wpływa na złożoność konfiguracji pomiarów i atrybucji reklamodawców?
    • Czy interfejs ARA pomaga lub utrudnia reklamodawcom skupienie się na danych i celach, które są dla nich ważne?

Sugerowane tabele szablonów na potrzeby raportowania wpływu

(Raportowanie) Tabela 1.

Przykładowa tabela do przesyłania wyników eksperymentu do narzędzia CMA (pobrana ze strony 18, ale testerzy powinni się zastanowić, które dane są najbardziej istotne / możliwe do podania i dostosowania tabeli w razie potrzeby).

Grupa eksperymentalna w porównaniu z grupą kontrolną 1
Porównuje proponowany stan końcowy z obecnym stanem
Grupa eksperymentalna a grupa kontrolna 2
Porównuje proponowany stan końcowy, w którym w ogóle nie ma interfejsów API PS.
Grupa kontrolna 2 a grupa kontrolna 1
Porównuje pomiar konwersji z użyciem plików cookie innych firm i bez nich, bez interfejsów API PS.
Metodologia pomiarów Porównanie pomiaru konwersji na potrzeby Traktowania (ARA z danymi z plików cookie innych firm) z danymi z grupy kontrolnej 1 (pliki cookie innych firm i dane z plików cookie innych firm) Porównanie pomiaru konwersji na potrzeby grupy eksperymentalnej (ARA z danymi z plików cookie innych firm) z grupą kontrolną 2 (tylko dane z plików cookie innych firm) Porównaj pomiar konwersji w grupie kontrolnej 2 (tylko dane z plików cookie innych firm) z grupą kontrolną 1 (dane z plików cookie innych firm i plików cookie innych firm)
Konwersje na każdą złotówkę Efekt Efekt Efekt
błąd standardowy błąd standardowy błąd standardowy
Przedział ufności: 95% Przedział ufności: 95% Przedział ufności: 95%
Łączna liczba konwersji Efekt Efekt Efekt
błąd standardowy błąd standardowy błąd standardowy
Przedział ufności: 95% Przedział ufności: 95% Przedział ufności: 95%
Współczynnik konwersji Efekt Efekt Efekt
błąd standardowy błąd standardowy błąd standardowy
Przedział ufności: 95% Przedział ufności: 95% Przedział ufności: 95%
(dodaj własne dane)
(Raportowanie) Tabela 2.

Przykładowy szablon tabeli do raportowania opisowych statystyk dotyczących danych w grupach eksperymentalnej i kontrolnej (pobrana ze strony 20, ale testerzy powinni się zastanowić, które dane są najbardziej istotne lub możliwe do utworzenia i dostosowania tabeli w razie potrzeby).

Wskaźnik Postępowanie
Pomiar konwersji za pomocą interfejsu ARA i używanych przez Ciebie danych z plików cookie innych firm
Grupa kontrolna 1
Pomiar konwersji za pomocą plików cookie innych firm oraz wszelkich używanych przez Ciebie danych z plików cookie innych firm
Grupa kontrolna 2
Pomiar konwersji wyłącznie na podstawie danych z plików cookie innych firm
Konwersje na każdą złotówkę Średnia Średnia Średnia
Odchylenie standardowe Odchylenie standardowe Odchylenie standardowe
25 i 75 centyl 25 i 75 centyl 25 i 75 centyl
Łączna liczba konwersji Średnia Średnia Średnia
Odchylenie standardowe Odchylenie standardowe Odchylenie standardowe
25 i 75 centyl 25 i 75 centyl 25 i 75 centyl
Współczynnik konwersji Średnia Średnia Średnia
Odchylenie standardowe Odchylenie standardowe Odchylenie standardowe
25 i 75 centyl 25 i 75 centyl 25 i 75 centyl
(dodaj własne dane)

Cel 2 – określanie skuteczności interfejsu Attribution Reporting API na potrzeby optymalizacji określania stawek

Proponujemy konfigurację A/B, która pozwala mierzyć wpływ optymalizacji określania stawek.

  • Aby zmierzyć wpływ na optymalizację stawek, musisz wytrenować 2 różne modele systemów uczących się i użyć ich w 2 wycinkach ruchu. Jeden model wytrenowany zgodnie z bieżącymi metodologiami pomiarów (pliki cookie innych firm + pliki cookie innych firm), który zostanie zastosowany w grupie kontrolnej, oraz jeden model wytrenowany z wykorzystaniem interfejsu Attribution Reporting API oraz dane z plików cookie innych firm, który zostanie zastosowany w grupie eksperymentalnej.
  • Trenowanie modelu powinno opierać się na takim natężeniu ruchu, jaki uzna za konieczne do zmaksymalizowania wydajności, nawet jeśli grupa eksperymentalna to mniejszy wycinek ruchu, a populacje na potrzeby trenowania nakładają się na siebie (np. użyj istniejącego modelu plików cookie innej firmy, który trenuje na całym ruchu, i wytrenuj model ARA na całym ruchu ARA włączonym dla celu 1).
    • Jeśli przesyłasz wyniki do CMA, zwróć uwagę, czy występują znaczne różnice między wycinkami ruchu używanymi do trenowania różnych modeli (np. jeśli modele oparte na plikach cookie innych firm są trenowane na 100% ruchu, a modele ARA są trenowane tylko na 1% ruchu).
  • Jeśli to możliwe, trenowanie obu modeli określania stawek w grupie eksperymentalnej i kontrolnej powinno mieć taki sam czas trwania.
  • Zastanów się, czy będziesz stale trenować i aktualizować modele ustalania stawek podczas eksperymentu, a jeśli tak, to czy należy trenować na jak największej liczbie wizyt czy tylko na ruchu z grup eksperymentalnych i kontrolnych.
  • W ramach eksperymentu A/B należy używać różnych modeli do rozłączonych wycinków ruchu. W przypadku randomizacji i przypisywania użytkowników do grup eksperymentalnych i kontrolnych zalecamy używanie grup przeglądarek z etykietami obsługiwanymi przez Chrome (Tryb A) lub prowadzenie własnego eksperymentu z losowymi zestawami przeglądarek. Nie zalecamy korzystania z trybu B, ponieważ brak plików cookie innych firm utrudnia raportowanie danych opartych na konwersjach.
    • Grupy przeglądarek obsługiwanych przez Chrome wykluczają niektóre wystąpienia Chrome, np. użytkowników Chrome Enterprise, w przypadku których Twoje własne losowe zestawy przeglądarek mogą nie wykluczać tych instancji. Dlatego eksperyment należy przeprowadzać tylko na grupach w Trybie A lub tylko na grupach w trybie A lub B, aby uniknąć porównywania danych uzyskanych w grupach obsługiwanych przez Chrome z danymi uzyskanymi spoza grup obsługiwanych przez Chrome.
    • Jeśli nie korzystasz z grup przeglądarek oznaczonych etykietami obsługiwanych przez Chrome (np. nie prowadzisz eksperymentu z innym ruchem):
      • Dopilnuj, aby grupy użytkowników eksperymentalnej i kontrolnej były losowe i obiektywne. Niezależnie od konfiguracji grupy eksperymentalnej, oceń cechy grupy eksperymentalnej i kontrolnej, aby mieć pewność, że grupa eksperymentalna i kontrolna są porównywalne. (Patrz: sekcja 15).
      • Zadbaj o to, aby cechy użytkowników i konfiguracje kampanii w grupach eksperymentalnej i kontrolnej były takie same (np. użyj podobnych obszarów geograficznych w grupach eksperymentalnej i kontrolnej). (Patrz: sekcja 28).
        • Przykłady: mierzenie podobnych typów konwersji za pomocą tego samego okna atrybucji i tej samej logiki atrybucji, kampanie są kierowane na podobnych odbiorców, grupy zainteresowań i obszary geograficzne oraz używają podobnych tekstów i formatów reklam.
      • Upewnij się, że początkowa wielkość populacji w grupie eksperymentalnej i kontrolnej jest wystarczająco duża, aby zapewnić elastyczność przy ustalaniu stawek i eksperymentowaniu.
    • Jeśli korzystasz z grup przeglądarek oznaczonych etykietami przez Chrome (Tryb A), Chrome obsługuje losową kolejność instancji przeglądarki Chrome do grup. Zalecamy, aby tak samo jak wcześniej sprawdzić, czy losowe wyniki powodują porównywalne, obiektywne grupy.

Sugerowane punkty analizy

  • Zalecamy zdefiniowanie grup kontrolnych i eksperymentalnych oraz użycie w każdej z nich osobnego modelu systemów uczących się do optymalizacji stawek:
    • Grupa kontrolna 1 – użyj modelu optymalizacji ustalania stawek wytrenowanego na podstawie bieżących metodologii pomiarowych (pliki cookie innych firm oraz dane z plików cookie innych firm)
    • (opcjonalnie) Grupa kontrolna 2 – użyj modelu optymalizacji ustalania stawek wytrenowanego bez Piaskownicy prywatności i bez plików cookie innych firm, czyli tylko danych z plików cookie innych firm
      • Pamiętaj, że w przypadku niektórych witryn nadal mogą być dostępne pliki cookie innych firm. Aby uzyskać jak najdokładniejsze wyniki, nie używaj ich do pomiarów w metodologii kontrolnej 2 lub Działania.
    • Grupa eksperymentalna – użyj modelu optymalizacji ustalania stawek wytrenowanego na podstawie interfejsu Attribution Reporting API oraz danych z plików cookie innych firm
      • Pamiętaj, że w przypadku niektórych witryn nadal mogą być dostępne pliki cookie innych firm. Aby uzyskać jak najdokładniejsze wyniki, nie używaj ich do pomiarów w metodologii kontrolnej 2 lub Działania.

Wskaźniki

  • Określ, które dane mają sens w przypadku Twojej firmy do pomiaru wyników, i opisz, co oznaczają i w jaki sposób są mierzone.
    • Istotnym wskaźnikiem mogą być na przykład wydatki (przychody wydawcy), co jest zgodne ze wskazówkami CMA dotyczącymi wpływu wycofania plików cookie innych firm na „Przychody na wyświetlenie”. Więcej informacji można znaleźć w sekcji 19.
  • W przypadku raportowania danych opartych na konwersjach używaj tej samej metodologii pomiaru dla każdej grupy eksperymentalnej, aby uniknąć testowania na wielu odmianach (testowania wpływu na optymalizację i raportowanie w ramach jednego eksperymentu). W tabelach z sugerowanymi szablonami znajdziesz wskazówki dotyczące formatowania informacji ilościowych.
  • Zastanów się nad innymi sposobami gromadzenia danych o wpływie optymalizacji określania stawek, np. przez symulowanie stawek. Czy istnieją symulowane dane, które pomogłyby poznać wpływ plików cookie innych firm i interfejsu ARA na modele ustalania stawek?
  • Określ, czy dane mają być oparte na raportach na poziomie zdarzenia, raportów podsumowania czy na kombinacji obu tych raportów (i określ, czy zostały użyte raporty debugowania).

Analiza

  • Zakres:
    • Czy jesteś w stanie prowadzić pomiary dotyczące podobnego zbioru użytkowników, jak w przypadku plików cookie innych firm? Czy zauważasz jakieś zmiany w zasięgu (np. w przypadku przejścia z aplikacji do witryny)?
    • Czy jesteś w stanie mierzyć konwersje (oraz wymiary/dane), na których najbardziej zależy Tobie lub Twoim reklamodawcom?
  • Jak różnice między grupami wpłynęłyby na:
    • Dotyczy to na przykład raportowania reklamodawców. Jaki odsetek kluczowych konwersji można było odnotować w raportach.
    • Trenowanie i optymalizacja pozwalają na przykład symulować wpływ różnych danych o konwersjach na skuteczność modelu.
  • Inne oceny jakościowe:
    • W jaki sposób interfejs ARA wpływa na złożoność konfiguracji optymalizacji ustalania stawek reklamodawcy?
    • Czy ARA pomaga lub utrudnia reklamodawcom skupienie się na danych i celach, które są dla nich ważne?

Sugerowane tabele szablonów dotyczące wpływu określania stawek

(Określanie stawek) Tabela 1:

Przykładowy szablon wyników eksperymentalnych, które uczestnicy rynku powinni przesłać do CMA (pobrany ze strony 18, ale testerzy powinni się zastanowić, które dane są najbardziej istotne lub możliwe do utworzenia i dostosowania tabeli w razie potrzeby).

Grupa eksperymentalna w porównaniu z grupą kontrolną 1
Porównuje proponowany stan końcowy z obecnym stanem
Grupa eksperymentalna a grupa kontrolna 2
Porównuje proponowany stan końcowy, w którym w ogóle nie ma interfejsów API PS.
Grupa kontrolna 2 a grupa kontrolna 1
Porównuje optymalizację ustalania stawek z plikami cookie innych firm i bez nich, bez interfejsów API PS.
Metodologia pomiarów Aby uniknąć testów na wielu odmianach, używaj plików cookie innych firm oraz danych z plików cookie innych firm do pomiaru danych z uwzględnieniem konwersji w obu grupach w każdym eksperymencie.
Przychody z wyświetlenia Efekt Efekt Efekt
błąd standardowy błąd standardowy błąd standardowy
Przedział ufności: 95% Przedział ufności: 95% Przedział ufności: 95%
(Dodaj własne dane)
(Określanie stawek) Tabela 2:

Przykładowy szablon tabeli do raportowania opisowych statystyk dotyczących danych w grupach eksperymentalnej i kontrolnej (pobrana ze strony 20, ale testerzy powinni się zastanowić, które dane są najbardziej istotne lub możliwe do utworzenia i dostosowania tabeli w razie potrzeby).

Postępowanie
Optymalizacja ustalania stawek za pomocą interfejsu ARA i używanych przez Ciebie danych z plików cookie niepochodzących od innych firm
Kontrola 1
Optymalizacja ustalania stawek przy użyciu plików cookie innych firm i używanych przez Ciebie danych z plików cookie innych firm
Grupa kontrolna 2
Optymalizacja ustalania stawek tylko z wykorzystaniem danych z plików cookie innych firm
Metodologia pomiarów Aby uniknąć testów na wielu odmianach, używaj plików cookie innych firm i danych z plików cookie innych firm do pomiaru danych z uwzględnieniem konwersji we wszystkich grupach eksperymentalnych.
Przychody z wyświetlenia Średnia Średnia Średnia
Odchylenie standardowe Odchylenie standardowe Odchylenie standardowe
25 i 75 centyl 25 i 75 centyl 25 i 75 centyl
(dodaj własne dane)

Cel 3 – testowanie obciążenia usługi agregacji

Zapoznaj się z sekcją Platforma testowania obciążenia usługi agregacji.