Crux op BigQuery

Ontdek hoe Crux-gegevens zijn gestructureerd op BigQuery.

Invoering

De onbewerkte gegevens achter het Chrome UX Report (CrUX) zijn beschikbaar op BigQuery , een database die wordt gehost op het Google Cloud Platform (GCP).

Met CrUX op BigQuery kunnen gebruikers rechtstreeks de volledige dataset vanaf 2017 doorzoeken, bijvoorbeeld om trends te analyseren, webtechnologieën te vergelijken en domeinen te benchmarken.

De gegevens zijn gestructureerd per maandelijkse uitgave, evenals een aantal samenvattende tabellen om eenvoudige toegang te bieden voor het opvragen van de gegevens. Deze worden hieronder verder gedocumenteerd.

De BigQuery-data vormen de basis van het CrUX Dashboard , waarmee u deze data kunt visualiseren zonder SQL-query's te schrijven.

Toegang tot de dataset in GCP

Voor het gebruik van BigQuery is een GCP-project en basiskennis van SQL vereist. De CrUX-dataset op BigQuery is gratis toegankelijk en te verkennen tot aan de limieten van de gratis laag , die maandelijks wordt vernieuwd en wordt aangeboden door BigQuery. Bovendien komen nieuwe GCP-gebruikers mogelijk in aanmerking voor een aanmeldingskrediet om uitgaven buiten het gratis niveau te dekken. Houd er rekening mee dat er voor het GCP-project een creditcard moet worden opgegeven. Zie Waarom moet ik een creditcard opgeven? .

Als dit de eerste keer is dat u BigQuery gebruikt, volgt u de onderstaande stappen om een ​​project op te zetten:

  1. Navigeer naar Google Cloud Platform .
  2. Klik op Een project maken .
  3. Geef uw nieuwe project een naam zoals 'Mijn Chrome UX-rapport' en klik op Maken.
  4. Geef uw factuurgegevens op als daarom wordt gevraagd.
  5. Navigeer naar de Crux-dataset op BigQuery

Nu bent u klaar om query's uit te voeren op de gegevensset.

Project organisatie

CrUX-gegevens over BigQuery worden op de tweede dinsdag van de volgende maand vrijgegeven. Elke maand wordt uitgebracht als een nieuwe tabel onder chrome-ux-report.all . Er zijn ook een aantal gematerialiseerde tabellen die samenvattende statistieken voor elke maand bieden.

Gedetailleerd tabelschema

Ruwe tafels

De onbewerkte tabellen voor elk land en de all dataset hebben het volgende schema:

  • origin
  • effective_connection_type
  • form_factor
  • first_paint
  • first_contentful_paint
  • largest_contentful_paint
  • dom_content_loaded
  • onload
  • first_input
    • delay
  • layout_instability
    • cumulatieve_layout_shift`
  • interaction_to_next_paint
  • experimental
    • permission
      • notifications
    • time_to_first_byte
    • popularity

Gematerialiseerd tabelschema

Er zijn gematerialiseerde tabellen beschikbaar voor gemakkelijke toegang tot samenvattende gegevens op basis van een aantal belangrijke dimensies. Er worden geen histogrammen verstrekt, maar prestatiegegevens worden in fracties samengevoegd op basis van prestatiebeoordeling en de 75e percentielwaarde. Als voorbeeld wordt hieronder een reeks voorbeeldrijen uit de tabel metrics_summary weergegeven:

jjjjmm oorsprong fast_lcp gem_lcp slow_lcp p75_lcp
202204 https://voorbeeld.com 0,9056 0,0635 0,0301 1600
202203 https://voorbeeld.com 0,9209 0,052 0,0274 1400
202202 https://voorbeeld.com 0,9169 0,0545 0,0284 1500
202201 https://voorbeeld.com 0,9072 0,0626 0,0298 1500

Hieruit blijkt dat in de dataset van 202204 90,56% van de echte gebruikerservaringen op https://example.com voldeed aan de criteria voor een goede LCP , en dat de grove LCP-waarde in het 75e percentiel 1600 ms was. Dit is iets trager dan voorgaande maanden.

Er zijn vier gematerialiseerde tabellen beschikbaar:

metrics_summary
belangrijkste statistieken per maand en herkomst
device_summary
belangrijkste statistieken per maand, herkomst en apparaattype
country_summary
belangrijkste statistieken per maand, herkomst, apparaattype en land
origin_summary
een lijst met alle herkomsten die in de dataset zijn opgenomen

metrics_summary

De tabel metrics_summary bevat samenvattende statistieken voor elke herkomst en elke maandelijkse dataset:

yyyymm
Maand van de gegevensverzamelingsperiode
origin
URL van de oorsprong van de site
rank
Grove populariteitsranglijst (vanaf maart 2021 )
[small|medium|large]_cls
fractie van het verkeer volgens CLS-drempels
[fast|avg|slow]_<metric>
fractie van het verkeer op basis van prestatiedrempels
p75_<metric>
75e percentielwaarde van prestatiestatistieken (milliseconden)
notification_permission_[accept|deny|ignore|dismiss]
fractie van het toestemmingsgedrag voor meldingen
[desktop|phone|tablet]Density
fractie van het verkeer per vormfactor
[_4G|_3G|_2G|slow2G|offline]Density
fractie van het verkeer per effectief verbindingstype

device_summary

De tabel device_summary bevat geaggregeerde statistieken per maand, herkomst, land en apparaat. Naast de metrics_summary kolommen is er:

device
Vormfactor van apparaat

country_summary

De tabel country_summary bevat geaggregeerde statistieken per maand, herkomst, land en apparaat. Naast de metrics_summary kolommen is er:

country_code
Landcode van twee letters
device
Vormfactor van apparaat

origin_summary

De origin_summary tabel bevat een lijst met alle origines in de CrUX-dataset; het wordt maandelijks bijgewerkt met de meest recente lijst met oorsprongen in de dataset en heeft één enkele kolom: origin .

Experimentele dataset

Tabellen in de experimentele dataset zijn exacte kopieën van de standaard YYYYMM tabellen, maar ze maken gebruik van nieuwere en geavanceerdere BigQuery-functies, zoals partitionering en clustering , waarmee u snellere, eenvoudiger en goedkopere query's kunt schrijven.

country

De dataset experimental.country bevat geaggregeerde gegevens uit de datasets country_CC met een extra kolom yyyymm voor de datum van de dataset. Het schema is identiek aan de onbewerkte tabellen met de toevoeging van de kolommen date en country_code , waardoor vergelijkingen op landniveau in de loop van de tijd kunnen worden uitgevoerd zonder deelname aan de maandelijkse tabellen.

global

De dataset experimental.global bevat geaggregeerde gegevens uit de all dataset met een extra yyyymm kolom voor de datum van de dataset. Het schema is identiek aan onbewerkte tabellen met de toevoeging van de datum, waardoor vergelijkingen in de loop van de tijd kunnen worden uitgevoerd zonder dat de maandelijkse tabellen moeten worden samengevoegd.