Suggerimenti sull'efficienza di BigQuery per le esportazioni collettive dei dati di Search Console

Lunedì 5 giugno 2023

L'esportazione collettiva dei dati di Search Console è un modo efficace per importare i dati sul rendimento delle ricerche del vostro sito web in BigQuery per aumentare le capacità di archiviazione, analisi e generazione di report. Ad esempio, dopo aver esportato i dati, potete eseguire il clustering di query e URL, eseguire analisi su query di ricerca long-tail e unire la ricerca ad altre origini di dati. Potete anche scegliere di conservare i dati per tutto il tempo necessario.

Quando utilizzate le esportazioni collettive dei dati, è importante che prendiate decisioni consapevoli nell'ambito della gestione dei costi di elaborazione e archiviazione dei dati. Non sono previsti costi associati all'esportazione dei dati di Search Console. Tuttavia, consultate i prezzi di BigQuery per capire ciò che vi verrà addebitato. In questo post vedremo i suggerimenti per aiutarvi a sfruttare i nuovi dati senza incorrere in costi significativi.

Se non avete ancora configurato un'esportazione collettiva dei dati, consultate la guida passo passo nel Centro assistenza Search Console. Per una panoramica dei dati disponibili tramite l'esportazione, guardate il video incorporato qui.

Creare avvisi e limitazioni relativi alla fatturazione

Quando valutate i costi, potrebbe essere utile riflettere su quanto vorreste spendere. È probabile che la risposta a questa domanda sia diversa per l'archiviazione, l'analisi e il monitoraggio. Ad esempio, potreste voler pagare un determinato importo per assicurarvi di archiviare tutti i vostri dati, ma meno per creare una piattaforma di generazione di report. Mentre ci pensate, potreste impostare un budget mensile da investire nei dati della Ricerca.

Dopo aver pensato all'importo del budget, potete creare un avviso sul budget in Google Cloud per evitare sorprese in fattura. Potete anche impostare regole di soglia che attivano le notifiche via email man mano che spendete l'importo del budget.

Screenshot della console Cloud che mostra come creare un avviso sulla fatturazione

Per una maggiore protezione, potete anche limitare il numero di byte fatturati per una query. Se scegliete questa opzione, il numero di byte letti dalla query verrà stimato prima dell'esecuzione. Se il numero di byte stimati supera il limite, la query non riesce senza comportare addebiti.

Non creare dashboard direttamente su dati non elaborati

BigQuery è veloce e tenta di collegare la vostra dashboard direttamente alle tabelle esportate di Search Console. Per i siti di grandi dimensioni, questo set di dati ha un volume molto elevato, in particolare per le query nel corso del tempo. Se create una dashboard che ricalcola le informazioni di riepilogo su ogni visualizzazione e la condividete all'interno dell'azienda, i costi delle query aumenteranno rapidamente.

Per evitare questi costi, valutate la possibilità di preaggregare i dati di ogni calo giornaliero e di materializzare una o più tabelle di riepilogo. La dashboard può quindi eseguire query su una tabella delle serie temporali molto più piccola, riducendo i costi di elaborazione.

Controllate la funzionalità di pianificazione delle query in BigQuery oppure valutate la possibilità di utilizzare BI Engine se preferite una soluzione più automatica.

Ottimizzare i costi di archiviazione dei dati

Quando avviate un'esportazione collettiva dei dati, per impostazione predefinita i dati vengono conservati per sempre nel set di dati BigQuery. Tuttavia, potete aggiornare le durate di scadenza delle partizioni predefinite in modo che le partizioni in base alle date vengano eliminate automaticamente dopo un anno, 16 mesi o la durata desiderata.

I dati esportati possono essere preziosi per voi, ma possono essere molto grandi. Utilizzate le vostre conoscenze aziendali e valutate la possibilità di conservare i dati abbastanza a lungo per analisi approfondite, ma non troppo a lungo da farli diventare un peso. Un'opzione è mantenere una versione campionata delle tabelle meno recenti e conservare l'intera tabella con date più recenti.

Ottimizzare le query SQL

Durante l'esecuzione di query sui dati di Search Console, assicuratevi che le query siano ottimizzate per migliorare il rendimento. Se non avete mai utilizzato BigQuery, consultate le linee guida e le query di esempio nel Centro assistenza. Ci sono tre tecniche che dovreste provare.

1. Limitate la scansione di input

Innanzitutto, evitate di utilizzare SELECT *, il metodo più costoso per eseguire query sui dati. BigQuery esegue una scansione completa di ogni colonna della tabella. L'applicazione di una clausola LIMIT non influisce sulla quantità di dati letti.

Poiché le tabelle esportate sono partizionate in base alle date, potete limitare la scansione di input solo ai giorni di interesse, soprattutto quando eseguite test e utilizzate i dati. Usate una clausola WHERE per limitare l'intervallo di date nella tabella partizionata in base alle date, in modo da ottenere un risparmio significativo sul costo delle query. Ad esempio, potete visualizzare gli ultimi 14 giorni utilizzando la seguente clausola:

WHERE data_date between DATE_SUB(CURRENT_DATE(), INTERVAL 14 day)

Per ogni query vorrete introdurre i filtri noti il prima possibile per ridurre la scansione di input. Ad esempio, se state analizzando le query, potreste voler filtrare le righe di query anonimizzate. Una query anonimizzata viene riportata come stringa di lunghezza zero nella tabella. Per farlo, potete aggiungere quanto segue:

WHERE query != ''

2. Campionate i dati

BigQuery offre una funzionalità di campionamento delle tabelle che consente di eseguire query su sottoinsiemi casuali di dati da grandi tabelle BigQuery. Il campionamento restituisce una varietà di record evitando i costi associati all'analisi e all'elaborazione di un'intera tabella ed è particolarmente utile durante lo sviluppo delle query o quando non sono necessari risultati esatti.

3. Utilizzate funzioni approssimative in cui non sono richiesti risultati esatti

BigQuery supporta una serie di funzioni di aggregazione approssimative, che forniscono risultati stimati e sono più economiche da calcolare rispetto alle controparti esatte. Ad esempio, se state cercando gli URL principali per impressioni rispetto a una determinata condizione, potreste utilizzare

SELECT APPROX_TOP_SUM(url, impressions, 10) WHERE datadate=...;

anziché

SELECT url, SUM(impressions) WHERE datadate=... GROUP BY url ORDER BY 2 DESC LIMIT 10;

Risorse

Questi sono solo alcuni suggerimenti che potete utilizzare per iniziare a gestire i costi; per scoprire di più, consultate le best practice per l'ottimizzazione dei costi per BigQuery.

Inoltre, come sempre, per eventuali domande o dubbi, rivolgetevi alla community di Google Search Central o contattateci su Twitter.