Wskazówki dotyczące wydajności BigQuery podczas zbiorczego eksportowania danych w Search Console

Poniedziałek, 5 czerwca 2023 r.

Zbiorczy eksport danych z Search Console to skuteczny sposób na przeniesienie danych o skuteczności witryny w wyszukiwarce do BigQuery, pozwalający zwiększyć ilość miejsca na dane oraz możliwości analizy i raportowania. Na przykład po wyeksportowaniu danych możesz łączyć w klastry zapytania i adresy URL, przeprowadzać analizy zapytań z długiego ogona oraz łączyć wyszukiwanie z innymi źródłami danych. Możesz także przechowywać dane tak długo, jak to potrzebne.

Ważne jest, aby korzystając z eksportu zbiorczego eksportu danych, podejmować uzasadnione decyzje dotyczące zarządzania kosztami przetwarzania i przechowywania danych. Wyeksportowanie danych z Search Console nie wiąże się z żadnymi opłatami. Przeczytaj jednak cennik BigQuery, aby dowiedzieć się, za co będą naliczane opłaty. W tym poście omówimy wskazówki, które pomogą Ci korzystać z nowych danych bez ponoszenia znacznych kosztów.

Jeśli nie masz jeszcze skonfigurowanego zbiorczego eksportu danych, zapoznaj się ze szczegółowym przewodnikiem w Centrum pomocy Search Console. Aby dowiedzieć się więcej o danych, które można wyeksportować, obejrzyj film umieszczony tutaj.

Tworzenie alertów i ograniczeń dotyczących płatności

Rozważając koszty, zastanów się, jaką kwotę możesz wydać. Odpowiedź na to pytanie prawdopodobnie będzie się różnić między przechowywaniem, analizą i monitorowaniem. Na przykład możesz chcieć zapłacić określoną kwotę, aby przechowywać wszystkie dane, ale mniej, aby utworzyć platformę raportowania. W takich sytuacjach warto zaplanować budżet miesięczny przeznaczony na inwestowanie w dane dotyczące wyszukiwania.

Po ustaleniu kwoty budżetu możesz utworzyć alert dotyczący budżetu Google Cloud, aby uniknąć niespodzianek na rachunku. Możesz też ustawić reguły progu, które uruchamiają e-maile z powiadomieniami o zbliżaniu się do kwoty budżetu.

Zrzut ekranu z konsoli Google Cloud pokazujący, jak utworzyć alert dotyczący płatności

Aby zwiększyć ochronę, możesz też ograniczyć liczbę naliczonych bajtów w zapytaniu. Jeśli to zrobisz, liczba bajtów odczytanych przez zapytanie zostanie oszacowana przed wykonaniem zapytania. Jeśli liczba szacowanych bajtów przekracza limit, zapytanie nie uda się i opłata nie zostanie naliczona.

Nie twórz paneli na podstawie nieprzetworzonych danych

BigQuery działa szybko i kuszące jest połączenie panelu bezpośrednio z wyeksportowanymi tabelami w Search Console. Jednak w przypadku dużych witryn ten zbiór danych jest bardzo duży (szczególnie w przypadku zapytań dotyczących czasu). Jeśli utworzysz panel, który ponownie sumuje informacje do każdego widoku danych, i udostępnisz je w swojej firmie, szybko wygeneruje to duże koszty zapytań.

Aby uniknąć tych kosztów, rozważ agregację danych z każdego codziennego spadku i stworzenie co najmniej 1 tabeli podsumowania. Twój panel może wtedy wysyłać zapytania dotyczące znacznie mniejszej tabeli serii czasowych, co zmniejsza koszty przetwarzania.

Sprawdź funkcje planowania zapytań w BigQuery, a jeśli chcesz bardziej zautomatyzowanego rozwiązania, rozważ użycie BI Engine.

Zoptymalizuj koszty przechowywania danych

Po rozpoczęciu zbiorczego eksportowania danych dane są domyślnie przechowywane na stałe w zbiorze danych BigQuery. Możesz jednak zaktualizować domyślny czas ważności partycji, tak aby partycje dat zostały automatycznie usunięte po roku, 16 miesiącach lub dowolnie wybranym czasie trwania.

Wyeksportowane dane mogą być cenne, ale mogą być bardzo duże. Wykorzystaj swoją wiedzę biznesową i zachowuj je na tyle długo, by przeprowadzić głęboką analizę, ale nie za długo, żeby stały się uciążliwe. Jedną z opcji jest przechowywanie próbek starszych tabel z zachowaniem całej tabeli dla nowszych dat.

Zoptymalizuj zapytania SQL

Gdy wysyłasz zapytania dotyczące danych z Search Console, upewnij się, że są to pytania zoptymalizowane pod kątem skuteczności. Jeśli dopiero zaczynasz korzystać z BigQuery, zapoznaj się ze wskazówkami i przykładowymi zapytaniami w Centrum pomocy. Dostępne są 3 metody, które należy wypróbować.

1. Ogranicz skanowanie danych wejściowych

Przede wszystkim, unikaj używania SELECT *, jest to najdroższa metoda wysyłania zapytań o dane, ponieważ BigQuery skanuje wszystkie kolumny w tabeli. Zastosowanie klauzuli LIMIT nie wpływa na ilość odczytywanych danych.

Wyeksportowane tabele są partycjonowane według daty, dlatego możesz ograniczyć skanowanie danych wejściowych tylko do interesujących Cię dni, zwłaszcza podczas testowania i używania danych. Użyj klauzuli WHERE, aby ograniczyć zakres dat w tabeli partycjonowanej według daty, co przyniesie znaczne oszczędności w kosztach zapytania. Możesz na przykład wyświetlić tylko ostatnie 14 dni za pomocą tej klauzuli:

WHERE data_date between DATE_SUB(CURRENT_DATE(), INTERVAL 14 day)

W przypadku każdego wykonywanego zapytania jak najszybciej wprowadź znane filtry, aby ograniczyć skanowanie wejściowe. Jeśli na przykład analizujesz zapytania, lepiej odfiltrować wiersze zapytań zanonimizowanych. Zanonimizowane zapytanie jest uwzględniane w tabeli jako ciąg znaków o zerowej długości. Aby to zrobić, możesz dodać:

WHERE query != ''

2. Wykonaj próbkowanie danych

BigQuery umożliwia próbkowanie tabel, które pozwala wysyłać zapytania dotyczące losowych podzbiorów danych z dużych tabel BigQuery. Próbkowanie zwraca różne rekordy, pomagając uniknąć kosztów związanych ze skanowaniem i przetwarzaniem całej tabeli. Jest szczególnie przydatne podczas tworzenia zapytań lub gdy dokładne wyniki nie są potrzebne.

3. Użyj funkcji przybliżonych, gdy dokładne wyniki nie są wymagane

BigQuery obsługuje kilka przybliżonych funkcji agregacji, które pozwalają uzyskać szacowane wyniki i są dużo tańsze niż ich dokładne odpowiedniki. Jeśli np. szukasz najlepszych adresów URL według wyświetleń pod pewnymi warunkami, możesz użyć

SELECT APPROX_TOP_SUM(url, impressions, 10) WHERE datadate=...;

zamiast

SELECT url, SUM(impressions) WHERE datadate=... GROUP BY url ORDER BY 2 DESC LIMIT 10;

Zasoby

Mamy kilka wskazówek, które pomogą Ci zacząć zarządzać kosztami. Aby dowiedzieć się więcej, zapoznaj się ze sprawdzonymi metodami optymalizacji kosztów BigQuery.

Jeśli masz pytania lub wątpliwości, skontaktuj się ze społecznością Centrum wyszukiwarki Google lub napisz do nas na Twitterze.