Dicas de eficiência do BigQuery para exportações de dados em massa do Search Console

Segunda-feira, 5 de junho de 2023

A exportação de dados em massa do Search Console é uma maneira eficiente de transferir os dados de desempenho da pesquisa do seu site para o BigQuery para aumentar os recursos de armazenamento, análise e geração de relatórios. Por exemplo, após exportar os dados, é possível realizar o clustering de consultas e URLs, realizar análises em consultas de pesquisa de cauda longa e agrupar a pesquisa a outras fontes de dados. Você também pode optar por reter os dados pelo tempo que precisar.

Ao usar exportações de dados em massa, é importante tomar decisões informadas para gerenciar os custos de processamento e armazenamento de dados. Não há custos associados à exportação de dados no Search Console. No entanto, veja os preços do BigQuery para entender o que será cobrado. Nesta postagem, discutiremos dicas que ajudam você a aproveitar os novos dados sem gerar custos significativos.

Se você ainda não tiver configurado uma exportação de dados em massa, confira o guia explicativo na Central de Ajuda do Search Console. Para ter uma visão geral dos dados disponíveis na exportação, assista ao vídeo incorporado aqui.

Criar restrições e alertas de faturamento

Ao considerar seus custos, pode ser útil pensar em quanto você quer gastar. A resposta a essa pergunta provavelmente será diferente em relação ao armazenamento, à análise e ao monitoramento. Por exemplo, talvez você queira pagar um determinado valor para ter certeza de que está armazenando todos os seus dados, mas menos para criar uma plataforma de relatórios. Pensando nisso, é bom definir um orçamento mensal para investir em dados da Pesquisa.

Depois de definir seu orçamento, você pode criar um alerta de orçamento do Google Cloud para evitar surpresas na fatura. Também é possível definir limites que acionam notificações por e-mail quando você estiver perto de atingir o valor proposto.

Captura de tela do console do Cloud mostrando como criar um alerta de faturamento

Para ter ainda mais segurança, também é possível restringir o número de bytes faturados de uma consulta. Com isso, o número de bytes que a consulta lerá é estimado antes da execução. Se esse número estiver além do limite, a consulta falhará sem gerar cobranças.

Não criar painéis diretamente nos dados brutos

O BigQuery é rápido, e é tentador vincular seu painel diretamente às tabelas exportadas do Search Console. Porém, para sites grandes, esse conjunto de dados é enorme (especialmente com consultas ao longo do tempo). Se você criar um painel que recalcula as informações resumidas sobre cada visualização e as compartilha com sua empresa, isso rapidamente vai gerar custos muito altos.

Para evitar esses custos, pré-agregue os dados de cada drop diário e materialize uma ou mais tabelas de resumo. Assim, o painel consulta uma tabela de série temporal muito menor, diminuindo os custos de processamento.

Confira a funcionalidade programação de consultas no BigQuery ou considere usar o BI Engine se quiser uma solução mais automatizada.

Otimizar custos de armazenamento de dados

Quando você inicia uma exportação de dados em massa, por padrão, eles são mantidos para sempre no conjunto de dados do BigQuery. No entanto, é possível atualizar os prazos de validade padrão de partição para que as partições de data sejam excluídas automaticamente após um ano, 16 meses ou qualquer duração.

Os dados exportados podem ser valiosos para você, mas muito grandes. Use seu conhecimento empresarial e mantenha os dados por um tempo que seja suficiente para análises detalhadas, mas que não seja longo demais a ponto de causar prejuízos. Uma opção é manter uma versão de amostra das tabelas mais antigas e toda a tabela de datas mais recentes.

Otimizar suas consultas SQL

Ao consultar os dados do Search Console, verifique se as consultas estão otimizadas para desempenho. Se você é iniciante no BigQuery, confira diretrizes e exemplos de consultas na Central de Ajuda. Há três técnicas para você testar.

1. Limitar a verificação de entrada

Primeiro, evite usar SELECT *. Essa é a maneira mais cara de consultar os dados. O BigQuery faz uma verificação completa de cada coluna na tabela. A aplicação de uma cláusula LIMIT não afeta a quantidade de dados lidos.

Como as tabelas exportadas são particionadas por data, é possível limitar a verificação de entrada a apenas dias de interesse, especialmente quando você está testando e interagindo com os dados. Use uma cláusula WHERE para limitar o período na tabela particionada por data. Isso gera uma economia significativa no custo da consulta. Por exemplo, é possível analisar só os últimos 14 dias usando a seguinte cláusula:

WHERE data_date between DATE_SUB(CURRENT_DATE(), INTERVAL 14 day)

Para cada consulta feita, introduza filtros conhecidos o mais rápido possível para reduzir a verificação de entrada. Por exemplo, se você estiver analisando consultas, é bom filtrar linhas de consultas anônimas. Uma consulta anônima é relatada como uma string de tamanho zero na tabela. Para fazer isso, adicione o seguinte:

WHERE query != ''

2. Fazer amostras dos dados

O BigQuery oferece um recurso de amostragem de tabelas, que permite consultar subconjuntos aleatórios de dados dentro de tabelas grandes. A amostragem retorna vários registros e, ao mesmo tempo, evita os custos associados à verificação e ao processamento de uma tabela inteira. Ela é especialmente útil no desenvolvimento de consultas ou quando não são necessários resultados exatos.

3. Usar funções aproximadas quando resultados exatos não são necessários

O BigQuery é compatível com várias funções de agregação aproximadas que oferecem resultados estimados e que são muito mais baratas do que suas contrapartes exatas. Por exemplo, se você estiver procurando os principais URLs por impressões em alguma condição, poderá usar

SELECT APPROX_TOP_SUM(url, impressions, 10) WHERE datadate=...;

em vez de

SELECT url, SUM(impressions) WHERE datadate=... GROUP BY url ORDER BY 2 DESC LIMIT 10;

Recursos

Essas são apenas algumas dicas para começar a gerenciar seus custos. Para saber mais, consulte as práticas recomendadas de otimização de custos para o BigQuery.

Como sempre, se você tiver alguma dúvida, entre em contato pela Comunidade da Central da Pesquisa Google ou pelo Twitter.