Perguntas frequentes sobre o DSPL

Este documento mostra os problemas mais frequentes enfrentados pelos proprietários de dados na hora de criar conjuntos de dados DSPL e fazer upload deles para o Public Data Explorer.

Índice

Perguntas gerais

O que é DSPL?

DSPL é a sigla em inglês de linguagem de publicação de conjunto de dados. É um formato de representação para os metadados (informações sobre o conjunto de dados, como nome e provedor, além dos conceitos que ele contém e exibe) e dados reais de conjuntos de dados. Os metadados são especificados em XML, enquanto os dados são fornecidos no formato CSV.

Quais são as principais vantagens do uso da DSPL?

A DSPL foi projetada do zero para visualizações de dados avançados, como as do Explorador de dados públicos. A criação deles requer metadados detalhados sobre frações, dimensões e métricas, entidades que não são tão compatíveis com outros formatos de conjunto de dados.

A DSPL também oferece suporte a importações de conjuntos de dados, hierarquias de conceitos (por exemplo, "country" é o filho de "continente"), dados geocodificados e vários outros recursos exclusivos que melhoram a experiência de exploração de dados.

A DSPL é uma substituição para outros formatos usados para troca de dados e/ou análise?

Geralmente não. Conforme observado na resposta anterior, a DSPL foi projetada para visualização e exploração interativas. Não é um formato genérico de troca de dados ou análise.

Por fim, consideramos a DSPL como complementar a outros formatos. Os usuários precisam ser capazes de criar conjuntos de dados DSPL de outras fontes para criar visualizações de dados avançadas e interativas.

O que posso fazer com um conjunto de dados DSPL?

É possível importá-los para o Public Data Explorer, publicá-los e permitir que outras pessoas explorem os dados em visualizações avançadas e interativas. Os conjuntos de dados publicados também podem ser incluídos no diretório de dados públicos para que os usuários interessados possam encontrá-los.

Atualmente, este é o único aplicativo usando DSPL. No entanto, incentivamos as pessoas a usá-lo em outros aplicativos e esperamos que a adoção aumente.

Que tipos de conjuntos de dados são mais apropriados para DSPL?

O formato DSPL é compatível com coleções arbitrárias de tabelas. Por isso, ele é apropriado para uma ampla variedade de tipos de conjuntos de dados. No entanto, apenas um subconjunto de conjuntos de dados DSPL produzirá visualizações interessantes no Explorador de dados públicos. O último produto, em especial, funciona melhor para dados que:

  • Quantitativo: cada ponto de dados tem uma ou mais métricas numéricas associadas a ele (por exemplo, "population", "número de casos de gripe", "receita".
  • Categórico: os dados podem ser organizados em um número finito de categorias de descrição de texto (por exemplo, "países", "gêneros", "faixas etárias").
  • Séries temporais:para cada categoria, as métricas de dados variam em função do tempo, e os pontos adjacentes têm pelo menos um dia de intervalo entre si. O Explorador de dados públicos não pode visualizar incrementos de tempo menores que um dia.
  • Agregada: para cada combinação de tempo, categoria ou métrica, há um único ponto de dados, não uma lista de eventos ou fatos.

Criei um conjunto de dados DSPL e gostaria que ele aparecesse no diretório de dados públicos do Google para que outras pessoas possam encontrá-lo. Com quem devo entrar em contato?

Preencha este formulário e envie um link para seu conjunto de dados.

Estou tendo problemas com a DSPL. Onde posso receber ajuda?

Poste seu problema no fórum de discussão do DSPL.

Arquivos do conjunto de dados DSPL

Como devo codificar meus arquivos XML e CSV?

Todos os arquivos XML e CSV precisam ser codificados em UTF-8. Observe que ASCII (às vezes chamado de "texto simples") é um subconjunto do UTF-8. Portanto, conjuntos de dados nesse formato também devem funcionar.

Qual software devo usar para criar e editar meus arquivos de conjunto de dados?

Um editor de texto simples, com destaque de sintaxe para facilitar a leitura, é a escolha recomendada para editar arquivos XML. Consulte este artigo para ver algumas recomendações específicas da plataforma. Não recomendamos o uso de processadores de texto de uso geral completos, já que eles costumam inserir outras tags de formatação no XML, o que pode causar erros de importação.

Uma planilha geralmente é a maneira mais fácil de criar e editar seus arquivos de dados. No entanto, não se esqueça de salvá-los no formato correto (valores separados por vírgula/CSV).

Tenho dados no Excel, no SPSS, no SAS ou em algum outro sistema. Posso importá-los diretamente para o Explorador de dados públicos?

Agora não. Primeiro, exporte seus dados para o formato CSV, adicione os metadados XML adequados e, em seguida, faça o upload de um conjunto de dados em conformidade com DSPL no Explorador de dados públicos.

O nome dos meus arquivos é importante?

O nome do arquivo XML do conjunto de dados precisa terminar em .xml. Os arquivos de dados CSV associados podem ter qualquer nome, desde que correspondam aos nomes fornecidos nas tags <file> nos metadados XML. O arquivo ZIP usado para empacotar e importar o conjunto de dados para o Explorador de dados públicos também pode ter qualquer nome.

Meus arquivos CSV devem ser classificados?

Sim. Classifique o conteúdo dos arquivos CSV pelas dimensões não relacionadas a tempo (em qualquer ordem ou direção) e, opcionalmente, por qualquer uma das outras colunas (por exemplo, tempo).

Por exemplo, se você tiver um CSV com as colunas date, dimension1, dimension2, metric1 e metric2, classifique por dimension1 e dimension2 (em qualquer ordem). Se você também quiser classificar pela coluna de data/hora, use a última opção.

A classificação dessa maneira mantém as observações para cada série temporal agrupadas, o que melhora muito a eficiência do processo de importação da DSPL.

Modelo e sintaxe do XML

Como decidir o que precisa ser uma métrica e uma dimensão?

Uma dimensão é uma entidade usada para segmentar ou filtrar seus dados. Uma métrica, por outro lado, descreve os valores observados associados a cada ponto de dados.

Geralmente, as dimensões são categóricas, enquanto as métricas são valores não categóricos, variáveis de tempo e numéricos. Veja alguns exemplos protográficos de cada um:

  • Dimensões: país, estado, condado, região, ano, mês, sexo, categoria de idade, segmento do setor
  • Métricas: população, PIB, taxa de desemprego, alfabetização, receita, custo e preço

Qual é a diferença entre uma propriedade e um atributo?

As propriedades são anexadas a cada instância de um conceito. Por exemplo, uma propriedade de continente terá valores diferentes para países diferentes. Os atributos, por outro lado, estão associados ao conceito como um todo. Por exemplo: um atributo isParent é verdadeiro para todos os continentes.

A ordem das tags é importante?

Sim. Adicione suas tags na ordem em que elas aparecem no Guia do desenvolvedor. Por exemplo, <topic> precisa aparecer antes de <type> na definição de um conceito.

A capitalização é importante?

Sim, os nomes de atributos e tag XML precisam usar letras maiúsculas da mesma forma que aparecem no Guia para desenvolvedores. Por exemplo, o uso de isparent em vez de isParent em uma tag property causará um erro de importação.

Um conceito pode ter dois pais?

Não. Cada conceito pode ter apenas uma referência isParent.

Um conceito pode se referir a si mesmo?

Sim. Consulte o conjunto de dados de vendas de varejo dos EUA para ver um exemplo de hierarquia de conceito de autorreferência.

Formatação de dados

Como faço para formatar as datas?

As datas podem ser escritas em qualquer formato descrito com o padrão Joda DateTime. O código de formatação do Joda precisa ser armazenado em um atributo format no elemento da coluna da tabela correspondente.

Veja abaixo os códigos de formatação do Joda para alguns formatos de data conhecidos:

Exemplo de data Formato Joda
2010 yyyy
Maio de 2010 MMM yyyy
21/05/2010 MM/dd/yyyy
21/05/2010 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

Especificamente, observe que o código Joda para caracteres de mês é M, não m (que representa minutos).

Posso usar unidades de tempo menores que um dia?

O formato Joda DateTime e, portanto, o DSPL também são compatíveis com valores de tempo na ordem de milissegundos. No entanto, o Explorador de dados públicos não pode (ainda) visualizar granularidades menores que um dia.

Como usar conceitos canônicos

O que são "conceitos canônicos" e como eles são úteis?

O termo "conceitos canônicos" se refere a um conjunto de conceitos criados pelo Google que são destinados como "elementos básicos" básicos em outros conjuntos de dados. Os próprios conceitos são definidos em seis conjuntos de dados DSPL que agrupam o primeiro em categorias como "time", "geo" etc. Para ter acesso a esses conceitos, basta importar o conjunto de dados pai apropriado no início do seu arquivo XML DSPL.

Conceitos canônicos são úteis porque economizam tempo.Por exemplo, não precisam inserir manualmente os valores de latitude e longitude para cada país no mundo. Eles também indicam como seus dados devem ser visualizados. Por exemplo, o Public Data Explorer usa os conceitos time:... para formatar o eixo x do gráfico de linhas, usa a propriedade name do conceito entity:entity para produzir strings para a IU do seletor de dimensão, usa as propriedades latitude e longitude de geo:location para exibir dados na visualização do mapa e assim por diante.

Todos os conceitos canônicos são compreendidos pelo Explorador de dados públicos?

Embora a maioria dos conceitos canônicos fornecidos seja compreendida pelo Explorador de dados públicos, alguns deles não podem ser visualizados (por enquanto). Veja a seguir uma lista com algumas soluções alternativas:

Conceito Alternativa
quantity:index Use quantity:ratio ou quantity:magnitude.
time:quarter Use time:month conforme descrito no Manual do DSPL.
time:week Use time:day conforme descrito no Manual do DSPL.

Fique atento para um melhor suporte a esses conceitos no futuro.

Como usar um conceito canônico no meu conjunto de dados?

Consulte a documentação para o conceito específico que você gostaria de usar, e também verifique o Manual de DSPL, que tem instruções detalhadas detalhadas para os mais comuns.

Como importar e visualizar conjuntos de dados

Por que não consigo importar meu conjunto de dados com sucesso?

A interface de upload do Buscador de dados públicos verificará seu conjunto de dados DSPL e bloqueia a importação se forem detectados erros. O importador é muito sensível à ortografia, às letras maiúsculas e à ordem / posicionamento da tag no arquivo XML, bem como ao layout e à classificação de dados nos arquivos CSV. Por isso, pode levar alguns cartões para corrigir isso e importar seu conjunto de dados.

A primeira etapa para resolver esses problemas é analisar as mensagens de erro exibidas na IU e tomar as medidas corretivas apropriadas. Como nem sempre é fácil entender essas mensagens (algo que estamos trabalhando para melhorar), compilamos uma tabela que explica as mais comuns:

Erro Explicação
chave duplicada: ... A tabela de definição do seu conceito tem um valor de ID repetido (ou seja, um valor na coluna com o mesmo nome do conceito). Esses valores são usados para identificar exclusivamente instâncias individuais do conceito. Portanto, cópias não são permitidas.
Exceção ao analisar linhas de dados da origem causadas pela combinação de propriedades [...] em mais de um grupo distinto de linhas nos dados. O CSV não está classificado corretamente. Consulte a discussão acima para instruções sobre como fazer isso.
Exceção ao analisar linhas de dados da origem causadas pelo formato inválido: "..." é mal formada em "..." A formatação desse valor (normalmente uma data) no CSV não é consistente com o formato indicado no arquivo XML. Altere o formato ou o valor para que eles correspondam.
A exceção na análise das linhas de dados da origem causada pelo número de elementos na linha (...) não corresponde ao número de propriedades especificadas (...) para a linha: [...] Uma linha no CSV tem muitos ou poucos valores. Corrija a formatação dessa linha.
Exceção ao analisar linhas de dados da origem causadas pela string de entrada "..." Um valor no CSV (geralmente um número inteiro ou flutuante) tem caracteres não numéricos, como um símbolo de dólar, cifrão etc., que impedem a análise correta. Remova esses caracteres extras.
Exceção na análise de linhas de dados da origem causadas pelo valor de dados "..." para a propriedade "..." do Slice "..." não é um valor de chave do conceito de referência "...". Uma das fatias contém um valor de dimensão não reconhecido (por exemplo, um que não esteja na lista de todos os valores possíveis para o conceito correspondente). Volte para a tabela de definição de conceito de dimensão e adicione o valor, se necessário.
O cabeçalho "..." nos dados é uma propriedade constante na tabela O cabeçalho da coluna no CSV não corresponde ao ID da coluna definido na definição da tabela XML. Mude uma das opções para que elas sejam iguais.
Erro de análise XML ... Foi encontrado conteúdo inválido a partir do elemento "...". Um deles "{'}", '{...}', ... é esperado. O elemento XML referenciado não está no lugar certo. Verifique se a ordem está correta e se o elemento tem o pai correto (por exemplo, info para name).
Erro de análise XML. O atributo "..." não pode aparecer no elemento "...". A ortografia, o caso ou o local deste atributo de tag XML está incorreto. Consulte a documentação para ver o uso apropriado.
Erro de análise de XML. ... o elemento "..." não pode ter o caractere [filhos] porque o tipo de conteúdo é do tipo somente elemento. Há um texto perdido no arquivo XML (possivelmente causado por uma tag que não tem < ou >). Corrija o texto e tente novamente.

Se você tiver dificuldade para entender uma mensagem que não está na lista acima, poste uma mensagem no fórum do DSPL, e vamos tentar ajudar.

Meu conjunto de dados é importado, mas não consigo exibir nenhuma visualização no Buscador de dados públicos. O que está acontecendo?

Esse problema ocorre quando seu conjunto de dados é uma DSPL válida, mas não está no subconjunto de DSPL que pode ser visualizado no Public Data Explorer. Existem várias causas possíveis para isso. As mais comuns são:

  • Definição de um conceito de dimensão sem uma tabela:sem essas informações, o Explorador de dados públicos não sabe quais opções exibir na IU.
  • Criação de um conjunto de dados com apenas métricas: o Explorador de dados públicos requer pelo menos uma dimensão categórica (ou seja, não tempo) definida em algum lugar no conjunto de dados para estruturar corretamente a IU de visualização.
  • Não incluir uma dimensão de tempo nas frações:o Explorador de dados públicos só pode visualizar séries temporais. As fatias que não são relacionadas a tempo são ignoradas pelo produto.
  • Usando uma dimensão de tempo diferente dos time:... canônicos: o Explorador de dados públicos usa os conceitos canônicos time para definir e animar as várias visualizações no produto. Ele não entende outros conceitos de tempo, por exemplo, aqueles criados no próprio conjunto de dados.
  • Usando valores de tempo muito grandes ou muito pequenos: o Explorador de dados públicos ainda não visualiza conjuntos de dados com granularidades menores que um dia. Por outro lado, a ferramenta tem problemas com valores de ano muito grandes (por exemplo, dezenas de milhares). Esperamos que essas granularidades sejam mais flexíveis no futuro.

Como posso integrar o conjunto de dados visualizado ao meu site?

Consulte este artigo na Central de Ajuda do Explorador de dados públicos. Conforme explicado anteriormente, é possível conseguir uma incorporação completa (ou seja, uma que inclua os controles de exploração) ajustando manualmente o URL de incorporação.