Types de données et types sémantiques

Lorsque vous créez un connecteur communautaire, chaque champ que vous définissez dans le schéma nécessite un type de données. Le type de données définit le type primitif du champ, tel que BOOLEAN, STRING, NUMBER, etc.

En plus des types de données, Data Studio utilise également des types sémantiques. Les types sémantiques permettent de décrire le type d'informations que les données représentent. Par exemple, un champ avec un type de données NUMBER peut représenter sémantiquement un montant ou un pourcentage, et un champ avec un type de données STRING peut représenter sémantiquement une ville. Pour voir les types sémantiques disponibles, veuillez consulter la documentation sur les types sémantiques

Schéma du connecteur communautaire et champs Data Studio

Lorsque vous définissez le schéma de votre connecteur communautaire, chaque champ comporte différentes propriétés qui déterminent comment il est représenté et utilisé dans Data Studio. Exemple :

Le conceptType est défini dans le schéma de votre connecteur à l'aide de la propriété conceptType. Cette propriété détermine si le champ est traité comme une dimension ou une métrique. Pour en savoir plus sur la différence entre les métriques et les dimensions, consultez at Dimensions and metrics.
Le type sémantique peut être défini dans le schéma du connecteur ou être détecté automatiquement par Data Studio en fonction de la propriété de type de données définie dans votre connecteur et des valeurs de données renvoyées par votre connecteur. Pour en savoir plus sur le fonctionnement de cette fonctionnalité, consultez Détection automatique du type sémantique.
Le type d'agrégation détermine si les valeurs de métrique (les dimensions sont ignorées) peuvent être agrégées à nouveau. Si vous définissez la propriété semantics.isReaggregatable sur true, l'agrégation SUM est utilisée par défaut. Sinon, la valeur Auto est définie. Vous pouvez également définir manuellement le type d'agrégation par défaut pour les champs réagrégables à l'aide de la defaultAggregationType propriété.

Lorsque vous configurez et vous connectez à l'aide d'un connecteur dans Data Studio, l'éditeur de champs affiche le schéma complet du connecteur en fonction de la façon dont vous avez défini les propriétés ci-dessus. Si vous avez inclus les types sémantiques, ils s'affichent tels que vous les avez définis. Si vous utilisez la détection automatique du type sémantique, les champs s'affichent tels qu'ils ont été détectés. Écran "Champs"

Définir des informations sémantiques

Il existe deux façons de définir des informations sémantiques. Vous pouvez définir manuellement la sémantique des champs ou laisser Data Studio la détecter automatiquement.

Par exemple, si vous avez un nombre qui représente sémantiquement des dollars américains, Data Studio ne pourra pas détecter automatiquement ce type sémantique. De plus, la détection sémantique automatique nécessite que Data Studio effectue des appels d'extraction de données pour chaque champ de votre schéma. Si vous spécifiez manuellement le schéma, aucun appel d'extraction de données n'est effectué. Si vous connaissez le type sémantique (par exemple, devise, pourcentage, date, etc.) de vos données, nous vous recommandons de le définir explicitement dans le schéma pour des raisons de précision et de performances.

Définir manuellement des types sémantiques (recommandé)

Si vous connaissez vos types sémantiques, vous pouvez définir manuellement semantics pour chaque champ de schéma. Pour en savoir plus sur les propriétés disponibles, consultez la page de référence des champs . Si vous choisissez de définir manuellement des types sémantiques, nous vous recommandons de définir semanticType et semanticGroup pour chaque champ. Si vous fournissez manuellement ces propriétés, le processus de détection automatique du type sémantique ne s'exécute pas. Si vous définissez manuellement certains de vos champs, mais pas tous, ceux que vous ne spécifiez pas sont définis par défaut sur Text, Number ou Boolean, selon le dataType spécifié pour le champ.

Voici un exemple de schéma simple qui définit manuellement des types sémantiques. Income est défini comme une devise et Filing Year comme une date.

data-studio/semantics.gs

Afficher sur GitHub

const schema = [
  {
    name: "Income",
    label: "Income (in USD)",
    dataType: "NUMBER",
    semantics: {
      conceptType: "METRIC",
      semanticGroup: "CURRENCY",
      semanticType: "CURRENCY_USD",
    },
  },
  {
    name: "Filing Year",
    label: "Year in which you filed the taxes.",
    dataType: "STRING",
    semantics: {
      conceptType: "METRIC",
      semanticGroup: "DATE_OR_TIME",
      semanticType: "YEAR",
    },
  },
];

Résoudre les problèmes liés aux types sémantiques manuels

Si vous définissez incorrectement vos types sémantiques pour les données sous-jacentes, ils ne fonctionneront pas correctement. Il peut être difficile de tester cela, mais vous pouvez effectuer quelques actions pour vous aider à identifier les problèmes.

Renvoiez deux ou trois lignes de vos données au lieu de toutes les lignes, puis inspectez-les manuellement.
Créez un tableau dans Data Studio qui n'utilise que le champ que vous essayez de vérifier.
Portez une attention particulière aux champs Geo et Date, car ils ont le format le plus strict.

Détection automatique du type sémantique

Si vous n'avez défini aucun type sémantique dans votre schéma, Data Studio tentera de les détecter automatiquement en fonction de la propriété de type de données et du format des valeurs de données renvoyées par votre connecteur.

Voici les étapes du processus de détection automatique :

Demandez le schéma en exécutant la getSchema fonction de votre connecteur communautaire.
Parcourez les lots de champs définis dans le schéma du connecteur et émettez getData des requêtes les champs. Les requêtes getData sont exécutées avec le paramètre sampleExtraction défini sur true pour indiquer que les requêtes de données sont destinées à la détection sémantique.
En fonction du type de données du champ et du format de la valeur renvoyée par la requête getData, identifiez le type sémantique du champ.

Options de gestion de la détection automatique du type sémantique

Lorsque Data Studio exécute la fonction getData d'un connecteur communautaire à des fins de détection sémantique, la requête entrante contient une propriété sampleExtraction qui est définie sur true. Les données renvoyées par votre connecteur ne sont utilisées par Data Studio que pour identifier le type sémantique du champ. Étant donné que la valeur n'est utilisée à aucune autre fin, elle ne nécessite pas de données réelles provenant de votre source externe.

Vous pouvez améliorer la détection du type sémantique dans votre code de plusieurs manières :

Recommandé : transmettre des valeurs prédéfinies
Renvoie une valeur prédéfinie pour chaque champ qui représente le mieux le type sémantique du champ et qui est correctement détectée par Data Studio. Par exemple, si le type sémantique d'un champ est Pays, renvoyez une valeur telle que IT pour l'Italie. L'autre avantage de cette approche est qu'elle est beaucoup plus rapide, car elle ne nécessite pas d'envoyer de requêtes HTTP au service tiers pour obtenir des données.
Ne renvoyer que n enregistrements
Si le service tiers à partir duquel vous extrayez des données accepte les limites de lignes lorsque vous demandez des données, renvoyez un petit sous-ensemble de lignes à Data Studio au lieu de l'ensemble de données complet. Cela limitera la quantité de données que vous devrez transmettre à Data Studio pour chaque requête de détection sémantique.
Demander toutes les colonnes et mettre en cache la réponse
Si vous pouvez demander toutes les colonnes du service tiers à partir duquel vous extrayez des données, lors de la première requête de détection sémantique reçue de Data Studio, extrayez toutes les colonnes et mettez en cache les résultats. Pour les requêtes de détection sémantique suivantes, extrayez les valeurs de colonne du cache au lieu d'envoyer des requêtes HTTP supplémentaires au service tiers.
Ne rien changer
Vous pouvez choisir de ne pas implémenter d'adaptation spécifique pour les requêtes où sampleExtraction est défini sur true. Le processus de détection sémantique sera alors plus lent, car Data Studio devra extraire toutes les données pour ce processus. De plus, cela affectera le taux de requêtes de votre source de données externe, car de nombreuses requêtes de détection sémantique seront exécutées en parallèle.

Formats reconnus pour la détection automatique du type sémantique

Date et heure

YYYY/MM/DD-HH:MM:SS
YYYY-MM-DD [HH:MM:SS[.uuuuuu]]
YYYY/MM/DD [HH:MM:SS[.uuuuuu]]
YYYYMMDD [HH:MM:SS[.uuuuuu]]
Sat, 24 May 2008 20:09:47 GMT
2008-05-24T20:09:47Z
Heure : epoch pour la seconde, la microseconde, la milliseconde et la nanoseconde.

Données géographiques

Nom ou code du continent
Nom ou code du sous-continent
Nom ou code de la région
Nom ou code du pays. Consultez également ISO_3166-1.
Nom de la ville
Valeur de latitude et de longitude séparées par une virgule
Nom et code de la zone de diffusion