Fogli connessi consente di analizzare petabyte di dati direttamente all'interno di Fogli. Puoi collegare i tuoi fogli di lavoro a un data warehouse BigQuery ed eseguire l'analisi utilizzando gli strumenti familiari di Fogli, come tabelle pivot, grafici e formule.
Questa guida utilizza il set di dati pubblico shakespeare per mostrare come utilizzare Fogli connessi. Il set di dati contiene le seguenti informazioni:
Campo | Tipo | Descrizione |
---|---|---|
parola | STRING | Una singola parola univoca (dove lo spazio vuoto rappresenta il delimitatore) estratta da un corpus |
word_count | INTEGER | Il numero di volte in cui questa parola compare in questo corpus |
corpus | STRING | L'opera da cui questa parola è stata estratta |
corpus_date | INTEGER | L'anno in cui è stato pubblicato il corpus |
Utilizzo di un DataSource
Aggiungere un'origine dati BigQuery
Per aggiungere un'origine dati, fornisci un metodo AddDataSourceRequest in batchUpdate. Il corpo della richiesta deve specificare un campo DataSource.
Sostituisci <YOUR_PROJECT_ID>
di seguito con un ID progetto Google Cloud valido.
"addDataSource":{
"dataSource":{
"spec":{
"bigQuery":{
"projectId":"<YOUR_PROJECT_ID>",
"tableSpec":{
"tableProjectId":"bigquery-public-data",
"datasetId":"samples",
"tableId":"shakespeare"
}
}
}
}
}
Una volta creata correttamente un'origine dati, viene creato un foglio DATA_SOURCE
associato per fornire un'anteprima di massimo 500 righe. L'anteprima non è disponibile immediatamente. Viene attivata un'esecuzione in modo asincrono per importare i dati BigQuery.
AddDataSourceResponse contiene i seguenti campi:
dataSource: il valore DataSource appena creato. Anche il campo dataSourceId viene compilato e verrà fatto riferimento per creare ogni oggetto DataSource dall'origine dati.
dataExecutionStatus: come accennato in precedenza, questo è lo stato di un'esecuzione che importa i dati di BigQuery nel foglio di anteprima. Per ulteriori informazioni, consulta DataExecutionStatus.
Aggiornare o eliminare un'origine dati
Utilizza il metodo batchUpdate e fornisci una richiesta UpdateDataSourceRequest o DeleteDataSourceRequest di conseguenza.
Utilizzo degli oggetti DataSource
Dopo aver aggiunto un'origine dati al foglio di lavoro, è possibile creare un oggetto dell'origine dati dall'origine dati. Un oggetto dell'origine dati è un normale strumento di Fogli, come tabelle pivot, grafici e formule, ma integrato con Fogli connessi per ottimizzare l'analisi.
Esistono quattro tipi di oggetti:
- Tabella DataSource
- Tabella pivot DataSource
- Grafico DataSource
- Formula DataSource
Aggiungi una tabella DataSource
Noto anche come "Estrai" nell'editor di Fogli, l'oggetto importa in Fogli un dump statico dei dati dell'origine dati. Come una tabella pivot, la tabella è specificata e ancorata alla cella in alto a sinistra.
In questo esempio, utilizziamo il metodo batchUpdate e forniamo una richiesta updateCells per creare una tabella dell'origine dati composta da due colonne, word
e word_count
, con un massimo di 1000 righe.
"updateCells":{
"rows":{
"values":[
{
"dataSourceTable":{
"dataSourceId":"<YOUR_DATA_SOURCE_ID>",
"columns":[
{
"name":"word"
},
{
"name":"word_count"
}
],
"rowLimit":{
"value":1000
},
"columnSelectionType":"SELECTED"
}
}
]
},
"fields":"dataSourceTable"
}
Una volta creata correttamente una tabella dell'origine dati, i dati non sono immediatamente disponibili. Nell'editor di Fogli, viene visualizzata come anteprima. Per recuperare i dati BigQuery, devi aggiornare la tabella dell'origine dati. Puoi specificare un valore RefreshDataSourceRequest all'interno della stessa batchUpdate
. Per maggiori dettagli, consulta Aggiornare un oggetto DataSource di seguito. Tieni presente che tutti gli oggetti dell'origine dati funzionano in modo simile.
Al termine dell'aggiornamento (i dati di BigQuery sono stati recuperati), la tabella dell'origine dati viene completata come mostrato di seguito:
Aggiungi una tabella pivot DataSource
A differenza di una tabella pivot convenzionale, una tabella pivot dell'origine dati è supportata da un'origine dati e fa riferimento ai dati in base al nome della colonna. In questo esempio viene creata una tabella pivot che mostra il conteggio totale delle parole per corpus.
"updateCells":{
"rows":{
"values":[
{
"pivotTable":{
"dataSourceId":"<YOUR_DATA_SOURCE_ID>",
"rows":{
"dataSourceColumnReference":{
"name":"corpus"
},
"sortOrder":"ASCENDING"
},
"values":{
"summarizeFunction":"SUM",
"dataSourceColumnReference":{
"name":"word_count"
}
}
}
}
]
},
"fields":"pivotTable"
}
Una volta recuperati i dati di BigQuery, la tabella pivot dell'origine dati viene compilata come mostrato di seguito:
Aggiungi un grafico DataSource
In questo esempio viene creato un grafico dell'origine dati, con tipo COLUMN, che mostra il conteggio totale delle parole per corpus.
"addChart":{
"chart":{
"spec":{
"title":"Corpus by word count",
"basicChart":{
"chartType":"COLUMN",
"domains":[
{
"domain":{
"columnReference":{
"name":"corpus"
}
}
}
],
"series":[
{
"series":{
"columnReference":{
"name":"word_count"
},
"aggregateType":"SUM"
}
}
]
}
},
"dataSourceChartProperties":{
"dataSourceId":"<YOUR_DATA_SOURCE_ID>"
}
}
}
Una volta recuperati i dati di BigQuery, il grafico dell'origine dati viene visualizzato come mostrato di seguito:
Aggiungi una formula DataSource
In questo esempio viene creata una formula di origine dati per calcolare il conteggio medio delle parole.
"updateCells":{
"rows":[
{
"values":[
{
"userEnteredValue":{
"formulaValue":"=AVERAGE(shakespeare!word_count)"
}
}
]
}
],
"fields":"userEnteredValue"
}
Una volta recuperati i dati di BigQuery, la formula dell'origine dati viene compilata come mostrato di seguito:
Aggiorna un oggetto DataSource
Puoi aggiornare un oggetto dell'origine dati per recuperare i dati più recenti da BigQuery in base alle specifiche dell'origine dati e alle configurazioni degli oggetti attuali. Puoi utilizzare il metodo batchUpdate, fornire un valore RefreshDataSourceRequest e specificare uno o più oggetti da aggiornare tramite DataSourceObjectReferences.
Tieni presente che puoi creare oggetti dell'origine dati e aggiornarli all'interno di una sola richiesta batchUpdate
.
DataExecutionStatus
Quando crei nuove origini dati o aggiorni gli oggetti delle origini dati, viene creata un'esecuzione in background per recuperare i dati da BigQuery e restituire una risposta contenente lo stato di esecuzione. Se l'esecuzione viene avviata correttamente, lo stato dell'esecuzione
di solito è in stato RUNNING
.
Poiché il processo è asincrono, l'applicazione deve implementare un modello di polling per recuperare periodicamente lo stato degli oggetti dell'origine dati, utilizzando spreadsheets.get, finché lo stato non memorizza lo stato SUCCEEDED
o FAILED
. Nella maggior parte dei casi, l'esecuzione viene completata rapidamente, ma dipende dalla complessità delle specifiche dell'origine dati. In ogni caso, l'esecuzione non dovrebbe richiedere più di 10 minuti.