Fogli connessi

Fogli connessi consente di analizzare petabyte di dati direttamente all'interno di Fogli. Puoi collegare i tuoi fogli di lavoro a un data warehouse BigQuery ed eseguire l'analisi utilizzando gli strumenti familiari di Fogli, come tabelle pivot, grafici e formule.

Questa guida utilizza il set di dati pubblico shakespeare per mostrare come utilizzare Fogli connessi. Il set di dati contiene le seguenti informazioni:

Campo Tipo Descrizione
parola STRING Una singola parola univoca (dove lo spazio vuoto rappresenta il delimitatore) estratta da un corpus
word_count INTEGER Il numero di volte in cui questa parola compare in questo corpus
corpus STRING L'opera da cui questa parola è stata estratta
corpus_date INTEGER L'anno in cui è stato pubblicato il corpus

Utilizzo di un DataSource

Aggiungere un'origine dati BigQuery

Per aggiungere un'origine dati, fornisci un metodo AddDataSourceRequest in batchUpdate. Il corpo della richiesta deve specificare un campo DataSource.

Sostituisci <YOUR_PROJECT_ID> di seguito con un ID progetto Google Cloud valido.

"addDataSource":{
   "dataSource":{
      "spec":{
         "bigQuery":{
            "projectId":"<YOUR_PROJECT_ID>",
            "tableSpec":{
               "tableProjectId":"bigquery-public-data",
               "datasetId":"samples",
               "tableId":"shakespeare"
            }
         }
      }
   }
}

Una volta creata correttamente un'origine dati, viene creato un foglio DATA_SOURCE associato per fornire un'anteprima di massimo 500 righe. L'anteprima non è disponibile immediatamente. Viene attivata un'esecuzione in modo asincrono per importare i dati BigQuery.

AddDataSourceResponse contiene i seguenti campi:

  • dataSource: il valore DataSource appena creato. Anche il campo dataSourceId viene compilato e verrà fatto riferimento per creare ogni oggetto DataSource dall'origine dati.

  • dataExecutionStatus: come accennato in precedenza, questo è lo stato di un'esecuzione che importa i dati di BigQuery nel foglio di anteprima. Per ulteriori informazioni, consulta DataExecutionStatus.

Aggiornare o eliminare un'origine dati

Utilizza il metodo batchUpdate e fornisci una richiesta UpdateDataSourceRequest o DeleteDataSourceRequest di conseguenza.

Utilizzo degli oggetti DataSource

Dopo aver aggiunto un'origine dati al foglio di lavoro, è possibile creare un oggetto dell'origine dati dall'origine dati. Un oggetto dell'origine dati è un normale strumento di Fogli, come tabelle pivot, grafici e formule, ma integrato con Fogli connessi per ottimizzare l'analisi.

Esistono quattro tipi di oggetti:

  • Tabella DataSource
  • Tabella pivot DataSource
  • Grafico DataSource
  • Formula DataSource

Aggiungi una tabella DataSource

Noto anche come "Estrai" nell'editor di Fogli, l'oggetto importa in Fogli un dump statico dei dati dell'origine dati. Come una tabella pivot, la tabella è specificata e ancorata alla cella in alto a sinistra.

In questo esempio, utilizziamo il metodo batchUpdate e forniamo una richiesta updateCells per creare una tabella dell'origine dati composta da due colonne, word e word_count, con un massimo di 1000 righe.

"updateCells":{
   "rows":{
      "values":[
         {
            "dataSourceTable":{
               "dataSourceId":"<YOUR_DATA_SOURCE_ID>",
               "columns":[
                  {
                     "name":"word"
                  },
                  {
                     "name":"word_count"
                  }
               ],
               "rowLimit":{
                  "value":1000
               },
               "columnSelectionType":"SELECTED"
            }
         }
      ]
   },
   "fields":"dataSourceTable"
}

Una volta creata correttamente una tabella dell'origine dati, i dati non sono immediatamente disponibili. Nell'editor di Fogli, viene visualizzata come anteprima. Per recuperare i dati BigQuery, devi aggiornare la tabella dell'origine dati. Puoi specificare un valore RefreshDataSourceRequest all'interno della stessa batchUpdate. Per maggiori dettagli, consulta Aggiornare un oggetto DataSource di seguito. Tieni presente che tutti gli oggetti dell'origine dati funzionano in modo simile.

Al termine dell'aggiornamento (i dati di BigQuery sono stati recuperati), la tabella dell'origine dati viene completata come mostrato di seguito:

Screenshot di una tabella di origine dati che mostra i dati del set di dati di Shakespeare

Aggiungi una tabella pivot DataSource

A differenza di una tabella pivot convenzionale, una tabella pivot dell'origine dati è supportata da un'origine dati e fa riferimento ai dati in base al nome della colonna. In questo esempio viene creata una tabella pivot che mostra il conteggio totale delle parole per corpus.

"updateCells":{
   "rows":{
      "values":[
         {
            "pivotTable":{
               "dataSourceId":"<YOUR_DATA_SOURCE_ID>",
               "rows":{
                  "dataSourceColumnReference":{
                     "name":"corpus"
                  },
                  "sortOrder":"ASCENDING"
               },
               "values":{
                  "summarizeFunction":"SUM",
                  "dataSourceColumnReference":{
                     "name":"word_count"
                  }
               }
            }
         }
      ]
   },
   "fields":"pivotTable"
}

Una volta recuperati i dati di BigQuery, la tabella pivot dell'origine dati viene compilata come mostrato di seguito:

Screenshot di un pivot di origine dati che mostra i dati del set di dati di Shakespeare

Aggiungi un grafico DataSource

In questo esempio viene creato un grafico dell'origine dati, con tipo COLUMN, che mostra il conteggio totale delle parole per corpus.

"addChart":{
   "chart":{
      "spec":{
         "title":"Corpus by word count",
         "basicChart":{
            "chartType":"COLUMN",
            "domains":[
               {
                  "domain":{
                     "columnReference":{
                        "name":"corpus"
                     }
                  }
               }
            ],
            "series":[
               {
                  "series":{
                     "columnReference":{
                        "name":"word_count"
                     },
                     "aggregateType":"SUM"
                  }
               }
            ]
         }
      },
      "dataSourceChartProperties":{
         "dataSourceId":"<YOUR_DATA_SOURCE_ID>"
      }
   }
}

Una volta recuperati i dati di BigQuery, il grafico dell'origine dati viene visualizzato come mostrato di seguito:

Screenshot di un grafico dell&#39;origine dati che mostra i dati del set di dati di Shakespeare

Aggiungi una formula DataSource

In questo esempio viene creata una formula di origine dati per calcolare il conteggio medio delle parole.

"updateCells":{
   "rows":[
      {
         "values":[
            {
               "userEnteredValue":{
                  "formulaValue":"=AVERAGE(shakespeare!word_count)"
               }
            }
         ]
      }
   ],
   "fields":"userEnteredValue"
}

Una volta recuperati i dati di BigQuery, la formula dell'origine dati viene compilata come mostrato di seguito:

Screenshot di una formula di origine dati che mostra i dati del set di dati di Shakespeare

Aggiorna un oggetto DataSource

Puoi aggiornare un oggetto dell'origine dati per recuperare i dati più recenti da BigQuery in base alle specifiche dell'origine dati e alle configurazioni degli oggetti attuali. Puoi utilizzare il metodo batchUpdate, fornire un valore RefreshDataSourceRequest e specificare uno o più oggetti da aggiornare tramite DataSourceObjectReferences.

Tieni presente che puoi creare oggetti dell'origine dati e aggiornarli all'interno di una sola richiesta batchUpdate.

DataExecutionStatus

Quando crei nuove origini dati o aggiorni gli oggetti delle origini dati, viene creata un'esecuzione in background per recuperare i dati da BigQuery e restituire una risposta contenente lo stato di esecuzione. Se l'esecuzione viene avviata correttamente, lo stato dell'esecuzione di solito è in stato RUNNING.

Poiché il processo è asincrono, l'applicazione deve implementare un modello di polling per recuperare periodicamente lo stato degli oggetti dell'origine dati, utilizzando spreadsheets.get, finché lo stato non memorizza lo stato SUCCEEDED o FAILED. Nella maggior parte dei casi, l'esecuzione viene completata rapidamente, ma dipende dalla complessità delle specifiche dell'origine dati. In ogni caso, l'esecuzione non dovrebbe richiedere più di 10 minuti.