Sebbene non ci sia un limite effettivo al numero di righe che è possibile importare all’interno di Tableau Prep, è consigliato applicare alcune accortezze che permettano di migliore la performance dei flussi in Tableau Prep. Non solo è importante limitare il numero di righe, importando solo i dati di cui si ha realmente bisogno, ma anche l’ordinamento e il modo in cui vengono eseguite le operazioni e gli step nella costruzione del flusso.
In questo articolo, abbiamo provato a raccogliere quelle best practices che riteniamo siano utili da sapere quando si usa uno strumento come Tableau Prep.
Filtrare i dati all’interno dell’input step
Il primo consiglio è quindi quello di filtrare i dati all’interno dell’input step, selezionando i soli necessari alla realizzazione del workbook.
Lavorare utilizzando il Data Sample
Sempre all’interno dell’input step è possibile definire un sample della data source. Quando il flow verrà lanciato, Tableau Prep eseguirà le operazioni di pulizia utilizzando l’intera fonte dati e non solo il campione utilizzato per la creazione del flow. È così possibile migliorare l’efficienza senza nulla perdere in termini di completezza.
Tableau imposta una soglia di default, una volta superato il milione di righe. Nel caso si voglia impostare una soglia minore per migliorare ulteriormente le prestazioni, è possibile farlo all’interno dell’input step, selezionando Data Sample e fissando il numero di righe.
I metodi per creare il Sample sono due: “Quick select” che considera le prime N righe all’interno della datasource, e “Random sample” che punta a creare una rappresentazione realistica dell’intero dataset. Entrambi possono essere efficaci, ma il primo rimane più efficiente del secondo in termini di prestazioni.
Mettere in pausa il flow
Tableau Prep ha il grande vantaggio di fornire feedback interattivi ogni volta che viene eseguita un’operazione di pulizia all’interno del flow. Per ottenere performance migliori è possibile però disabilitare questi feedback cliccando sul cilindro in alto, nella barra di navigazione.
Prestare attenzione al formato dei dati
Le stringhe pesano più dei dati in formato numerico. È quindi utile prestare attenzione a come Tableau va a definire i campi e eventualmente, dove possibile, modificare i campi stringa in numerici in modo da ridurre il caricamento.
Best practice per la creazione del flusso
Gestione dei flussi
Separare le operazioni di pulizia in flussi diversi permette di organizzare il lavoro in modo efficiente. I singoli passaggi, o addirittura gli interi flussi, possono essere riuniti in un secondo momento utilizzando join step, union step, oppure copiando e incollando direttamente gli step quando necessario.
Gli step inoltre possono essere salvati localment su Tableau Server e Tableau Online, così da essere riutilizzati in flow diversi. Questo può essere utile nel caso si eseguano gli stessi cleaning step o la stessa operazione complessa all’interno di più flow.
Cleaning step
All’interno dei cleaning step è possibile filtrare i dati non necessari e garantire quindi migliori performance.
Commentare le operazioni
Rinominare gli step, aggiungere descrizioni e modificare i colori facilita la comprensione del flow.
È possibile lasciare commenti anche all’interno del change pane.
Oltre che un aiuto ad altre persone che potrebbero lavorare sul flow, i commenti sono un ottimo strumento per tener traccia del proprio lavoro.
Best practice per l’esecuzione del flusso
Output step
L’output step permette di eseguire il flusso ed esportare i dati all’esterno di Tableau Prep. Prima dell’output step, inserendo un cleaning step è possibile rimuovere tutte le righe e le colonne non necessarie alla costruzione del workbook. Quando si esegue il flusso viene interrogato l’intero database. Filtrando i dati non utilizzati è quindi possibile ottenere un guadagno nelle prestazioni.
Il formato del file di output
Tra i vari formati, .hyper risulta essere il più efficiente, rendendolo quindi il candidato ideale per la gestione di grandi fonti dati.
Utilizzare Tableau Server con Prep Conductor
Solitamente i server sono macchine molto più potenti dei nostri computer. Utilizzando Tableau Prep Conductur è quindi possibile far eseguire il flow al server, così da usufruire di una maggiore potenza computazionale e ridurre di conseguenza i tempi per la creazione del flow.
Refresh incrementale
Utilizzando il refresh incrementale, quando la fonte dati verrà aggiornata verranno aggiunte solo le nuove righe più recenti, senza eseguire il refresh dell’intera fonte dati. Per applicare il refresh incrementale bisogna selezionare la spunta all’interno dei Setting dell’input step.
Se ti sei perso i nostri articoli precedenti, recuperarli sul nostro blog e continuare a seguirci sui nostri canali social LinkedIn, Facebook e Twitter!