Quando si parla di ‘data cleaning’ ci si riferisce ad uno dei processi più importanti che compongo la data pipeline, ovvero tutto ciò che comprende l’estrazione, la trasformazione, il caricamento e l’analisi dei dati attraverso dashboard e visualizzazioni in grado di fornire validi insights.
Per raggiungere quest’ultimo risultato spesso ci vengo poste delle sfide in termini di formattazione dei dati che spesso, dopo la fase di estrazione, non appaiono uniformi come ci si aspetterebbe e questo può certamente introdurre bias nell’analisi e quindi nei risultati. Tableau nella sua suite di prodotti mette a disposizione Prep Builder, ovvero un tool specifico ed intuitivo per il data cleaning. Se vuoi scoprire come funziona Prep Builder consulta questo articolo del nostro blog.
In alcuni casi può essere utile integrare agli step di pivoting, union, join altre operazioni di pulizia come split values, converts dates, keep only e molte altre che puoi trovare elencate qui. Oltre a queste azioni Tableau Prep offre la possibilità di personalizzare ed ampliare ancora il set di operazioni da svolgere sui dati aggiungendo al flusso veri e propri script Python ed R.
Prima di procedere è importante precisare che questo tipo d funzionalità necessita di configurare una connessione ad un Rserve (nel caso di script R) o ad un server TabPy (nel caso di script Python) mentre, per il momento Tableau Cloud non supporta questo genere di funzionalità.
Quindi come appena precisato, sia che si tratti di Python che R, è necessario far fronte ad una connessione tra Tableau e server predisposti e configurati per i linguaggi Python o R. Questo permetterà che i dati vengano passati in modo sicuro da Tableau Prep Builder al server (Rserve o TabPy) e restituiti sotto forma di tabelle rispettivamente R data.frame o pd.DataFrame. Gli step per le connessioni ai server e i prerequisiti necessario sono disponibili a questi link: Python e R.
Integrare gli script nel flusso è utile ad eseguire azioni come classificazione e compilazione dei campi, aggiunta di dati statistici di modellazione o dati previsionali, che altrimenti si potrebbero svolgere utilizzando campi calcolati. Tableau quindi garantisce grande flessibilità alle esigenze degli utenti, in particolare quando si tratta di svolgere operazioni importanti come la preparazione dei dati.
Se vuoi qualche informazione in più su Fivetran e tutte le sue funzionalità, puoi visitare la pagina dedicata sul nostro sito; e per qualsiasi domanda, non esitare a scriverci su info@visualitics.it!