Datapedia: Data Quality vs Data Cleansing…ma non solo!

Datapedia” è la nostra rubrica mensile in cui illustriamo il significato di termini spesso fraintesi e confusi nel mondo della Business Intelligence (BI) e della Data Visualization.

Molti concetti possono sembrare simili, ma hanno obiettivi e applicazioni ben distinte. Spesso vengono utilizzati in modo impreciso, generando confusione anche tra i professionisti del settore.

In questo articolo, esploreremo alcuni gruppi di termini e spiegheremo in modo chiaro cosa indicano e quando vanno utilizzati. Esamineremo la distinzione tra Data Quality e Data Cleansing per capire come migliorano l’affidabilità dei dati. Confronteremo i grafici Donut Chart e Treemap Chart per determinare le loro migliori applicazioni. Infine, analizzeremo i concetti statistici di Moda, Media e Mediana per interpretare e analizzare i dati in modo efficace.

Data Quality vs Data Cleansing: un'analisi approfondita per la gestione dei dati aziendali

La Data Quality si riferisce al grado di accuratezza, completezza, coerenza e affidabilità dei dati, garantendo che siano adatti all’uso previsto. Include attributi come accuratezza, completezza, validità, tempestività, coerenza e integrità dei dati. L’obiettivo principale della data quality è assicurare che i dati siano utili e affidabili per prendere decisioni aziendali informate.

La Data Cleansing, o data cleaning, è il processo di identificazione e correzione (o rimozione) dei dati errati, corrotti, non formattati correttamente, duplicati o incompleti all’interno di un dataset. Coinvolge attività come la rimozione dei duplicati, la correzione di errori di formattazione, il riempimento di valori mancanti e la validazione dei dati. L’obiettivo della data cleansing è migliorare la qualità dei dati, rendendoli più accurati e coerenti, facilitando così analisi e reporting più precisi.

Comparazione: Differenze e obiettivi

  • Scopo: la data quality si occupa della misurazione e gestione della qualità complessiva dei dati, mentre la data cleansing è un’attività specifica volta a migliorare la qualità dei dati attraverso la correzione di errori.
  • Focus: la data quality si concentra su attributi ampi e continui della qualità dei dati, mentre la data cleansing si focalizza su interventi specifici e mirati per correggere dati problematici.
  • Implementazione: la data quality richiede un approccio sistematico e continuo per monitorare e migliorare i dati, mentre la data cleansing è un processo operativo eseguito a intervalli regolari o quando vengono identificati problemi specifici.

Donut Chart vs Treemap Chart: strumenti di visualizzazione dati a confronto

Un Donut Chart è una variante del pie chart, caratterizzato da un foro centrale che lo rende simile a una ciambella. Questo grafico rappresenta le proporzioni delle parti di un intero, visualizzando i dati in una forma circolare con sezioni ad arco. Il foro centrale può essere utilizzato per inserire ulteriori informazioni, come il totale dei dati. Questa visualizzazione è utile per mostrare la composizione percentuale di una piccola serie di categorie, ed è ideale per visualizzare le proporzioni relative di una singola serie di dati categoriali, come la quota di mercato di diverse aziende.

Un Treemap Chart rappresenta i dati gerarchici come una serie di rettangoli annidati. Ogni rettangolo rappresenta una categoria con una dimensione proporzionale al valore della categoria stessa. Rappresenta i dati come rettangoli all’interno di rettangoli più grandi, con le dimensioni dei rettangoli proporzionali ai valori dei dati. Questo tipo di visualizzazione è spesso utilizzato per visualizzare una grande quantità di dati categoriali e sub-categoriali, in particolare grandi volumi di dati gerarchici, come la distribuzione delle vendite per prodotto in diverse regioni o la struttura di un sito web.

Comparazione: Differenze e obiettivi

  • Forma e Rappresentazione: il donut chart è circolare con sezioni ad arco, mentre il treemap chart è rettangolare con rettangoli annidati.
  • Capacità di Visualizzazione: il donut chart è limitato nel numero di categorie che può visualizzare chiaramente, mentre il treemap chart può visualizzare molte categorie e sub-categorie.
treemap vs donut chart
Treemap vs Donut

Moda, Media e Mediana: fondamenti statistici per l'analisi dei dati

La Moda è il valore che appare più frequentemente in un insieme di dati. Può essere utilizzata per dati categorici, ordinali, intervallari o di rapporto. Un insieme di dati può avere una moda (unimodale), più mode (multimodale) o nessuna moda. Ad esempio, in un insieme di dati {1, 2, 2, 3, 4}, la moda è 2.

La Media, o media aritmetica, è la somma di tutti i valori dei dati divisa per il numero totale dei valori. È sensibile ai valori estremi (outlier). Ad esempio, in un insieme di dati {1, 2, 3, 4, 5}, la media è (1+2+3+4+5)/5 = 3.

La Mediana è il valore centrale di un insieme di dati ordinati in ordine crescente o decrescente. Non è influenzata dai valori estremi e divide i dati in due metà uguali. Ad esempio, in un insieme di dati ordinati {1, 2, 3, 4, 5}, la mediana è 3. In un insieme con un numero pari di osservazioni, la mediana è la media dei due valori centrali.

Conclusioni

In sintesi, questi concetti rappresentano elementi chiave nella gestione e analisi dei dati. Mentre Data Quality si focalizza sull’accuratezza, completezza e affidabilità complessiva dei dati, Data Cleansing riguarda le attività specifiche di correzione e pulizia dei dati errati o incompleti. Donut Chart e Treemap Chart sono strumenti di visualizzazione dei dati che, sebbene entrambi utili, differiscono notevolmente nel loro approccio alla rappresentazione dei dati. Il primo è adatto per mostrare proporzioni semplici, mentre il secondo è ideale per visualizzare grandi quantità di dati gerarchici. Infine, Moda, Media e Mediana sono misure statistiche che, pur essendo tutte indicative della tendenza centrale di un dataset, offrono diverse prospettive. La moda indica il valore più frequente, la media rappresenta il valore medio aritmetico e la mediana il valore centrale. La comprensione di queste distinzioni è fondamentale per un efficace utilizzo dei dati nelle organizzazioni.

Diventa un esperto di BI e Data Visualization

Se vuoi apprendere le basi dei principali tool di BI o diventare un esperto di Visual Anlytics, scopri i nostri training. 

Visualitics Team
Questo articolo è stato scritto e redatto da uno dei nostri consulenti.

Condividi ora sui tuoi canali social o via email: