“Datapedia” è la nostra rubrica mensile in cui illustriamo il significato di termini spesso fraintesi e confusi nel mondo della Business Intelligence (BI) e della Data Visualization.
Molti concetti possono sembrare simili, ma hanno obiettivi e applicazioni ben distinte. Spesso vengono utilizzati in modo impreciso, generando confusione anche tra i professionisti del settore.
In questo articolo, esploreremo alcuni gruppi di termini e spiegheremo in modo chiaro cosa indicano e quando vanno utilizzati. Analizzeremo anzitutto la classificazione basata sulla struttura dei dati, distinguendo tra dati strutturati, dati non strutturati e dati semi-strutturati.  Successivamente ci concentreremo sul tipo di dato e ci soffermeremo sulla contrapposizione tra dati qualitativi (nominali, ordinali e dicotomici) e dati quantitativi (discreti e continui).
Dati strutturati, dati semi-strutturati e dati non strutturati
Possiamo classificare i dati in base alla loro struttura. Distinguiamo, infatti, tre tipologie principali: dati strutturati, dati semi-strutturati e dati non strutturati.
I dati sono strutturati quando rispondono a criteri stabiliti da un modello dati predefinito. Un classico esempio di dati strutturati sono le tabelle, dove ogni riga corrisponde a un record e ogni colonna è un attributo. L’intersezione tra righe e colonne permette di individuare una cella, al cui interno sono immagazzinate le informazioni di nostro interesse. I dati strutturati sono facili da gestire e da analizzare.
I dati semi-strutturati, invece, non seguono un modello tabellare preciso ma mantengono comunque una loro struttura che ne agevola l’analisi. Grazie alla presenza di tag e altri marcatori, infatti, vengono stabilite delle gerarchie tra i campi e tra i record. Sono esempi di dati semi-strutturati i file XML, JSON e HTML, elementi fondanti del web.
Infine, ci sono i dati non strutturati, una categoria molto vasta che include file di testo, pdf, immagini, e-mail e altro ancora. I dati non strutturati sono accomunati dall’assenza di una chiara organizzazione secondo un modello preimpostato; pertanto, è impossibile gestirli e analizzarli utilizzando un classico database relazionale. Tuttavia, i dati non strutturati sono spesso accompagnati dai metadati, ovvero da informazioni sui dati stessi: la presenza dei metadati (l’autore di un file di testo, il timestamp di un’immagine, la risoluzione di una foto, etc.) agevola la classificazione e l’interpretazione dei dati non strutturati.
Dati Qualitativi vs Dati Quantitativi
I dati qualitativi svolgono una funzione descrittiva e possono presentarsi in forma di stringhe di testo, variabili categoriali ma anche numeri. I dati quantitativi, invece, per definizione possono essere misurati e sono espressi in formato numerico.
Dati qualitativi Ordinali, Nominali e Dicotomici
All’interno dei dati qualitativi possiamo individuare tre sottocategorie: i dati qualitativi ordinali, i dati qualitativi nominali e i dati qualitativi dicotomici.
I dati qualitativi ordinali esprimono un ordine o una gerarchia e, quindi, possono essere facilmente collocati su una scala. Pensiamo a una classificazione della popolazione in base alla massa corporea in cui gli individui possono essere definiti molto sottopeso, sottopeso, normopeso, sovrappeso, obesi o molto obesi. Queste etichette esprimono una scala e pertanto possiamo associare ad esse un valore che va da 1 a 6. Ci risulterĂ comodo per le successive analisi.
I dati qualitativi nominali, invece, non esprimono un ordine o una scala (es. biondo, castano, etc.). Possiamo certamente abbinare un numero a ciascun valore di un dato qualitativo nominale (es. biondo = 1, castano = 2, etc.) ma qualsiasi calcolo basato su tali numeri sarĂ privo di senso.
I dati qualitativi dicotomici, infine, sono molto semplici da individuare: si tratta di variabili che possono assumere soltanto due valori, come vero o falso, presente o assente, sì o no. Anche nel caso dei dati dicotomici è possibile associare a ciascun valore un numero (es. vero=1, falso=0) per agevolare la nostra analisi.
Dati quantitativi Discreti e dati quantitativi Continui
Anche tra i dati quantitativi è necessario operare una distinzione, ovvero quella esistente tra dati quantitativi discreti e dati quantitativi continui.
Un dato quantitativo è discreto quando può assumere un insieme finito o numerabile di valori. Pensiamo a una statistica sportiva: i punti effettuati da un giocatore di basket in una partita. I punti messi a segno potranno essere 10 oppure 28 ma non 10,45 o 28,67. Dunque, il numero di punti effettuati è un dato quantitativo discreto.
Al contrario, un dato quantitativo continuo può assumere tutti i valori compresi in un determinato intervallo, senza soluzione di continuità tra un valore e l’altro. Torniamo al basket e guardiamo un’altra statistica: la percentuale di realizzazione dei tiri liberi in una stagione. Questo dato potrà assumere un qualsiasi valore compreso tra 0% e 100%; anche se per convenzione le statistiche si fermano al primo decimale, in questo caso ci troviamo di fronte a un dato quantitativo continuo.
Conclusioni
Per riassumere, abbiamo analizzato alcune differenze terminologiche legate alla struttura dei dati. L’analisi risulta molto agevole nel caso dei dati strutturati (es. tabelle), mentre per comprendere i dati semi-strutturati bisognerà fare affidamento sui loro tag, etichette e altri marcatori. I dati non strutturati costituiscono un grande patrimonio informativo (pensiamo alla text analysis) ma la loro osservazione richiede uno sforzo tecnico maggiore.
Abbiamo poi spostato l’attenzione sulle differenze tra due macrocategorie, ovvero dati quantitativi e dati qualitativi, che però sono al loro interno piuttosto sfaccettate. Infatti, i dati quantitativi possono essere di tipo discreto (es. i punti di un giocatore di basket in una partita) o continui (es. la percentuale di tiri liberi messi a segno). Dal canto loro i dati qualitativi possono essere ordinali quando è possibile collocarli su una scala (da molto sottopeso a gravemente obeso); parliamo di dati qualitativi nominali quando la qualità descritta dai dati non è incasellabile in una scala o in una gerarchia (es. biondo, castano, etc). Infine, un particolare tipo di dato qualitativo è rappresentativo dai dati dicotomici: questi possono assumere soltanto due valori e sono principalmente utilizzati per esprimere la presenza o l’assenza di una condizione.
Diventa un esperto di BI e Data Visualization
Se vuoi apprendere le basi dei principali tool di BI o diventare un esperto di Visual Anlytics, scopri i nostri training.Â
Visualitics Team
Questo articolo è stato scritto e redatto da uno dei nostri consulenti.
Condividi ora sui tuoi canali social o via email: