Il box-plot (o box and whiskers plot, o in italiano diagramma a scatola e baffi) è una rappresentazione grafica dei valori di una variabile quantitativa lungo un asse rispetto a una o più dimensioni, molto utile per confrontare la distribuzione di due o più gruppi di osservazioni ed evidenziare eventuali valori anomali o outlier.
È una visualizzazione molto efficace che permette in un “colpo d’occhio” di capire come si distribuiscono i propri dati e facilmente si può costruirlo in Tableau. Tuttavia può risultare non immediato a tutti, proprio per la complessità di informazioni che contiene. Proviamo ad analizzarlo assieme.
Box-plot: come leggerlo
La distribuzione dei valori è rappresentata attraverso la scatola, o box, costruita sfruttando indici di posizione statistica come il primo e terzo quartile (o rispettivamente 25° e 75° percentile) che costituiscono i bordi della box, e la mediana, inserita all’interno.
La scatola così costruita racchiude il 50% delle osservazioni. La distanza tra il primo e terzo quartile è chiamata distanza interquartile (IQR) e determina l’ampiezza della scatola.
Per mostrare ulteriori informazioni sui valori al di fuori del 50% centrale dei dati si utilizzano i baffi (whiskers): linee verticali con un tratto orizzontale al termine. La lunghezza dei baffi è costruita calcolando 1,5 volte la distanza interquartile (1,5*IQR) a partire dal primo quartile e dal terzo:
- Lower whisker: Q1-1,5*IQR
- Upper whisker: Q3 + 1,5*IQR
Nel caso in cui i valori minimi e massimi della distribuzione non andassero oltre questa misura, la lunghezza dei baffi corrisponderebbe a tali valori.
Le osservazioni oltre il limite dei baffi rappresentano i potenziali outlier. È utile studiarli in quanto possibili valori anomali, ossia osservazioni atipiche, poco frequenti o con una deviazione estrema del centro della distribuzione: potrebbero svilupparsi nuove intuizioni o essere esclusi in quanto fuorvianti.
L’ampiezza della scatola ci dà informazioni sulla variabilità della distribuzione (normalmente misurata dallo scarto quadratico medio o deviazione standard):
Costruzione di un box-plot su Tableau
Vediamo adesso i diversi step per costruire un box-plot su Tableau sfruttando il dataset Indicatori mondiali (presente nell’installazione di Tableau Desktop), con il quale analizzeremo la distribuzione dell’aspettativa di vita media femminile per le diverse aree geografiche presenti in un determinato anno.
Step 1. Selezione dimensioni e misure
- Connettiti all’origine dati Indicatori mondiali.
- Trascina la dimensione Area geografica su Colonne.
- Trascina la misura Aspettativa di vita femminile su Righe: in automatico Tableau creerà un asse verticale costruendo un grafico a barre.
- Inerisci nella Filter Cards il campo Anno e seleziona un anno specifico (ad esempio l’ultimo anno di rilevazione presente).
- Modifica il titolo in “Aspettativa di vita media femminile per area geografica”, cliccando con il tasto destro sul titolo e scegli Modifica Titolo.
Step 2 (Alternativa 1). Creazione del grafico
Ci sono due diversi metodi per creare un box-plot su Tableau. Il primo sfrutta le funzionalità della sezione Mostra:
- Fai clic su Mostra nella barra degli strumenti, quindi seleziona il tipo di grafico a scatola e baffi (di seguito cerchiato in blu).
Tableau in questo modo assegna Area geografica dallo spazio Colonne alla scheda Indicatori. Modifichiamo questa scelta:
- Trascina Area geografica dalla scheda Indicatori a Colonne.
Ora compariranno delle linee orizzontali: queste sono diagrammi a scatola bidimensionali che si ottengono quando il box-plot si basa su un singolo indicatore, piuttosto che su una serie di osservazioni. Per sfruttare al meglio le caratteristiche del box-plot è bene che si osservi la distribuzione dei dati in questo modo:
- Per disaggregare i dati, seleziona Analisi > Aggrega misure (indicato dalla freccia blu).
Questo comando attiva o disattiva l’aggregazione che Tableau opera di default sulle misure. Ora si ottiene un intervallo di valori corrispondente ad ogni riga dell’origine dei dati, anziché un singolo indicatore.
- In questo caso gli indicatori rappresentano gli Stati che fanno parte delle diverse aree geografiche, ma posizionandoci sopra con il mouse non è ancora possibile distinguerli. Per farlo basta inserire nella scheda Dettagli la dimensione Paese/Area.
- Puoi filtrare, quindi escludendoli dalla vista, eventuali campi nulli cliccando sul numero in basso a destra che ne riporta la quantità e poi su Filtra dati sulla finestra che compare.
Posizionando il mouse sulle box nella vista è possibile consultare le informazioni inerenti al grafico, come di seguito:
Step 2 (Alternativa 2). Creazione del grafico
Il secondo metodo per creare un box-plot, invece, prevede l’utilizzo della sezione dedicata alle instant analytics. Dopo aver ottenuto il grafico a barre, come fatto in precedenza al termine dello step 1:
- Premere su Analisi > Aggrega misure.
- Spostarsi a sinistra sulla Side bar selezionando l’Analytics pane per utilizzare le instant analytics
- Fare doppio clic su Diagramma a scatola o trascinarlo sul view pane rilasciandolo su Cella (come in figura).
4. Premere nel Marks pane su Automatico per modificare i mark scelti da Tableau per la visualizzazione ed inserire nuovamente i cerchi.
Step 3. Layout
È possibile ora personalizzare l’aspetto del box-plot:
- Premere con il tasto destro del mouse su uno dei box nella vista > Modifica
- Qui è possibile decidere l’estensione dei baffi, tra due opzioni:
- Dati entro 1,5 volte l’IQR
- Estenderli fino al valore massimo e minimo della distribuzione
- Mostrare solamente gli outlier, spuntando quindi su “Nascondi gli indicatori sottostanti (tranne gli outlier)”
- Modificare lo stile della box, oltre che i bordi e i baffi.
Ora puoi cominciare ad applicare questa visualizzazione ai tuoi dataset! Sperimenta il più possibile cercando la tipologia di variabili che si adattano meglio al box-plot.
In ogni caso, per leggere altri utili suggerimenti e continuare la tua formazione Tableau, puoi seguirci sui nostri canali social LinkedIn e Facebook o iscriverti alla nostra nuova community LearnToViz, per commentare questo e gli altri contenuti con gli altri membri della piattaforma!