Come usare ChatGPT per fare Data Analysis (I)

Lanciato nel novembre 2022 da OpenAI, ChatGPT ha mosso rapidamente i suoi passi nel mondo “umano” trasformando parole quali “AI”[1], “Machine Learning”[2] e “Language Model”[3] in termini dall’uso comune, o quasi. In estrema sintesi ChatGPT è un modello di intelligenza artificiale complesso (allenato su un corpus di testi virtualmente sconfinato e messo appunto con una strategia combinata di reinforcement e supervised learning), sviluppato per la generazione di contenuti in formato testuale attraverso un’interazione conversazionale di tipo “chatbot”. Ovvero si formulano delle richieste in linguaggio naturale e si valutano le risposte ricevute.
 
Ma come ChatGpt può essere utilizzato nell’ambito della Data Analysis per velocizzare processi e suggerire percorsi? In questa Rubrica verranno introdotti alcuni possibili impieghi di ChatGPT nell’analisi dati: dalla generazione di dataset sintetici all’analisi esplorativa arricchita (con grafici e modelli statistici), per finire con la documentazione necessaria a corredo.

ChatGPT Prompting Strategies

Task 1: Generazione del Codice

Prompt Importazione/Esportazione Dati

Task 2: Generazione del Codice

Esempio: Richiesta di implementare una funzionalità

Strategie di Composizione del Prompt:

  • Specifica il linguaggio di programmazione (es. Python).
  • Indica il formato del file (CSV/JSON….) e la struttura dei dati, nel caso si disponga di un dataset.
  • Dettaglia in modo non ambiguo la funzionalità da implementare.
  • Fornisci esempi sulle proprietà e/o forma del risultato voluto. 
Prompt richiesta di implementare una funzionalità

Task 3: creazione di dati sintetici

Esempio: Creazione di un sample dataset nel rispetto di determinate caratteristiche

Strategie di Composizione del Prompt:

  • Specifica il dominio applicativo
  • Indica il formato e la struttura dei dati desiderata (per la struttura tabulare specificare: numero colonne, intestazione, data type, range dei valori… e definire cosa rappresentano).
  • Chiedi a ChatGPT di fornirti una serie di domande a cui rispondere per caratterizzare meglio il contesto.
  • Fornisci esempi di dati o descrivi il layout dei dati [opzionale ma consigliato se la struttura è complessa]. 

Supponiamo di lavorare allo sviluppo di un progetto a scopo dimostrativo, use case, da proporre a potenziali clienti, ma di non disporre di un dataset appropriato. Se si è interessati a generare un modesto numero di valori, per lo più di carattere categorico (non numerico) che presentino anche una discreta variabilità, si può certamente ricorrere a ChatGPT per la creazione di un dataset sintetico. Nell’esempio sottostante verrà esposto il dominio applicativo, poi verrà chiesto a ChatGPT di formulare una serie di domande secondo lui utili a comprendere meglio la nostra richiesta, task, e infine la sintesi del dataset.

Contesto e task definiti con la tecnica Ask Before Answer. L’interazione incomincia con il delineare il contesto applicativo e prosegue con l’indicazione del task da completare, seguito da un’esplicita richiesta di fornire domande adeguate ad aumentare l’accuratezza della risposta, e quindi tali da guidare l’utente nella specifica di tutti i dettagli rilevanti. Quelle che seguono sono alcune delle domande poste da ChatGPT e che costituiscono come si intuisce, il cuore di questa strategia di prompting, capace di guidare anche gli utenti meno esperti nella completa formulazione della richiesta prima che questa venga presa in carico dal modello.

Prompt creazione di dati sintetici
Risposta ChatGPT
Testo generato salvato come Excel
Visualizzazione dei dati

Conclusioni

Abbiamo scoperto come ChatGPT possa rivoluzionare la Data Analysis, evidenziando l’importanza delle strategie di prompting per ottenere risultati accurati, ad esempio nella generazione di codice e creazione di dataset sintetici. 

Non perdetevi la prossima puntata, dove esploreremo ulteriori applicazioni utili di ChatGPT nella Data Analysis, dall’analisi esplorativa (EDA) alla documentazione.

Leggi tutti i nostri articoli sulla Data Science

Vuoi scopri le ultime novità su Fivetran e nuove tecnologie di data science?

Visualitics Team
Questo articolo è stato scritto e redatto da uno dei nostri consulenti.

Fonti:
[1] www.trends.google.com
[2] www.trends.google.com 
[3] www.trends.google.com 

Condividi ora sui tuoi canali social o via email: