Geeks Academy

FASI DELLA DATA ANALYSIS

Il mondo big data richiede l'archiviazione di milioni di dati generati ogni giorno. La data analysis si sviluppa quindi in varie fasi. Scopriamole insieme!

FASI DELLA DATA ANALYSIS

Scopri gli articoli di Geeks Academy su: Blockchain, Coding, Cybersecurity, Cloud, Big Data, Artificial Intelligence, Gaming, Digital Innovation

Approcciare il mondo dei big data senza alcuna esperienza rende più ripida la curva di apprendimento. L’incessante produzione di dati richiede un'accurata archiviazione dei milioni di dati generati ogni giorno. Per raggiungere dei risultati positivi, l’analisi dei dati si sviluppa in varie fasi e processi. Lavorare in questo ambito prevede una conoscenza di base delle molteplici fasi che i dati percorrono ma, nonostante ciò, ricoprire un ruolo all’interno di un’azienda basata sui dati presuppone un’ottima conoscenza di almeno una delle fasi. Ciò che crea ansia, confusione o paura a coloro ignari delle sfaccettature della data analysis è esattamente la scarsa conoscenza del settore, terminologia, definizioni e, in generale, del linguaggio utilizzato e richiesto per poter comprendere l’industria dei dati.

Big Data
La locuzione "big data” indica generalmente una raccolta di dati e informazioni così grande da dover richiedere l’utilizzo di strumenti, tecnologie e metodi di analisi specifici per poter essere interpretata. Un chiaro esempio di big data sono i social network, dove ogni singolo utente genera quotidianamente una quantità spropositata di informazioni da archiviare attraverso interazioni di vario genere.
Proprio in tema social, è importante sottolineare la distinzione tra dati strutturati e non strutturati: i dati strutturati sono quelli con i quali abbiamo interagito almeno una volta in ambito lavorativo. Il classico esempio è il foglio di lavoro di Excel, dove ogni informazione (record) corrisponde a una riga appartenente a una determinata colonna; i dati non strutturati, invece, sono informazioni eterogenee e non corrispondono a uno specifico tipo di file. Possono essere immagini, video, documenti di testo, i quali fanno riferimento a un unico utente, per esempio come accade sui social network. Secondo recenti studi, il volume di dati non strutturati oggi è circa l’80-90% dei dati totali a livello globale.
L’evoluzione dei big data e il costante aumento di dati non strutturati ha portato un significativo sviluppo della scienza dei dati (data science), in particolare i settori dell’intelligenza artificiale (IA) e del machine learning.

Tipi di analisi
Possiamo parlare di quattro tipologie di analisi, le quali forniscono punti di vista e risultati differenti ma complementari:

  • Analisi descrittiva
  • Analisi diagnostica
  • Analisi predittiva
  • Analisi prescrittiva

Ognuna di queste analisi risponde a una domanda diversa. Per comprendere il passato della propria azienda, l’utilizzo dell’analisi descrittiva ci permette di capire cosa è successo. Andando più a fondo, possiamo analizzare i dati ricavati dalla precedente analisi per capire perché siano accaduti determinati eventi (analisi diagnostica). Venuti a conoscenza del passato della nostra azienda, la domanda che ci poniamo è cosa accadrà? Basandoci quindi sui dati del passato, siamo in grado, grazie all’analisi predittiva, di fare una previsione sul potenziale futuro dell’azienda. Infine, possiamo attuare un’analisi prescrittiva, la più complessa. Non solo prevediamo il futuro ma sviluppiamo vari scenari possibili, basandoci ancora sui risultati delle precedenti analisi, cercando di trovare delle soluzioni e risposte per ogni tipo di situazione nella quale l’azienda potrà trovarsi nel breve, medio o lungo termine.
Da notare come il progresso dell’IA e del machine learning abbia facilitato il processo analitico, soprattutto a livello predittivo e prescrittivo.

Fasi dell’analisi dati
Con questa classificazione delle tipologie di analisi, è evidente comprendere la complessità della data analysis nonché la necessità di suddividere i numerosi processi in varie fasi. Probabilmente, nella vostra prima esperienza lavorativa nell’ambito dei dati avete toccato (o toccherete) solo un tipo di analisi e al massimo un paio di fasi.
Possiamo suddividere il processo analitico in sei passaggi chiave:

  • Definizione degli obiettivi
  • Data collection
  • Data cleaning
  • Data exploration
  • Data mining
  • Data visualization

Innanzitutto, prima di avviare un’analisi, abbiamo bisogno di obiettivi precisi. Per poter concordare gli obiettivi aziendali, serve comprendere quale o quali siano i problemi da risolvere. Stabiliti gli obiettivi principali della nostra analisi, si passa alla raccolta dei dati (data collection). Spesso le fonti dati sono numerose e la tipologia del dato non è sempre la stessa. In base alle esigenze aziendali, dovremo suddividere e catalogare i dati, arrivando quindi alla fase successiva, la pulizia dei dati (data cleaning). In questa fase, il dato grezzo ha bisogno di essere manipolato, semplificato e ripulito in modo da poter essere successivamente analizzato tramite strumenti di business intelligence (BI). Sentiamo spesso questa definizione in combinazione con l’acronimo ETL. ETL significa extract, transform, load ed è forse la parte più delicata e importante di tutto il processo analitico. Tramite strumenti BI, abbiamo il compito di normalizzare il dato, darne un senso e quindi aumentare la sua qualità. Effettuata questa prima parte di pulizia e preparazione del dato, è il momento di testare i nostri dati, passando appunto alla fase di data exploration. In questo passaggio, effettueremo dei test, proveremo a visualizzare i dati in cerca di insight, i quali potrebbero aiutarci nelle fasi successive. E’ in questo passaggio che terminiamo l’elaborazione del dato e passiamo alla penultima fase, il data mining. Qui la figura del data scientist entra a pieno regime, utilizzando algoritmi per poter allenare il modello predittivo e raggiungere delle previsioni molto accurate sul potenziale futuro dell’azienda. Addestrando l’algoritmo a scovare dei pattern per noi interessanti, arriveremo dunque all’ultima fase analitica, la visualizzazione dei dati. La data visualization permette di trasformare una quantità enorme di numeri e informazioni in gradevoli e intuitive visualizzazioni. Tali rappresentazioni permettono di esporre il progetto in maniera semplice, enfatizzando le scoperte interessanti avvenute grazie all’intero processo di analisi e creando di fatto un racconto con i dati. Se avete sentito parlare di data storytelling, è qui che avviene la magia. Oltre alla conoscenza analitica, colui che presenta e visualizza il dato necessita di un’ottima capacità di comunicazione. Infatti, molti dei profili professionali specializzati in data visualization provengono sia dal settore della comunicazione che del design.
Nelle fasi dell’analisi dei dati, c’è sicuramente una gerarchia d’esecuzione da rispettare ma, con l’esperienza, noterete come molte di queste fasi avvengono in ordine differente o anche contemporaneamente. In base alla grandezza del progetto e al suo sviluppo e alla quantità di risorse disponibili, il metodo di lavoro può cambiare. Inoltre, incontrando degli ostacoli durante il percorso, si è spesso costretti a tornare indietro o a ripetere in modo alternativo alcuni dei passaggi.

Il futuro è Big Data
Nel corso degli anni, il volume dei dati disponibili è aumentato vertiginosamente, soprattutto grazie all'espansione dell'IoT (Internet of Things). Il mercato dei dati cresce quindi a dismisura ed è, secondo le ultime stime, destinato a raggiungere un valore di $103 miliardi entro il 2027. Di seguito, alcune pillole sui dati:

  • Le aziende generano circa 2,000,000,000,000,000,000 di byte di dati al giorno.
  • Il 97.2% delle organizzazioni investe in AI e Big Data.

Nonostante i numeri parlino da sé, le aziende fanno fatica a seguire l'incessante creazione di nuovi dati:

  • Circa il 95% delle aziende dichiara l'incapacità di comprendere e gestire dati non strutturati.
  • Solo il 26% circa delle aziende afferma di aver raggiunto una cultura basata sui dati.

Non vivere il futuro da spettatore… diventane il protagonista! Iscriviti ai percorsi Geeks Academy per lavorare nelle nuove professioni della Data Economy grazie ai percorsi dell’area AI & Big Data:

Fonti:
https://www.impactmybiz.com/blog/what-is-the-difference-between-big-data-and-business-intelligence/
https://www.bnova.it/data-science/6-1-fasi-datascience/
https://www.valerio.it/che-cosa-data-analysis/

Condividi con:



Ultimi Articoli:




DATA VISUALIZATION OVERVIEW

DATA VISUALIZATION OVERVIEW

La data visualization è l’ultima fase dell’analisi dati ma è forse la più significativa. Perché abbiamo bisogno di visualizzare i dati? Perché a volte i numeri non bastano!

INTO THE METAVERSE: AXIE INFINITY

INTO THE METAVERSE: AXIE INFINITY

Il 2021 è la consacrazione del metaverso. Facebook diventa Meta e McKinsey prevede che il valore del metaverso crescerà fino a 5$ trilioni. L’idea di Stephenson è ora realtà. Ma cos’è il metaverso?

TUTTI GLI ARTICOLI

I nostri Partner