Che cos'è il data mining?

Il processo che consente a un'impresa di estrarre informazioni utili sia di natura descrittiva che predittiva del futuro, beneficiando dei dati raccolti nel tempo mediante tecniche e strumenti.

Data mining

Il data mining è il processo di individuazione delle informazioni all'interno di un set di dati. È anche noto come Knowledge Discovery in Databases (KDD). Ci sono due risultati che è possibile ottenere dal data mining: descrivere i dati che si possiedono o fare previsioni per il futuro.

La prima fase e forse quella più complessa del data mining è la definizione dell'obiettivo aziendale. Ad è anche il più critico. Se non si sa cosa si sta cercando, sarà difficile selezionare i tipi, gli algoritmi e i modelli di machine learning più adatti per ottenere le informazioni di cui si ha bisogno.

Il data mining può aiutare nel campo delle vendite e del marketing, in modo che un'azienda comprenda meglio i propri clienti e il mercato. Scuole e università possono utilizzarlo per comprendere meglio i propri studenti in base a informazioni come il tempo trascorso in un'aula virtuale, il numero di tasti premuti, i corsi seguiti contemporaneamente dagli studenti o le classi che raggiungono punteggi più elevati ai test.

Le aziende possono anche utilizzare il data mining per ottimizzare l'operatività grazie a una più approfondita comprensione, tra le altre cose, di produzione, assemblaggio, guasti ed errori. È anche utile per il rilevamento delle frodi. Le banche possono utilizzare il data mining per individuare modelli di frode o anche il negozio che è stato compromesso.

La seconda fase consiste nella preparazione dei dati. Una volta compreso l'obiettivo, i data scientist possono determinare il set di dati pertinente in modo che le informazioni risultanti siano utili per l'azienda. In questa seconda fase i data scientist dati devono ripulire i dati, eliminare le duplicazioni, preoccuparsi delle informazioni mancanti e gestire gli outlier. La mancata gestione di tutti questi elementi potrebbe impedire agli algoritmi e agli strumenti di data mining di fornire i risultati di cui c'è bisogno.

La terza fase prevede la costruzione del modello e l'individuazione degli schemi nei dati. È qui che entrano in gioco le tecniche e gli strumenti descritti qui di seguito. Il data mining può utilizzare algoritmi di deep learning con metodi di apprendimento supervisionati o non supervisionati.

La quarta e ultima fase consiste nel valutare i risultati prodotti dal data mining per apportare modifiche o intraprendere azioni vantaggiose per l'azienda.

Tecniche di data mining

Le tecniche di data mining consentono ai data scientist e alle aziende di fare un uso migliore di grandi quantità di dati. Alcune delle tecniche includono:

  • Il tracciamento degli schemi è una tecnica fondamentale per identificare le tendenze, come ad esempio l'aumento delle vendite di pale da neve quando è in arrivo una tempesta. Tranne per il fatto che le informazioni che si stanno cercando non sono così ovvie.
  • La classificazione è un'altra tecnica che consente di suddividere i dati in diverse categorie e assegnare loro una classificazione. Ad esempio, è possibile classificare i clienti bancari in base alla loro storia finanziaria come clienti con carte di credito a basso, medio o alto rischio.
  • L'associazione è un altro metodo relativo al tracciamento degli schemi. Permette di individuare variabili collegate in momenti specifici. Un esempio potrebbe essere la consapevolezza che, dopo che un cliente aggiunge la pasta al carrello, procederà con la scelta di un condimento. O che dopo il condimento passerà al parmigiano.
  • Il rilevamento dei valori anomali è un altro metodo di data mining che va alla ricerca di eccezioni o anomalie. Un esempio potrebbe essere un enorme aumento delle vendite verso clienti femminili in un negozio tipicamente maschile a giugno perché, a quanto pare, le donne fanno acquisti per i padri una o due settimane prima della festa del papà.
  • Il clustering è un'altra tecnica di natura simile a quella della classificazione. Questa volta, i dati sono raggruppati in base alla loro somiglianza. I clienti potrebbero essere collegati dalla frequenza degli acquisti o dal reddito disponibile.
  • La regressione è la capacità di prevedere un valore in base a valori nel passato. La regressione determina la media nel tempo, perché valori come i Chiedi un preventivo delle case tendono a oscillare un po' più in alto o un po' più in basso nel tempo rispetto al prezzo medio attuale.
  • La previsione è una tecnica di data mining che consente alle aziende di prevedere un valore nel futuro.

     

Strumenti di data mining

Gli strumenti di data mining sono essenziali per migliorare l'effetto che il data mining ha sulla produttività dell'azienda. Alcuni dei migliori strumenti oggi disponibili sono:

  • MonkeyLearn
  • RapidMiner Studio
  • Sisense for Cloud Data Teams
  • Alteryx Designer
  • Qlik Sense
  • Orange

 

MonkeyLearn è uno strumento di analisi del testo. È possibile usarlo per rilevare sentimenti come recensioni online negative o automatizzare i processi di etichettatura e instradamento dei ticket.

RapidMiner Studio è una piattaforma open source dotata di un'interfaccia drag-and-drop che consente ai non programmatori di personalizzare il proprio caso d'uso. Può essere utilizzato per il rilevamento di frodi o lo studio del turnover dei clienti. Per i programmatori, esistono estensioni R e Python che personalizzano il data mining. C'è anche una fantastica community per il supporto.

Sisense for Cloud Data Teams consente ai team di lavorare insieme per estrarre informazioni dai propri dati, indipendentemente dal livello tecnico del membro del team.

Alteryx Designer consente agli analisti di dati di preparare, combinare e analizzare i propri dati con un unico strumento.  

Qlik Sense è uno strumento software di visualizzazione che permette di generare "grafici straordinari". Consente di analizzare più origini dati con funzionalità drag-and-drop.

Risorse