Il processo che consente a un'impresa di estrarre informazioni utili sia di natura descrittiva che predittiva del futuro, beneficiando dei dati raccolti nel tempo mediante tecniche e strumenti.
Il data mining è il processo di individuazione delle informazioni all'interno di un set di dati. È anche noto come Knowledge Discovery in Databases (KDD). Ci sono due risultati che è possibile ottenere dal data mining: descrivere i dati che si possiedono o fare previsioni per il futuro.
La prima fase e forse quella più complessa del data mining è la definizione dell'obiettivo aziendale. Ad è anche il più critico. Se non si sa cosa si sta cercando, sarà difficile selezionare i tipi, gli algoritmi e i modelli di machine learning più adatti per ottenere le informazioni di cui si ha bisogno.
Il data mining può aiutare nel campo delle vendite e del marketing, in modo che un'azienda comprenda meglio i propri clienti e il mercato. Scuole e università possono utilizzarlo per comprendere meglio i propri studenti in base a informazioni come il tempo trascorso in un'aula virtuale, il numero di tasti premuti, i corsi seguiti contemporaneamente dagli studenti o le classi che raggiungono punteggi più elevati ai test.
Le aziende possono anche utilizzare il data mining per ottimizzare l'operatività grazie a una più approfondita comprensione, tra le altre cose, di produzione, assemblaggio, guasti ed errori. È anche utile per il rilevamento delle frodi. Le banche possono utilizzare il data mining per individuare modelli di frode o anche il negozio che è stato compromesso.
La seconda fase consiste nella preparazione dei dati. Una volta compreso l'obiettivo, i data scientist possono determinare il set di dati pertinente in modo che le informazioni risultanti siano utili per l'azienda. In questa seconda fase i data scientist dati devono ripulire i dati, eliminare le duplicazioni, preoccuparsi delle informazioni mancanti e gestire gli outlier. La mancata gestione di tutti questi elementi potrebbe impedire agli algoritmi e agli strumenti di data mining di fornire i risultati di cui c'è bisogno.
La terza fase prevede la costruzione del modello e l'individuazione degli schemi nei dati. È qui che entrano in gioco le tecniche e gli strumenti descritti qui di seguito. Il data mining può utilizzare algoritmi di deep learning con metodi di apprendimento supervisionati o non supervisionati.
La quarta e ultima fase consiste nel valutare i risultati prodotti dal data mining per apportare modifiche o intraprendere azioni vantaggiose per l'azienda.
Le tecniche di data mining consentono ai data scientist e alle aziende di fare un uso migliore di grandi quantità di dati. Alcune delle tecniche includono:
Gli strumenti di data mining sono essenziali per migliorare l'effetto che il data mining ha sulla produttività dell'azienda. Alcuni dei migliori strumenti oggi disponibili sono:
MonkeyLearn è uno strumento di analisi del testo. È possibile usarlo per rilevare sentimenti come recensioni online negative o automatizzare i processi di etichettatura e instradamento dei ticket.
RapidMiner Studio è una piattaforma open source dotata di un'interfaccia drag-and-drop che consente ai non programmatori di personalizzare il proprio caso d'uso. Può essere utilizzato per il rilevamento di frodi o lo studio del turnover dei clienti. Per i programmatori, esistono estensioni R e Python che personalizzano il data mining. C'è anche una fantastica community per il supporto.
Sisense for Cloud Data Teams consente ai team di lavorare insieme per estrarre informazioni dai propri dati, indipendentemente dal livello tecnico del membro del team.
Alteryx Designer consente agli analisti di dati di preparare, combinare e analizzare i propri dati con un unico strumento.
Qlik Sense è uno strumento software di visualizzazione che permette di generare "grafici straordinari". Consente di analizzare più origini dati con funzionalità drag-and-drop.