Proces umożliwiający firmie wydobycie cennych informacji o naturze opisowej lub przewidującej z danych zgromadzonych przez pewien czas za pomocą określonych technik i narzędzi.
Data mining to proces odkrywania informacji w zbiorach danych, dlatego czasami technikę tę nazywa się także odkrywaniem wiedzy w bazach danych (Knowledge Discovery in Databases – KDD). Za pomocą technik data mining można uzyskać dwa rodzaje wyników – opisujące posiadane dane lub pozwalające sformułować prognozy na przyszłość.
Pierwszym i być może najtrudniejszym krokiem w data mining jest ustanowienie celu biznesowego. Jest on jednocześnie najważniejszy. Jeśli nie wiesz, czego szukasz, to trudno Ci będzie wybrać odpowiednie typy, algorytmy i modele machine learning.
Data mining pozwala lepiej zrozumieć zachowania klientów i sprawy marketingowe, co przekłada się na zwiększenie sprzedaży i zwiększenie skuteczności promocji. Szkoły i uniwersytety mogą wykorzystywać tę technikę do lepszego poznawania swoich uczniów na podstawie takich informacji, jak ilość czasu spędzanego w klasie wirtualnej, liczba naciśnięć klawiszy, rodzaj odbywanych jednocześnie zajęć czy wyniki osiągane na poszczególnych typach zajęć.
Korporacje z kolei mogą optymalizować operacje dzięki lepszemu zrozumieniu procesów produkcji i montażu, usterek, awarii itd. Data mining może także pomagać w wykrywaniu oszustw. Banki mogą poszukiwać charakterystycznych cech oszustwa, a nawet określić sklep, w którym go dokonano.
Drugim krokiem jest przygotowanie danych. Jeśli masz jasno określony cel, Twoi specjaliści mogą określić odpowiedni zbiór danych, na podstawie którego będzie można uzyskać przydatne dla firmy informacje. Na tym etapie specjaliści od obróbki danych powinni je oczyścić przez usunięcie duplikatów, braków i nietypowych elementów. Ich obecność może zaburzyć jakość wyników osiąganych przez algorytmy i narzędzia data mining.
Trzecim krokiem jest budowa modelu i poszukiwanie wzorców. Do tego wykorzystuje się techniki i narzędzia opisane poniżej. Techniki data mining mogą wykorzystywać algorytmy uczenia głębokiego oraz nadzorowane i nienadzorowane metody nauki.
Czwarty i ostatni krok to ewaluacja wyników uzyskanych z pomocą techniki data mining, aby wprowadzić zmiany lub podjąć działania korzystne dla firmy.
Techniki data mining umożliwiają specjalistom od danych i firmom lepsze wykorzystywanie dużych ilości danych. Oto niektóre z tych technik:
Narzędzia do data mining są firmie niezbędne do uzyskiwania jak najlepszych wyników w zakresie optymalizacji wydajności. Niektóre aktualnie najpopularniejsze z tych narzędzi to:
MonkeyLearn to narzędzie do analizy tekstu. Przy jego pomocy można wykrywać nastroje, jak na przykład negatywne opinie w Internecie, lub zautomatyzować oznaczanie zgłoszeń i procesy przekierowywania.
RapidMiner Studio to platforma open source z interfejsem typu „przeciągnij i upuść” umożliwiająca użytkownikom nie znającym się na programowaniu dostosowywać własne przypadki użycia. Za jej pomocą można wykrywać oszustwa albo rotację klientów. Dla programistów przeznaczone są rozszerzenia języków R i Python do data mining. Ponadto istnieje fantastyczna społeczność, która chętnie udziela pomocy.
Sisense for Cloud Data Teams umożliwia zespołom wydobywanie informacji z danych bez względu na poziom wiedzy technicznej ich członków.
Alteryx Designer umożliwia analitykom przygotowywanie, mieszanie i analizowanie danych za pomocą jednego narzędzia.
Qlik Sense to program do wizualizacji umożliwiający tworzenie fantastycznych wykresów i grafów." Przy jego użyciu można przeprowadzić analizę kilku źródeł danych za pomocą funkcji przeciągania i upuszczania.