資料勘探是一種能讓企業利用一些技巧和工具來從長期蒐集的資料中截取有用資訊的方法,這些資訊包括對資料的分析敘述,或是對未來的預測。
資料勘探
資料勘探是在數據集內尋找資料的程序,亦被稱為數據庫知識探索(KDD)。透過資料勘探,用戶可得到兩種數據,包括敘述式數據或可用於預測未來的數據。
資料勘探的第一步,也是最困難的一步,就是要設定業務目標,這亦是最關鍵的。如果您不知道自己在尋找甚麼,您會很難選擇合適的機器學習類型、演算法及模型來取得所需資訊。
資料勘探可用於營銷及市務推廣,讓商業機構更了解其客戶及市場情況。學校及大學可以用它來更好了解學生,包括分析他們在虛擬課室所花的時間、打鍵盤次數、學生同時參與的課堂或取得最佳測驗分數的班別等。
機構也可以利用資料勘探來優化運作,例如更好了解製造流程、部件要求、故障情況、系統失靈及其他等。在偵測詐騙上也可應用此技術,銀行界可以利用資料勘探來尋找詐騙模式及找出那個機構被入侵。
第二步就是要準備您的數據。假如您了解自己的目標,您的數據科學家就可以決定採用合適的數據集,從而產生對業務有用的資訊。在這步驟中,數據科學家必須先清理數據,消除重複及異常值,並補充欠缺的資料,以預防資料勘探演算法及工具未能提供所需結果。
第三步就是要建立模型及進行勘探,而以下技術及工具亦在此時加入運作。資料勘探使用的深層學習演算法,可以是受監督或不受監督的學習方式。
第四步亦是最後一步,就是評估數據挖掘產生的結果,與及以此為據採取行動令機構獲益。
資料探勘技巧可讓資料科學家和企業更妥善發揮大數據的效益,以下是一些常用的技巧:部份常用的技巧包括:
資料勘探工具是改善資料勘探效率必不可少的一環,現今主要的工具包括:
MonkeyLearn 是一個文本分析工具,可以用來偵測負面的網上評論或自動化籌號排序及分發程序。
RapidMiner Studio 是一個開放源碼平台,提供拖放介面讓非程式設計師客製化其用途。它可用作偵測詐騙及客戶變動。程式設計師可以利用 R 及 Python 副檔名來客製化資料勘探內容,並可透過用戶社群取得支援。
Sisense for Cloud Data Teams 讓團隊合作從數據提取情報,而無須顧慮團隊成員的技術水平。
Alteryx Designer 讓分析師可以利用一個工具來準備、融合及分析數據。
Qlik Sense 是一個視覺化軟件工具,提供「具震撼力的圖表」。它可以利用拖放功能來分析多重來源的數據。