甚麼是資料勘探?

資料勘探是一種能讓企業利用一些技巧和工具來從長期蒐集的資料中截取有用資訊的方法,這些資訊包括對資料的分析敘述,或是對未來的預測。

資料勘探

資料勘探是在數據集內尋找資料的程序,亦被稱為數據庫知識探索(KDD)。透過資料勘探,用戶可得到兩種數據,包括敘述式數據或可用於預測未來的數據。

資料勘探的第一步,也是最困難的一步,就是要設定業務目標,這亦是最關鍵的。如果您不知道自己在尋找甚麼,您會很難選擇合適的機器學習類型、演算法及模型來取得所需資訊。

資料勘探可用於營銷及市務推廣,讓商業機構更了解其客戶及市場情況。學校及大學可以用它來更好了解學生,包括分析他們在虛擬課室所花的時間、打鍵盤次數、學生同時參與的課堂或取得最佳測驗分數的班別等。

機構也可以利用資料勘探來優化運作,例如更好了解製造流程、部件要求、故障情況、系統失靈及其他等。在偵測詐騙上也可應用此技術,銀行界可以利用資料勘探來尋找詐騙模式及找出那個機構被入侵。

第二步就是要準備您的數據。假如您了解自己的目標,您的數據科學家就可以決定採用合適的數據集,從而產生對業務有用的資訊。在這步驟中,數據科學家必須先清理數據,消除重複及異常值,並補充欠缺的資料,以預防資料勘探演算法及工具未能提供所需結果。

第三步就是要建立模型及進行勘探,而以下技術及工具亦在此時加入運作。資料勘探使用的深層學習演算法,可以是受監督或不受監督的學習方式。

第四步亦是最後一步,就是評估數據挖掘產生的結果,與及以此為據採取行動令機構獲益。

資料勘探技巧

資料探勘技巧可讓資料科學家和企業更妥善發揮大數據的效益,以下是一些常用的技巧:部份常用的技巧包括:

  • 模式追蹤是一種尋找規律和模式的基本技巧,例如當暴風雪來臨時,除雪鏟的銷量就會增加。不過,您要尋找的不會是像這麼顯而易見的事實。
  • 分類是另一種將資料分門別類並歸納類別的技巧,例如您可以根據銀行客戶的金融史,來將客戶分成低、中、高三種信用風險等級。
  • 關聯是另一種與模式追蹤類似的技巧,它尋找的是與某個些時機相關的可變因素。例如,當客戶將義大利麵放入購物車時,接下來他們通常會挑選醬汁。或者,在挑選醬汁之後,接著就是挑選帕瑪森起司。
  • 異常值偵測是一種專門尋找例外或異常狀況的資料探勘技巧。例如,六月份女性顧客在男士商店的購物量突然暴昇,結果發現原來她們是為父親購買父親節禮物。
  • 聚類分析是與分類相似的技巧,不過數據是根據其相似性而歸類。例如顧客會因為購物的頻率或可支配收入而連繫在一起。
  • 迴歸分析是根據過去數據預測新數值的技巧。迴歸分析會參考過去一段時間的平均數值。因為很多數值都會不停波動,與現時的平均數值有所分別。
  • 預測是資料勘探的技巧,讓機構可以預測未來的數值。

     

資料勘探工具

資料勘探工具是改善資料勘探效率必不可少的一環,現今主要的工具包括:

  • MonkeyLearn
  • RapidMiner Studio
  • Sisense for Cloud Data Teams
  • Alteryx Designer
  • Qlik Sense
  • Orange

 

MonkeyLearn 是一個文本分析工具,可以用來偵測負面的網上評論或自動化籌號排序及分發程序。

RapidMiner Studio 是一個開放源碼平台,提供拖放介面讓非程式設計師客製化其用途。它可用作偵測詐騙及客戶變動。程式設計師可以利用 R 及 Python 副檔名來客製化資料勘探內容,並可透過用戶社群取得支援。

Sisense for Cloud Data Teams 讓團隊合作從數據提取情報,而無須顧慮團隊成員的技術水平。

Alteryx Designer 讓分析師可以利用一個工具來準備、融合及分析數據。

Qlik Sense 是一個視覺化軟件工具,提供「具震撼力的圖表」。它可以利用拖放功能來分析多重來源的數據。

資源