何謂資料探勘?

資料探勘是一種能讓企業從一些技巧和工具所長期蒐集的資料當中截取出有用資訊的方法,這些資訊包括對資料的分析敘述,或是對未來的預測。

資料探勘

資料探勘是一種從資料當中挖掘資訊的方法,此方法有時亦稱為「資料庫內的知識探索」(Knowledge Discovery in Databases,簡稱 KDD)。您可以經由資料探勘來得到兩種結果:第一種是針對您現有資料的分析敘述,第二種是針對未來的預測。

資料探勘的第一步 (或許也是最難的一步) 就是設定商業目標,但這同時也是最重要的一步。如果您不曉得自己在尋找什麼,那您就很難決定該選什麼樣的機器學習 (ML) 類型、演算法以及模型來獲取您所要的資訊。

資料探勘可在銷售和行銷上提供幫助,讓企業更了解自己的客戶和行銷效果。學校和大專院校可利用資料探勘來更了解自己的學生,例如:學生花費在虛擬教室的時間、鍵盤按鍵次數、學生同時選修的課程,或是哪些課程的測驗成績較好。

企業也可利用資料採礦來了解其製造、組裝、瑕疵、故障率等等資訊來改善營運。此外,還可用來偵測詐騙,例如銀行業可用資料採礦來找出歹徒的詐騙模式,甚至發掘已遭駭入的營業據點。

資料探勘的第二步就是準備好您的資料。您要先了解自己的目標,您的資料科學家才能挑選相關的資料集,這樣得到的資訊才會對您的企業有用。在這個階段,資料科學家必須清理資料當中重複、遺失和異常的資訊,因為這些狀況都有可能影響您的資料採礦演算法和工具,使其結果無法預期。

接下來第三步是建立模型,然後開始採礦以尋找規律。這時候就會運用到以下的技巧和工具。資料探勘可使用深度學習演算法來搭配監督式或非監督式學習。

第四步 (同時也是最後一步) 就是評估資料探勘所得到的結果,然後採取一些對企業有利的改變或行動。

資料探勘技巧

資料探勘技巧可讓資料科學家和企業更妥善發揮大數據的效益,以下是一些常用的技巧:

  • 模式追蹤 (pattern tracking):這是一種尋找規律和模式的基本技巧,例如:當暴風雪來臨時,除雪鏟的銷量就會增加。只不過,您要尋找的不會是像這麼顯而易見的事實。
  • 分類 (classification):這是另一種將資料分門別類並指派類別的技巧。例如,您可以根據銀行客戶的金融史,來將客戶分成低、中、高三種信用風險等級。
  • 關聯 (association):這是另一種與模式追蹤類似的技巧。它尋找的是與某個些時機相關的變量。例如,當客戶將義大利麵放入購物車時,接下來他們通常會挑選醬汁。或者,在挑選醬汁之後,接著就是挑選帕瑪森起司。
  • 異常偵測 (outlier detection):這是一種專門尋找例外或異常狀況的資料探勘技巧。例如,一家以男性客戶主的商店,在六月份突然暴增了許多女性客戶的消費記錄。結果,這是因為這些女性客戶在父親節前一兩個禮拜來店選購父親節禮物。
  • 集群 (clustering):這是另一個性質上跟分類很像的技巧。只不過,此技巧是依據資料的相似性而將它們歸在一起。例如可利用購物頻率或可支配所得來作為客戶之間的共同點。
  • 回歸 (regression):這是根據過去的資料來對未來進行預測的技巧。回歸技巧主要是尋找過去的平均值,例如,房價通常會隨著時間而波動,其範圍大概是稍微高於或低於當下的平均價格。
  • 預測 (prediction):這是一種讓企業預測未來某項數值的資料探勘技巧。

     

資料探勘工具

企業必須透過一些資料採礦工具,才能讓資料探勘發揮效益以提高生產力,今日市面上一些主流的工具包括:

  • MonkeyLearn
  • RapidMiner Studio
  • Sisense for Cloud Data Teams
  • Alteryx Designer
  • Qlik Sense
  • Orange

 

MonkeyLearn 是一個文字分析工具。您可利用它來偵測輿論的走向 (例如網路負評),或者將您的問題追蹤標記 (ticket tagging) 與路徑安排流程 (routing process) 自動化。

RapidMiner Studio 是一套開放原始碼平台,提供拖放式使用介面來讓非程式設計師可以針對其個案客製化。它可用來偵測詐騙或客戶流失率。若是程式設計師,則可透過 R 語言和 Python 語言延伸功能來客製化資料採礦作業。此外,這工具還有一個很棒的支援社群。

Sisense for Cloud Data Teams 可讓團隊共同合作從資料當中截取情報,對團隊成員的技術能力要求不高。

Alteryx Designer 讓資料分析師只需一套工具就能準備、合併及分析資料。 

Qlik Sense 是一套視覺化軟體工具,除了提供「精美的圖表」之外,還提供拖放的方式來分析多個資料來源。

參考資源