資料探勘是一種能讓企業從一些技巧和工具所長期蒐集的資料當中截取出有用資訊的方法,這些資訊包括對資料的分析敘述,或是對未來的預測。
資料探勘
資料探勘是一種從資料當中挖掘資訊的方法,此方法有時亦稱為「資料庫內的知識探索」(Knowledge Discovery in Databases,簡稱 KDD)。您可以經由資料探勘來得到兩種結果:第一種是針對您現有資料的分析敘述,第二種是針對未來的預測。
資料探勘的第一步 (或許也是最難的一步) 就是設定商業目標,但這同時也是最重要的一步。如果您不曉得自己在尋找什麼,那您就很難決定該選什麼樣的機器學習 (ML) 類型、演算法以及模型來獲取您所要的資訊。
資料探勘可在銷售和行銷上提供幫助,讓企業更了解自己的客戶和行銷效果。學校和大專院校可利用資料探勘來更了解自己的學生,例如:學生花費在虛擬教室的時間、鍵盤按鍵次數、學生同時選修的課程,或是哪些課程的測驗成績較好。
企業也可利用資料採礦來了解其製造、組裝、瑕疵、故障率等等資訊來改善營運。此外,還可用來偵測詐騙,例如銀行業可用資料採礦來找出歹徒的詐騙模式,甚至發掘已遭駭入的營業據點。
資料探勘的第二步就是準備好您的資料。您要先了解自己的目標,您的資料科學家才能挑選相關的資料集,這樣得到的資訊才會對您的企業有用。在這個階段,資料科學家必須清理資料當中重複、遺失和異常的資訊,因為這些狀況都有可能影響您的資料採礦演算法和工具,使其結果無法預期。
接下來第三步是建立模型,然後開始採礦以尋找規律。這時候就會運用到以下的技巧和工具。資料探勘可使用深度學習演算法來搭配監督式或非監督式學習。
第四步 (同時也是最後一步) 就是評估資料探勘所得到的結果,然後採取一些對企業有利的改變或行動。
資料探勘技巧可讓資料科學家和企業更妥善發揮大數據的效益,以下是一些常用的技巧:
企業必須透過一些資料採礦工具,才能讓資料探勘發揮效益以提高生產力,今日市面上一些主流的工具包括:
MonkeyLearn 是一個文字分析工具。您可利用它來偵測輿論的走向 (例如網路負評),或者將您的問題追蹤標記 (ticket tagging) 與路徑安排流程 (routing process) 自動化。
RapidMiner Studio 是一套開放原始碼平台,提供拖放式使用介面來讓非程式設計師可以針對其個案客製化。它可用來偵測詐騙或客戶流失率。若是程式設計師,則可透過 R 語言和 Python 語言延伸功能來客製化資料採礦作業。此外,這工具還有一個很棒的支援社群。
Sisense for Cloud Data Teams 可讓團隊共同合作從資料當中截取情報,對團隊成員的技術能力要求不高。
Alteryx Designer 讓資料分析師只需一套工具就能準備、合併及分析資料。
Qlik Sense 是一套視覺化軟體工具,除了提供「精美的圖表」之外,還提供拖放的方式來分析多個資料來源。