什麼是資料探勘(Data Mining)?

資料探勘是搜索和分析大量原始數據以識別模式並提取有用信息的過程。公司使用資料探勘軟體來更多地了解其客戶。它可以幫助他們開發更有效的營銷策略,增加銷售並降低成本。資料探勘依賴於有效的數據收集、倉儲和計算機處理。

關鍵要點

  • 資料探勘是分析大量信息以辨別趨勢和模式的過程。
  • 公司可以使用資料探勘來了解客戶的興趣或購買意向,欺詐檢測,以及垃圾郵件過濾。
  • 資料探勘程序根據用戶需求或提供的信息來分解數據中的模式和連接。
  • 社交媒體公司使用資料探勘技術來商品化用戶數據以獲取利潤。
  • 這種資料探勘的使用受到了批評,因為用戶往往對其個人信息被挖掘並用於影響偏好這一事實不知情。

資料探勘的運作方式

資料探勘涉及探索和分析大塊信息以獲取有意義的模式和趨勢。它用於信用風險管理、欺詐檢測和垃圾郵件過濾。它還是一種市場研究工具,有助於揭示某個群體的情感或意見。資料探勘過程分為四步:

  1. 數據被收集並加載到現場或雲端服務的數據倉庫中。
  2. 商業分析師、管理團隊和信息技術專業人員訪問數據並確定他們想如何組織數據。
  3. 定製應用程序軟體對數據進行排序和組織。
  4. 最終用戶以易於分享的格式(如圖表或表格)呈現數據。

資料倉儲和探勘軟體

資料探勘程序根據用戶的請求分析數據中的關係和模式。它將信息組織成類別。

例如,一家餐廳可能希望使用資料探勘來確定其應該在什麼日子提供哪些特價菜。數據可以根據顧客來訪的時間和他們點的菜餚進行分類。

在其他情況下,資料探勘者根據邏輯關係查找信息簇,或者查看關聯和序列模式以得出消費者行為趨勢的結論。

倉儲是資料探勘的一個重要方面。倉儲是將一個組織的數據集中在一個資料庫或程序中的過程。它允許組織根據具體用戶的需求分割數據進行分析和使用。

雲數據倉庫解決方案利用雲提供商的空間和能力來存儲數據。這使得規模較小的公司能夠利用數字解決方案進行存儲、安全性和分析。

資料探勘技術

資料探勘使用算法和各種其他技術將大量數據轉換為有用的輸出。最流行的資料探勘技術類型包括關聯規則、分類、聚類、決策樹、K-最近鄰(K-Nearest Neighbor)、神經網絡和預測分析。

關聯規則

關聯規則(也稱為市場籃子分析)搜索變量之間的關係。這種關係本身在數據集中創造了額外的價值,因為它試圖將數據片段聯繫起來。例如,關聯規則會搜索公司的銷售歷史,以查看哪些產品最常一起購買;根據這些信息,商店可以計劃、促銷和預測。

分類

分類使用預定義的類來分配對象。這些類描述了項目的特徵或表示數據點之間的共同點。這種資料探勘技術使底層數據能更精細地按相似特徵或產品線進行分類和匯總。

聚類

聚類與分類相似。但是,聚類識別對象之間的相似性,然後根據與其他項目的不同之處對這些項目進行分組。當分類可能產生”洗髮水”、”護髮素”、”肥皂”和”牙膏”等組別時,聚類可能會識別出”護髮”和”口腔健康”等組別。

決策樹

決策樹用於根據一系列標準或決策對結果進行分類或預測。決策樹使用一系列級聯問題的輸入來根據給定的回答對數據集進行排序。有時以樹狀圖的形式呈現,決策樹允許在更深入挖掘數據時進行方向性和用戶輸入。

K-最近鄰 (KNN)

K-最近鄰算法根據數據點之間的接近度對數據進行分類。KNN的基礎假設是,彼此接近的數據點之間比其他數據點之間更為相似。這種非參數的監督技術用於根據個別數據點預測群體特徵。

神經網絡

神經網絡通過使用節點來處理數據。這些節點包括輸入、權重和輸出。數據使用監督學習方法進行映射,類似於人腦的互聯方式。此模型可以編程以給出門檻值以確定模型的準確性。

預測分析

預測分析努力利用歷史信息構建圖形或數學模型以預測未來結果。與迴歸分析重疊,此技術旨在基於現有數據支持未來的未知數據。

資料探勘過程

為了最大限度地發揮效果,數據分析師通常遵循資料探勘過程中的特定流程。沒有此結構,分析師可能會在分析過程中遇到可以早期防止的問題。資料探勘過程通常分為以下幾個步驟:

  1. 了解業務:在接觸、提取、清洗或分析任何數據之前,理解底層實體和手頭的項目非常重要。公司通過資料探勘試圖實現的目標是什麼?其當前的業務情況如何?SWOT分析的結果如何?在查看任何數據之前,資料探勘過程從理解最終成功的定義開始。
  2. 了解數據:一旦明確定義了業務問題,就開始考慮數據。這包括什麼來源是可用的,它們將如何被保障和存儲,信息將如何收集以及最終結果或分析可能的樣子。這一步還包括確定數據、存儲、安全和收集的限制,並評估這些限制將如何影響資料探勘過程。
  3. 準備數據: 數據被收集、上傳、提取或計算。然後對其進行清洗、標準化、剔除異常值、檢查錯誤並評估合理性。在此數據探勘階段,數據還可能被檢查大小,因為過大的數據集可能會不必要地減慢計算和分析。
  4. 建立模型: 擁有清潔的數據集後,是時候進行數據分析了。數據科學家使用上述資料探勘方法來尋找關係、趨勢、關聯或序列模式。數據還可以被輸入預測模型以評估先前信息如何轉化為未來結果。
  5. 評估結果: 資料探勘的數據集中階段通過評估數據模型或模型的結果來結束。分析結果可能被匯總、解釋並呈現給決策者,截至目前他們大多被排除在資料探勘過程之外。在這一步,組織可以選擇基於發現進行決策。
  6. 實施變更和監控: 資料探勘過程以管理層根據分析結果採取行動來結束。公司可能會認為信息不夠強大或發現不相關,或者根據結果進行戰略轉變。無論哪種情況,管理層都會審查對業務的最終影響,並通過識別新的業務問題或機會重新創建未來的資料探勘循環。

不同的資料探勘處理模型會有不同的步驟,雖然一般過程通常相似。例如,知識發現資料庫模型有九個步驟,CRISP-DM模型有六個步驟,而SEMMA過程模型有五個步驟。

資料探勘的應用

在如今的信息時代,幾乎任何部門、行業、部門或公司都可以使用資料探勘。

銷售

資料探勘鼓勵更明智、更高效地利用資本以推動收入增長。考慮一下您最喜愛的本地咖啡廳的收銀機。對於每筆銷售,這家咖啡館都會收集購買時間和售出產品的信息。使用這些信息,咖啡館可以策略性地制定其產品線。

營銷

一旦咖啡館知道了其理想的產品線,是時候實施變更了。然而,為了使其營銷努力更有效,商店可以使用資料探勘來了解客戶看到廣告的地方、目標人口統計、放置數字廣告的位置,以及最能引起客戶共鳴的營銷策略。這包括根據資料探勘的發現調整營銷活動、促銷優惠、交叉銷售優惠以及計劃。

製造

對於生產自有商品的公司,資料探勘在分析每種原材料成本、哪些材料最有效利用、製造過程中花費的時間以及哪些瓶頸對過程產生負面影響方面起著重要作用。資料探勘有助於確保物品的流動不間斷。

欺詐檢測

資料探勘的核心是找出模式、趨勢和關聯將數據點聯繫起來。因此,公司可以使用資料探勘來識別不應存在的異常數據或關聯。例如,一家公司可能會分析其現金流,發現向未知賬戶的重複交易。如果這是意外的,公司可能希望調查資金是否被管理不當。

人力資源

人力資源部門通常擁有廣泛的數據可供處理,包括關於保留、晉升、薪酬範圍、公司福利、這些福利的使用情況以及員工滿意度調查的數據。資料探勘可以將這些數據關聯起來,以更好地理解員工離職的原因以及吸引新員工的因素。

客戶服務

客戶滿意度可能由許多事件或互動(或破壞)。想像一家發貨公司。客戶可能對運輸時間、運輸質量或通信感到不滿。同樣的客戶可能因長時間等待電話或回郵延遲而感到沮喪。資料探勘收集有關客戶互動的運營信息,並總結發現以找出薄弱點並突出公司的優勢。

資料探勘的優缺點

資料探勘的優點

  • 提高盈利能力和效率
  • 可以應用於任何類型的數據和業務問題
  • 可以揭示隱藏的信息和趨勢

資料探勘的缺點

  • 它很複雜
  • 結果和收益無法保證
  • 它可能很昂貴

優勢解釋

盈利能力和效率:資料探勘確保公司收集和分析可靠數據。這通常是一個更加嚴格、結構化的過程,正式地識別問題、收集與問題相關的數據並努力制定解決方案。因此,資料探勘有助於企業變得更加盈利、更高效或運營能力更強。

廣泛應用:資料探勘在不同應用中的表現可能大不相同,但整個過程幾乎可以用於任何新舊應用程序。基本上任何類型的數據都可以被收集和分析,幾乎每個依賴於可量化證據的業務問題都可以用資料探勘來解決。

隱藏信息和趨勢:資料探勘的最終目標是將原始數據片段組合集成,確定數據之間是否存在一致性或關聯。這一資料探勘的好處使公司能夠利用現有信息創造價值,否則這些信息並不顯而易見。儘管數據模型可能很複雜,但它們也可以產出令人著迷的結果,挖掘隱藏趨勢並提出獨特的策略。

劣勢解釋

複雜性:資料探勘的複雜性是其最大的劣勢之一。數據分析通常需要技術技能和特定的軟體工具。小公司可能會發現這是一個難以克服的入門障礙。

無保證:資料探勘並不總是意味著保證結果。一家公司可能會進行統計分析,基於可靠的數據得出結論,實施變更,但未能獲得任何好處。這可能是由於不準確的發現、市場變化、模型錯誤或不適當的數據人口。資料探勘只能指導決策而不能保證結果。

高成本:資料探勘還有一個成本組成部分。數據工具可能需要昂貴的訂閱,一些數據可能也很昂貴。安全和隱私問題可以得到解決,但額外的IT基礎設施可能同樣昂貴。資料探勘可能在使用龐大的數據集時最為有效;然而,這些數據集必須被存儲並需要大量計算能力來進行分析。

資料探勘與社交媒體

資料探勘最有利可圖的應用之一是由社交媒體公司開展的。像 Facebook、TikTok、Instagram 和 X(前身為 Twitter)這樣的平台根據用戶的在線活動收集大量數據。

這些數據可以用來推斷用戶的偏好。廣告商可以將其消息針對那些最有可能積極回應的人。

社交媒體上的資料探勘成為一個大的爭論點,多篇調查報告和曝光報告顯示出資料探勘對用戶數據的侵入性。在問題的核心是用戶可能同意網站的條款和條件,但並不知道他們的個人信息是如何被收集的,或者他們的信息被出售給誰。

資料探勘的例子

資料探勘可以用於好事,也可以用於不法行為。以下是兩個例子。

eBay 和電子商務

eBay 每天從賣家和買家那裡收集無數的信息。該公司使用資料探勘來建立產品之間的關係,評估期望的價格範圍,分析以往的購買模式,並形成產品類別。

eBay 概述了推薦過程如下:

  1. 原始項目元數據和用戶歷史數據被聚合
  2. 在訓練好的模型上運行腳本以生成和預測項目和用戶。
  3. 進行 KNN 搜索。
  4. 結果寫入數據庫。
  5. 實時推薦接收用戶 ID,調用數據庫結果並顯示給用戶。

Facebook-Cambridge Analytica 醜聞

一個警示性的資料探勘例子是 Facebook-Cambridge Analytica 資料醜聞。在 2010 年代,英國諮詢公司 Cambridge Analytica Ltd. 從數百萬 Facebook 用戶那裡收集個人數據。這些信息後來被用於 2016 年特德·克魯茲和唐納德·特朗普的總統競選活動。據懷疑,Cambridge Analytica 還干預了其他一些重要事件,如脫歐公投。

鑒於這種不當的資料探勘和用戶數據的濫用,Facebook 同意支付 1 億美元以誤導投資者關於其消費者數據使用的情況。美國證券交易委員會聲稱 Facebook 在 2015 年發現了濫用行為,但在超過兩年的時間裡未能糾正其披露。

資料探勘的類型

資料探勘有兩種主要類型:預測性資料探勘和描述性資料探勘。預測性資料探勘提取可能有助於確定結果的數據。描述性資料探勘則告訴用戶給定結果的信息。

資料探勘是如何進行的?

資料探勘依賴於大數據和包括機器學習和其他形式的人工智能(AI)在內的先進計算過程。目標是從大量非結構化數據集中找到模式,從而得出推論或預測。

資料探勘的另一個術語是什麼?

資料探勘也被稱為「數據中的知識發現」(Knowledge Discovery in Data,KDD),但這個術語較少使用。

資料探勘在哪些領域使用?

資料探勘應用已被設計來應對幾乎所有依賴於大數據的工作。金融行業的公司會尋找市場中的模式。政府試圖識別潛在的安全威脅。企業,特別是在線和社交媒體公司,使用資料探勘來創建針對特定用戶群體的有利可圖的廣告和營銷活動。

總結

現代企業有能力收集關於其客戶、產品、製造線、員工和門店的信息。這些隨機的信息可能並不能講述一個完整的故事,但使用資料探勘技術、應用和工具可以將信息拼湊在一起。

資料探勘過程的最終目標是編輯數據,分析結果,並根據資料探勘結果執行運營策略。