什麼是資料倉儲(Data Warehouse)?

資料倉儲是企業或其他組織安全電子存儲信息的方式。資料倉儲的目標是創建歷史資料庫,這些數據可以被檢索和分析,以提供有用的洞察,以改進組織的運營。

資料倉儲是商業智能的重要組成部分。這個更廣泛的術語包含了現代企業用來追蹤其過去成功和失敗並為未來做決策的信息基礎設施。

關鍵要點

  • 資料倉儲是企業或其他組織隨時間存儲信息的方式。
  • 新數據定期由市場營銷和銷售等各個關鍵部門的人員添加。
  • 倉庫成為歷史數據的圖書館,可以被檢索和分析,以便在企業內部做出決策。
  • 建立一個有效的資料倉儲的關鍵因素包括定義對組織至關重要的信息並確定信息來源。
  • 資料庫被設計用來提供實時信息,而資料倉儲則被設計為歷史信息的存檔。

資料倉儲是如何運作的

隨著企業開始依賴計算機系統創建、歸檔和檢索重要商務文件,對資料倉儲的需求逐漸演變。資料倉儲的概念是由IBM研究員Barry Devlin和Paul Murphy於1988年提出的。

資料倉儲設計用於使歷史數據分析成為可能。從多個異構來源整合的數據進行比較,可以為公司績效提供洞察。資料倉儲的設計目的是允許用戶基於來自事務源的歷史數據運行查詢和分析。

添加到倉庫中的數據不會改變也不能被更改。倉庫是用來運行過去事件分析的源,重點在於隨時間變化。倉庫中的數據必須以安全、可靠、易於檢索和易於管理的方式存儲。

維持資料倉儲

維持資料倉儲涉及若干步驟。其中一步是數據提取,這包括從多個源點收集大量數據。數據編譯完成後,它會經過數據清理,即查找錯誤並更正或排除發現的錯誤。

清理過的數據然後從資料庫格式轉換為倉庫格式。一旦數據存儲在倉庫中,它便會經過排序、合並和總結,以便更容易使用。隨著各個數據源的更新,更多數據會隨時間添加到倉庫中。

關於資料倉儲的一本重要書籍是W. H. Inmon的《Building the Data Warehouse》,這是一部實用指南,首次出版於1990年,並多次再版。

今天,企業可以投資於來自微軟、谷歌、亞馬遜和甲骨文等公司的雲端資料倉儲軟體服務。

數據挖掘

企業主要是為了數據挖掘而儲存數據。這涉及查找信息模式,以幫助它們改進業務流程。

一個好的資料倉儲系統使公司內不同部門更容易訪問彼此的數據。例如,市場營銷團隊可以評估銷售團隊的數據,以決定如何調整銷售活動。

數據挖掘的 5 個步驟

  1. 組織收集數據並將其加載到資料倉儲。
  2. 然後存儲和管理數據,可以在內部伺服器或雲端服務上進行。
  3. 業務分析師、管理團隊和信息技術專業人員訪問和組織數據。
  4. 應用軟體對數據進行排序。
  5. 終端用戶以易分享的格式(如圖表或表格)展示數據。

資料倉儲的概念於1988年由兩位IBM研究員提出。

資料倉儲架構

設計資料倉儲被稱為資料倉儲架構,根據資料倉儲的需求,可以有多種類型的架構。通常有單層架構、雙層架構和三層架構設計。

單層架構

單層架構幾乎不用於實時系統的資料倉儲創建。它們通常用於批量和實時處理操作數據。單層設計由單層硬體構成,目的是將數據空間降到最小。

雙層架構

在雙層架構設計中,分析過程與業務過程分開。這點的目的是增加控制和效率。

三層架構

三層架構設計具有頂層、中層和底層,這些層被稱為源層、對應層和資料倉儲層。這種設計適合生命周期較長的系統。當數據發生更改時,會完成一層額外的審查和分析,以確保沒有錯誤。

無論任何層次,所有資料倉儲架構必須滿足五個基本特性:分離性、可擴展性、擴展性、安全性和可管理性。

資料倉儲 vs. 資料庫

資料倉儲與資料庫不同:

  • 資料庫是一個事務系統,監控和更新實時數據,以確保只有最新數據可用。
  • 資料倉儲被設計為隨時間聚合結構化數據的存儲系統。

例如,一個資料庫可能只有客戶的最新地址,而資料倉儲可能包含過去十年客戶的所有地址。

數據挖掘依賴於資料倉儲。倉庫中的數據被過濾以獲得企業隨時間推移的見解。

資料倉儲 vs. 數據湖

資料倉儲和數據湖都用來存儲各種需求的數據。主要區別在於數據湖保存原始數據,其目標尚未確定。而資料倉儲保存精煉數據,這些數據已經過過濾,用於特定目的。

數據湖主要被數據科學家使用,而資料倉儲通常由業務專業人士使用。數據湖更易訪問和更新,而資料倉儲則更加結構化,變更成本較高。

資料倉儲 vs. 數據集市

數據集市只是資料倉儲的小版本。數據集市從少量來源收集數據,並專注於一個主題區域。數據集市比資料倉儲更快更容易使用。

數據集市通常作為資料倉儲的子集,專注於某個分析用途的領域,如組織內的特定部門。數據集市有助於通過分析和報告來做出商業決策。

資料倉儲的優勢和劣勢

資料倉儲旨在為公司提供競爭優勢。它創造了一個相關信息的資源,可以隨時間跟蹤並進行分析,以幫助企業做出更明智的決策。

然而,它也可能消耗公司的資源,並增加其現有員工的例行任務,目的是為倉庫提供信息。許多其他劣勢包括:

  • 創建和維持倉庫需要耗費大量時間和精力。
  • 由於人為錯誤造成的信息差距可能需要多年才會顯現出來,從而損壞信息的完整性和實用性。
  • 使用多個來源時,來源之間的一致性問題可能導致信息丟失。

優勢

  • 提供基於過去公司績效的事實分析,以幫助決策。
  • 作為相關數據的歷史存檔。
  • 可以在關鍵部門之間共享,以最大化用途。

劣勢

  • 創建和維持倉庫需要大量資源。
  • 輸入錯誤可能損害已存檔信息的完整性。
  • 使用多個來源可能導致數據不一致。

資料倉儲是什麼以及用於什麼?

資料倉儲是一種信息存儲系統,用於存儲歷史數據,這些數據可以用多種方式分析。公司和其他組織利用資料倉儲來獲得對過去績效的洞察,並計劃改進其運營。

資料倉儲的示例是什麼?

考慮一家生產健身設備的公司。其最暢銷產品是一臺固定自行車,公司正在考慮擴展其產品線並啟動新的市場營銷活動來支持它。

它會查詢其資料倉儲,以更好地了解其現有客戶。它可以了解其客戶是主要是50歲以上的女性還是35歲以下的男性。它可以了解銷售其自行車最成功的零售商以及它們的地理位置。它可能會訪問內部調查結果,了解過去的客戶對產品的喜好和不滿。

所有這些信息都幫助公司決定建造什麼樣的新款自行車,以及如何對其進行市場營銷和廣告。這是基於硬數據的決策,而不是憑空作決策。

創建資料倉儲的階段是什麼?

根據ITPro Today(行業出版物)的說法,創建資料倉儲至少有七個階段。它們包括:

  1. 確定業務目標及其主要績效指標。
  2. 收集和分析適當的信息。
  3. 確定貢獻關鍵數據的核心業務流程。
  4. 構建展示數據方式的概念數據模型。」
  5. 定位數據來源並建立向倉庫輸送數據的過程。
  6. 建立追蹤維度。資料倉儲可能變得難以管理。許多資料倉儲分層構建,因此較舊的信息以較少細節保留。
  7. 實施計劃。

SQL是資料倉儲嗎?

SQL(”Structured Query Language”或結構化查詢語言)是一種計算機語言,用於與資料庫進行交互,資料庫可以理解並響應SQL命令。SQL包含許多指令,如”select”、”insert”和”update”。它是關聯資料庫管理系統的標準語言。

資料庫與資料倉儲不同,儘管兩者都是信息存儲集合。資料庫是一個有組織的信息集合。資料倉儲是一個由多個來源持續建設的信息存檔。

ETL在資料倉儲中的作用是什麼?

「ETL」代表「提取、轉換和加載」。ETL是一種數據過程,將多個來源的數據合併為一個單一的數據存儲單元,然後將其加載到資料倉儲或類似數據系統中。它用於數據分析和機器學習。

總結

資料倉儲是公司關於其業務及其隨時間表現的情報庫。由來自其各個關鍵部門的員工提供輸入信息,它是揭示公司過去成功和失敗並指導其決策的分析來源。