對于建立可靠的數據分析不能忽視主數據的重要性!
“給我一個足夠長的杠桿和一個支點,我就能撬動整個世界”這是阿基米德的名言。如果我們想把它轉化為現代數據科學世界,它應該是“給我一個強大的主數據,我就能構建所有可能的分析”。
在接觸數據科學時,許多人專注于數據分析、數據可視化和數據收集,而忘記了整個數據科學的一個基本組成部分:主數據。
您可以獲得公司的所有數據,但是如果主數據質量不高,成功的可能性就很低。
您最終可能會得到錯誤的結果,甚至更糟的是,使用不可靠的數據。
這就是為什么我強烈建議在開展分析數據項目時,始終在其中包含強大的主數據。
在本文中,我將解釋確保主數據可靠所需的關鍵構建塊。通過這樣做,您的分析將變得有價值。
以下是需要討論的五個主題:
數據范圍:第一步是定義哪些數據對于運行數據策略至關重要。您關注的是會計科目表、成本中心或利潤中心層次結構,還是產品和物料主數據?
數據所有權:一旦范圍明確,就必須明確誰擁有這些數據。這是至關重要的,因為所有者應該定義使用數據所需的質量水平。他還必須知道數據測量的內容以及如何使其更可靠。我的建議是將所有權盡可能地放在使用數據的人身邊。這將確保他們了解他們在談論什么,以及他們關心它的事實。盡量避免將所有權放在一些常見的職能部門(即IT)中,因為這可能導致缺乏所有權、缺乏知識,或對主題的關注度低;
數據模型:對所擁有的數據有充分的了解和控制是了解數據從何而來、如何轉換和使用的關鍵。這就是數據模型的作用。在復雜的ERP或系統環境中,要繪制強大的數據模型,需要一些數據架構師。但您可以選擇只為某些數據建立一個詳細的數據模型,這些數據可能會被轉換多次,以便了解誰接觸它們以及如何使它們可靠;
數據質量KPI:如果數據質量很差,那么分析也會很差。您可能需要定義要達到的質量水平,但要知道,您想要的質量越高,您需要付出的成本就越高。對于某些數據,90%的質量水平對于您使用這些數據而言是可以接受的。我的建議是盡可能自動化數據質量計算,以消除其中的情緒和偏見。我們開發的一種方法是每周從關鍵標準ERP表中獲取信息并將其與某些標準進行比較。這創建了一組自動化且可靠的KPI,人們可以跟進以實現定義的目標;
設置數據組織:需要任命具有強烈所有權和責任感的數據管理員。他們必須獲得授權和培訓,以充分了解他們所做工作的好處。解釋他們的數據是如何使用的(即掌握數據模型)將使他們能夠專注于對分析重要的事情;
聯接分析和主數據:即使許多人認為分析是數據科學很酷的一部分,但兩者是無法分開的??紤]讓兩個團隊一起工作,以便對數據采取整體方法,了解它們在何處、如何產生以及它們將在哪里使用。左手必須知道右手會做什么。否則,風險在于重點放在不同的事情上。一個強大的數據科學團隊必須嵌入強大的主數據人員才能取得成功:他們是識別數據之間關系的人,解釋在哪里可以找到正確的數據以及如何連接它們。
即使是最好的數據科學團隊也需要主數據才能取得成功。
數據科學的關鍵是讀取可靠的數據并實現自動化、降低復雜性和預測未來。讓數據分析團隊與主數據團隊一起工作,擁有同樣的尊嚴,將賦予整個組織權力。我有時會說“我們坐在數據的金山上。讓我們利用它!”。繪制一個強大的儀表板當然是一項偉大的工作,但如果您使用正確的數據,最終結果會更好!
“數據!數據數據!沒有粘土,我就造不出磚!”