根據調查,大多數公司希望增加投資的領域是數據質量,這是未來最受歡迎的投資領域。
這樣做有充分的理由。首先,數據質量差會導致對數據的信任度下降和決策錯誤。其次,公司越來越多地投資于業務關鍵型系統,例如直接由數據倉庫提供支持的 ML 或面向用戶的分析,而這些系統沒有出錯的余地。
然而,大多數公司沒有客觀評估其數據質量的方法,這使得他們無法識別問題區域或跟蹤一段時間內的改進情況。
在這篇文章中,我們探討
.衡量質量時的注意事項
.以數據資產為中心的方式
.以數據產品為中心的方式
.將質量洞察與定量指標相結合
.將洞察付諸行動
你在玩什么游戲
如果你和大多數人一樣,你不會為了好玩而測量數據質量。相反,你有一個明確的業務需求,例如,
•通過強調問題區域,讓分布式團隊掌握數據質量;
•在利益相關者多次詢問數據質量被認為較低后,向他們展示信心;
•向監管機構表明您掌握著數據質量的主動權;
•與數據產品的工程師分享您已承諾遵守 SLA 的系統正常運行時間。
在開展測量數據質量之前,你應該清楚自己在玩什么游戲。獲得可靠的指標將是一項投資,一旦你發現問題區域,更大的投資等待著你,以更好的數據質量控制來改善這些問題。
一 、衡量質量時的注意事項
制定衡量數據質量的指導方針,以便每個人都能以一致的方式對待它。雖然這些可能取決于業務情況,但我們發現這些指導原則非常有效。
指標——衡量覆蓋率和正常運行時間
行動——可操作且后續步驟明確
細分——可按關鍵維度進行細分
用例——考慮數據使用方式
趨勢——隨著時間的推移保持一致且可衡量
在大多數情況下,需要根據數據的使用方式指定期望。我們建議這樣做,因為您可能不想讓所有資產都遵守相同的標準。記住哪些數據對業務至關重要、哪些數據會被公開(例如,在儀表板中)以及哪些資產應該有 SLA(例如,如果數據沒有按時到達,就會產生下游影響),可以幫助您評估需要哪些檢查,從而衡量哪些是重要的。
示例 – 每個表的質量規范和元數據
二 、以數據資產為中心的方式測量數據質量
在資產級別監控數據質量非常直觀:可以在表級別計算正常運行時間和覆蓋率,并可以選擇按元數據維度(例如所有者域、關鍵性以及隨時間推移)進行細分。
這可以鳥瞰數據堆棧,了解在哪些領域比較薄弱,哪些領域比較強,以及這與期望有何關系。
我們建議您考慮兩個指標以獲得最完整的信息。
正常運行時間——每次運行時,現有控制措施成功通過的百分比是多少
覆蓋率——有多少比例的數據資產已實施必要的控制
將質量指標分組到語義相似的領域,可以以更貼近業務用例的方式討論數據質量。
(1) 及時性
– 數據是否根據與業務商定的 SLA 保持最新和最新狀態,
(2) 正確性
– 所有數據是否可用,
(3) 完整性
– 數據在語義上是否正確,
(4) 一致性
– 可用數據是否在各個系統中一致。
我們還建議明確定義哪些情況是“差”、“還行”或“好”。在我們的示例中,任何低于 50% 的分數都被標記為“差”,這意味著需要采取行動。
數據質量匯總表——跨質量維度和隨時間變化的正常運行時間和覆蓋范圍
這種洞察力水平可以讓你開始詢問有關數據質量的問題,例如
雖然我們對空值檢查有很好的覆蓋,但我們應該研究哪些檢查失敗了,是否可以修復,或者是否應該刪除它們。
為什么我們的斷言測試的正常運行時間顯著下降?
鑒于覆蓋率低,我們在唯一性測試上的高正常運行時間是否會給我們一種虛假的安全感?
假設您已指定域所有者等元數據。在這種情況下,您可以細分數據以查看正確性分數的下降主要是由數據倉庫團隊擁有的表的斷言測試驅動的,我想您現在知道該找誰了。
三 、以數據產品為中心的數據質量測量方法
雖然上述以數據資產為中心的方法有優點——它很容易理解、實施,但推理它有一個主要缺點。
以數據資產為中心的質量指標本質上與數據的用例沒有聯系。
換句話說,您的及時性得分可以達到 95%。但是,如果包含關鍵廣告支出管道的 ML 預測的數據模型在每周運行之前失敗,那么您的情況也不會好轉,您的 CTO 會生氣地找您,要求您控制數據質量。
我們提出了一種衡量數據質量的替代方法——以數據產品為中心的方法。
數據產品是一組相關資產,例如由曝光鏈接的 DBT 模型、支持營銷自動化的 CLTV 模型使用的表格或 BI 工具中的一組選定儀表板。換句話說,數據產品與其業務用例緊密相關。
數據產品類似于汽車儀表盤上的警示燈。它們不會立即告訴你有關底層指標的任何信息(例如,油位是否低于 10%),而是告訴你產品存在問題、問題的重要性以及你應該如何調查。
在上面的例子中,您可以立即看到業務 KPI 數據產品上游資產的問題。
您可以跟蹤數據產品的健康狀況,同時考慮數據產品內部和上游的問題。這創造了一種更直觀、以最終用戶為中心的數據健康狀況衡量方法。有了這些信息,您可以理直氣壯地告訴您的首席財務官,您的業務 KPI 儀表板存在可靠性問題,過去 15 天內停機時間為 6 天。
一旦確定數據產品的可靠性存在問題,您就可以深入研究不同的數據控制以查找根本原因。
四、 將定量指標與定性見解相結合
盡管數據質量檢查覆蓋率高且錯誤少,但您可能仍存在盲點。您可以通過將質量指標與有關數據用戶體驗的定性見解和指標相結合來解決這些問題。
調查利益相關者
將定量指標與利益相關者調查相結合是發現需要改進領域的好方法。請他們就自助服務的滿意度、儀表板的質量以及他們所在地區是否有足夠的數據人員等問題提供坦誠、匿名的反饋。
宣布和監控數據事件
數據團隊對事件并不陌生。但處理數據問題通常沒有標準方法,許多團隊只是偶爾宣布數據事件。
與自動化數據質量指標不同,事件是手動聲明和分類的(例如 P1、P2、P3)。記錄歷史事件是補充數據質量指標并向利益相關者透明的好方法。
監控數據可用性
雖然嚴格來說不是數據質量衡量指標,但數據資產的可用性經常被忽視。這可能會導致糟糕的最終用戶體驗,例如對同一指標有多個定義,或者堆棧臃腫,包含數百個未使用的數據模型和儀表板。為了克服這個問題,我們建議您使用可用性指標來補充您的質量衡量指標,例如
參與度分數——儀表板的用戶數量以及數據模型上的下游依賴項和查詢的數量
可用性得分– 帶有描述的列和表的百分比
這些指標可幫助您實施諸如淘汰未使用的數據模型或儀表板等計劃,這是維護健康堆棧的重要部分。
五、 將洞察付諸行動
您經常會希望將監控數據質量過程中發現的洞察付諸實踐。無論是為了改進某個特定領域,還是與利益相關者分享您的改進方法,還是其他什么。
雖然沒有一勞永逸的解決方案,但我們已經看到這些方法效果良好。
通過每周電子郵件摘要自動追責——成為必須告訴他們數據質量不佳的人并不總是一件有趣的事。安排每周自動發送一封電子郵件,其中包含隨時間推移和每個所有者域的質量得分,這是一種很好的追責方式,無需一個人指責。
當人們看到自己的團隊得分低于同行時,他們會引起關注。
認真對待元數據— 我們看到數據質量計劃失敗的最常見原因是每個人都對數據質量負責,因此沒有人感到有責任。只有通過強制執行元數據(例如關鍵性和所有者或域),您才能讓人們對其領域的數據質量負責。
警惕“破窗理論”——“破窗理論”可以追溯到犯罪學,它認為如果你把院子里一扇窗戶打碎,院子里的其他一切都會開始崩塌。如果居民開始看到一切都崩塌,他們就不會再關心其他事情了。我們可以將同樣的比喻應用到數據質量上。
如果有很多測試失敗,這通常是信噪比太低或測試實施位置不對的征兆。不要讓失敗的數據檢查擱置。相反,應留出專門的時間(例如每隔一周的“修復星期五”)來解決此類問題并刪除不再需要的數據檢查。
創建數據質量運行手冊– 如果您所在的團隊規模較大,請包含解決每個數據質量維度的明確步驟,以便每個人都清楚了解。例如,如果及時性分數較低,您可以推薦一些步驟,例如添加數據源新鮮度檢查或設置新鮮度監視器。
數據質量評分的行動并不一定就此結束。我們已經看到最好的團隊更進一步,將質量評分嵌入關鍵儀表板,以向利益相關者表明數據是否值得信賴,并設定要求,即業務關鍵流程中使用的數據資產在公開之前必須獲得“良好”的評分。