在我從事數據工作的10年時間里,我注意到,為了進行數據分析,人們非常重視學習定量技術。我花了數千個小時完善從統計學到機器學習再到經濟學等各個領域的知識。然而,我發現很少有人能指導我如何通過數據分析來回答業務問題的戰略方法。我還遇到過許多初級分析師,他們經常把數據分析誤認為是定量技術,而忽視了分析是一種強大的思維方式和一種很好的解決問題的工具這一事實——即數據分析不僅僅是其方法的產物。
在這個由多個部分組成的系列中,我希望編寫一份數據分析入門指南,以提供使用分析來回答業務問題的結構化方法。在第1部分中,我將介紹數據分析及其可以幫助回答的四種類型的問題。這可以用作正確識別分析問題的指導。在以下文章中,我將提出一種回答每種類型問題的策略和一種選擇正確技術的方法。
一、什么是數據分析
那么,數據分析是什么?它的目的是什么?一般來說,分析是通過將一些復雜信息分解成更小、更簡單的部分并首先理解這些部分來理解它們的過程。這個過程用于幫助解決問題或回答問題。與一般情況一樣,數據分析是通過嘗試了解有關復雜數據的更易于管理的信息來理解復雜數據的過程。
分析師可以使用多種技術進行數據分析。例如,如果我們與醫療機構經理合作,他們要求我們描述典型患者,我們會使用統計方法(如取平均值或計算范圍)來描述患者群體。因此,我們只需使用一些更簡單的統計數據來總體描述診所的所有患者。這個問題要求我們理解規模復雜的數據,我們可以通過了解一些不太復雜的數據來做到這一點。
數據分析是“通過分析數據來回答問題、提取見解和識別趨勢的過程和實踐”[1]。然而,盡管數據分析需要借鑒統計學、機器學習、數學和其他學科的技術,數據分析師并不是統計學家、數據科學家或數學家。雖然數據科學家應該非常了解他們正在研究的主題,但他們不必是該主題的專業專家。數據分析師的目標是足夠熟悉各種技術,并成為正確應用這些技術的專家,以便產生見解和建議,并使業務合作伙伴能夠做出更好的、基于數據的決策。但您不必成為數據分析師才能進行數據分析,任何熟悉定量技術和數據分析策略的人都可以使用它們來幫助做出基于數據的決策。
幾乎所有需要數據分析的問題都屬于四大類:描述性、診斷性、預測性和規范性。有些問題涉及已知值和變量(如描述性和診斷性問題);有些問題更多的是假設性的而非具體的(如診斷性和規定性問題)?;卮疬@些問題需要批判性思維、創造性解決問題和邏輯推理。但是,如果我們能夠對需要數據分析的問題進行分類,我們就可以根據其類別制定回答該問題的策略。因此,有必要熟悉問題的類型以及如何解決這些問題的策略。
本文的其余部分將介紹這四種問題類型,對其進行描述并提供示例以幫助我們識別每種類型。
描述性問題
描述性問題旨在獲得對具體事物的理解。這可以包括對人口、不同變量之間的關系或各種趨勢的描述。這些類型的問題通常最容易識別——它們通常指當前狀態或過去,并且通常以“什么”或“是/做/做過”關鍵詞開頭。由于并非所有描述性問題都以這些關鍵詞開頭,因此識別描述性問題的另一種方法是檢查問題關鍵詞是否可以改寫為以“什么”開頭。這些問題的一些示例包括:
.我們今年第二季度的銷售額是多少?
.自上個季度以來我們的收入有增加嗎?
.今年我們的收入有什么變化?
.客戶多久取消一次訂閱?
.火車會晚點嗎?
.我們的臨床病人護理中是否存在性別偏見?
.來自哪個城市的游客傾向于在我們酒店停留更長時間?
.上個月氣溫有何變化?
.空氣溫度和海水溫度有關系嗎?
.我們雇用更多的呼叫中心代表后,等待時間有什么變化嗎?
上述問題都涉及一些已知變量,可用于分析——診所的性別記錄、體溫記錄或年收入。如前所述,所有這些問題都可以重新表述為以“是什么”或“是”開頭:“空氣溫度和海水溫度相關嗎?”與“空氣和海水溫度之間有關系嗎?”是同一個問題,“客戶取消訂閱的頻率是多少?”與“客戶取消訂閱的頻率是多少?”是同一個問題。
診斷問題
診斷性問題旨在了解某事發生的原因或發生的方式,并嘗試評估變量之間的依賴性。這些問題以“為什么”及其同義詞關鍵詞(“怎么會”、“什么原因”等)開頭,并指已經發生或正在發生的事件。
診斷性問題的關鍵在于,它們要求分析師提出潛在原因并驗證這些原因是否正確。這是非常直觀的,也是大多數人試圖診斷某件事的根本原因的方法。通常,所討論的因變量已經發生變化,我們想知道原因。我們也可以將診斷性問題視為“因果”問題,其中“原因”未知。診斷性問題的一些示例如下:
.為什么某個客戶群體比其他客戶群體更愿意與我們互動?
.為什么本季度我們的銷售額下降了?
.是什么原因造成熱浪?
.為什么我們的客戶取消了訂閱?
.火車為什么晚點?
.為什么有些病人最終要進入ICU?
在診斷性問題中,未知因素是結果的原因。如果我們能夠確定已知結果和未知原因,那么我們可能正在處理診斷性問題。
預測性問題
預測性問題旨在識別已知或未知變量中的未知值。我們想要預測的值可能與部分已知和完全未知的變量有關。例如,在預測未來銷售額時,“銷售額”變量是部分已知的(我們有當前或過去銷售額的值);在客戶細分中,“客戶細分”是一個完全未知的變量,我們必須依靠其他特征或信息來推斷新變量的值。
決策者經常會問一些預測性問題,以便做出戰略性賭注和決策,或者評估他們對未來狀態的準備程度。預測性問題通常用于尋找未知信息,但與描述性問題不同,答案總是不確定的。以下是一些預測性問題的示例:
.下個季度我們的銷售額是多少?
.我們酒店預計未來90天內會接待多少位客人?
.我們的Instagram帖子會獲得多少個贊?
.我們的客戶在Yelp上給予我們五星評級的可能性有多大?
.今年冬天會下很多雪嗎?
.我們如何根據家養植物的物理特性對其進行分組?
.座頭鯨的數量未來將如何變化?
.火車還會繼續晚點嗎?
如上所述,預測性問題不僅僅是試圖預見未來。它們處理的是部分或完全未知的事情。“我們如何根據植物的物理特征對家養植物進行分組?”這個問題與將來時態無關,而是想要解決家養植物的一個未知參數。“我們的Instagram帖子會獲得多少個贊?”這個問題很可能與部分未知的變量有關:我們可能有關于我們其他Instagram帖子收到的點贊數量的信息,但這個特定帖子將收到的點贊數量是未知的。
規定性問題
規定性問題旨在預測在做出特定決策后會發生什么。從這個意義上講,提出問題的決策者希望根據一組預測結果獲得建議。一般來說,這些問題的表述方式有兩種:“如果……會發生什么”或“應該怎么做才能……”。
規定性問題比預測性問題更進了一步,它評估當前情況的變化將如何導致特定結果,或者確定當前情況的最佳變化將導致最佳結果。就像回答預測性問題一樣,我們的結果永遠不會確定,并且會有一些不確定性。然而,答案可以幫助基于數據的決策,或者可以導致驗證預測結果的研究。
一些規定性問題的例子包括:
.如果我們降低價格,銷量會增加嗎?
.如何最大限度提高員工的工作效率?
.我們如何才能減少碳排放?
.我們的商店每天應該營業多長時間?
.如果我們強制推行高等教育入學考試,畢業率會提高嗎?
.如何減少病人在急診室的等候時間?
.我們的產品價格應該是多少?
規定性問題可能會也可能不會暗示決策者計劃采取的潛在行動。例如,“如果我們降低價格,銷售額是否會增長?”包括我們將要分析的潛在行動:降低價格。但另一個問題,如“我們如何減少碳排放?”,不包括任何行動,而是要求列出最有可能減少碳排放的候選行動清單。這意味著我們必須在戰略中采取額外步驟,以制定候選行動清單。
在第1部分中,我討論了數據分析師試圖回答的四種類型的問題以及識別每種問題類型的方法。如果你還記得的話,當我們提出描述性問題時,我們會試圖了解某件事。這些問題通常以“是什么/是/做什么”開頭,并且屬于現在時或過去時?,F在,讓我們深入了解如何回答這些問題的策略。
二、回答描述性問題的策略
描述性問題往往是數據分析師最常遇到的問題,而這些問題的答案往往為后續問題奠定了基礎。通常,經驗豐富的分析師已經制定了一套策略(或至少是一些指導方針),用于回答描述性問題。更具體的策略因問題、行業、個人偏好和知識等而異。然而,任何策略的框架都應包括以下內容:
評估問題的目的
識別相關變量
定義問題的分析目標
這些步驟應該可以指導您選擇最佳方法并提供最合適的答案。讓我們深入了解一下。
圖表由作者制作
步驟1:評估問題的目的
在應用任何技術來回答決策者提出的問題之前,我們必須首先了解提出這個問題的原因。這會極大地影響我們的策略和我們最終選擇的方法。意圖中的一些考慮因素包括:
.如何解釋答案,
.我們的答案將為哪些決策提供參考,以及
.我們的受眾的技術或統計素養
我最喜歡的一個關于意圖意識的例子,泰勒認為分布的偏斜度不應構成選擇平均值或中位數作為“平均值”指標的決定因素。相反,分析師應該關注決策者如何使用該指標進行推理。
問題的意圖也可以引導我們選擇正確的數據點。讓我們看一個例子:“今年第二季度我們的銷售額是多少?”我們的答案可以是總銷售額(銷售單位數乘以每單位價格)或凈銷售額(總銷售額減去折扣和促銷)的總和。在某些情況下,我們的決策者可能不知道這種差異,因此教育他們或明確如何使用這個值應該會告訴我們應該使用哪個值。
另一個考慮因素是受眾,這也是意圖的一部分。如果我們試圖回答一個需要我們比較各組分布的問題,那么向不知道如何閱讀箱線圖的決策者展示箱線圖等復雜的可視化效果可能并不明智。簡單的統計數據可能是最佳選擇,尤其是對于每天做出數百個決策且沒有時間查看復雜圖表的業務合作伙伴(例如高管)。另一方面,如果我們想向具有統計學知識的數據科學家展示信息,箱線圖可能就是最佳選擇。
第2步:確定相關變量
下一步是識別和明確我們想要以某種方式描述的問題中的變量,并確保這些變量具有代表性數據。
例如,“我們今年第二季度的銷售額是多少?”,單個變量很明顯——它是今年第二季度的銷售額,我們可以輕松地從銷售分類賬中獲取數據。
但是,如果問題缺乏明顯的變量,則應重新表述問題,使其涉及清晰且可以用數據表示的變量。
例如,“我們的臨床患者護理中是否存在性別偏見?”中的變量是“性別偏見”,但“性別偏見”本身不一定是一個數據點。然而,“兩性結果差異”或“兩性患者滿意度”是“性別偏見”的潛在衡量指標。因此,我們可以將問題重新表述為“我們的臨床患者護理中不同性別的患者結果是否存在差異?”
仔細查看問題的復雜性也很重要。有些問題可能包含幾個名詞,但要求我們找到一個特定的變量,我們應該將這個變量從問題中分離出來。
例如,“哪個城市的游客傾向于在我們酒店停留更長時間?”包括游客、城市和酒店,但我們要尋找的變量是游客的原籍城市。對于“在我們雇用更多呼叫中心代表后,等待時間是否有任何變化?”這個問題,兩個變量是:1.時間序列(幫助我們推斷變化前后的信息)和2.客戶等待的時間。
步驟3:定義問題的分析目標
確定了問題中的變量后,我們現在可以對問題的目標進行分類。這可以通過將其改寫為指令并對該指令進行分類來實現。確定目標可以幫助我們縮小一些適當的定量技術的范圍,以便我們能夠回答原始問題。
請記?。悍治瞿繕撕蛦栴}的意圖是不同的。問題的意圖確定了決策者計劃如何處理答案或他們計劃如何解釋分析結果。問題的分析目標決定了我們在確定變量后想要如何處理它們。
描述性問題可能尋求實現三種類型的目標,這些目標取決于我們之前確定的變量:
描述一個變量
如果問題的目標是描述一個變量,那么答案將要求我們找到描述主題的某個參數或一組參數。如果我們可以使用關鍵字“find”后跟問題的主題來重述我們的問題,那么問題的目標就是描述變量。
例如:“我們今年第二季度的銷售額是多少?”的目標是獲得一個代表所有銷售額的值;因此,它要求我們找到銷售額的總和。作為指示,我們可以將問題重述為“找到今年第二季度的銷售額總和”。
可用于回答這些問題的大多數技術包括計算描述性統計數據(如總和、平均值、眾數、范圍等)或可視化工具(如直方圖或核密度估計圖)。但是,根據問題的性質,還存在更高級的技術。
比較組或變量
如果問題的目標是比較變量內的組或比較不同的變量,那么我們的問題可以使用“比較”關鍵字重新表述。這些問題還可以包括時間比較,這可能需要我們從時間序列中創建一個變量作為時間類別(例如用“之前/之后”、小時、月等表示的時間組)。
在“我們的臨床患者護理中存在性別偏見嗎?”這個例子中,問題旨在比較不同性別組之間的患者護理,也可以重新表述為指令:“比較所有性別的臨床患者護理”。
有許多技術可以幫助比較組或變量。條形圖或餅圖等可視化工具可以幫助比較組,直方圖和密度圖可以幫助比較兩個變量之間的值分布,折線圖可以幫助比較時間上的值,散點圖可以幫助比較單個點??梢圆捎妹枋鲂越y計數據和統計比較檢驗(如t檢驗或方差分析)來比較兩個或多個分布。
識別趨勢或關系
如果問題的目標是識別一系列變量(如時間)中的模式或兩個或多個變量之間的模式,那么我們可以使用關鍵字“識別聯系/相關性”將描述性問題改寫為指令。重要的是要注意,關系并不意味著因果關系,而只是試圖建立變量之間的聯系;因果關系在診斷問題中得到解決。
例如:“今年我們的收入如何變化?”旨在識別收入隨時間的變化趨勢。我們可以將其改寫為指令:“識別收入和時間之間的聯系。”
問題“氣溫和海水溫度是否相關”旨在找出這兩種溫度之間的關系。我們可以將其改寫為“識別氣溫和海水溫度之間的相關性”。
為了識別變量之間的關系,散點圖、氣泡圖和熱圖可以在視覺上提供幫助,而像Pearson或Spearman相關性這樣的統計方法可以幫助識別變量是否存在關聯。使用折線圖和ARIMA等統計方法可以最好地直觀地識別時間/序列中的趨勢。
案例研究
讓我們看一下第一部分中的一個問題:“火車會晚點嗎?”為了找到正確有效的技巧來回答這個問題,讓我們遵循上面概述的策略步驟。
評估意圖:假設這個問題來自火車運營公司的副總裁。通過與她的交談,我們發現副總裁想知道如果火車確實晚點,是否應該采取任何行動來調解當前的火車時刻表。如果火車實際上沒有晚點,她還希望將晚點設為KPI指標并繼續監控。此外,副總裁告訴我們,如果大多數火車晚點超過一分鐘,她就認為“火車晚點”。
確定變量:“火車是否晚點”這個問題中感興趣的身份是火車晚點,但哪個或哪些變量可以代表這個身份呢?通過對問題和意圖的分析,我們可以確定變量選擇的幾個選項:
兩個變量:火車預計到達時間和火車實際到達時間
一個變量:列車實際到達時間與預計到達時間之差
一個變量:如果列車實際到達時間和預計到達時間相差大于1分鐘,則將二進制標志設置為1
我們的變量選擇應該取決于問題的意圖,并且肯定會影響我們如何確定問題的目標。從意圖來看,我們知道如果大多數火車晚點,VP就會認為火車晚點。所以實際上——我們只需要一個二進制標志來識別每列火車是否確實晚點。這是我們可以提供的最簡單的信息,它將幫助我們了解火車的總體晚點情況,并幫助我們的決策者確定下一步行動。
定義分析目標:既然我們已經確定了意圖和相關變量,我們現在可以定義分析目標并選擇一種技術。由于我們使用的是單個變量,即二進制“晚點列車”標志,我們知道問題的目標是描述該變量。問題的目的是確定大多數列車是否晚點。因此,我們可以選擇的技術之一是計算所有晚點列車的百分比,以確定其中是否有50%以上的列車晚點。我們可以將最終信息傳達給我們的副總裁,以便她決定下一步該怎么做。
如果問題的意圖或受眾不同,這種策略將有很大不同。如果我們的決策者想要了解火車晚點的分布,我們應該選擇火車實際到達時間和預計到達時間之間的差異,并選擇直方圖等視覺技術來傳達火車晚點的分布。
最后幾點說明
歡迎您以適合方式使用上述策略,但以下是一些使其為您服務的提示:
保持事情簡單,并根據需要增加復雜性。
戰略過程應該直觀地進行,但寫下意圖、變量和目標永遠不是一個壞主意,這樣你就能清楚地了解任務或在方法上養成紀律。
保持靈活性—您的策略可能會隨著時間的推移而改變甚至演變。本文檔是一個很好的開始,但不要讓它限制您的創造力和思維。
別忘了分析!有些問題不像其他問題那么直觀,需要我們思考和分析才能理解并找到最佳答案。
二、回答診斷性問題的策略
對于任何數據分析師來說,回答“為什么”的問題都是困難的。缺乏專業知識、缺乏技術儲備和缺乏戰略方法,都可能對幫助決策者找到正確答案產生不利影響。然而,只要有堅實的基礎和方向,任何人都可以輕松解決這些診斷問題。
診斷性問題經常跟在描述性問題的答案之后。在提出診斷性問題時,決策者的目的是了解某些信息是如何產生的,或者是什么導致了某件事的發生。因此,當我們思考診斷性問題時,我們經常會想到因果推理。因此,熟悉因果推理的一般原則是有益的。
以下介紹:
.因果推理簡介
.回答診斷問題的策略
.案例研究
.最后幾點說明
因果推理簡介
因果推理旨在揭示干預措施(或現狀變化)如何影響結果。在因果推理中,我們假設當對某個單位實施某種干預措施(稱為“治療”)并導致該單位結果發生變化時,就會發生因果關系。如果我們比較有無治療的單位結果,我們將能夠觀察到治療的效果(即因果關系)。
例如,如果我們想知道在掛牌出售房屋之前粉刷外墻是否會使其更快出售,最理想的情況是需要我們同時比較粉刷和不粉刷房屋的銷售時間。在這里,房子是我們的單位,粉刷外墻是我們的處理,銷售時間是我們的結果。然而,不可能同時粉刷和不粉刷同一所房子。因此,“我們永遠無法觀察經過處理和未經處理的同一單位”[1]。
這就是因果推斷的用武之地。我們不必直接衡量治療對特定單位的影響,而是可以衡量關聯和偏差。關聯是所有接受治療的單位和所有未接受治療的單位之間的平均結果差異。偏差通過捕捉導致結果不同的所有因素來區分關聯和因果關系。
在我們的房屋銷售示例中,我們可以比較所有粉刷過的房屋和所有未粉刷過的房屋,并記錄它們的銷售時間。兩組房屋的銷售時間差異稱為“關聯”。如果沒有偏見,我們可以確定在出售前粉刷房屋會導致房屋出售得更快。
然而,大多數決定在出售前粉刷房屋的原房主也可能負擔得起,因為他們住在一個更好的社區;而更好社區的房子往往賣得更快。因此,偏見可能是房屋賣得更快不僅是因為新刷了一層油漆,還因為它們位于一個更好的社區。如果我們能消除這種偏見(以及其他偏見),我們就能確定在出售前粉刷房屋是否會導致房屋賣得更快。
這就是因果推理的要點。如果想深入了解,我強烈推薦MatheusFacureAlves的一本書:《勇敢而真誠的因果推理》,這本書非常詳細地介紹了這個主題。因果推理的基礎構成了回答診斷問題的策略,所以讓我們更詳細地探討一下。
回答診斷問題的策略
診斷性問題之所以難以回答,是因為它們需要對主題有相當的了解。揭示某事發生或正在發生的原因的一般策略需要了解所有可能的原因和偏見,然后采用嚴格的技術方法來評估其影響。了解所有可能的原因需要花費精力和時間來調查。因此,回答診斷性問題所花費的大部分時間都花在了研究上。不幸的是,研究有時會讓分析師陷入各種困境和死胡同。采用戰略方法和嚴謹性可以幫助完成這一過程。
一般來說,回答診斷問題的方法包括:
確定結果
識別可能的原因和潛在的偏見
評估因果關系
在開始之前,需要注意的是,在幾乎所有情況下,我們可能無法確定某件事的確切根本原因。相反,我們可以確定最有可能的影響因素,并評估其影響的可能性。
不僅要理解這一點,還要制定溝通策略,讓決策者在我們承諾回答他們的診斷問題之前就意識到這一警告,這一點很重要。在尋找診斷問題的答案時,決策者承擔著風險。答案越不確定,風險就越大。因此,決策者必須知道,在根據提供的答案做出決策時,必須權衡這一風險。下面,讓我們詳細看看這個策略。
第一步:確定結果
問題中的結果是受某些潛在原因影響的因變量。一般來說,診斷問題應該只有一個因變量。確定結果很重要,以便明確定義結果并驗證結果是否可以衡量。如果問題有多個因變量,則應將問題分解為單獨的問題。
例如,在第一部分的問題“是什么導致了熱浪”中,結果是熱浪,可以定義為溫度突然急劇上升。在問題“為什么我們的客戶取消訂閱”中,我們要調查的結果是取消訂閱。如果我們被問到“為什么房價上漲而租金下降”這樣的問題,我們應該回答兩個獨立的診斷問題:“為什么房價上漲”和“為什么租金下降”。
第2步:確定可能的原因和潛在偏見
一旦我們確定了問題結果,我們就必須列出所有可能解釋該結果并幫助我們回答“為什么”的事情。一般來說,這個過程可以分為三部分:原因、偏見和因果關系機制。應構建圖形因果模型來協助識別過程。
可以通過研究、專業知識、訪談和聯想來確定潛在原因。如果沒有適當的專業知識或接觸專家,這一點很難實現。因此,有必要收集盡可能多的有關該主題的知識(查看我的文章“首先我們必須發現。然后,我們可以探索”,了解有關為什么積累知識很重要的更多詳細信息)。
列出潛在原因時,頭腦風暴是一個很好的工具。頭腦風暴的一種新方法是重復這一過程:首先:列出盡可能多的原因,而不判斷其有效性;其次:仔細檢查列表,確保列出的原因是合理且合乎邏輯的。
例如,為了回答第1部分的問題:“為什么我們的客戶取消訂閱”,我們可以首先進行研究,了解流失的客戶是否報告了取消訂閱的原因。我們可以采訪我們的客戶成功團隊,了解他們經常收到哪些客戶投訴。然后,我們可以通過與決策者的頭腦風暴會議找出任何其他原因。
潛在偏見可能比潛在原因更難發現,但會對答案產生重大影響。與原因一樣,偏見可以通過建立主題專業知識來確定。然而,與主要需要知識的潛在原因不同,偏見識別通常需要創造性和建設性的思考。
一個好的起點是熟悉數據分析中出現的常見偏見類型,并推斷它們是否出現在您的用例中。一些常見的偏見類型包括確認偏差、選擇偏差、歷史偏差、幸存者偏差、可用性偏差和異常偏差。
幸存者偏差的一個非常突出的例子涉及亞伯拉罕·沃爾德在二戰期間所做的工作。作為哥倫比亞大學統計研究小組的一員,沃爾德和他的團隊的任務是優化戰機應攜帶的防護罩數量:如果飛機攜帶的防護罩太多——它們會因為重量而無法飛行;如果飛機攜帶的防護罩太少——它們將得不到保護。在分析了安全返回但有彈孔的飛機后,亞伯拉罕·沃爾德建議應該在飛機上沒有彈孔的地方增加防護罩(而不是屏蔽彈孔的位置)。為什么?由于分析只包括幸存的飛機,因此很可能沒有幸存的飛機在某些關鍵區域有彈孔。如果這些關鍵區域有隱藏物,它們就無法返回,因此在關鍵區域之上放置防護罩是有意義的。
因果關系機制決定了潛在原因如何影響結果。如果沒有因果關系機制,就很難區分原因和巧合。這在選擇推斷因果關系的模型時起著重要作用。
一個很好的巧合例子是離婚率與人造黃油消費量之間的相關性。這兩種趨勢可能是平行的,但沒有可靠的機制可以解釋為什么一個趨勢會導致另一個趨勢。因此,我們不能認為離婚率的上升會導致人造黃油消費量的上升,反之亦然。
應開發圖形因果模型來幫助識別原因和偏見以及構成因果關系的機制。本質上,這些模型是包含所有原因和結果的有向圖。開發圖形模型來理解因果關系也有助于增加我們對該主題的理解,并可用于幫助我們與決策者的溝通。
例如,圖形因果模型可以幫助我們發現混雜偏差。我們來自原因和偏差的變量不一定只影響結果——它們實際上可以相互影響。如果某個變量影響我們的潛在原因和結果,那么我們就是在處理混雜偏差。為了解決這個問題,我們應該控制所有常見的潛在原因。
假設我們正在調查在掛牌出售房屋之前粉刷房屋是否會影響出售時間。我們可以假設收入增加可能會影響房主是否決定在出售之前粉刷房屋。但是,我們可以認識到,收入增加意味著房主還可以獲得可以縮短出售時間的資源。這是混雜偏差的一個例子,我們應該在最終模型中控制收入。
步驟3:評估因果關系
現在我們有了結果、原因和偏見,以及構成依賴關系的機制,我們可以評估因果關系了。最后一步需要我們驗證我們假設的想法是否可行。根據情況和我們可用的資源,我們可以通過兩種方式實現這一點:1.通過進行隨機實驗并比較結果或2.通過使用歷史數據來衡量因果關系,開發統計模型。
進行包含治療組和對照組的隨機實驗可以幫助我們減少偏差,確保實驗中的兩個(或更多)組具有相似的總體代表性。如果各組的構成相似,且樣本量足夠,我們應該能夠比較各組之間的結果,并確定結果差異是否顯著。
在我們的房屋銷售示例中,我們可以抽樣兩組房屋賣家(確保兩組均能代表房主群體)。我們可以要求其中一組在掛牌出售房屋之前粉刷房屋,也可以要求另一組保持外墻油漆原樣。然后,我們將比較兩組之間的銷售時間分布。使用統計測試,我們可以查看銷售時間指標是否存在顯著差異。
實際上,由于多種原因,這一點很難實現,其中包括讓自愿的房主參與我們的實驗、確保實驗資金充足以及確保我們的樣本是隨機的并且代表了賣房人群。但是,如果我們無法進行這樣的實驗,我們仍然有其他選擇。
使用歷史數據建立統計模型可以幫助我們控制混雜原因和偏見,并估計直接原因對結果的影響。使用回歸之類的技術,我們可以為每個原因和廣義偏差指標分配權重。我們可以通過使用歷史可用數據訓練模型來估計模型的參數(模型中的權重)。最終結果應該有助于我們了解變量對最終結果的因果影響。“即使我們不能使用隨機對照試驗來保持治療和未治療之間的其他因素相等,回歸也可以通過將相同的因素納入模型來做到這一點,即使數據不是隨機的!”
然而,無論我們選擇哪種技術來衡量因果關系,重要的是要注意我們的模型無法確定因果關系。我們可以將數百個特征納入回歸模型,但僅僅因為它們被納入并且僅僅因為它們具有一定的權重,并不能保證它們是結果的原因。因此,在圖形因果模型中捕捉因果關系的可能機制很重要,這樣我們就可以避免包含不相關的特征并確保獲得足夠的結果。
案例研究
讓我們繼續第2部分的案例研究,我在其中制定了回答有關火車晚點的描述性問題的策略。假設我們的決策者現在想知道“火車為什么晚點?”按照本文概述的步驟,我們可以制定以下策略來回答這個問題:
確定結果。“火車為什么晚點”這個問題的結果是火車晚點(我們將其定義為“如果火車實際到達時間和預計到達時間之間的差異大于1分鐘,則將二進制標志設置為1”)。
找出潛在原因和偏見。
為了找出潛在原因,我們可以與決策者安排一些訪談和頭腦風暴會議,我們可以在站臺上觀察火車并乘坐火車,我們可以與列車乘務員和乘客交談。潛在原因的例子包括站臺卸貨和裝貨時間延遲、軌道施工、缺乏專用軌道導致列車會車和通過延誤、危險(如樹葉、冰雪)、列車年齡和列車技術問題。對于每個原因,我們還應該確定原因對結果產生影響的機制。
為了識別潛在的偏見,我們可以熟悉偏見的類型,并評估其中是否有任何一種適用于我們的用例。例如,選擇偏見不一定會給我們帶來問題,因為我們可以在研究中包括所有列車,而不是選定的列車子集。另一方面,我們可能存在幸存者偏見的情況,因為一些列車機械問題可能導致列車永遠無法到達,因此它將被排除在晚點列車數據集之外。
為了確定潛在的因果關系機制,我們應該確定每個潛在原因如何影響或影響結果。例如,危險(如樹葉或雪)可能會導致火車晚點,因為危險會使火車減速。我們可以假設火車年齡會影響火車晚點,因為較舊的火車速度較慢。但這是真的嗎?收集相關數據并進行探索性數據分析可以幫助我們驗證這種因果關系機制是否合理。
我們可以整合一個圖形因果模型,以評估我們提出的原因和與結果相關的偏見,并概述每個原因的潛在機制。此時,我們還可以進行一些更具探索性的數據分析,以發現原因之間的隱藏關聯,并選擇最終的潛在原因以納入我們的模型。例如,如果我們發現出現技術問題的列車大多是較舊的列車,我們不需要將列車年齡作為模型參數,因為它已經通過技術問題參數暗示出來了。
評估因果關系。最后,我們準備評估因果關系。不幸的是,對于我們的情況來說,進行一系列實驗來測試每個潛在原因既困難又昂貴。但是,由于我們有火車時刻表、火車問題以及天氣和軌道狀況的詳細記錄,我們應該致力于構建一個回歸模型來驗證可能的原因。在我們的案例中,我們可以使用可能的原因構建一個邏輯回歸模型,以預測火車是否確實晚點。在訓練模型后,與我們的模型參數相關的權重應該表明每個原因對結果的影響。
在選出權重非零的原因后,我們可以向決策者展示我們的調查結果,并回答他們最初的問題:“火車為什么晚點?”