因果關系和相關關系在分析過程中應用廣泛。 然而,一部分人在不了解兩種方法的支撐邏輯時往往將兩種關系等同看待。 顯然,人們被困于因果和相關的內在聯(lián)系而不能正確的使用它們。 雖然在英文發(fā)音上兩者比較近似,但其適用分析的現象卻大有不同,它們基本的含義也有很大區(qū)別。
為了理清楚因果與相關關系的區(qū)別,我們下面進行一些小小的測驗。分析以下例子中的現象, 然后判斷在兩個事務(X 和 Y)之間是否存在必然因果關系。答案在測試后公布。
例1: X:學生受教育的等級 Y:畢業(yè)后的薪水
前提:學校B學生畢業(yè)后拿到的平均工資更高,接受學校B的教育是導致工作較好的原因嗎?
例 2:X: 吸煙 Y:精神壓力水平
前提: 吸煙的人精神壓力水平較大,那么吸煙會產生壓力嗎?
例3:X:有孩子 Y:成熟水平
前提:有孩子的人更加成熟,有孩子是成熟的原因嗎?
例4:X:海拔 Y: 高度
前提:海拔越高的地方我們感覺越冷。這是不是意味著海拔是導致溫度低的原因?
我希望上面的例子已經激發(fā)了你閱讀本文的熱情。 雖然,因果與相關的區(qū)別是一個老掉牙的話題,但是人們依舊不能很好的掌控這些術語。 本文將試圖通過最簡單的方式解釋因果和相關關系。
在這篇文章中,我將通過了解是否只有相關關系或者存在必然因果關系來區(qū)分因果關系和相關關系的區(qū)別。 考慮到我們往往采用黑箱操作進行分析,所以想讓分析基礎更牢靠的話,了解這些概念是非常必要的。 一些技術并沒有展現在分析中,但它們的應用卻貫穿整個工業(yè)。
測試答案:
例1:必然因果關系不存在。例如,如果只有天賦比較高的人才會有機會接受B學校的教育,而天賦比較高的人更容易獲得高的薪資水平。因此這些高智商的小伙伴即使不接受B學校的教育也能得到很高的薪水。所以薪水高有其他備選因素。
例2:必然因果關系不存在。我們可以基于逆因果關系來否定該命題。例如,壓力大導致一個人吸煙。
例3:必然因果關系不存在。同樣我們可以采用逆因果關系來否定該命題。例如:成熟的人才準備要孩子。我們也可以將成熟與否歸結于年齡。年齡越大,越傾向于要孩子,也越來越成熟。
例4:必然因果關系不存在。再用逆因果關系來分析該命題有些不可能??赏ㄟ^相互獨立關系和備擇原因分析來拒絕該命題。
那么什么是建立必然因果關系的關鍵呢?
備擇原因:如果備擇原因(Z)既影響X又影響Y(即Z=>X &Z=>Y同時成立),則拒絕X是導致Y的必然原因。
逆因果關系:如果不是X影響Y,而是Y影響X,則不能推出X是導致Y的必然原因。
相互獨立:一些時候,X與Y之間可能只是單純的相關而沒有任何因果聯(lián)系。
怎樣提取因果關系帶來的影響呢?
在很多領域(例如制藥),研究因果效應非常中重要。在闡述方法前,我們先了解一些定義:
1)隨機試驗數據:一個試驗定義為給不同的條件分配觀測單元。條件的不同往往是對觀測單元的控制手段不同。通過試驗獲得的數據為隨機試驗數據。
2)觀測數據: 很多時候進行隨機試驗是一種奢侈,我們只能獲得已有的數據資源。這些數據已經產生,并且不能設定發(fā)生條件。
提取觀測數據中的因果效應是非常難且不確定的。為得到確定的因果關系,我們需要進行隨機試驗。
為什么觀測數據不能確定其因果關系呢?
1)觀測數據的獲得不是隨機的,我們不能總結出其中的因果效應
2)舉個例子來說,學生從學校B畢業(yè)會有高薪資水平,這不能表示薪資水平與接受B學校教育的因果關系,因為接受B學校教育是有前提的。
3)如果我們隨機的選擇學生去參加B學校的教育,那么接受B學校教育和薪資水平之間的因果關系才比較牢靠。
為什么不能總是進行隨機試驗呢?
1)有時試驗成本非常昂貴。
2)很多時候,并不是所有的試驗都可以進行。例如你想知道抽煙是否會產生壓力,這樣你需要迫使正常的人吸煙,這往往是不能實現的。
在這些情況下,應如何利用觀測數據進行因果效應提取呢?
針對觀測數據的因果效應提取有很多研究。大部分研究的目標是消除未知因素的影響。在這里我將羅列一些被廣泛應用的方法。
1、 面板模型:如果未觀測的變量在某一維度上是不變的,那么這個方法將非常簡單。例如,如果未觀測的變量不隨時間發(fā)生變化,我們可以建立面板模型用以剔除其他未觀測因素的影響。B學校=>高薪資的例子中,我們假設所有其他因素不隨時間變化。然后進行如下處理:
(1) 將薪資y對優(yōu)質學校(用上標T表示)以及未觀測因素(用上標U表示)做回歸。
(2) 未觀測因素不隨時間變化,簡化模型如下:
(3) 差分剔除未觀測因素的影響:
得到接受優(yōu)質學校教育和薪資水平的因果關系系數。
2、 模擬控制:觀測數據最大的問題在于我們沒有獲得控制樣本和非控制樣本。以吸煙的例子來說,一個人不能同時吸煙又不吸煙。
但是,如果我們找到控制樣本的對應的非控制樣本,比較相對應的觀測數據,將有助于提取因果效應。這是工業(yè)生產中運用的最多的方法。
對應的非控制樣本可以采用最近鄰法則,k-d 樹,或其他方法獲得。讓我們來舉一個例子,設有兩組相同年齡、性別和收入等的人。一組開始吸煙,另一組不吸煙。在其他條件不變的情況下,一段時間內兩組人員的壓力水平可以進行比較。
雖然,上述方法在理論上聽起來非常鼓舞人心,但是只改變一個變量而其他變量不變的對應樣本非常難以獲得,這往往導致因果效應的提取錯誤。這將在以后更深入的文章中進行討論。
3、 工具變量法(IV):這也許是我將介紹的最困難的方法。步驟如下:
(1)找到原因結果對
(2)找到一種因素與原因因素有關但與結果因素對原因因素回歸得到殘差無關。這種因素被稱為工具變量。
(3)用工具變量估計原因變量
(4)用估計的原因變量回歸結果變量,得到真實的原因與結果對之間的因果相應
在觀測數據中,采用回歸分析方法得到的原因因素和結果因素之間系數關系是有偏的。采用工具變量法,可以得到一個無偏的系數估計結果。在吸煙與精神壓力的例子中,我們認為可能存在逆向的結果。如果我們可以找到和煙草消費量有關和精神壓力無關的變量,也許我們能獲得吸煙與精神壓力之間真實因果關系。例如,我們發(fā)現監(jiān)管稅會提高煙草的價格并降低煙草的消費。那么我們可以將監(jiān)管稅作為工具變量而研究吸煙和精神壓力之間的關系。
4、 回歸的非連續(xù)性設計:這是我(作者非譯者)最喜歡的方法。該方法使得觀察數據接近隨機試驗數據。
在下圖中,存在控制條件與非控制條件在人口比率上的一個斷點。假設我們想檢驗獎學金對學生成績的影響。注意,獎學金一般提供給預科考試成績在80%以上的學生。這里將會產生一個扭曲。例如聰明的學生將繼續(xù)他們的智慧。因此將非常難剝離出獎學金與后期考試成績的關系。
但是,如果我們只比較成績稍微低于80%(比如79.9%)和成績稍微高于80%(比如80.1%)的學生,將產生不一樣的結果。假設成績在79.9%與成績在80.1%的學生的差異不明顯。唯一影響他們后期考試成績的只有獎學金這一個因素。這樣的研究就類似于隨機設計實驗中的控制變量法了。
采用該方法將很好地推斷出因果效應。不過,獲得一個有斷點的維度是非常的困難。
翻譯:F.xy
原文作者:TAVISH SRIVASTAVA
原文鏈接:http://www.analyticsvidhya.com/blog/2015/06/establish-causality-events/
End.
- “黑科技”亮相第三屆軟件創(chuàng)新發(fā)展大會 AI+VR駕駛模擬器引關注
- 哈啰Robotaxi破局之戰(zhàn):30億大手筆能否打破行業(yè)僵局?
- 小猿AI智慧教育引領行業(yè)新潮流,下載量飆升榜首,重塑學習新體驗
- 穩(wěn)定幣風波再起,京東嚴正聲明:堅決維護市場秩序
- 知乎直答升級:解鎖訂閱與內容分享,探索知識新玩法!
- 百望股份攜手沐曦集成電路,共創(chuàng)智能芯片新紀元
- 螞蟻科技開放香港四大核心技術:助力香港區(qū)塊鏈與人工智能發(fā)展,打造未來科技新生態(tài)
- 福特CEO反思中國電動汽車崛起:中國速度引發(fā)深思,電動汽車發(fā)展如何令人自慚形穢
- 小馬智行第七代Robotaxi落地新加坡:打破自動駕駛落地之困?
- 蘋果將推廉價版MacBook:破繭之作,A18 Pro芯片領銜,輕薄與性能并存
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。