『壹』 互助問答第14期:工具變數和多重共線性
問:工具變數到什麼程度才合適?
對短面板數據進行GMM回歸的時候,遇到兩種情況:
①工具變數通過了弱工具變數檢驗、識別不足和過度識別檢驗,再用DM檢驗的時候還是顯著的;
②工具變數通過了弱工具變數檢驗、識別不足和過度識別檢驗,但用DM檢驗的時候不是顯著的;
看到連玉君教授的一篇文章,選了兩個工具變數,匯報了工具變數通過了識別不足和過度識別檢驗,DWH檢驗顯著。
由此,認為符合第一種情況表明選取的工具變數合適;但也不太確定,想聽聽您的看法。
答:
工具變數方法經歷了兩個階段的發展。傳統的工具變數方法中,在線性模型設定下,工具變數需要滿足工具變數 外生性 和工具變數 相關性 兩個假設,這在本科層次的計量教科書中一般都有涉及。在這種情況下,滿足這兩個假設的變數才是合格的工具變數。Imbens and Angrist(1994)一文的發表則將工具變數方法推向了新的階段,在這一發展階段,允許異質性處理效應存在,工具變數方法識別假設的提出和估計量的推導都是在Donald Rubin提出的潛在結果分析框架下進行的,此時IV估計的是局部平均處理效應,IV估計的有效性要求工具變數滿足四個條件:(1)工具變數是隨機產生的;(2)滿足排他性約束;(3)滿足單調性假設;(4)滿足工具變數相關性。嚴格的數學表達請參見Imbens and Angrist(1994)。提問中提到的的「工具變數到什麼程度才合適?」,准確的回答應該是滿足上述四條假設才合適。
提問中提到的弱工具變數檢驗用於檢驗假設(4);識別不足檢驗只需要滿足工具變數的個數多餘內生變數的個數,這個通常都是滿足的;過度識別檢驗是在假設不存在異質性處理效應的情況下,檢驗工具變數是否外生的一種方法,該檢驗只有在存在過度識別(工具變數個數(用N表示)多於內生變數個數(用K表示))的情況下才可以做,並且要求至少有K個工具變數已經滿足外生性條件,這樣才能檢驗剩下的N-K個變數是否外生。因此,總結來看過度識別假設檢驗需要兩個很強的假設:(1)至少有K個有效地工具變數;(2)不存在異質性處理效應,因此使用過度識別檢驗檢驗工具變數的外生性並不是一種可靠地方法,其檢驗結果能夠提供的有效性信息並不多。DM檢驗(此處指的應該是Davidson-MacKinnon檢驗)則是用於檢驗OLS估計量是否是一致估計,即解釋變數是否存在內生性的檢驗方法,同更常用的Hausman test類似。有觀點認為,只有當DW檢驗或者Hausman檢驗拒絕原假設,即顯示OLS估計存在內生性的時候,才需要使用IV估計,因為IV估計雖然和OLS估計一樣是一致估計量的,但是有效性劣於OLS估計。但是,上述內生性檢驗依賴於我們已經擁有了有效的工具變數,從而能夠得到一致估計量,這是很強的假設,很難實現,因為找到一個符合條件的IV實在太難了,更重要的是,我們無法保證我們所使用的工具變數是有效的,所以我們也無法保證DM檢驗或者Hausman檢驗的結論一定是有效的。在這種情況下,我本人更傾向於基於變數之間的理論關系和具體的模型設定來判斷OLS估計是否內生,從而決定是否需要採用工具變數方法,而不是依賴於某個檢驗。
參考文獻:Imbens and Angrist, 1994,「Identification and Estimation of Local Average Treatment Effects」, Econometrica, 62(2): 467-475.
問:如圖,自變數與交乘項多重共線性過高,怎麼辦?
答:
解釋變數之間存在高度的共線性本身並不一定影響方程的估計。首先,當前實證研究的核心目的在於實現因果推斷,即估計某一個特定解釋變數X對被解釋變數Y的因果關系,如果高度共線性只是存在於控制變數之間,則既不會影響X參數估計的一致性,也不會影響有效性,我們完全無需擔心;其次,如果我們關心的變數X同其他控制變數,例如變數Z之間存在高度共線,則共線性本身不影響我們估計的一致性,但是會影響估計的有效性。在第二種情況下,如果Z本身對Y有影響,遺漏Z會導致嚴重的遺漏變數偏誤,因此,根據一致性優先於有效性的原則,我們仍然需要控制變數Z;如果Z本身對Y沒有影響,則Z屬於無關變數,遺漏Z不會影響一致性,但能夠改善有效性,我們應該從方程中去掉Z。
學術指導:張曉峒老師
本期解答人:張川川老師
編輯:粥粥 小精靈 一個聰慧的人
統籌:芋頭
技術:知我者