効果検証入門のまとめ - 布団とシーツの隙間から

セレクションバイアスを防ぐRCT
因果推論の為の回帰分析では介入を表す共変量の係数で程度を推し量る
共変量で抜け漏れがあると、セレクションバイアスに誤差が吸収され脱落変数バイアスOVBが発生する
回帰分析による推論では、介入変数Zの決定に関連があり、目的変数Yとも相関がある変数(＝交絡因子)をモデルに加えるとバイアスが低減
いずれにしても共変量の選択は、実施者により変化しうるため、操作変数法や固定効果モデルが提唱されている
Sensitive Analysis?
介入後に決定される値は共変量から除く
Yが0/1であればロジスティック回帰、整数値であればポアソン回帰
目的変数や共変量の自然対数を取るのは、変化の割合をみるため
多重共線性の問題とは、回帰分析によるある変数kによる推定値の分散式が分母に(1-Rk) *Rk:変数kと多重共線性を起こしていると考えられる変数の相関　をもち、相関が強いと推定されたパラメータの標準誤差が大きく信頼できないという点。だが予測ではなく介入変数以外で多重共線性がおきていても、介入効果を測る上で問題はない
つまり、回帰分析は共変量の選定および線形項か非線形項かの選択が非常に難しい

”地域”への一括介入等、非介入データが得難い場合には、DIDが有効
DIDであっても、同時に複数の介入が行われた際の影響を分離することは不可能
反実仮想としての非介入データの作り方として、他”地域”をあてがうか、非介入時データからモデリングするCasual Impactを選ぶ
DIDは前提としてCTA (Common Trend Assumption)を必要とするため、近隣”地域”のデータとするか、モデリングの際にトレンド乖離を表現する共変量を加えてバイアスを下げる
Casual Impactのモデリング共変量として、他”地域”の目的変数を加える事がある

介入基準がランダムでもCIA (Controll Independence Assumpution)もなく、明確なカットオフで設計される場合は多くあるが、nonparametric RDDが有効
カットオフ付近では疑似的なRCT状態である仮定から、参照幅を狭くすれば精度は高いが標準誤差が大きくなるトレードオフがある
他にも、DID同様に別介入が存在しないこと、カットオフ周辺でデータ密度が偏るような分析対象者の挙動ができないこと（non-manipulation）が必要