固定效应回归模型

§1.导论

统计学领域最具挑战性的议题：如何创造一些方法从非实验数据中进行有效的因果推论，即如何从统计上控制无法观测的变量。

固定效应模型：用每个个体作为其自身的控制因素。

基本的数据要求：

①对于每一个个体，因变量被至少测量两次，且这些测量结果具有直接的可比性，即具有同样的意义和度量单位。

②样本中具有相当比例案例的关键自变量再不同时点上的取值有所变化，如一般认为性别、民族等非时变变量不是关键自变量且不变。

对比：

①固定效应模型：将个体间未被观察的差异作为一套固定的参数，它们要么可以直接估计出来，要么可以在估计方程中被抵消 → 个体内信息。

②随机效应模型：未被观察到的差异被处理成具有特定概率分布的随机变量。假定未被观测的变量与所有观测变量之间不相关 → 个体内信息+个体间信息。

§2.线性固定效应模型：基本原理

有一组个体 $(i=1,2,...,n)$ ，每个个体都至少在两个时点 $(t=1,2,...T)$ 上得到测量

因变量 $y_{it}$ ，在不同时点有所变化的自变量 $z_{it}$ ，不随时间变化的自变量 $z_i$

模型 $y_{it}=\mu_t+\beta x_{it}+\gamma z_i+\alpha_i+\epsilon_{it}$

$\mu_t$ 是截距，每一时点都可以不同

$\epsilon_{it}$ 是每一时点上的纯粹随机变动

$\alpha_i$ 是所有未被观测的非时变量对于 $y$ 的综合影响

对 $\epsilon_{it}$ 的假定：

均值为0，方差不变 $(\forall i,t)$ ，且在统计上独立于所有其他因素

对 $\alpha_i$ 的假定：

代表 $n$ 个固定参数，可以直接估计出来或通过某种方式在方程中消除掉

代表 $n$ 个随机变量， $\alpha_i$ 与 $\epsilon_{it}$ 在统计上相互独立，但允许 $\alpha_i$ 与 $x_{it}$ 或 $z_i$ 任意相关

1.两期数据（固定效应分析）

$T=2$ 时，方程 $\begin{cases}y_{i1}=\mu_1+\beta x_{i1}+\gamma z_i+\alpha_i+\epsilon_{i1}\\y_{i2}=\mu_2+\beta x_{i2}+\gamma z_i+\alpha_i+\epsilon_{i2}\end{cases}$

相减，得一阶差分方程： $y_{i2}-y_{i1}=(\mu_2-\mu_1)+\beta(x_{i2}-x_{i1})+(\epsilon_{i2}-\epsilon_{i1})$

即 $\Delta y_i=\Delta\mu+\beta\Delta x_i+\Delta\epsilon_i$

由于 $\Delta x_i$ 与 $\Delta\epsilon_i$ 相互独立，得可以对差分方程进行OLS估计，且去除了非时变变量 $z_i$ 的影响

2.两期数据差分法的扩展

允许 $x$ 和 $z$ 的影响在时间上存在差异

$T=2$ 时，方程 $\begin{cases}y_{i1}=\mu_1+\beta_1 x_{i1}+\gamma _1z_i+\alpha_i+\epsilon_{i1}\\y_{i2}=\mu_2+\beta_2 x_{i2}+\gamma_2 z_i+\alpha_i+\epsilon_{i2}\end{cases}$

相减，得一阶差分方程： $y_{i2}-y_{i1}=(\mu_2-\mu_1)+\beta_2(x_{i2}-x_{i1})+(\beta_2-\beta_1)x_{i1}+(\gamma_2-\gamma_1)z_i+(\epsilon_{i2}-\epsilon_{i1})$

即 $\Delta y_i=\Delta\mu+\beta_2\Delta x_i+\Delta\beta x_{i1}+\Delta\gamma z_i+\Delta\epsilon_i$

① $\alpha_i$ 被差分掉了，无需担心其潜在干扰

② $z$ 没有被消除，即非时变变量 $z_i$ 对 $\Delta y_i$ 有影响

③方程含有自变量 $x_1$

故应当检验 $\beta_1=\beta_2$ 与 $\gamma_1=\gamma_2$ 是否成立

3.每个个体被观察三期及以上的一阶差分方法

以 $T=3$ 为例，一阶差分方程 $\begin{cases}y_{i2}-y_{i1}=(\mu_2-\mu_1)+\beta(x_{i2}-x_{i1})+(\epsilon_{i2}-\epsilon_{i1})\\y_{i3}-y_{i2}=(\mu_3-\mu_2)+\beta(x_{i3}-x_{i2})+(\epsilon_{i3}-\epsilon_{i2})\end{cases}$

假定 $\beta$ 系数在不同时期保持不变，则应当运用虚拟变量对两个方程同时进行GLS估计。

4.每个个体每期均被观察的虚拟变量法

①建立一套虚拟变量，以将数据集中的每个个体区别开来，如用 $n-1$ 个虚拟变量代表 $n$ 个个体

②通过离均差算法，消除随时间变化的截距项

如 $\overline{y}_i=\frac{1}{T}\sum_{t}y_{it},\quad\overline{x}_i=\frac{1}{T}\sum_tx_{it},\quad \tilde{y}_{it}=y_{it}-\overline{y}_i,\quad \tilde{x}_{it}=x_{it}-\overline{x}_i$

③纳入时间与时变变量及非时变变量的交互项

5.与随机效应模型的比较

$y_{it}=\mu_t+\beta x_{it}+\gamma z_i+\alpha_i+\epsilon_{it}$

假定 $\alpha_i$ 是一套有着特定概率分布的随机变量，如均值为0，方差不变 $(\forall i)$ ，且在统计上独立于所有其他因素

认为随机效应模型应嵌套于固定效应模型之内：较简单的模型更有效率，较复杂的模型不容易产生偏差

可通过Hausman检验与混合模型法（A Hybrid Method）对嵌套模型进行检验，即同时将离差变量与均值变量作为自变量

§3.固定效应logistic回归

基础模型： $\log(\frac{p_{it}}{1-p_{it}})=\mu_t+\beta x_{it}+\gamma z_i+\alpha_i+\epsilon_{it}$

其中， $p_{it}$ 是响应变量等于1的概率，把 $\alpha_i$ 看作一套固定的常量

1.两期数据（固定效应分析）

统计 $n$ 个个体两期内的响应变量 $y_{i1}$ 与 $y_{i2}$

$\begin{align*}N_{00}=\{(y_{i1},y_{i2})=(0,0)\},\quad N_{01}=\{(y_{i1},y_{i2})=(0,1)\}\\N_{10}=\{(y_{i1},y_{i2})=(1,0)\},\quad N_{11}=\{(y_{i1},y_{i2})=(1,1)\}\end{align*}$