固定效应回归模型
§1.导论
统计学领域最具挑战性的议题:如何创造一些方法从非实验数据中进行有效的因果推论,即如何从统计上控制无法观测的变量。
固定效应模型:用每个个体作为其自身的控制因素。
基本的数据要求:
①对于每一个个体,因变量被至少测量两次,且这些测量结果具有直接的可比性,即具有同样的意义和度量单位。
②样本中具有相当比例案例的关键自变量再不同时点上的取值有所变化,如一般认为性别、民族等非时变变量不是关键自变量且不变。
对比:
①固定效应模型:将个体间未被观察的差异作为一套固定的参数,它们要么可以直接估计出来,要么可以在估计方程中被抵消 → 个体内信息。
②随机效应模型:未被观察到的差异被处理成具有特定概率分布的随机变量。假定未被观测的变量与所有观测变量之间不相关 → 个体内信息+个体间信息。
§2.线性固定效应模型:基本原理
有一组个体,每个个体都至少在两个时点上得到测量
因变量,在不同时点有所变化的自变量,不随时间变化的自变量
模型
是截距,每一时点都可以不同
是每一时点上的纯粹随机变动
是所有未被观测的非时变量对于的综合影响
对的假定:
均值为0,方差不变,且在统计上独立于所有其他因素
对的假定:
代表个固定参数,可以直接估计出来或通过某种方式在方程中消除掉
代表个随机变量,与在统计上相互独立,但允许与或任意相关
1.两期数据(固定效应分析)
时,方程
相减,得一阶差分方程:
即
由于与相互独立,得可以对差分方程进行OLS估计,且去除了非时变变量的影响
2.两期数据差分法的扩展
允许和的影响在时间上存在差异
时,方程
相减,得一阶差分方程:
即
①被差分掉了,无需担心其潜在干扰
②没有被消除,即非时变变量对有影响
③方程含有自变量
故应当检验与是否成立
3.每个个体被观察三期及以上的一阶差分方法
以为例,一阶差分方程
假定系数在不同时期保持不变,则应当运用虚拟变量对两个方程同时进行GLS估计。
4.每个个体每期均被观察的虚拟变量法
①建立一套虚拟变量,以将数据集中的每个个体区别开来,如用个虚拟变量代表个个体
②通过离均差算法,消除随时间变化的截距项
如
③纳入时间与时变变量及非时变变量的交互项
5.与随机效应模型的比较
假定是一套有着特定概率分布的随机变量,如均值为0,方差不变,且在统计上独立于所有其他因素
认为随机效应模型应嵌套于固定效应模型之内:较简单的模型更有效率,较复杂的模型不容易产生偏差
可通过Hausman检验与混合模型法(A Hybrid Method)对嵌套模型进行检验,即同时将离差变量与均值变量作为自变量
§3.固定效应logistic回归
基础模型:
其中,是响应变量等于1的概率,把看作一套固定的常量
1.两期数据(固定效应分析)
统计个个体两期内的响应变量与
由固定效应模型,得不能使用常规的比数比分析,而应当对上述四种类型进行分别分析,如响应变量由0变成1的概率,依次拟合一阶差分模型,用MLE回归
①
②
③
2.三期及多期数据
不能对个体区别建立虚拟变量,因为这将导致待估参数随着样本规模的增大而变多
正确方法是对类似小中的最小个体分类进行条件最大似然估计(CMLE),并考虑加入时间与诸观测变量的交互项
§4.计数变量的固定效应模型
1.两期计数数据泊松模型
假定:①事件不同时发生;②事件之间彼此独立
即
对数线性函数,用CMLE估计
记,则,其中
得一阶差分模型
即自变量为原始自变量差分值的logistic回归模型
2.多期计数数据泊松模型
可以对个体区别建立虚拟变量,但此时有过多虚拟变量的参数作为待估参数
当程序包允许时,使用CMLE,有条件似然值
3.计数数据负二项模型
负二项分布
第k次失败发生在第r+k次试验的概率
即一般化的泊松分布,通过一个额外的参数,允许过离散存在