参数估计

极大似然估计(MLE)

极大似然估计(Maxinum Likelihood Estimation):利用总体的分布密度或概率分布的表达式及其样本所提供的信息求未知参数估计量的一种方法.

模型已定,参数未知即利用已知样本的结果,去反推既定模型中的参数最可能的取值.

出现当前情形的概率为:

$$ f({x_1},{x_2},...,{x_n}{\rm{|}}\theta {\rm{) = }}f({x_1}|\theta )f({x_2}|\theta )...f({x_n}|\theta ),{\theta }未知 $$
称其为似然函数$L$
$$ \begin{array}{l} L(\theta |{x_1},{x_2},...,{x_n}) = f({x_1},{x_2},...,{x_n}{\rm{|}}\theta )\\ = \prod {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} n\\ {i = 1} \end{array}}&{f({x_i}|\theta )} \end{array}} \end{array} $$
$$ 令\hat l = \frac{1}{n}\ln L(\theta |{x_1},{x_2},...,{x_n})\\ 则{{\hat \theta }_{MLE}} = \arg \mathop {\max }\limits_{\theta \in \Theta } \hat l $$

最大似然估计(LSE)

总体$X$为连续型分布,其分布密度族为$\{ f(x,\theta ),\theta \in \Theta \} $,假设总体$X$的一个独立同分布的样本为${x_1},{x_2},...,{x_n}$,其似然函数为: $L(\theta |{x_1},{x_2},...,{x_n})$.最大似然估计应在一切$\theta$中选取随机样本(${X_1},{X_2},...,{X_n}$)落在点(${x_1},{x_2},...,{x_n}$)附近概率最大的${\hat \theta }$作为$\theta$的估计值.

对于一元线性回归方程

假设${\varepsilon _i}\text{~}N(0,{\sigma ^2})$$,则有${y_i}\text{~}N({\beta _0},{\beta _1}{x_i},{\sigma ^2})$
$$ \begin{array}{l} {y_i}{\rm{:}}的概率密度函数为:\\ {f_i}({y_i}) = \frac{1}{{\sqrt {2\pi } \sigma }}{e^{\{ - \frac{{{{[{y_i} - ({\beta _0} + {\beta _1}{x_i})]}^2}}}{{2{\sigma ^2}}}\} }}\\ 其似然函数为:\\ L({\beta _0},{\beta _1},{\sigma ^2}) = \prod\limits_{i = 1}^n {{f_i}({y_i}) = {{(2\pi {\sigma ^2})}^{\frac{n}{2}}}{e^{\sum {\{ - \frac{{{{[{y_i} - ({\beta _0} + {\beta _1}{x_i})]}^2}}}{{2{\sigma ^2}}}\} } }}} \\ = > \mathop {\min }\limits_{{\beta _0},{\beta _1}} \sum {{{[{y_i} - ({\beta _0} + {\beta _1}{x_i})]}^2}} \\ 对于一元线性回归,MSE和LSE是等价的.\\ 求{\sigma ^2}的估计值:\\ {\sigma ^2} = \frac{1}{n}\sum {{{[{y_i} - ({{\hat \beta }_0} + {{\hat \beta }_1}{x_i})]}^2}} \\ 其无偏估计量:\\ {\sigma ^2} = \frac{1}{{n - 2}}\sum {{{[{y_i} - ({{\hat \beta }_0} + {{\hat \beta }_1}{x_i})]}^2}}\\ \end{array}\\ $$

有偏估计和无偏估计

无偏估计(Unbiased Estimate):用样本来估计总体参数时的一种无偏推断,估计量的数学期望等于估计量的真实值$E(\hat \theta ) = \theta $.换言之,在对某量进行估计时,针对不同的样本,估计结果对真实值来说有的偏大有的偏小,反复多次.”平均”来说,和真实值的偏差为0,反之即为有偏估计(Biased Estimate).无偏估计无系统性偏差,有偏估计有系统性偏差.

$$ \begin{array}{l} E({\overline X ^2}) = V{(\overline X )^2} + E{(\overline X )^2} = V(\frac{{\sum {{X_i}} }}{n}) + E{(\overline X )^2}\\ = \frac{{\sum {V({X_i})} }}{{{n^2}}} + E{(X)^2} = \frac{1}{n}{\sigma ^2} + {\mu ^2}\\ E(\zeta ) = E[\frac{1}{n}{\sum {({X_i} - \overline X )} ^2}] = E[X_i^2] - E[{\overline X ^2}]\\ = {\sigma ^2} + {\mu ^2} - (\frac{1}{n}{\sigma ^2} + {\mu ^2}) = \frac{{n - 1}}{n}{\sigma ^2}\\ E({S^2}) = E[\frac{1}{{n - 1}}\sum {{{({X_i} - \overline X )}^2}} ]\\ = \frac{1}{{n - 1}}\sum {[E(X_i^2) - E{{(\overline X )}^2}]} \\ = \frac{1}{{n - 1}}[E(X_i^2) - E{(\overline X )^2}] = {\sigma ^2}\\ 样本方程{S^2}是总体方差的无偏估计量 \end{array} $$

显著性检验

t检验

检验因变量y与自变量x之间是否存在线性关系,即${\beta _{\rm{1}}}$是否等于0,使用$t$检验进行判断。

确定假设:我们搜集数据是为了找到不达标的证据,即原假设${H_0}:{\beta _1} = 0$,备择假设${H_0}:{\beta _1} \ne 0$
确定检验水平:采取常用的$\alpha = 0.05$或者是更严格的$\alpha = 0.01$
构造统计量:${H_0}$成立时:$\hat \beta \text{~}N(0,\frac{{{\sigma ^2}}}{{{L_{xx}}}})$,构造$t$统计量:$t = \frac{{\hat \beta }}{{\sqrt {{\partial ^2}/{L_{xx}}} }} = \frac{{\hat \beta }}{{\sqrt {\frac{1}{{n - 2}}\sum {{{({y_i} - {{\hat y}_i})}^2}} } }}\sqrt {{L_{xx}}} $
得到p值:计算$t$统计量,符合自由度$n-2$的$t$分布,双尾检测,查临界值表,找到$p$值.
得到结论:p值若大于$ \alpha$值,不能拒绝原假设,即通过本次采样得到的样本数据,并不能证明原假设$H_0$不成立,即本次得到的回归系数${{\beta}_1}$无显著的统计意义,需要重新建模.
总离差平方和(Sum of Squares for Total)
$$ \sum {{{({y_i} - \bar y)}^2}} $$ 残差平方和(Sum of Squares for Error)
$$ \sum {{{({y_i} - {{\hat y}_i})}^2}} $$ 回归平方和(Sum of Squares for Regression)
$$ \sum {{{({{\hat y}_i} - \bar y)}^2}} $$ $ SST = SSE + SSR $

F检验

F检验是根据平方和分解式,直接从回归效果检验回归方程的显著性.由平方和分解式可得到SSR越大,回归效果越好,据此构造F统计量。

$$ \begin{array}{l} MSR = \frac{{SSR}}{{k - 1}}\\ MSE = \frac{{SSE}}{{T - k}}\\ F = \frac{{MSR}}{{MSE}} \end{array} $$

相关系数显著性检验

相关系数由卡尔·皮尔逊的统计指标,描述了了变量之间线性相关程度的量,一般用字母r表示,有多种定义方式,一般指皮尔逊相关系数。

$$ r(X,Y) = \frac{{Cov(X,Y)}}{{\sqrt {{\mathop{\rm var}} (X){\mathop{\rm var}} (Y)} }} $$ $r$的取值范围$[-1, 1]$,r>0表示正相关,r<0表示负相关,r = 0表示不相关。

在抽样验证前需要排除抽样误差。

确定检验水平:采取较为严格的$\alpha = 0.01$
计算统计量:计算$t$统计量,原假设$H_0$成立,$t = \frac{{\sqrt {n - 2r} }}{{\sqrt {1 - {r^2}} }}$
计算p值:先计算$t$值,再根据$t$值查表.

决定系数

通过平方和分解式$ SST = SSR + SSE $,$SSR$占的比重越大,线性回归效果越好.定义回归平方和占总离差平方和的比例为决定系数(Coefficient of Determination),也称确定系数,,记作$r^2$

$$ {r^2} = \frac{{SSR}}{{SST}} = \frac{{\sum {{{({{\hat y}_i} - \bar y)}^2}} }}{{\sum {{{({y_i} - \bar y)}^2}} }} $$
    样本较小时,需要调整决定系数

    决定系数较大,同样也不能肯定自变量与因变量之间的关系就是线性的,可能曲线拟合更好,特别当自变量取值范围较小时,决定系数通常较大,可以做模型失拟检验.

    决定系数较小,如果样本量较小,则得到线性回归不显著的结果.如果样本量较大,则会得到线性回归显著;最后改进回归,儒增加自变量、尝试曲线回归拟合等

残差分析

真实值与回归拟合值的差,叫做残差
${e_i} = {y_i} - {\hat y_i}$ 残差平方和:$\sum {e_i^2} = \sum {{{({y_i} - {{\hat \beta }_0} - {{\hat \beta }_1}{x_i})}^2}} $

误差:真实值与模型输出值的差:${\varepsilon _i} = {y_i} - {\beta _0} - {\beta _1}{x_i}$
残差:如上 离差:真实值与模拟拟合值的期望的差,离差平方和为:$SST$
偏差:事实上的真实值与估计值的差$bias = {y_T} - {{\hat y}_i}$
方差:模型估计值与模型估计期望的方差${\mathop{\rm var}} = \sum {{{({{\hat y}_i} - \bar y)}^2}} $

残差的期望:$E({e_i}) = 0$

残差的约束条件:
$$ \begin{array}{l} \sum {{e_i} = 0} \\ \sum {{x_i}{e_i} = 0} \end{array} $$

残差的方差:

$$ {\mathop{\rm var}} ({e_i}) = [1 - \frac{1}{n} - \frac{{{{({x_i} - \bar x)}^2}}}{{{L_{xx}}}}]{\sigma ^2} = (1 - {h_{ii}}){\sigma ^2} $$
其中$h_{ii}$称为杠杆值
标准化残差:$ZR{E_i} = \frac{{{e_i}}}{{\hat \sigma }}$ 学生化残差:$SR{E_i} = \frac{{{e_i}}}{{\sigma \sqrt {1 - {h_{ii}}} }}$