回归模型
参考资料:https://mp.weixin.qq.com/s/mr83EK24S94b_UUlecyqlA
线性回归
对异常值非常敏感
多项式拟合
如果指数选择不当,容易过拟合。
岭回归
标准线性或多项式回归在特征变量之间存在很高的共线性(high collinearity,比如变量x1与x2之间存在函数关系)的情况下将失败。共线性是自变量之间存在近似线性关系,你所观察到的x1的效应总会混杂x2的作用,因此会对回归分析带来很大的影响。
如何确定高共线性的存在:
- 尽管从理论上讲,该变量应该与Y高度相关,但回归系数并不显著。
- 添加或删除X特征变量时,回归系数会发生显着变化。
- X特征变量具有较高的成对相关性(pairwise correlations)(检查相关矩阵)。
标准线性回归的优化函数:
岭回归则为变量增加了一个小的平方偏差因子(其实也就是正则项),这种平方偏差因子向模型中引入少量偏差,但大大减少了方差:
岭回归的几个要点:
- 这种回归的假设与最小平方回归相同,不同点在于最小平方回归的时候,我们假设数据的误差服从高斯分布使用的是极大似然估计(MLE),在岭回归的时候,由于添加了偏差因子,即w的先验信息,使用的是极大后验估计(MAP)来得到最终参数的。
- 它缩小了系数的值,但没有达到零,这表明没有特征选择功能。
Lasso回归
岭回归和Lasso回归之间存在一些差异,基本上可以归结为L2和L1正则化的性质差异:
- 内置的特征选择(Built-in feature selection):这是L1范数的一个非常有用的属性,而L2范数不具有这种特性。这实际上因为是L1范数倾向于产生稀疏系数。例如,假设模型有100个系数,但其中只有10个系数是非零系数,这实际上是说“其他90个变量对预测目标值没有用处”。 而L2范数产生非稀疏系数,所以没有这个属性。因此,可以说Lasso回归做了一种“参数选择”形式,未被选中的特征变量对整体的权重为0。
- 稀疏性:指矩阵(或向量)中只有极少数条目非零。 L1范数具有产生具有零值或具有很少大系数的非常小值的许多系数的属性。
- 计算效率:L1范数没有解析解,但L2范数有。这使得L2范数的解可以通过计算得到。然而,L1范数的解具有稀疏性,这使得它可以与稀疏算法一起使用,这使得在计算上更有效率。
弹性网络回归(ElasticNet regression)
ElasticNet是Lasso回归和岭回归技术的混合体,它使用了L1和L2正则化。
在Lasso和岭回归之间进行权衡的一个实际优势是,它允许Elastic-Net在循环的情况下继承岭回归的一些稳定性。
ElasticNet回归的几个关键点:
- 它鼓励在高度相关变量的情况下的群体效应,而不是像Lasso那样将其中一些置零。当多个特征和另一个特征相关的时候弹性网络非常有用。Lasso 倾向于随机选择其中一个,而弹性网络更倾向于选择两个。
- 对所选变量的数量没有限制。
相关阅读
Socket编程(C语言实现)——基于TCP协议,基于UDP协议(多线
Socket编程 目前较为流行的网络编程模型是客户机/服务器通信模式 客户进程向服务器进程发出要求某种服务的请求,服务器进程响应该
【机器学习+sklearn框架】(一) 线性模型之Linear Regres
前言 一、原理 1.算法含义 2.算法特点 二、实现 1.sklearn中的线性回归 2.用Python自己实现算法 三、思考(面试常问) 参
风口之下,往往涌现着无数的资本和创业者,而当风平浪静之后,面临着行业洗牌与资本困境,我们才开始思考商业本质问题。到底何为“商业本
多项式回归 多项式回归,回归函数是回归变量多项式的回归。多项式回归模型是线性回归模型的一种,此时回归函数关于回归系数是线性的
fluent中隐藏了的低雷诺数湍流模型