logistic
概念:
logistic回归是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域。值得一提的是,logistic回归跟多元线性回归有很多相似之处,模型形式也都是wx+b,w、b为要求的参数,不同点在于因变量不同,logistic回归通过logistic函数L将wx+b对应一个隐形状态p,即p=L(wx+b),若L是logistic函数就是logistic回归,若L是多项式就是多重线性回归。从另一方面来说,如果是连续的就是多重线性回归,如果是二项分布就是logistic回归。
基本思想:
Logistic回归实际上是一种分类方法,用于二分类问题。
先找到一个合适的假设函数,该函数就是我们要找的分类函数,,用它来预测输入数据的判断结果,这个过程需要对数据有一定的了解和分析,并且知道预测函数的基本特征,比如说是不是线性的等。
构造一个代价函数cost,即损失函数。用以表示预测的输出结果和训练数据的实际类别之间的偏差。若考虑所有数据,可以将cost求和或平均,记为J(θ)函数,表示所有预测结果和训练数据的实际类别之间的偏差。
最小化代价函数,获得最优的模型参数解,即J(θ)函数的最小值。因为函数的值越小预测结果就越准确,方法一般使用梯度下降法。
过程:
首先写出逻辑函数(sigmo函数):
函数图像:(值域在0-1之间)
找到假设函数:
其中h(x)函数的值还有特殊的含义,表示结果取1的概率,类别1和类别2的概率分别为:
利用二项分布可以将上述式子写为:
取似然函数为:
将其取对数得到:
构造cost函数并求和得到J(θ)函数:
将上面式子联立得到J函数,最后求解的就是其中的参数最小值:
逻辑回归实例:(在实际问题中会遇到多个因变量)
寻找某一疾病的危险元素,根据危险元素预测某一疾病发生的概率有多大。
Logistic模型为预测模型,帮助销售部门实现精准营销。
汽车金融信用违约预测案例,根据申请人的资料预测他是否违约。
根据早餐喜好的民意调查,每一个个体为一个案例,预测人们的生活状态、暂定年龄等。
通过气压、湿度等预测会不会下雨。
总结:
逻辑回归的模型和概念实际上很简单,就是两种可能,用0和1表示,0就是没有发生。1就是发生,实际来说比如在电脑上看视频出现广告,用户要么点了要么没点,通过逻辑回归模型就可以预测用户点广告的概率,难得就是对于过程中特征值的分析,所以逻辑回归问题最后也就变为参数估计问题。