信息增益
- 信息增益
熵:H(X)=−∑i=1kpilogpi
条件熵:H(X∣Y)=−∑j=1np(yj)H(X∣yj)=−∑j=1np(yj)∑i=1kp(xi∣yj)logp(xi∣yj)
信息增益: g(D,A)=H(D)−H(D∣A)
信息增益代表利用特征A对数据集D分类后混乱程度降低了多少。信息增益越大,分类性越强。
但是,信息增益往往会偏向于选出取值较多的特征,但这些特征有可能是无意义的特征,例如用户ID、学号、日期等。如果选择取值较多的特征,会使决策树分支过多。
- 信息增益比
gR(D,A)=HA(D)g(D,A)
HA(D)=−∑i=1npilogpi,其中pi=P(A特征取值为ai)
HA(D)属于对信息增益的惩罚参数,特征A取值越多惩罚参数越大,取值越少惩罚参数越小;从而克服信息增益偏向于选取取值较多的特征的问题。
相关阅读
来说说熊掌号运营的一些疑问吧,当然也是一些基础但又觉得还很关键的问题:熊掌号运营者信息能不能修改?运营者离职后企业的纠结熊掌号
Spring配置过程中要考虑两个监听器:ContextLoaderListener与RequestContextListener。 ContextLoaderListener extends ContextLoa
接着上一篇文章,这次爬取小米app的数据。主要是爬取应用和游戏这两类的app数据import requests from lxml import etree import re
//查询所有表明 select name from sysobjects where xtype='u' select * from sys.tables //查询数据库中所有的表名及行数
所谓的软性广告是一篇促进特定产品推广的文章。从这个角度来看,可以实现这种效果的文章可以称为软性广告。软性广告营销是一个系统