必威体育Betway必威体育官网
当前位置:首页 > IT技术

信息增益比和信息增益

时间:2019-10-15 09:15:47来源:IT技术作者:seo实验室小编阅读:75次「手机版」
 

信息增益

  1. 信息增益

    熵:H(X)=i=1kpilogpiH(X) = -\sum_{i=1}^k p_i\log p_iH(X)=−∑i=1k​pi​logpi​

    条件熵:H(XY)=j=1np(yj)H(Xyj)=j=1np(yj)i=1kp(xiyj)logp(xiyj)H(X|Y) =-\sum_{j=1}^n p(y_j)H(X|y_j) =-\sum_{j=1}^n p(y_j) \sum_{i=1}^k p(x_i|y_j)\log p(x_i|y_j)H(X∣Y)=−∑j=1n​p(yj​)H(X∣yj​)=−∑j=1n​p(yj​)∑i=1k​p(xi​∣yj​)logp(xi​∣yj​)

    信息增益: g(D,A)=H(D)H(DA)g(D,A) = H(D) - H(D|A)g(D,A)=H(D)−H(D∣A)

    信息增益代表利用特征A对数据集D分类后混乱程度降低了多少。信息增益越大,分类性越强。

    但是,信息增益往往会偏向于选出取值较多的特征,但这些特征有可能是无意义的特征,例如用户ID、学号、日期等。如果选择取值较多的特征,会使决策树分支过多。

  2. 信息增益比

    gR(D,A)=g(D,A)HA(D)g_R(D,A) = \frac{g(D,A)}{H_A(D)}gR​(D,A)=HA​(D)g(D,A)​

    HA(D)=i=1npilogpiH_A(D) =- \sum_{i=1}^np_i\log p_iHA​(D)=−∑i=1n​pi​logpi​,其中pi=P(A特征取值为ai)p_i = P(\text{A特征取值为}a_i)pi​=P(A特征取值为ai​)

    HA(D)H_A(D)HA​(D)属于对信息增益的惩罚参数,特征A取值越多惩罚参数越大,取值越少惩罚参数越小;从而克服信息增益偏向于选取取值较多的特征的问题。

相关阅读

熊掌号运营者信息可以修改吗?

来说说熊掌号运营的一些疑问吧,当然也是一些基础但又觉得还很关键的问题:熊掌号运营者信息能不能修改?运营者离职后企业的纠结熊掌号

ContextLoaderListener自动装配配置信息

Spring配置过程中要考虑两个监听器:ContextLoaderListener与RequestContextListener。 ContextLoaderListener extends ContextLoa

python爬虫 获取小米应用商店app信息

接着上一篇文章,这次爬取小米app的数据。主要是爬取应用和游戏这两类的app数据import requests from lxml import etree import re

sql server 统计表信息

//查询所有表明 select name from sysobjects where xtype='u' select * from sys.tables //查询数据库中所有的表名及行数

每个人都需要了解有关软性广告营销的更多信息

所谓的软性广告是一篇促进特定产品推广的文章。从这个角度来看,可以实现这种效果的文章可以称为软性广告。软性广告营销是一个系统

分享到:

栏目导航

推荐阅读

热门阅读