必威体育Betway必威体育官网
当前位置:首页 > IT技术

归一化(Normalization)与标准化(Standardization)

时间:2019-11-02 02:45:43来源:IT技术作者:seo实验室小编阅读:69次「手机版」
 

standardization

机器学习数据挖掘中,经常会听到两个名词:归一化(normalization)与标准化(Standardization)。它们具体是什么?带来什么益处?具体怎么用?本文来具体讨论这些问题。

一、是什么

1. 归一化

常用的方法是通过对原始数据进行线性变换把数据映射到[0,1]之间,变换函数为:

x′=x−minmax−minx′=x−minmax−min

其中minmin是样本中最小值,maxmax是样本中最大值,注意在数据流场景下最大值与最小值是变化的。另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。

2. 标准化

常用的方法是z-score标准化,经过处理后的数据均值为0,标准差为1,处理方法是:

x′=x−μσx′=x−μσ

其中μμ是样本的均值,σσ是样本的标准差,它们可以通过现有样本进行估计。在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

二、带来什么

归一化的依据非常简单,不同变量往往量纲不同,归一化可以消除量纲对最终结果的影响,使不同变量具有可比性。比如两个人体重差10KG,身高差0.02M,在衡量两个人的差别时体重的差距会把身高的差距完全掩盖,归一化之后就不会有这样的问题。

标准化的原理比较复杂,它表示的是原始值与均值之间差多少个标准差,是一个相对值,所以也有去除量纲的功效。同时,它还带来两个附加的好处:均值为0,标准差为1。

均值为0有什么好处呢?它可以使数据以0为中心左右分布(这不是废话嘛),而数据以0为中心左右分布会带来很多便利。比如在去中心化的数据上做SVD分解等价于在原始数据上做PCA;机器学习中很多函数如Sigmoid、Tanh、Softmax等都以0为中心左右分布(不一定对称)。

标准差为1有什么好处呢?这个更复杂一些。对于xixi与xi′xi′两点间距离,往往表示为

D(xi,xi′)=∑j=1pwj⋅dj(xij,xi′j);∑j=1pwj=1D(xi,xi′)=∑j=1pwj⋅dj(xij,xi′j);∑j=1pwj=1

其中dj(xij,xi′j)dj(xij,xi′j)是属性jj两个点之间的距离,wjwj是该属性间距离在总距离中的权重,注意设wj=1,∀jwj=1,∀j并不能实现每个属性对最后的结果贡献度相同。对于给定的数据集,所有点对间距离的平均值是个定值,即

D¯=1N2∑i=1N∑i′=1ND(xi,xi′)=∑j=1pwj⋅d¯jD¯=1N2∑i=1N∑i′=1ND(xi,xi′)=∑j=1pwj⋅d¯j

是个常数,其中

d¯j=1N2∑i=1N∑i′=1Ndj(xij,xx′j)d¯j=1N2∑i=1N∑i′=1Ndj(xij,xx′j)

可见第jj个变量对最终整体平均距离的影响是wj⋅d¯jwj⋅d¯j,所以设wj∼1/d¯jwj∼1/d¯j可以使所有属性对全数据集平均距离的贡献相同。现在设djdj为欧式距离(或称为二范数)的平方,它是最常用的距离衡量方法之一,则有

dj¯=1N2∑i=1N∑i′=1N(xij−xi′j)2=2⋅varjdj¯=1N2∑i=1N∑i′=1N(xij−xi′j)2=2⋅varj

其中varjvarj是Var(Xj)Var(Xj)的样本估计,也就是说每个变量的重要程度正比于这个变量在这个数据集上的方差。如果我们让每一维变量的标准差都为1(即方差都为1),每维变量在计算距离的时候重要程度相同。

三、怎么用

在涉及到计算点与点之间的距离时,使用归一化或标准化都会对最后的结果有所提升,甚至会有质的区别。那在归一化与标准化之间应该如何选择呢?如果把所有维度的变量一视同仁,在最后计算距离中发挥相同的作用应该选择标准化,如果想保留原始数据中由标准差所反映的潜在权重关系应该选择归一化。另外,标准化更适合现代嘈杂大数据场景

文章最后发布于: 2017-07-06 17:48:31

相关阅读

批规范化Batch Normalization

机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在

Batch Normalization论文解读与Inception V2代码简析

目录 论文阅读 代码简析 小结 论文阅读 Inception V2是Inception家族的一个中间件产物,在论文Rethinking the Inc

绝对干货:屈臣氏标准化运营手册(完整版)

这家发源于1828年的大药房,1841年鸦片战争时期被华人收购并迁到香港,1989年在香港开出第一家个人护理用品商店,在1994年首次回到 大

SEO案例:锚文本、关键字、nofollow、Web标准化(一)

前面谈到了做SEO需要注意的好几个因素。但是因为工作上的原因,好多因素没有讲透的。(不过其实有些东西我给我们团队的人都没有讲过

如何撬动8000亿婚庆O2O大市场:移动、协同、标准化

婚庆作为一个重决策品类,其还处在O2O发展的基础信息互联网化阶段;在交易习惯尚未养成之前,平台方需要从信息结构完善和服务质量确保

分享到:

栏目导航

推荐阅读

热门阅读