standardization
在机器学习和数据挖掘中,经常会听到两个名词:归一化(normalization)与标准化(Standardization)。它们具体是什么?带来什么益处?具体怎么用?本文来具体讨论这些问题。
一、是什么
1. 归一化
常用的方法是通过对原始数据进行线性变换把数据映射到[0,1]之间,变换函数为:
其中
2. 标准化
常用的方法是z-score标准化,经过处理后的数据均值为0,标准差为1,处理方法是:
其中
二、带来什么
归一化的依据非常简单,不同变量往往量纲不同,归一化可以消除量纲对最终结果的影响,使不同变量具有可比性。比如两个人体重差10KG,身高差0.02M,在衡量两个人的差别时体重的差距会把身高的差距完全掩盖,归一化之后就不会有这样的问题。
标准化的原理比较复杂,它表示的是原始值与均值之间差多少个标准差,是一个相对值,所以也有去除量纲的功效。同时,它还带来两个附加的好处:均值为0,标准差为1。
均值为0有什么好处呢?它可以使数据以0为中心左右分布(这不是废话嘛),而数据以0为中心左右分布会带来很多便利。比如在去中心化的数据上做SVD分解等价于在原始数据上做PCA;机器学习中很多函数如Sigmoid、Tanh、Softmax等都以0为中心左右分布(不一定对称)。
标准差为1有什么好处呢?这个更复杂一些。对于
其中
是个常数,其中
可见第
其中
三、怎么用
在涉及到计算点与点之间的距离时,使用归一化或标准化都会对最后的结果有所提升,甚至会有质的区别。那在归一化与标准化之间应该如何选择呢?如果把所有维度的变量一视同仁,在最后计算距离中发挥相同的作用应该选择标准化,如果想保留原始数据中由标准差所反映的潜在权重关系应该选择归一化。另外,标准化更适合现代嘈杂大数据场景
文章最后发布于: 2017-07-06 17:48:31
相关阅读
机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在
Batch Normalization论文解读与Inception V2代码简析
目录 论文阅读 代码简析 小结 论文阅读 Inception V2是Inception家族的一个中间件产物,在论文Rethinking the Inc
这家发源于1828年的大药房,1841年鸦片战争时期被华人收购并迁到香港,1989年在香港开出第一家个人护理用品商店,在1994年首次回到 大
SEO案例:锚文本、关键字、nofollow、Web标准化(一)
前面谈到了做SEO需要注意的好几个因素。但是因为工作上的原因,好多因素没有讲透的。(不过其实有些东西我给我们团队的人都没有讲过
婚庆作为一个重决策品类,其还处在O2O发展的基础信息互联网化阶段;在交易习惯尚未养成之前,平台方需要从信息结构完善和服务质量确保