数值计算
数值计算
对于机器学习中的问题,有一部分可以通过数学推导的方式直接得到用公式表达的解析解,但对绝大多数的问题来说,解析解是不存在的,需要使用迭代更新的方法求数值解。然而实数的精度是无限的,计算机能够表达的精度是有限的,这就涉及到许多数值计算方法的问题。
1. 基本概念
-
上溢和下溢:由于计算机表达实数的精度的有限,在某些情况下许多复杂的复合运算中的四舍五入会导致一个接近0的小数变为0或者一个非常大的数被认为是无穷,这都会导致很严重的后果。
-
病态条件:条件数指的是函数相对于输入的微小变化而变化的快慢程度,输入被轻微扰动而迅速改变的函数对于科学计算来说可能会出现问题。
-
目标函数,损失函数(Objective function, Loss function):在求解机器学习问题时需要最大化或者最小化的函数目标。
-
导数:对于单变量函数f(x)来说,其导数f′(x)表示在f(x)在x的斜率大小。
-
偏导数:多变量函数针对某单一变量的导数,例如f(x,y)相对与x的偏导数为∂x∂f。
-
梯度:梯度是一个向量,向量中的元素是函数的偏导数,对于f(x,y)来说,其梯度∇f=(∂x∂f,∂y∂f),梯度表示函数在当前变化最快的方向。
-
雅克比矩阵(jacobian Matrix):对于函数f:Rm→Rn,其雅克比矩阵J∈Rn×m被定义为Ji,j=∂xj∂f((x))i。
-
海森矩阵(Hessian Matrix):对于函数f:Rn→R,其海森矩阵H是二阶导数组成的矩阵,被定义为Hi,j=∂xi∂xj∂2f。
-
极值点&鞍点:当对于函数f(x)来说,其导数等于0的点可能会存在的情况如下图所示,x=0点对图中三个函数来说分别是极大值点、极小值点、鞍点(非极值点)。对于多层的神经网络来说,鞍点是非常常见的,在迭代优化的时候需要使用一些方法跳出。
-
全局最小点:在函数的定义域上取得全局最小值的点,这通常来说是许多机器学习问题所要寻找的优化目标点。对神经网络中问题的损失函数来说,可能存在很多的的局部最小点,它们与全局的最小点差距不大,应此通常也可以作为问题的解(因为要求出全局最小点是一个几乎不可能的任务,所以我们一般选择局部的最优值即可),下面是一个示例。
2. 基于梯度的优化方法
-
梯度下降法:根据导数的计算公式,可以有f(x+ϵ)≈f(x)+ϵf′(x),为了求到目标函数的最小值,我们可以将x向梯度的相反方向移动一小段距离来进行逼近。
-
一阶优化算法:仅适用梯度信息的优化算法,如梯度下降法。
-
二阶优化算法:使用海森矩阵进行优化的算法,如牛顿法。
-
约束优化:在求解优化目标时,可能需要在函数定义域的某个子集中得到极值,这种条件下的优化问题被称为约束优化,一般使用构造拉格朗日函数利用KKT条件的方法求解。
3. 利用梯度下降法求解的实例
问题
假设有一些样本点X和对应的目标y,已知y可以由f(x)=w⋅x+b加上噪音生成,求解函数f的参数w和b。
求解
首先定义f(x)相对于y的损失函数(这里一般使用均方误差,比较预测值和真实值的差距)
L(f,y)=21x∑(f(x)−y)2=21x∑(w⋅x+b−y)2
那么损失函数相对于参数w和b的导数分别为:
∂w∂L=x∑x(w⋅x+b−y)
∂b∂L=x∑(w⋅x+b−y)
根据梯度下降法的公式可以得到参数的更新公式:
w=w−η∂w∂L
b=b−η∂b∂L
下面是利用numpy实现上述过求解的代码(可以在jupyter nootbook中直接运行):
import numpy as np
import matplotlib.pyplot as plt
## 定义w和b
#随机生成10个在[0.0,1.0)之间的数作为初始权值
feature_num = 10
w_real = np.random.random(feature_num)
print(w_real)
b_real = np.random.random()
## 生成训练数据
instance_num = 1000 #假设实力数目为1000
X = np.random.uniform(-100,100,(feature_num, instance_num))
#y=wx+b
y = np.matmul(w_real, X) + b_real
y = y + np.random.random(y.shape)
## 初始化参数
w = np.random.random(feature_num)
b = np.random.random()
#迭代20次,步长为0.0001
iter_time = 20
step_size = 0.0001
#记录损失值
loss_value = []
## 迭代求解
for i in range(iter_time):
#误差
delta = np.matmul(w, X) + b_real - y
#均方误差
loss_value.append((delta*delta).mean())
#更新系数w,b
w = w - step_size*(np.matmul(delta, X.T))/instance_num
print('w=',w)
b = b - step_size*delta.mean()
print('b=',b)
for t in loss_value:
print(t)
plt.clf
plt.plot(np.array(loss_value[1:]))
plt.title("gradient_descent_example")
plt.show()
运行上述代码可以得到是迭代过程中的损失变化情况,如下图示:
我们还可以打印出w和b在迭代过程中值的变化:
同样可以打印出每轮迭代中的损失值(可以看出损失值越来越小,说明梯度下降是成功的):
最后可以实际观察一下w和w_real的值,可以看到经过梯度迭代,确实可以得到参数的值。
上面的示例中,可以根据梯度迭代公式很容易且快速的迭代算出参数值,然而实际的机器学习问题往往比上面的问题复杂的多,因此迭代过程也不像上面的例子一样简单,而是涉及到许多技巧。
numpy中random.random()的用法:
numpy中random.uniform()的用法:
在这里可以查询numpy函数的相关使用
numpy.matmul
相关阅读
使用HTTP请求进行URL导航 flash中最普通的http请求是使用URLRequest类和navigateToURL()方法进行URL导航。 创建HTTP请求 在创
知识往往随时间淡忘,沉心在开发中时间长了,发现好些知识已经又模糊了,一些很好用的属性,其本身就有,却忘了,然后绕个大圈子自己实现了
三、数据链路层在本章中,我们将学习网络模型中的第二层(即数据链路层)的设计原则。学习内容涉及两台相邻机器实现可靠有效的完整信息
对于刚刚开始Linux学习生涯的新手来说,上百款让人眼花缭乱的Linux发行版中,Deepin无疑是最合适的的那一款。可能有人会问,为什么不是
根据教育部最新第四轮学科评估结果可知,全国共有168所开设计算机专业的大学参与了计算机专业大学排名,其中排名前4的大学是北京大学