动手学深度学习1
线性神经网络
信息论
信息量
$$
log \frac{1}{P (j)} = − log P(j)
$$
熵
$$
H(P)=\sum-P(j)logP(j)
$$
熵定义为当分配的概率真正匹配数据生成过程时的信息量的期望
交叉熵
$$
交叉熵从P到Q,记作:H(P,Q),用于衡量两个分布之间的差异
$$
$$
多分类下的交叉熵损失:L=\frac{1}{N}\sum_iL_i=-\frac{1}{N}\sum_i\sum_{c=1}^My_{ic}log(p_{ic})
$$
其中:
- M为类别的数量
- y_ic是符号函数,样本i的真实取值是c则为1,否则为0
- p_ic观测样本i属于类别c的预测概率
softmax
交叉熵损失的导数的结果是softmax模型分配的概率与实际发⽣的情况(由独热标签向量表⽰)之间的差异
softmax运算获取一个向量并将其映射为概率
$$
\frac{exp(X_{ij})}{\sum_kexp(X_{ik})}
$$
感知机
常用的激活函数
- Relu
$$
f(x)= \begin{cases}
\ 0, & x<=0 \
\ x, & x>0
\end{cases}
$$
- sigmoid
$$
f(x) = \frac{1}{1+e^{-x}}
$$
$$
y=sigmoid(x) \
y^{‘}= y(1-y)
$$
- tanh
$$
tanh(x)=\frac{1-e^{-2x}}{1+e^{-2x}}
$$
$$
y=tanh(x) \
y^{‘} = 1-y^2
$$
梯度裁剪可以快速修复梯度爆炸:
$$
g <=min(1,\frac{\theta}{||g||})g
$$
- Post title:动手学深度学习1
- Post author:calcium_oxide
- Create time:2022-08-30 21:15:12
- Post link:https://yhg1010.github.io/2022/08/30/动手学深度学习1/
- Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.