动手学深度学习1
calcium_oxide Lv3

线性神经网络

信息论

信息量

$$
log \frac{1}{P (j)} = − log P(j)
$$

$$
H(P)=\sum-P(j)logP(j)
$$

熵定义为当分配的概率真正匹配数据生成过程时的信息量的期望

交叉熵

$$
交叉熵从P到Q,记作:H(P,Q),用于衡量两个分布之间的差异
$$

$$
多分类下的交叉熵损失:L=\frac{1}{N}\sum_iL_i=-\frac{1}{N}\sum_i\sum_{c=1}^My_{ic}log(p_{ic})
$$

其中:

  • M为类别的数量
  • y_ic是符号函数,样本i的真实取值是c则为1,否则为0
  • p_ic观测样本i属于类别c的预测概率

softmax

交叉熵损失的导数的结果是softmax模型分配的概率与实际发⽣的情况(由独热标签向量表⽰)之间的差异

softmax运算获取一个向量并将其映射为概率

$$
\frac{exp(X_{ij})}{\sum_kexp(X_{ik})}
$$

感知机

常用的激活函数

  • Relu

$$
f(x)= \begin{cases}
\ 0, & x<=0 \
\ x, & x>0
\end{cases}
$$

  • sigmoid

$$
f(x) = \frac{1}{1+e^{-x}}
$$

$$
y=sigmoid(x) \
y^{‘}= y(1-y)
$$

  • tanh

$$
tanh(x)=\frac{1-e^{-2x}}{1+e^{-2x}}
$$

$$
y=tanh(x) \
y^{‘} = 1-y^2
$$

梯度裁剪可以快速修复梯度爆炸:
$$
g <=min(1,\frac{\theta}{||g||})g
$$

  • Post title:动手学深度学习1
  • Post author:calcium_oxide
  • Create time:2022-08-30 21:15:12
  • Post link:https://yhg1010.github.io/2022/08/30/动手学深度学习1/
  • Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.