17 | 神经网络基础：神经网络还是复合函数-NLP实战高手课-极客时间

NLP 实战高手课

王然

众微科技 AI Lab 技术负责人、阿姆斯特丹大学数学和计量经济学双硕士

16029 人已学习

新⼈⾸单¥68

课程目录

已完结/共 160 讲

第一章：AI及NLP基础 (15讲)



01 | 课程介绍

时长 08:41

02 | 内容综述

时长 18:28

03 | AI概览：宣传片外的人工智能

时长 45:12

04 | AI项目流程：从实验到落地

时长 46:20

05 | NLP领域简介：NLP基本任务及研究方向

时长 34:25

06 | NLP应用：智能问答系统

时长 34:37

07 | NLP应用：文本校对系统

时长 16:13

08 | NLP的学习方法：如何在AI爆炸时代快速上手学习？

时长 25:18

09 | 深度学习框架简介：如何选择合适的深度学习框架？

时长 34:48

10 | 深度学习与硬件：CPU

时长 11:00

11 | 深度学习与硬件：GPU

时长 19:45

12 | 深度学习与硬件：TPU

时长 18:13

13 | AI项目部署：基本原则

时长 10:43

14 | AI项目部署：框架选择

时长 11:50

15 | AI项目部署：微服务简介

时长 13:27

第二章：深度学习简介和NLP试水 (14讲)



16 | 统计学基础：随机性是如何改变数据拟合的本质的？

时长 19:25

17 | 神经网络基础：神经网络还是复合函数

时长 13:28

18 | 神经网络基础：训练神经网络

时长 15:34

19 | 神经网络基础：神经网络的基础构成

时长 23:30

20 | Embedding简介：为什么Embedding更适合编码文本特征？

时长 08:57

21 | RNN简介：马尔可夫过程和隐马尔可夫过程

时长 09:13

22 | RNN简介：RNN和LSTM

时长 16:58

23 | CNN：卷积神经网络是什么？

时长 10:36

24 | 环境部署：如何构建简单的深度学习环境？

时长 27:19

25 | PyTorch简介：Tensor和相关运算

时长 17:44

26 | PyTorch简介：如何构造Dataset和DataLoader？

时长 08:14

27 | PyTorch简介：如何构造神经网络？

时长 18:30

28 | 文本分类实践：如何进行简单的文本分类？

时长 17:59

29 | 文本分类实践的评价：如何提升进一步的分类效果？

时长 29:41

第三章：表格化数据挖掘 (40讲)



30 | 经典的数据挖掘方法：数据驱动型开发早期的努力

时长 14:34

31 | 表格化数据挖掘基本流程：看看现在的数据挖掘都是怎么做的？

时长 14:10

32 | Pandas简介：如何使用Pandas对数据进行处理？

时长 15:54

33 | Matplotlib简介：如何进行简单的可视化分析？

时长 11:42

34 | 半自动特征构建方法：Target Mean Encoding

时长 14:32

35 | 半自动特征构建方法：Categorical Encoder

时长 11:41

36 | 半自动特征构建方法：连续变量的离散化

时长 15:10

37 | 半自动特征构建方法：Entity Embedding

时长 23:15

38 | 半自动构建方法：Entity Embedding的实现

时长 25:06

39 | 半自动特征构建方法：连续变量的转换

时长 24:14

40 | 半自动特征构建方法：缺失变量和异常值的处理

时长 09:52

41 | 自动特征构建方法：Symbolic learning和AutoCross简介

时长 18:05

42 | 降维方法：PCA、NMF 和 tSNE

时长 22:54

43 | 降维方法：Denoising Auto Encoders

时长 07:35

44 | 降维方法：Variational Auto Encoder

时长 13:23

45 | 变量选择方法

时长 09:10

46 | 集成树模型：如何提升决策树的效果

时长 07:20

47 | 集成树模型：GBDT和XgBoost的数学表达

时长 20:27

48 | 集成树模型：LightGBM简介

时长 08:05

49 | 集成树模型：CatBoost和NGBoost简介

时长 05:12

50 | 神经网络建模：如何让神经网络实现你的数据挖掘需求

时长 06:49

51 | 神经网络的构建：Residual Connection和Dense Connection

时长 09:43

52 | 神经网络的构建：Network in Network

时长 03:56

53 | 神经网络的构建：Gating Mechanism和Attention

时长 07:34

54 | 神经网络的构建：Memory

时长 18:54

55 | 神经网络的构建：Activation Function

时长 12:33

56 | 神经网络的构建：Normalization

时长 11:03

57 | 神经网络的训练：初始化

时长 11:36

58 | 神经网络的训练：学习率和Warm-up

时长 19:35

59 | 神经网络的训练：新的PyTorch训练框架

时长 25:47

60 | Transformer：如何通过Transformer榨取重要变量？

时长 22:16

61 | Transformer代码实现剖析

时长 25:57

62 | xDeepFM：如何用神经网络处理高维的特征？

时长 11:56

63 | xDeepFM的代码解析

时长 10:04

64 | 时序建模：如何用神经网络解决时间序列的预测问题？

时长 20:57

65 | 图嵌入：如何将图关系纳入模型？

时长 18:14

66 | 图网络简介：如何在图结构的基础上建立神经网络？

时长 23:05

67 | 模型融合基础：如何让你所学到的模型方法一起发挥作用？

时长 11:10

68 | 高级模型融合技巧：Metades是什么？

时长 09:44

69 | 挖掘自然语言中的人工特征：如何用传统的特征解决问题？

时长 22:39

第四章：自然语言分类任务 (37讲)



70 | 重新审视Word Embedding：Negative Sampling和Contextual Embedding

时长 10:53

71 | 深度迁移学习模型：从ELMo到BERT

时长 18:24

72 | 深度迁移学习模型：RoBERTa、XLNet、ERNIE和T5

时长 21:55

73 | 深度迁移学习模型：ALBERT和ELECTRA

时长 09:38

74 | 深度迁移学习模型的微调：如何使用TensorFlow在TPU对模型进行微调

时长 23:45

75 | 深度迁移学习模型的微调：TensorFlow BERT代码简析

时长 26:43

76 | 深度迁移学习的微调：如何利用PyTorch实现深度迁移学习模型的微调及代码简析

时长 11:06

77 | 优化器：Adam和AdamW

时长 19:26

78 | 优化器：Lookahead，Radam和Lamb

时长 07:57

79 | 多重loss的方式：如何使用多重loss来提高模型准确率？

时长 10:16

80 | 数据扩充的基本方法：如何从少部分数据中扩充更多的数据并避免过拟合？

时长 08:45

81 | UDA：一种系统的数据扩充框架

时长 08:54

82 | Label Smoothing和Logit Squeezing

时长 07:09

83 | 底层模型拼接：如何让不同的语言模型融合在一起从而达到更好的效果？

时长 07:10

84 | 上层模型拼接：如何在语言模型基础上拼接更多的模型？

时长 10:18

85 | 长文本分类：截取、关键词拼接和预测平均

时长 11:51

86 | Virtual Adverserial Training：如何减少一般对抗训练难收敛的问题并提高结果的鲁棒性？

时长 12:47

87 | 其他Embedding的训练：还有哪些Embedding方法？

时长 12:06

88 | 训练预语言模型

时长 12:06

89 | 多任务训练：如何利用多任务训练来提升效果？

时长 17:55

90 | Domain Adaptation：如何利用其它有标注语料来提升效果？

时长 15:33

91 | Few-shot Learning：是否有更好的利用不同任务的方法？

时长 15:52

92 | 半监督学习：如何让没有标注的数据也派上用场？

时长 07:33

93 | 依存分析和Semantic Parsing概述

时长 05:07

94 | 依存分析和Universal Depdency Relattions

时长 18:21

95 | 如何在Stanza中实现Dependency Parsing

时长 12:01

96 | Shift Reduce算法

时长 08:36

97 | 基于神经网络的依存分析算法

时长 11:37

98 | 树神经网络：如何采用Tree LSTM和其它拓展方法？

时长 07:06

99 | Semantic Parsing基础：Semantic Parsing的任务是什么？

时长 13:53

100 | WikiSQL任务简介

时长 10:50

101 | ASDL和AST

时长 07:30

102 | Tranx简介

时长 09:09

103 | Lambda Caculus概述

时长 05:19

104 | Lambda-DCS概述

时长 13:00

105 | Inductive Logic Programming：基本设定

时长 13:36

106 | Inductive Logic Programming：一个可微的实现

时长 11:43

第五章：增强学习 (37讲)



107 | 增强学习的基本设定：增强学习与传统的预测性建模有什么区别？

时长 07:33

108 | 最短路问题和Dijkstra Algorithm

时长 10:12

109 | Q-learning：如何进行Q-learning算法的推导？

时长 31:23

110 | Rainbow：如何改进Q-learning算法？

时长 09:06

111 | Policy Gradient：如何进行Policy Gradient的基本推导？

时长 08:28

112 | A2C和A3C：如何提升基本的Policy Gradient算法

时长 12:29

113 | Gumbel-trick：如何将离散的优化改变为连续的优化问题？

时长 07:08

114 | MCTS简介：如何将“推理”引入到强化学习框架中

时长 14:17

115 | Direct Policty Gradient：基本设定及Gumbel-trick的使用

时长 15:04

116 | Direct Policty Gradient：轨迹生成方法

时长 13:07

117 | AutoML及Neural Architecture Search简介

时长 14:52

118 | AutoML网络架构举例

时长 10:09

119 | RENAS：如何使用遗传算法和增强学习探索网络架构

时长 16:32

120 | Differentiable Search：如何将NAS变为可微的问题

时长 09:29

121 | 层次搜索法：如何在模块之间进行搜索？

时长 07:58

122 | LeNAS：如何搜索搜索space

时长 09:11

123 | 超参数搜索：如何寻找算法的超参数

时长 13:55

124 | Learning to optimize：是否可以让机器学到一个新的优化器

时长 11:54

125 | 遗传算法和增强学习的结合

时长 11:05

126 | 使用增强学习改进组合优化的算法

时长 12:09

127 | 多代理增强学习概述：什么是多代理增强学习？

时长 10:35

128 | AlphaStar介绍：AlphaStar中采取了哪些技术？

时长 14:56

129 | IMPALA：多Agent的Actor-Critic算法

时长 10:03

130 | COMA:Agent之间的交流

时长 07:52

131 | 多模态表示学习简介

时长 10:09

132 | 知识蒸馏：如何加速神经网络推理

时长 07:38

133 | DeepGBM：如何用神经网络捕捉集成树模型的知识

时长 04:25

134 | 文本推荐系统和增强学习

时长 11:30

135 | RL训练方法集锦：简介

时长 12:27

136 | RL训练方法:RL实验的注意事项

时长 09:31

137 | PPO算法

时长 07:34

138 | Reward设计的一般原则

时长 08:46

139 | 解决Sparse Reward的一些方法

时长 13:06

140 | Imitation Learning和Self-imitation Learning

时长 11:13

141 | 增强学习中的探索问题

时长 10:34

142 | Model-based Reinforcement Learning

时长 08:10

143 | Transfer Reinforcement Learning和Few-shot Reinforcement Learning

时长 10:22

第六章：实际案例研究 (3讲)



144 | Quora问题等价性案例学习：预处理和人工特征

时长 21:23

145 | Quora问题等价性案例学习：深度学习模型

时长 13:16

146 | 文本校对案例学习

时长 17:50

第七章：系统部署 (14讲)



147 | 微服务和Kubernetes简介

时长 13:25

148 | Docker简介

时长 07:56

149 | Docker部署实践

时长 10:02

150 | Kubernetes基本概念

时长 10:11

151 | Kubernetes部署实践

时长 13:28

152 | Kubernetes自动扩容

时长 08:21

153 | Kubernetes服务发现

时长 05:10

154 | Kubernetes Ingress

时长 06:24

155 | Kubernetes健康检查

时长 06:55

156 | Kubernetes灰度上线

时长 06:31

157 | Kubernetes Stateful Sets

时长 05:19

158 | Istio简介：Istio包含哪些功能？

时长 05:26

159 | Istio实例和Circuit Breaker

时长 10:40

160 | 结束语

时长 04:09



NLP 实战高手课

登录|注册



留言

12



收藏



沉浸
阅读



分享



手机端



回顶部

当前播放: 17 | 神经网络基础：神经网络还是复合函数

00:00 / 00:00

高清

高清

1.0x

2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

付费课程，可试看



01 | 课程介绍

02 | 内容综述

03 | AI概览：宣传片外的人工智能

04 | AI项目流程：从实验到落地

05 | NLP领域简介：NLP基本任务及研究方向

06 | NLP应用：智能问答系统

07 | NLP应用：文本校对系统

08 | NLP的学习方法：如何在AI爆炸时代快速上手学习？

09 | 深度学习框架简介：如何选择合适的深度学习框架？

10 | 深度学习与硬件：CPU

11 | 深度学习与硬件：GPU

12 | 深度学习与硬件：TPU

13 | AI项目部署：基本原则

14 | AI项目部署：框架选择

15 | AI项目部署：微服务简介

16 | 统计学基础：随机性是如何改变数据拟合的本质的？

17 | 神经网络基础：神经网络还是复合函数

18 | 神经网络基础：训练神经网络

19 | 神经网络基础：神经网络的基础构成

20 | Embedding简介：为什么Embedding更适合编码文本特征？

21 | RNN简介：马尔可夫过程和隐马尔可夫过程

22 | RNN简介：RNN和LSTM

23 | CNN：卷积神经网络是什么？

24 | 环境部署：如何构建简单的深度学习环境？

25 | PyTorch简介：Tensor和相关运算

26 | PyTorch简介：如何构造Dataset和DataLoader？

27 | PyTorch简介：如何构造神经网络？

28 | 文本分类实践：如何进行简单的文本分类？

29 | 文本分类实践的评价：如何提升进一步的分类效果？

30 | 经典的数据挖掘方法：数据驱动型开发早期的努力

31 | 表格化数据挖掘基本流程：看看现在的数据挖掘都是怎么做的？

32 | Pandas简介：如何使用Pandas对数据进行处理？

33 | Matplotlib简介：如何进行简单的可视化分析？

34 | 半自动特征构建方法：Target Mean Encoding

35 | 半自动特征构建方法：Categorical Encoder

36 | 半自动特征构建方法：连续变量的离散化

37 | 半自动特征构建方法：Entity Embedding

38 | 半自动构建方法：Entity Embedding的实现

39 | 半自动特征构建方法：连续变量的转换

40 | 半自动特征构建方法：缺失变量和异常值的处理

41 | 自动特征构建方法：Symbolic learning和AutoCross简介

42 | 降维方法：PCA、NMF 和 tSNE

43 | 降维方法：Denoising Auto Encoders

44 | 降维方法：Variational Auto Encoder

45 | 变量选择方法

46 | 集成树模型：如何提升决策树的效果

47 | 集成树模型：GBDT和XgBoost的数学表达

48 | 集成树模型：LightGBM简介

49 | 集成树模型：CatBoost和NGBoost简介

50 | 神经网络建模：如何让神经网络实现你的数据挖掘需求

51 | 神经网络的构建：Residual Connection和Dense Connection

52 | 神经网络的构建：Network in Network

53 | 神经网络的构建：Gating Mechanism和Attention

54 | 神经网络的构建：Memory

55 | 神经网络的构建：Activation Function

56 | 神经网络的构建：Normalization

57 | 神经网络的训练：初始化

58 | 神经网络的训练：学习率和Warm-up

59 | 神经网络的训练：新的PyTorch训练框架

60 | Transformer：如何通过Transformer榨取重要变量？

61 | Transformer代码实现剖析

62 | xDeepFM：如何用神经网络处理高维的特征？

63 | xDeepFM的代码解析

64 | 时序建模：如何用神经网络解决时间序列的预测问题？

65 | 图嵌入：如何将图关系纳入模型？

66 | 图网络简介：如何在图结构的基础上建立神经网络？

67 | 模型融合基础：如何让你所学到的模型方法一起发挥作用？

68 | 高级模型融合技巧：Metades是什么？

69 | 挖掘自然语言中的人工特征：如何用传统的特征解决问题？

70 | 重新审视Word Embedding：Negative Sampling和Contextual Embedding

71 | 深度迁移学习模型：从ELMo到BERT

72 | 深度迁移学习模型：RoBERTa、XLNet、ERNIE和T5

73 | 深度迁移学习模型：ALBERT和ELECTRA

74 | 深度迁移学习模型的微调：如何使用TensorFlow在TPU对模型进行微调

75 | 深度迁移学习模型的微调：TensorFlow BERT代码简析

76 | 深度迁移学习的微调：如何利用PyTorch实现深度迁移学习模型的微调及代码简析

77 | 优化器：Adam和AdamW

78 | 优化器：Lookahead，Radam和Lamb

79 | 多重loss的方式：如何使用多重loss来提高模型准确率？

80 | 数据扩充的基本方法：如何从少部分数据中扩充更多的数据并避免过拟合？

81 | UDA：一种系统的数据扩充框架

82 | Label Smoothing和Logit Squeezing

83 | 底层模型拼接：如何让不同的语言模型融合在一起从而达到更好的效果？

84 | 上层模型拼接：如何在语言模型基础上拼接更多的模型？

85 | 长文本分类：截取、关键词拼接和预测平均

86 | Virtual Adverserial Training：如何减少一般对抗训练难收敛的问题并提高结果的鲁棒性？

87 | 其他Embedding的训练：还有哪些Embedding方法？

88 | 训练预语言模型

89 | 多任务训练：如何利用多任务训练来提升效果？

90 | Domain Adaptation：如何利用其它有标注语料来提升效果？

91 | Few-shot Learning：是否有更好的利用不同任务的方法？

92 | 半监督学习：如何让没有标注的数据也派上用场？

93 | 依存分析和Semantic Parsing概述

94 | 依存分析和Universal Depdency Relattions

95 | 如何在Stanza中实现Dependency Parsing

96 | Shift Reduce算法

97 | 基于神经网络的依存分析算法

98 | 树神经网络：如何采用Tree LSTM和其它拓展方法？

99 | Semantic Parsing基础：Semantic Parsing的任务是什么？

100 | WikiSQL任务简介

101 | ASDL和AST

102 | Tranx简介

103 | Lambda Caculus概述

104 | Lambda-DCS概述

105 | Inductive Logic Programming：基本设定

106 | Inductive Logic Programming：一个可微的实现

107 | 增强学习的基本设定：增强学习与传统的预测性建模有什么区别？

108 | 最短路问题和Dijkstra Algorithm

109 | Q-learning：如何进行Q-learning算法的推导？

110 | Rainbow：如何改进Q-learning算法？

111 | Policy Gradient：如何进行Policy Gradient的基本推导？

112 | A2C和A3C：如何提升基本的Policy Gradient算法

113 | Gumbel-trick：如何将离散的优化改变为连续的优化问题？

114 | MCTS简介：如何将“推理”引入到强化学习框架中

115 | Direct Policty Gradient：基本设定及Gumbel-trick的使用

116 | Direct Policty Gradient：轨迹生成方法

117 | AutoML及Neural Architecture Search简介

118 | AutoML网络架构举例

119 | RENAS：如何使用遗传算法和增强学习探索网络架构

120 | Differentiable Search：如何将NAS变为可微的问题

121 | 层次搜索法：如何在模块之间进行搜索？

122 | LeNAS：如何搜索搜索space

123 | 超参数搜索：如何寻找算法的超参数

124 | Learning to optimize：是否可以让机器学到一个新的优化器

125 | 遗传算法和增强学习的结合

126 | 使用增强学习改进组合优化的算法

127 | 多代理增强学习概述：什么是多代理增强学习？

128 | AlphaStar介绍：AlphaStar中采取了哪些技术？

129 | IMPALA：多Agent的Actor-Critic算法

130 | COMA:Agent之间的交流

131 | 多模态表示学习简介

132 | 知识蒸馏：如何加速神经网络推理

133 | DeepGBM：如何用神经网络捕捉集成树模型的知识

134 | 文本推荐系统和增强学习

135 | RL训练方法集锦：简介

136 | RL训练方法:RL实验的注意事项

137 | PPO算法

138 | Reward设计的一般原则

139 | 解决Sparse Reward的一些方法

140 | Imitation Learning和Self-imitation Learning

141 | 增强学习中的探索问题

142 | Model-based Reinforcement Learning

143 | Transfer Reinforcement Learning和Few-shot Reinforcement Learning

144 | Quora问题等价性案例学习：预处理和人工特征

145 | Quora问题等价性案例学习：深度学习模型

146 | 文本校对案例学习

147 | 微服务和Kubernetes简介

148 | Docker简介

149 | Docker部署实践

150 | Kubernetes基本概念

151 | Kubernetes部署实践

152 | Kubernetes自动扩容

153 | Kubernetes服务发现

154 | Kubernetes Ingress

155 | Kubernetes健康检查

156 | Kubernetes灰度上线

157 | Kubernetes Stateful Sets

158 | Istio简介：Istio包含哪些功能？

159 | Istio实例和Circuit Breaker

160 | 结束语



本节摘要

课件和 Demo 地址
https://gitee.com/geektime-geekbang/NLP

登录后留言

全部留言(12)

最新
精选

qinsi

总结一下老师大致是说，神经网络本质是可微的复合函数，不要仅仅注意到激活函数而被带偏了。然而我个人的理解，激活函数带来的非线性特性也很重要，否则神经网络的表达能力与线性函数无疑

2020-03-09



7

余皇南

可以补充西瓜书的广义线性回归和Andrew Ng的链式法则推导，感觉老师的课比较精简建议给些补充材料

2020-04-14



5

人工智能混饭人

神经网络的本质是复合函数，因此可以通过链式法则进行求导训练网络（也叫反向传播，通过最小化损失函数，进而反向对未知参数求导）。激活函数时非线性，进而可以拟合较复杂的函数关系。

2020-03-09



3

Geek_02623b

我感觉用logistic回归的思想来解释神经网络比较切合。以二分类为例： X表示样本${x_1,x_2,....}$；C表示类别${c_1=1,c_2=-1}$，$P$表示概率。已知如下：当$P(C_1|x_1)/P(C_2|X_1)>1$时$X_1$属于$C_1$类，当$P(C_1|x_1)/P(C_2|X_1)<1$时$X_1$属于$C_2$类. 由于是二分类问题，可以将上式继续简化 $P(C_1|x_1)/(1-P(C_1|x_1))>1$时$X_1$属于$C_1$类， $P(C_1|x_1)/(1-P(C_1|x_1))<1$时$X_1$属于$C_2$类，上述公式是分类问题的描述，但是这个公式还有一个问题需要处理，由函数$x/(1-x)$图像可知，在0和1附近的值太小和太大将函数图像的波动掩盖了，所以需要加上对数，$ln{P(C_1|x_1)/(1-P(C_1|x_1))}$。下面引入logitic regression(LR)和神经网络。 1. LR(欢迎讨论，根据自己理解定义的) 经过上述的讨论我们知道了要拟合的目标即:$ln{P(C_1|x_1)/(1-P(C_1|x_1))}$，使用$\overrightarrow w \overrightarrow x+\overrightarrow b$来拟合的话就是LR模型，推导如下： $ln{P(C_1|x_1)/(1-P(C_1|x_1))}=\overrightarrow w \overrightarrow x+\overrightarrow b$ $e^{ln{P(C_1|x_1)/(1-P(C_1|x_1))}}=e^{\overrightarrow w \overrightarrow x+\overrightarrow b}$ $P(C_1|x_1)/(1-P(C_1|x_1))=e^{\overrightarrow w \overrightarrow x+\overrightarrow b}$ $1/(\frac {1}{P(C_1|x_1)}-1)=e^{\overrightarrow w \overrightarrow x+\overrightarrow b}$ $P(C_1|x_1)=\frac {e^{\overrightarrow w \overrightarrow x+\overrightarrow b}}{1+e^{\overrightarrow w \overrightarrow x+\overrightarrow b}}$ 由二分类可知， $P(C_2|x_1)=\frac {1}{1+e^{\overrightarrow w \overrightarrow x+\overrightarrow b}}$ $P(C_2|x_1)+P(C_1|x_1)= 1$ 以上也可与推广到多分类。 2. 神经网络神经网络也是在拟合$ln{P(C_1|x_1)/(1-P(C_1|x_1))}$，只不过神经网络的需要拟合的函数${(\overrightarrow w \overrightarrow x+\overrightarrow b)}^{*}$要复杂的多，加个星号表示的是广义的。

2020-07-07



1

kingsley

神经网络分前向传播和反向传播两个过程。求解梯度是反向传播的过程。矩阵求导可以参考matrix cookbook

2020-05-16



1

JaneIDK

这个神经网络是复合函数的角度以前没想过

2020-03-22



1

乾

神经网络的数学本质和神经网络反响传播的本质是不同的。你讲的是反响传播，而不是网络

2020-03-21



1

王大伟

老师，我想系统学习下向量求导，有推荐的教程吗

2020-03-08



1

sky

神经网络数学本质是复合函数，并且可以通过链式求导来训练更新参数。

2021-09-22





Geek_02623b

王老师，神经网络是表示的概率还是表示的函数？我看有些在用概率解释神经网络，计算损失函数的时候也会引入概率分布的概念。

2020-07-07





收起评论