你将获得
"1. 系统掌握机器学习与深度学习核心理论,包括监督、非监督、半监督学习的典型算法与应用场景。
2. 深入理解神经网络基础原理,熟悉神经元、激活函数、前向 / 反向传播等核心机制及经典网络结构。
3. 全面认识 Transformer 架构核心逻辑,掌握注意力机制、多头注意力等关键技术原理。
4. 明确大模型与传统模型的本质差异,了解稀疏注意力、混合专家模型等前沿技术及模型压缩加速方法。"
课程介绍
“本课程聚焦 AI 大模型的通识基础,为学员构建从机器学习底层理论到大模型前沿技术的完整知识框架。第一章围绕 “机器学习与深度学习理论基础” 展开,系统讲解监督学习(含线性回归、逻辑回归等典型算法及图像 / 文本分类等应用)、非监督学习(K-means 聚类、PCA 等算法与用户分群等场景)、半监督学习的核心逻辑;深入解析神经网络基础,包括神经元结构、激活函数(ReLU、Sigmoid 等)、前向传播与反向传播机制,以及损失函数与优化器(MSE、Adam 等)的作用原理;同时介绍全连接网络、CNN、RNN 等经典网络结构,以及 PyTorch、TensorFlow 等主流深度学习框架,夯实理论基础。
第二章聚焦 “大模型发展全景与关键技术”,从 Transformer 架构的诞生切入,详解注意力模型、自注意力机制、多头注意力的核心原理,揭示其捕捉长距离依赖、并行计算特征的优势;明确大模型的定义与特点,对比传统模型的本质差异;深入介绍大模型技术突破与前沿趋势,包括稀疏注意力(Longformer、BigBird)降低计算复杂度的机制、混合专家模型(MoE)的动态路由逻辑(GShard、Switch Transformer),以及模型压缩加速的关键方法(量化、知识蒸馏)。通过本课程,学员将建立对 AI 大模型的系统性认知,为后续深入学习与实践奠定坚实基础。”
课程目录
" 第一章:机器学习与深度学习理论基础
1. 机器学习基础
- 监督学习:定义、典型算法(线性回归、逻辑回归、SVM、决策树、随机森林)、应用场景(图像分类、文本分类、回归预测)
- 非监督学习:定义、典型算法(K-means 聚类、层次聚类、PCA、自编码器)、应用场景(用户分群、异常检测、数据降维)
- 半监督学习:结合少量标注数据和大量未标注数据,提升模型性能
2. 神经网络与深度学习基础
- 神经元与激活函数:输入、权重、偏置、激活函数(ReLU、Sigmoid、Tanh)
- 前向传播与反向传播:计算输出、通过梯度下降优化权重
- 损失函数与优化器:均方误差(MSE)、交叉熵(Cross-Entropy)、SGD、Adam、
3.RMSprop
- 经典网络结构:全连接网络(FCN)、卷积神经网络(CNN)、循环神经网络(RNN)
- 深度学习框架:PyTorch、TensorFlow、JAX
第二章:大模型发展全景与关键技术
1. 大模型发展全景与关键技术
Transformer 架构的诞生与应用
- 注意力模型(Attention Model):捕捉长距离依赖
- 自注意力机制(Self-Attention):语义理解的钥匙
- 多头注意力(Multi-Head Attention):
2. 并行计算不同子空间的特征
- 位置编码(Positional Encoding):引入序列位置信息
大模型技术突破与前沿趋势 - 大模型的定义与特点
- 传统模型与大模型的差异
- 稀疏注意力(Sparse Attention):降低计算复杂度(Longformer、BigBird)
- 混合专家模型(MoE):动态路由机制(GShard、Switch Transformer)
- 模型压缩与加速:量化(INT8、FP16)、知识蒸馏(小模型学习大模型的知识)"











