07｜模型工程：算法三大门派，取众家之长为我所用

Tyler

你好，我是 Tyler。
在上节课中我们学习了特征工程相关的知识，你对这部分内容掌握得如何呢？
今天我们开始学习模型工程。你是否还记得，我在开篇词中说过，AI 系统是一个极其复杂的系统，我们需要自顶向下地学习，而不要一开始就陷入技术细节，要先明确各个算法的定位和作用。
在这节课里，我也会为你介绍现在人工智能在学术上的三大学派，它们分别是符号主义学派、连接主义学派和行为主义学派，其中的代表分别是知识图谱、深度学习和强化学习。
目前，以深度学习模型为代表的连接主义派表现出色。然而，在许多情况下，AI 系统仍然需要结合其他两个学派的算法，才能发挥最大的功效。所以我们要学习各个学派的算法，博采众长，才能形成对 AI 系统模型工程的全面认识。
监督学习（Supervised Learning）先来看监督学习，它意味着在正确答案的指导下进行学习，这和你在考试前通过习题和答案来对照学习是一样的。
为了让机器和你一样，也能学习问答之间的关系，我们需要使用函数 Y = F(X) 来表示它们之间的映射关系。
X 是问题的描述，比如“世界上最高的山是哪座山？”
Y 是问题的答案，即“珠穆朗玛峰”。
所以只要你得到 Y = F(X) 的具体表达式，就能够算出所有问题的答案。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了监督学习中的点击率模型（CTR）的建模过程。文章首先介绍了监督学习的概念，即在正确答案的指导下进行学习，以及如何使用函数表示问题和答案之间的映射关系。随后，文章以点击率预测为例，详细介绍了建立数学模型和求解方程未知数的过程。文章还提到了损失函数的概念，以及使用梯度下降法来求解参数的方法。最后，文章给出了点击率模型的建模示意代码和训练循环代码，帮助读者更好地理解模型训练的过程。此外，文章还介绍了对比学习和强化学习的相关内容。对比学习通过样本之间的相似度来学习它们之间的距离，进而表示它们的关系。而强化学习则利用感知和行动的闭环进行学习。这些内容为读者提供了深入理解模型工程的知识和技术特点。总的来说，本文通过实际案例生动地介绍了监督学习和模型建模的过程，以及模型训练的方法，为读者提供了深入理解模型工程的知识和技术特点。文章内容通俗易懂，适合初学者快速了解模型工程的基本概念和操作流程。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 大模型系统实战》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(11)

最新
精选

极客雷
作者推荐背景过于强大，以至于带入过多
作者回复: 你好，极客雷！相信在看到后面的课程后，你会理解这些带入的必要性。
2023-12-11归属地：广东

2
Lucky+
1. 定义奖励函数：在行为学派的学习框架中，奖励函数是关键。我们可以根据对话的质量，如用户满意度、对话的连贯性和适当性等来定义奖励函数。 2. 收集对话数据：系统需要收集大量的对话数据，以便学习如何进行有效的对话。这些数据可以来自于过去的对话记录，也可以通过模拟对话来生成。 3. 训练模型：使用强化学习算法（如Q-learning、Deep Q-Networks等）训练模型。模型的输入是对话的当前状态，输出是每个可能的响应的预期奖励。 4. 策略优化：根据模型的预测结果，选择预期奖励最高的响应作为系统的回复。然后根据用户的反馈（如评分、点击等）更新奖励函数，进一步优化模型的策略。 5. 持续迭代：不断重复上述过程，系统会逐渐学习如何进行更有效的对话。 6. 模型更新：定期使用最新的对话数据更新模型，以保持其对话能力的最新性。 7. 评估和调整：定期评估系统的性能，如通过用户满意度调查、对话质量评估等。根据评估结果调整奖励函数和学习策略。
作者回复: 你好，Lucky！看来你在之前已经对这些知识有所了解，回答得非常好！
2023-09-04归属地：北京

2
顾琪瑶
等一手优质留言, 想不出来.
编辑回复: 结合前后看过的篇目再思考一下～
2023-08-25归属地：上海

2
peter
老师今天的课非常好，基本听明白了，感谢！顺便一个小问题：本课所讲的监督学习和对比学习都是属于连接主义学派吗？
作者回复: 你好，peter！目前监督学习和对比学习的主流方法都来自连接主义学派。
2023-08-26归属地：河北

1
jfdghb
老师，请问课程里讲的每一个算法都要学透么
编辑回复: 按需自选，正在从事大模型算法相关工作的，肯定要掌握。如果是入门了解大模型系统，先掌握课程里讲到的程度。整个课程我们预想的是：对于基础较少的同学，第一遍学的时候可以先搞懂各个常见的概念，第二遍弄懂每项知识的细节，第三到四遍找到这些知识之间的联系，并且理解技术发展和产业之间的关系。
2024-01-16归属地：浙江


Geek_798202
理论真的好多，越学习越感觉自己的无知，想问一下，这种情况该怎么办？
编辑回复: 耐下心，慢慢消化吸收，或者盘一盘知识的优先级按个人情况先攻克和自己最相关的。
2023-09-27归属地：广东


摩崖堂主
收货很大，感谢作者
作者回复: 感谢支持！
2023-09-09归属地：北京


Lee
老师，咱们有学习交流群吗？
编辑回复: 课程介绍页面置顶有入群方式～
2023-08-29归属地：福建


糖糖丸
诶，文中给出的交叉熵损失函数，怎么纯粹是y和y^的函数，是不是少了i下标？
作者回复: 你好，糖糖丸！感谢你的提示。虽然不加 i 的表达形式也是正确的，但确实没有和 MSE 保持一致，容易造成同学们的误解，文中内容已更新，再次感谢你的提醒！
2023-08-26归属地：浙江


周晓英
对话系统构建流程： 1. 需求分析和目标设定: 定义系统的学习目标：例如，提高用户满意度、减少对话中的错误率、提高对话效率等。确定评价指标：例如，用户满意度评分、错误率、对话长度、对话完成率等。 2. 数据收集和预处理: 收集大量的对话数据，包括人机对话和人人对话数据。对数据进行预处理，例如，分词、实体识别、去噪等。 3. 基线模型设计: 设计一个基线对话模型，例如，基于序列到序列（Seq2Seq）模型。使用收集的数据对基线模型进行训练，获得一个初步的对话系统。 4. 强化学习框架设计: 在行为学派的框架下，设计强化学习环境，其中，状态可以是对话历史，动作可以是回复的生成，奖励可以是基于评价指标的得分。设计一个适用于对话场景的奖励函数，以引导系统优化对话能力。 5. 在线学习和优化: 通过与用户的实时交互，收集在线对话数据和用户反馈。实现在线学习算法，例如，使用深度Q学习（DQL）或者优势行动者评论家（A2C）算法，不断更新模型的参数，以优化对话能力。 6. 评估和调优: 定期离线评估模型的性能，通过AB测试等方法，比较不同模型或算法的效果。根据评估结果，调整模型结构、奖励函数、学习算法等，以进一步提升系统的对话能力。 7. 持续迭代和优化: 持续收集新的数据，更新模型，以应对新的对话场景和用户需求。迭代优化模型结构、学习算法、奖励函数等，以实现持续的自我优化。
2023-10-02归属地：美国
1
1

收起评论