AI 大模型系统实战
Tyler
前亚马逊应用科学家,头部大厂 AIGC 算法技术负责人
6826 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 38 讲
结束语&结课测试 (2讲)
AI 大模型系统实战
15
15
1.0x
00:00/00:00
登录|注册

07|模型工程:算法三大门派,取众家之长为我所用

你好,我是 Tyler。
在上节课中我们学习了特征工程相关的知识,你对这部分内容掌握得如何呢?
今天我们开始学习模型工程。你是否还记得,我在开篇词中说过,AI 系统是一个极其复杂的系统,我们需要自顶向下地学习,而不要一开始就陷入技术细节,要先明确各个算法的定位和作用。
在这节课里,我也会为你介绍现在人工智能在学术上的三大学派,它们分别是符号主义学派、连接主义学派和行为主义学派,其中的代表分别是知识图谱、深度学习和强化学习。
目前,以深度学习模型为代表的连接主义派表现出色。然而,在许多情况下,AI 系统仍然需要结合其他两个学派的算法,才能发挥最大的功效。所以我们要学习各个学派的算法,博采众长,才能形成对 AI 系统模型工程的全面认识。

监督学习(Supervised Learning)

先来看监督学习,它意味着在正确答案的指导下进行学习,这和你在考试前通过习题和答案来对照学习是一样的。
为了让机器和你一样,也能学习问答之间的关系,我们需要使用函数 Y = F(X) 来表示它们之间的映射关系。
X 是问题的描述,比如“世界上最高的山是哪座山?”
Y 是问题的答案,即“珠穆朗玛峰”。
所以只要你得到 Y = F(X) 的具体表达式,就能够算出所有问题的答案。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了监督学习中的点击率模型(CTR)的建模过程。文章首先介绍了监督学习的概念,即在正确答案的指导下进行学习,以及如何使用函数表示问题和答案之间的映射关系。随后,文章以点击率预测为例,详细介绍了建立数学模型和求解方程未知数的过程。文章还提到了损失函数的概念,以及使用梯度下降法来求解参数的方法。最后,文章给出了点击率模型的建模示意代码和训练循环代码,帮助读者更好地理解模型训练的过程。 此外,文章还介绍了对比学习和强化学习的相关内容。对比学习通过样本之间的相似度来学习它们之间的距离,进而表示它们的关系。而强化学习则利用感知和行动的闭环进行学习。这些内容为读者提供了深入理解模型工程的知识和技术特点。 总的来说,本文通过实际案例生动地介绍了监督学习和模型建模的过程,以及模型训练的方法,为读者提供了深入理解模型工程的知识和技术特点。文章内容通俗易懂,适合初学者快速了解模型工程的基本概念和操作流程。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型系统实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(11)

  • 最新
  • 精选
  • 极客雷
    作者推荐背景过于强大,以至于带入过多

    作者回复: 你好,极客雷!相信在看到后面的课程后,你会理解这些带入的必要性。

    2023-12-11归属地:广东
    2
  • Lucky+
    1. 定义奖励函数:在行为学派的学习框架中,奖励函数是关键。我们可以根据对话的质量,如用户满意度、对话的连贯性和适当性等来定义奖励函数。 2. 收集对话数据:系统需要收集大量的对话数据,以便学习如何进行有效的对话。这些数据可以来自于过去的对话记录,也可以通过模拟对话来生成。 3. 训练模型:使用强化学习算法(如Q-learning、Deep Q-Networks等)训练模型。模型的输入是对话的当前状态,输出是每个可能的响应的预期奖励。 4. 策略优化:根据模型的预测结果,选择预期奖励最高的响应作为系统的回复。然后根据用户的反馈(如评分、点击等)更新奖励函数,进一步优化模型的策略。 5. 持续迭代:不断重复上述过程,系统会逐渐学习如何进行更有效的对话。 6. 模型更新:定期使用最新的对话数据更新模型,以保持其对话能力的最新性。 7. 评估和调整:定期评估系统的性能,如通过用户满意度调查、对话质量评估等。根据评估结果调整奖励函数和学习策略。

    作者回复: 你好,Lucky!看来你在之前已经对这些知识有所了解,回答得非常好!

    2023-09-04归属地:北京
    2
  • 顾琪瑶
    等一手优质留言, 想不出来.

    编辑回复: 结合前后看过的篇目再思考一下~

    2023-08-25归属地:上海
    2
  • peter
    老师今天的课非常好,基本听明白了,感谢! 顺便一个小问题:本课所讲的监督学习和对比学习都是属于连接主义学派吗?

    作者回复: 你好,peter!目前监督学习和对比学习的主流方法都来自连接主义学派。

    2023-08-26归属地:河北
    1
  • jfdghb
    老师,请问课程里讲的每一个算法都要学透么

    编辑回复: 按需自选,正在从事大模型算法相关工作的,肯定要掌握。如果是入门了解大模型系统,先掌握课程里讲到的程度。整个课程我们预想的是:对于基础较少的同学,第一遍学的时候可以先搞懂各个常见的概念,第二遍弄懂每项知识的细节,第三到四遍找到这些知识之间的联系,并且理解技术发展和产业之间的关系。

    2024-01-16归属地:浙江
  • Geek_798202
    理论真的好多,越学习越感觉自己的无知,想问一下,这种情况该怎么办?

    编辑回复: 耐下心,慢慢消化吸收,或者盘一盘知识的优先级按个人情况先攻克和自己最相关的。

    2023-09-27归属地:广东
  • 摩崖堂主
    收货很大,感谢作者

    作者回复: 感谢支持!

    2023-09-09归属地:北京
  • Lee
    老师,咱们有学习交流群吗?

    编辑回复: 课程介绍页面置顶有入群方式~

    2023-08-29归属地:福建
  • 糖糖丸
    诶,文中给出的交叉熵损失函数,怎么纯粹是y和y^的函数,是不是少了i下标?

    作者回复: 你好,糖糖丸!感谢你的提示。虽然不加 i 的表达形式也是正确的,但确实没有和 MSE 保持一致,容易造成同学们的误解,文中内容已更新,再次感谢你的提醒!

    2023-08-26归属地:浙江
  • 周晓英
    对话系统构建流程: 1. 需求分析和目标设定: 定义系统的学习目标:例如,提高用户满意度、减少对话中的错误率、提高对话效率等。 确定评价指标:例如,用户满意度评分、错误率、对话长度、对话完成率等。 2. 数据收集和预处理: 收集大量的对话数据,包括人机对话和人人对话数据。 对数据进行预处理,例如,分词、实体识别、去噪等。 3. 基线模型设计: 设计一个基线对话模型,例如,基于序列到序列(Seq2Seq)模型。 使用收集的数据对基线模型进行训练,获得一个初步的对话系统。 4. 强化学习框架设计: 在行为学派的框架下,设计强化学习环境,其中,状态可以是对话历史,动作可以是回复的生成,奖励可以是基于评价指标的得分。 设计一个适用于对话场景的奖励函数,以引导系统优化对话能力。 5. 在线学习和优化: 通过与用户的实时交互,收集在线对话数据和用户反馈。 实现在线学习算法,例如,使用深度Q学习(DQL)或者优势行动者评论家(A2C)算法,不断更新模型的参数,以优化对话能力。 6. 评估和调优: 定期离线评估模型的性能,通过AB测试等方法,比较不同模型或算法的效果。 根据评估结果,调整模型结构、奖励函数、学习算法等,以进一步提升系统的对话能力。 7. 持续迭代和优化: 持续收集新的数据,更新模型,以应对新的对话场景和用户需求。 迭代优化模型结构、学习算法、奖励函数等,以实现持续的自我优化。
    2023-10-02归属地:美国
    1
    1
收起评论
显示
设置
留言
11
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部