AI 大模型系统实战
Tyler
前亚马逊应用科学家,头部大厂 AIGC 算法技术负责人
6826 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 38 讲
结束语&结课测试 (2讲)
AI 大模型系统实战
15
15
1.0x
00:00/00:00
登录|注册

答疑课堂(二)|后三章思考题答案

你好,我是 Tyler。
又到了答疑课堂的时间了。之前我们讲过的内容你都学会了吗?建议已经忘记前面知识的同学在课前再回顾一下。这节课整理的题目会加大难度,直接和目前最前沿的大模型技术相关。
你做好准备了吗?让我们现在正式开始。具体的问题和答案你可以直接看文稿,每节课我也加入了超链接,方便你复习回顾。(这里我单独提一下第 19 节课的思考题,因为想清楚这节课的问题,对你理解提示语工程相当关键,我们在前面的课程中说过,我们是通过苏格拉底的产婆术来教会大模型思考的,而提示语工程就是大模型技术的产婆。)

第三章 技术原理篇

第 11 节课

思考题
预训练模型和大模型之间的关系是什么?
参考答案
预训练模型(pre-training model)首先通过一批语料进行训练,然后在这个初步训练好的模型基础上,再继续训练或者另作他用。为了最大化模型复用的效果,往往使用参数量较大的模型作为预训练模型的网络结构。

第 12 节课

思考题
1. 这节课我们学习了如何给 LSTM 增加 Attention 机制,你可以思考一下,如果要给上节课学到的 CNN 增加这个机制,该如何做呢?
2. 沿着课程中传声筒游戏可以“作弊”的思路想下去,你还能想出哪些作弊方法?越离谱越好!
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文总结了一篇关于大模型技术的答疑课堂内容。文章涵盖了预训练模型和大模型的关系、LSTM和CNN增加Attention机制的方法、BERT的模型类型、模型中位置编码的必要性、GPT-3和ChatGPT的区别、RLHF和SFT的关系、模型规模和训练数据量的权衡,以及GPT-4的微调能力和数据质量问题。通过对这些问题的讨论,读者可以了解到大模型技术的前沿知识和相关思考。文章内容丰富,涵盖了大模型技术的多个方面,对于对大模型技术感兴趣的读者具有一定的参考价值。同时,还包括了对提示语工程的讨论,以及对智能体构建和优化的思考。读者可以从中了解到提示语工程的重要性以及如何应用于智能体的构建和优化。整体而言,本文为读者提供了大模型技术的全面概览,涵盖了技术原理和架构实战两个方面,使读者能够快速了解大模型技术的前沿发展和相关思考。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型系统实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • peter
    请教老师几个问题: Q1:chatGPT是用什么语言开发的?Python吗? Q2:有能操作的例子吗? 平时工作忙,都是地铁上阅读专栏的。专栏很不错,想深入学习一下,能想到的方法是实际跑几个例子。本专栏哪几个例子有详细说明?就是照着文档能跑下来的那种。两三个就可以。

    作者回复: 你好,Peter!关于第一个问题,ChatGPT的开发语言包括Python,但它是一个庞大的大模型系统,必须提供高可用和高性能的服务。因此,为了确保系统的规模和性能能够达到要求,系统编程语言在其设计中也扮演着重要角色;第二个问题,你可以在第一章中的快速原型系统搭建和架构实战篇的人工智能小镇中找到答案,它们都是很好的例子,你可以先试着跟练一下,我们再继续交流。

    2023-11-07归属地:北京
收起评论
大纲
固定大纲
第三章 技术原理篇
第 11 节课
第 12 节课
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部