AI 大模型系统实战
Tyler
前亚马逊应用科学家,头部大厂 AIGC 算法技术负责人
6826 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 38 讲
结束语&结课测试 (2讲)
AI 大模型系统实战
15
15
1.0x
00:00/00:00
登录|注册

09|系统构建(一):AI系统的弹药库——离线系统

你好,我是 Tyler。
从今天开始的两节课,我们不但会回顾总结前面学到的内容,还会带你完成人工智能服务系统的实际架构。
你可能在想,我们第 5 节课学习策略建模的时候,不是已经给 AIRC 系统建模了吗。当时还分成了召回、排序、控制博弈和风控这几个模块,为什么还要再提系统构建呢?
这是一个很好的问题,其实第 5 节课我们更侧重学习业务建模方法,而学完了特征工程、模型工程和数据算法之后,我会带你从零开始,从真实应用的角度来构建一个 AIRC 的离线和在线系统。这个架构既可以满足搜索、广告、推荐这类经典内容分发场景的需求,也同样能兼容内容生成系统,也就是 AIGC 的需要。
这节课我们先来学习离线系统。离线系统是你的后勤总管,决定了你在线服务的上限。你能想象到的几乎所有对数据和算法的调优,都是在离线系统中完成的,所以离线系统是构建 AI 系统的第一颗扣子

模型工程

设计一个离线系统的第一步,就是理清我们系统的数据流走向。下面我将带你一步步梳理模型训练的数据链路。

全量模型训练

全量模型训练流程
首先是模型训练的数据流程。
因为业务应用(如 APP,网站,客户端等)是用户行为和数据最丰富的地方,所以 AI 系统通常会在用户发生某些行为时,将日志上报到服务端,获取足够多的数据,供给模型训练使用。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文深入探讨了AI系统的离线系统构建,着重介绍了模型工程和存储索引两个关键方面。在模型工程部分,详细讨论了全量模型训练的数据流程,包括日志收集、反作弊处理、样本生成和模型发布等步骤。同时,强调了增量模型训练的流程,并突出了在线模型的实效性和安全性。在存储索引部分,重点介绍了倒排索引服务的重要性,以及如何利用ElasticSearch等工具构建在线的全量倒排索引。此外,还涉及了在线特征的制备流程和知识图谱的生成过程。总的来说,本文为想要了解AI系统架构的读者提供了深入浅出的关键步骤和技术要点,具有很高的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型系统实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(7)

  • 最新
  • 精选
  • 一只豆
    课程日益深入,再次感谢老师~试着回答一下 langchain 中使用的文档片段 Embedding 和 将用户和物品在高维空间的坐标的 Embedding 相比,有很大差别:后者使用真实的业务数据而且嵌入在一整套存储索引系统中,这远远不是文档这种载体能够媲美的。本质来说,是原型系统设计和工业级系统设计的差别吧。

    作者回复: 你好,一只豆!再次感谢你的支持!你说的没错,这就是工业级系统和原型系统最大的区别。工业级的系统会对各种载体的“真实数据”进行多个粒度的表征和存储,以达到更好的产业应用效果。这对同学们的知识宽度和深度都有很高的要求,需要耐心的学习。在接下来的课程中,依然期待你的反馈。

    2023-08-31归属地:广东
    2
  • 顾琪瑶
    唯一能想到的是时效性的问题,假如是时效性的话延迟一天真的会这么重要吗? 有个问题想问下投影模型具体是怎么做的,是否有其他的文章详解呢?比如物品和客户具体是怎么关联起来的等等

    作者回复: 你好,顾琪瑶!三级火箭的设计考虑的主要有两个方面,第一是全量模型的训练一般需要很大的数据量(例如:过去一年的抖音视频点赞数据),需要消耗巨大的算力来训练,所以要控制在一周一次。而后两级增量模型的训练则是为了考虑实效性。 关于第二个问题,建议你先吃透前两节课学到的 DeepWalk 和 GraphSage 模型,他们都可以用来实现相关的功能。看过后如果有哪些地方不清楚,欢迎随时提问,我们到时候继续交流。

    2023-08-30归属地:上海
    2
  • baron
    推荐系统的三要素是用户、产品、场景; 对用户与产品的embedding其实就是将用户与产品之间的关系在高维空间的表征;而文本的embedding则没有这种三要素的逻辑,是单要素逻辑,是通过模型通过学习大量文本数据种词与词之间的序列关系,而生成的词与词的高维空间表征; 这样的表征应该比用户产品这样的关系数据要更稀疏,维度更高;必然GPT的embedding向量维度到底12288维。

    编辑回复: 给随堂留言记录的学习态度点赞~

    2023-09-02归属地:北京
    1
  • 刘峰
    直接使用增量模型可能会在实效性上有所提升,但存在3个潜在问题。 1. 增量模型可能因为缺少全量数据的综合训练而容易受到噪声影响,导致模型性能下降。 2. 增量模型可能无法涵盖全量数据的多样性,特别是新出现的情况,影响模型的泛化能力。 3. 缺少全量数据的参与可能使得模型无法进行全面的反做弊训练,降低模型的鲁棒性。

    作者回复: 你好,林清扬!回答的很好,同时考虑到了时空和反做弊策略对训练数据分布的影响,非常好!

    2023-08-30归属地:北京
    3
    1
  • InfoQ_6792a017d8d3
    看到这里已经忍不住分享给朋友,要是23年看了这个课程,23年H2牵头的一个AI应用重要项目,可能效果会好很多

    作者回复: 感谢认可,希望课程中的内容可以帮助到每个同学!

    2024-02-28归属地:上海
  • peter
    是否有安卓手机上可以使用的chatGPT?

    编辑回复: 有的,谷歌搜索就能搜到

    2023-08-31归属地:北京
  • 周晓英
    补充说明: 模型遗忘问题: 在连续的增量训练中,模型可能会遗忘早期学到的知识,尤其是如果新的数据与旧的数据有很大差异时。全量训练可以保证模型能够维持对整个数据分布的理解。 模型评估和验证的困难: 增量训练可能会使模型评估和验证变得更为困难,因为不同时间点的模型可能会有不同的性能表现。全量训练可以为模型提供一个稳定的评估和验证环境。 超参数优化的困难: 在增量训练的过程中,由于数据分布可能会发生变化,原有的超参数可能不再适用,而对超参数的调整和优化变得困难。全量训练提供了一个相对稳定的环境,有助于超参数的选择和优化。
    2023-10-02归属地:美国
    2
收起评论
显示
设置
留言
7
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部