AI 大模型系统实战
Tyler
前亚马逊应用科学家,头部大厂 AIGC 算法技术负责人
6826 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 38 讲
结束语&结课测试 (2讲)
AI 大模型系统实战
15
15
1.0x
00:00/00:00
登录|注册

25|模型工程(一):如何让你的训练数据无中生有?

你好,我是 Tyler。
前面我们一起学习了提示语工程方法,你掌握得如何了?从今天开始,我们即将踏入一个新的篇章——模型工程。
正式开始之前,我想先从顶层帮你理解一下两者之间的异同。其实这两个领域的工作,本质上都是进行知识注入。不同的是,提示语工程采用了上下文学习的方法,通过提供少量示例代码向模型注入新知识。而模型工程则是通过参数学习的方法(更新模型参数)学习新知。
在模型工程部分,我们的学习重点就是理解参数学习的体系和方法。今天我们要解决的关键的问题是参数学习的数据从何而来。

模型发展

为了学习模型工程,我们先来学习一下 OpenAI 大火之后,陆续出现的一些大模型工作。我相信你在很多地方都已经见过各种各样的大型语言模型,比如那些经典的“羊驼系列”,包括 LLAMA(美洲驼)、ALPACA(羊驼)、VICUNA(小羊驼)、GUANACO(骆马),甚至是华佗(不过因为大家开的玩笑多了,现在已经改名为“本草”)。
在阅读这些论文后,你会发现,在这些研究中,他们都在努力回答两个关键问题——第一个问题是如何获取训练数据,第二个问题是如何获得足够的计算资源。
这两个核心问题,也是每个涉及大型模型训练的技术团队都不可避免的现实挑战。幸运的是,由于这两个问题足够重要,目前已经有许多的公开研究工作在致力于解决这些难题。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了模型工程中的一个重要问题:训练数据的获取。作者首先介绍了大型语言模型的发展,指出了获取训练数据和足够计算资源是大型模型训练中的关键问题。然后,文章详细介绍了一种名为Self-Instruct的数据增强方法,旨在减少对人工标注的依赖。该方法通过从初始示例样本开始,以大型预训练语言模型的自我引导方式生成新的指令和示例,从而获取训练数据。具体包括准备种子数据、生成提示指令、判断任务类型、生成示例样本和数据过滤等步骤。最后,文章指出了这类数据增强方法的意义,以及Alpaca应用的普惠性。通过本文,读者可以了解到模型工程中训练数据获取的挑战和解决方法,以及相关技术的发展趋势。 Alpaca是LLaMA-7B的微调版本,它采用了Self-Instruct方式生成的数据进行了指令微调。具体来说,它利用了OpenAI的text-davinc-003模型,用175对人工标注的种子数据,构建了52K条指令微调数据,使用OpenAI API的成本仅不到500美元。Alpaca对Self-Instruct提供的方案进行了修改,使其相对简化。它使用的提示语大致是后面这样。通过这种方法得到的模型,可以在指定任务上达到SOTA的效果。这种成本对于小型的研究团队来说不成问题,这种用很少成本完成特定领域的大语言模型微调的方式,这给相关方向的研究人员打开了思路。 在此之后,领域大型语言模型如雨后春笋般涌现,比如Guanaco模型在Alpaca的基础上增加了多语言语料和指令任务。"小羊驼"模型Vicuna-13B则是基于LLaMA,并使用从ShareGPT采集的对话数据对进行了指令微调,在特定的实验设置下,仅使用了300美元训练成本,就达到了与ChatGPT相媲美的性能水平。 通过本文,读者可以了解到模型工程中训练数据获取的挑战和解决方法,以及相关技术的发展趋势。同时,Alpaca的应用展示了如何以较低成本完成大型语言模型的微调,为小型研究团队提供了新的思路和机会。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型系统实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(2)

  • 最新
  • 精选
  • 顾琪瑶
    上限: * 就目前使用GPT来生成样本数据集的话, 那么上限应该是GPT模型本身的知识范围, 在多次对特定领域进行样本数据生成时, 次数越多, 重复的样本也会相应增多

    作者回复: 你好,顾琪瑶。回答得很好,Alpaca 或者说 self-instruct 的各种变种,本质上是在做模型对齐,如果你使用 GPT-4 来生成增强语料,则是在对齐目标任务领域上,你的模型与 GPT-4 之间的能力,所以上限就是你所选择对齐的那个模型。

    2023-10-16归属地:上海
    4
  • l_j_dota_1111
    如果相对垂直领域进行模型微调,但是现在的垂直领域的数据都是文本(就是一个一个word文档),如何生成可以使用的样本数据呢(任务就是正常的对话)
    2024-01-09归属地:天津
    1
收起评论
显示
设置
留言
2
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部