一群顶尖搜索人才如何2个月出货,还把GPU利用率干到60%!揭秘百川智能研发大模型这一年
褚杏娟

作者|褚杏娟
采访嘉宾|陈炜鹏
去年的大模型之战讲究一个“快”字:入场快、发布快、迭代快。
王小川在去年 4 月份宣布成立“百川智能”的两个月后,就迅速对外推出了 70 亿参数量的中英文预训练大模型 Baichuan 7B。一年多后的今天,百川智能已经将大模型迭代到了 Baichuan 4。
曾担任搜狗搜索研发总经理的陈炜鹏如今在百川智能负责模型研发,这对他来讲也是一次挑战。“搜索与模型研发有很大的不同,研发经验不一定能完全复刻,比如两者对数据的定义可能完全不一样。”
但陈炜鹏也表示,做搜索和大模型也有共性,就是它们都是系统性工程。“在大模型之前,被认为系统性工程的算法问题只有三个:搜索系统、推荐系统和广告系统。以前的搜索经验让我知道怎么样解决一个系统性的问题。”
实际上,百川智能的技术团队可以分为两部分:一部分是像陈炜鹏这样有很强系统性工程经验的人,他们做过复杂的项目,知道怎样把复杂的问题拆解成为子问题,然后做有效的科学管理;另一部分则是对语言模型本身有很好认知的研发人员。
“大模型的研发不是一个单点问题,而是一个系统问题。解决系统性问题,是我们团队的优势。”陈炜鹏说道。那百川智能(以下简称“百川”)具体是如何解答“大模型研发”这道题的呢?
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 百川智能团队在研发大模型时采用了冷启动策略,选择从零开始设计模型,以掌握完整的技术栈认知。 2. 团队将研发问题分阶段评估,通过小模型验证和参数线性关系观察来降低研发风险,提升成功率。 3. 百川智能团队注重自定义评估标准,跳出公开评测,以定义自身的Benchmark来代表企业对大模型的理解和技术方向。 4. 陈炜鹏强调团队对整个问题的理解和定义会更好,可以给整体研发带来明确的方向和效率提升。 5. 大模型评估不断发展,从知识类的测评到指令跟随、工具调用、多步推理能力等方面,企业需要不断适应和定义新的评估标准。 6. 百川智能团队将大模型研发视为一个系统性问题,通过拆分和评估不同阶段的研发问题来提升整体研发的成功率和效率。 7. 大模型训练的重点逐渐转移到推理成本,而不同公司在训练效率、稳定性和容错等问题上的差异成为竞争焦点。 8. 提升模型本身的能力是降低推理成本效率最高的方式,较小参数规模的模型能够媲美更大参数模型的原因在于对数据质量的提升。 9. 数据合成的方法对大模型能力带来的提升仍是一个开放问题,需要进一步探索和研究.
该试读文章来自《AI 前线》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论