AI 前线
InfoQ
AI 前线团队
1915 人已学习
免费领取
课程目录
已更新 28 讲/共 1000 讲
AI 前线
15
15
1.0x
00:00/00:00
登录|注册

OpenAI 重磅发布的GPT-4 Turbo with Vision,是编码的倒退

整理|Tina
近日,OpenAI 宣布最新 GPT-4 Turbo with Vision 模型已经通过 OpenAI API 向开发人员开放。
该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小,以及截止至 2023 年 12 月的知识库,最大的革新之处在于其新增的视觉理解能力,可处理和分析多媒体输入信息。OpenAI 发言人表示,这些变化有助于简化开发人员的工作流程并打造更高效的应用程序,因为“过去,开发者需要调用不同的模型来处理文本和图像信息,但现在,只需一次 API 调用,该模型就可以分析图像并应用推理。”

开发利器?

现在大家可以通过文本格式 JSON 和函数调用来请求使用该模型的视觉识别和分析功能。函数调用会生成一个 JSON 代码片段,供开发人员在其连接的应用程序中自动执行操作,例如发送电子邮件、发布在线内容、进行购买等。
OpenAI 在其 API 页面上提醒道,在执行会影响现实世界操作之前,强烈建议内置用户确认流程。
OpenAI 开发者团队也分享了一些使用该模型的有趣用例,主打一个非常酷的实时屏幕交互效果。
例如,热门初创公司 Cognition,其“世界首位 AI 软件工程师 Devin”使用的就是 GPT-4 Turbo with Vision ,它利用了该模型的视觉能力来执行各种编码任务。
00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00
    确认放弃笔记?
    放弃后所记笔记将不保留。
    新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
    批量公开的笔记不会为你同步至部落
    公开
    同步至部落
    取消
    完成
    0/2000
    荧光笔
    直线
    曲线
    笔记
    复制
    AI
    • 深入了解
    • 翻译
      • 英语
      • 中文简体
      • 中文繁体
      • 法语
      • 德语
      • 日语
      • 韩语
      • 俄语
      • 西班牙语
      • 阿拉伯语
    • 解释
    • 总结

    1. OpenAI发布了最新的GPT-4 Turbo with Vision模型,该模型具有视觉理解能力,可以处理和分析多媒体输入信息。 2. 开发人员可以通过JSON格式和函数调用请求使用该模型的视觉识别和分析功能,这为开发高效的应用程序提供了便利。 3. 一些公司如Cognition和Healthify已经开始利用GPT-4 Turbo with Vision模型,用于执行编码任务和提供营养见解。 4. 一些开发者和公司对GPT-4 Vision进行了测试和尝试,发现其在前端开发和简化应用程序开发方面具有潜在的价值。 5. 有测试显示GPT-4 Vision在编程能力方面得分较低,甚至有所倒退,这引发了一些关于模型实际价值的讨论。 6. 报道指出,即使像GPT-4这样的系统能够完美运行,它们也无法完全替代人类软件开发人员的工作,因为软件开发需要更多的创造力和沟通能力。 7. 报道还提到,编写实际代码通常只占软件开发人员工作时间的一半以下,这意味着技术工具无法完全替代人类软件开发人员的工作。 8. 报道强调了技术只是工具,无法替代人类的创造力和沟通能力,开发人员需要与客户会谈、了解需求,并将复杂问题分解成可解决的组件。 9. 总结指出,即使GPT-4 Vision能够一键生成网页应用,也离替代人类开发者还有很大的距离。 10. 报道提到了一些相关链接,供读者进一步了解GPT-4 Turbo with Vision模型和相关讨论。

    该试读文章来自《AI 前线》,如需阅读全部文章,
    请先领取课程
    免费领取
    登录 后留言

    精选留言

    由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
    收起评论
    显示
    设置
    留言
    收藏
    沉浸
    阅读
    分享
    手机端
    快捷键
    回顶部