阿里最新图生视频模型效果好得可比肩Sora,但0代码“假”开源让国内外网友骂翻了天?
凌敏、核子可乐

国外有文生视频的 Sora,国内有图生视频的 EMO。
阿里开发出 AI 图生视频模型 EMO
近日,阿里巴巴集团智能计算研究院上线了一款 AI 图生视频模型 EMO(Emote Portrait Alive)。据悉,EMO 是一种富有表现力的音频驱动型肖像视频生成框架,用户用户只需要提供一张照片和一段任意音频文件,EMO 即可生成具有丰富面部表情和多种头部姿态的语音头像视频。此外,EMO 还可以根据输入音频的长度生成任意长度的视频。
在阿里给出的示例中,奥黛丽·赫本深情吟唱:
00:00 / 00:00
1.0x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
小李子演唱超“烫嘴”Rap《哥斯拉》:
00:00 / 00:00
1.0x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
蒙娜丽莎声情并茂地演讲:
00:00 / 00:00
1.0x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
高启强化身罗翔普法:
00:00 / 00:00
1.0x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
据了解,为了训练这套模型,阿里建立起一套庞大且多样化的音频视频数据集,共收集了超过 250 小时的视频与超过 1.5 亿张图像。这套庞大的数据集涵盖广泛内容,包括演讲、影视片段、歌唱表演,并涵盖汉语、英语等多种语言。丰富多样的语音和歌唱视频确保训练素材能够涵盖广泛的人类表情与声乐风格,为 EMO 模型的开发提供坚实基础。
目前,EMO 相关论文已发表于 arXiv,同时在 GitHub 上出现了同名疑似开源的 repo,该项目 GitHub Star 数已达到 3.6 k,但仍然是空仓。这也引起了一部分开发者的不满,质疑其是“假开源”。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

阿里推出的AI图生视频模型EMO,利用庞大且多样化的音频视频数据集进行训练,能够生成具有丰富面部表情和多种头部姿态的语音头像视频。尽管引起了一些开发者的不满和质疑,但该模型在图生视频领域具有较高的技术特点和应用前景。EMO的训练过程采用了创新型语音头像框架,主要由两个阶段组成,采用了Stable Diffusion(SD)作为基础框架,能够降低计算成本,同时保持更高的视觉保真度。整体来看,EMO模型在视频质量方面具有显著优势,但仍存在一定局限性,如耗时较长和可能生成其他身体部位。该模型在面部表情生动度方面表现出色,对应表中的E-FID得分(越低越好)。总体而言,EMO模型在图生视频领域具有较高的技术特点和应用前景。
该试读文章来自《AI 前线》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论