05｜视频打点：AI在媒体工作流中的提效应用

王吕

本门课程为精品小课，不标配音频
你好，我是王吕。今天我们一起来了解下 AI 在视频处理中的应用。
在极客时间，有大量的优质视频课和各种直播素材，内容团队每天都会花很多精力处理这些资源。我们在跟业务沟通之后，找到了以下几个场景，可以使用 AI 改进视频处理效率。
上传视频后自动提取字幕
把视频分割成几个节点，然后总结每个节点的内容，形成视频的要点大纲
其实这两个场景是可以合并为一个工作流的。因为想要使用 LLM，首先要做的就是把视频转成文字（自然语言）。这里有两种方法，第一个就是直接提取字幕，得到视频讲话稿，这种方式适用于视频内容中语言信息较为重要的场景，如演讲、访谈、教程等。第二种方式是将视频按帧分割，并使用视觉模型逐帧分析每个画面，适用于需要对视觉内容进行详细分析的场景，如动作检测、物体识别、场景理解等。
通过逐帧处理，视觉模型能够从图像中提取更多的视觉信息，从而增强对视频内容的感知。这种方式通常适合需要深入了解视频场景或动作的复杂任务，如视频监控、自动驾驶或影视内容的视觉分析等。极客时间就非常适合字幕提取的方式。得到字幕之后，再针对文字稿提炼要点，然后进行时间标记，形成视频打点，我画了一幅图来描述一下这个工作流。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. AI在视频处理中的应用包括自动提取字幕和将视频分割成节点，然后总结每个节点的内容，形成视频的要点大纲。 2. 使用LLM需要将视频转成文字，可以通过直接提取字幕或将视频按帧分割并使用视觉模型逐帧分析每个画面来实现。 3. 视觉模型通过逐帧处理能够从图像中提取更多的视觉信息，适用于需要深入了解视频场景或动作的复杂任务。 4. 在视频处理过程中，需要进行前期准备，包括技术选型和准备工作。 5. 提取音频的过程需要使用FFmpeg进行音频提取，并对音频进行切割以便传递给Whisper进行转录。 6. 音频切割需要注意切割的片段数和每个片段的时长，以及处理中间资源的清理。 7. 在音频准备好后，可以开始使用Whisper进行转录.

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《LLM & RAG 快速应用小册》

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论