极客时间-轻松学习，高效学习-极客邦

qinsi
2024-06-27 来自上海
说是解读视频, 这里还是解读视频帧吧. 要用于监控的话对实时性要求比较高. 比如上一秒一个人还站着, 下一秒这个人倒在地上, 实时性不够就不知道中间发生了什么. 此外这个例子中的视频是带字幕的, 有没有可能GPT只是在读画面中的字幕呢? 因为这里看不到截取的视频帧长什么样...
qinsi
2024-06-26 来自上海
不知道gpt-4o能不能发现隐形的大猩猩: http://www.theinvisiblegorilla.com