23|OpenClip:让我们搞清楚图片说了些什么
该思维导图由 AI 生成,仅供参考
多模态的 CLIP 模型
- 深入了解
- 翻译
- 解释
- 总结
OpenClip是OpenAI开发的多模态模型,利用对比学习建立图片和文本之间的关系,为商品搜索和内容推荐提供了优化的可能性。该模型利用Transformers库处理图片和文本信息,通过计算余弦相似度来衡量它们之间的关联。CLIP模型的重要用途之一是零样本分类,无需预先定义分类或标注数据,而是通过学习图片自带的文本信息和文本之间的关联来实现分类。通过示例代码展示了CLIP模型的分类效果,结果表明模型能够准确地对图片进行分类。此外,文章还介绍了如何利用CLIP模型进行目标检测和商品搜索,展示了模型在不同应用场景下的灵活性和效果。通过演示代码和实际结果,读者可以快速了解CLIP模型的应用及其在图像领域的潜力,为通往通用人工智能的必经之路提供了新的可能性。 OpenClip的特点在于无需额外标注数据即可将图片和文本映射到同一向量空间,实现零样本分类和目标检测。文章还提到了如何利用CLIP模型进行商品搜索和以图搜图的功能,展示了模型的多样化应用。通过对比学习建立图片和文本关联,CLIP模型为AI的发展提供了新的可能性,拓展了其在计算机视觉领域的应用。
《AI 大模型之美》,新⼈⾸单¥68
全部留言(10)
- 最新
- 精选
- pomyin商品搜索与以图搜图部分,其中search函数部分代码有误( training_split[i]["image"] ),我查了huggingface的Dataset数据类型,应该改成:training_split.select([i])["image"]。我的python 3.7,transformers是4.28.1。
作者回复: 可能和环境版本有关?Python 3.10 下应该是OK的,所有Notebook我都在本地以及Colab上运行过。
2023-05-09归属地:浙江21 - Steven目标检测部分,我的 transformers 版本是 4.24.0,文中代码执行异常,修改成下面的代码得到结果: detected = detector("./data/cat.jpg", text_queries=["cat", "dog", "truck", "couch", "remote"])[0]
作者回复: 👍
2023-04-28归属地:辽宁1 - peterQ1:笔记本,win10,安装了Anaconda,这个环境可以吗?我安装了Pycharm。应该是Pycharm用来编写代码,Anaconda提供底层支持,是这样吗? Q2:用某个人的声音来播音或者阅读一段文字,有成熟的方案吗? 比如,想用特朗普的声音来播报一段新闻,或者读一篇文章,是否有成熟的方案?开源或商用的都可以。
作者回复: Anaconda只是做了Python的环境和包管理。PyCharm是对应IDE。提供Python支持的是Anaconda安装了的Python解释器和第三方包。 22讲的最后推荐了voice cloning的开源项目呀。 Azure的TTS也支持自定义模型。
2023-05-03归属地:北京 - Toni调用了几个模型对图片进行零样本分类,试验图像使用的是本课中的'两只猫咪',为便于模型间的比较,取完全相同的分类参数: candidate_labels=["cat", "dog", "truck", "couch", "remote"]。 模型1: task="zero-shot-image-classification", model="openai/clip-vit-large-patch14" 模型2: task="zero-shot-image-classification", model="laion/CLIP-ViT-H-14-laion2B-s32B-b79K" 模型3: task="zero-shot-classification", model="typeform/distilbert-base-uncased-mnli" 模型4: task="zero-shot-classification", model="MoritzLaurer/mDeBERTa-v3-base-mnli-xnli" 下面是各个模型运算的结果: model cat dog truck couch remote 1 15.03% 0.02% 0.01% 78.11% 6.82% 2 15.04% 0.00% 0.00% 84.95% 0.01% 3 13.22% 11.75% 18.13% 36.99% 19.90% 4 18.52% 16.02% 13.60% 24.22% 27.64% 这几个模型的结果都不如 task="zero-shot-object-detection", model="google/owlvit-base-patch32" 谷歌这个模型的优点是从图中分辨出两只猫和两个遥控器。 最后是一个中文模型,model_id="lyua1225/clip-huge-zh-75k-steps-bs4096" https://huggingface.co/models?pipeline_tag=zero-shot-image-classification&language=zh&sort=downloads ["猫", "狗", "拖车", "长沙发", "遥控器"] [0.996 0. 0. 0.004 0. ] 没有识别出遥控器。
作者回复: owlvit 的确是现在的 state-of-the-art,当然还有一个因素是选用的图片本身就是这个模型拿来作为例子的图片 客观评价可以多拿点图片看看
2023-04-29归属地:瑞士 - 小理想。老师,文本向量搜素图片那里下面这段代码是报错的 results = [ {"image": training_split[i]["image"], "distance": distances[0][j]} for j, i in enumerate(indices[0]) ] 我试了图片搜素图片结果发现可以就把那段代码拿过来发现文本搜素图片产品对了 results = [ {"image": training_split[i.item()]["image"], "distance": distances[0][j]} for j, i in enumerate(indices[0]) ] 这段代码就可以了2023-11-21归属地:北京1
- 小理想。文本向量搜素商品时 results = [ {"image": training_split[i]["image"], "distance": distances[0][int(j)]} for j, i in enumerate(indices[0]) ] 这段代码报错: TypeError: Wrong key type: '1461' of type '<class 'numpy.int64'>'. Expected one of int, slice, range, str or Iterable. 请问大家有什么方案吗,搜了gpt也没有给解决方案2023-11-21归属地:北京
- Tang徐老师你好,我测试了下猫狗图片的目标检测,结果猫和狗都检测成了狗2023-11-08归属地:上海
- 糖糖丸请问要运行可生产使用的CLIP模型,大概需要怎么样的机器配置(主要指显卡)呢? 另外不知道图片搜索的响应时间大概在什么量级? 是100ms级别,还是10s级别的?2023-10-20归属地:北京
- 新田小飞猪老师好,有没有对计算机音频/音乐处理相关的深度学习资料的推荐啊2023-07-28归属地:上海
- Santiago欢度五一2023-04-28归属地:山西