21|向量数据库:图片、音频、文本等非结构化数据的搜索需求是怎么实现的?
彭旭
你好,我是彭旭。
前两天看到一张漫画,一个大人工智能机器人带着小人工智能机器人在博物馆里指着一个人类的大脑标本说:“瞧,这就是第一代的处理器”。 这个图表达的是人工智能在无监管的发展下可能会给人类带来灾难的后果,但是解读成“人脑是第一代处理器”的比喻,似乎也是有迹可循的。
图片来源于网络
2022 年 12 月 OpenAI 推出了一发布即爆火的基于 GPT-3.5 模型的 ChatGPT,开启了人工智能的“iPhone 时刻”。其中的 GPT 模型就是起源于模拟人脑的深度神经网络。
我们将感知到的信息如图片、声音、文字等通过神经元与突触的相互连接并传递信号,最终在脑海里形成一个抽象,也就是信息的处理结果,比如将看到白羽毛、长颈、黄色的喙、在水中游的这些特征在一层层的识别叠加后,就会得出这是一个天鹅的结果。
深度神经网络模仿人脑的结构与信息处理方式,通过多层的“人工神经元”对数据进行加工和抽象。比如深度神经网络识别一个动物,第一层可能识别羽毛,第二层可能识别形状,层层叠加,直到最高层能够根据识别特征做出决策。
人类神经元中传递的信息主要是以电信号和化学信号,而在深度神经网络中,传输的信息就是向量。不管初始数据是图片、音视频、文本还是其他,在深度神经网络中,都被抽象为向量,万物皆可向量化。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. 向量是在机器学习中用来表示数据的多维空间中的点,具备相同特征的数据映射到的坐标点之间的距离越小,靠得越近。 2. 向量化模型将数据转换为数值型数组,长度固定,不同的向量化模型对输入的文本长度会有不同的限制。 3. 向量数据库的出现解决了向量数据的存储、相邻向量的搜索问题,支持基于数据字段的标量过滤查询,也支持基于向量字段的近似相邻查询。 4. 向量数据库的能力让非结构化数据如关联文本之间检索、相似图片之间检索等能够实现存储与快速检索,提高机器学习和人工智能的准确性和效率。 5. 向量数据库提供了多种类型的向量索引方式,如ANN(Approximate Nearest Neighbor,近似最近邻)类算法,其中HNSW(Hierarchical Navigable Small World,分层导航小世界图)是常用的向量索引实现。 6. HNSW算法通过构建一个类似跳表的分层检索模型,快速地跳跃到搜索空间的不同区域,实现快速导航和局部搜索,但可能导致搜索结果不是最精确的。 7. 如果需要搜索结果绝对精确,则可以使用FLAT(Full Linear Scan,全量遍历)向量索引,但只适应于小数据集场景。 8. 向量数据库被广泛应用于人工智能领域,如人脸识别技术、视频推荐等,提供快速的近似搜索能力。 9. 向量数据库的发展受到OpenAI的影响,公司在选择合适的向量数据库产品时需要考虑产品的适用性和性能。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《分布式数据库从入门到实战》,新⼈⾸单¥59
《分布式数据库从入门到实战》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论