AI & Machine Learning
Vector DB
存 embedding 的专用数据库,语义搜索和 RAG 的底层基础设施。
它是什么
向量数据库专门存储和检索高维向量(embedding),支持相似度搜索。文本、图片、音频都可以被 embedding 成向量,然后通过向量距离找到最相似的内容。
为什么重要
传统关键词搜索找不到「意思相近但用词不同」的内容。向量搜索解决了语义匹配问题,是 RAG、推荐系统、图片搜索的基础设施。
核心概念
EmbeddingCosine SimilarityANNHNSWMetadata FilteringSparse/Dense
我的使用体验
用过 Chroma 做轻量项目,了解 Pinecone 和 Milvus 适合生产环境。选型关键看数据规模和是否需要分布式。小项目 Chroma 足够。