AI & Machine Learning

Vector DB

存 embedding 的专用数据库，语义搜索和 RAG 的底层基础设施。

它是什么

向量数据库专门存储和检索高维向量（embedding），支持相似度搜索。文本、图片、音频都可以被 embedding 成向量，然后通过向量距离找到最相似的内容。

传统关键词搜索找不到「意思相近但用词不同」的内容。向量搜索解决了语义匹配问题，是 RAG、推荐系统、图片搜索的基础设施。

EmbeddingCosine SimilarityANNHNSWMetadata FilteringSparse/Dense

用过 Chroma 做轻量项目，了解 Pinecone 和 Milvus 适合生产环境。选型关键看数据规模和是否需要分布式。小项目 Chroma 足够。