倒排索引(Inverted Index)
1. 什么是倒排索引?
倒排索引是一种高效的文本检索结构,用于快速查找包含某个关键词的所有文档。它是全文检索、搜索引擎的核心技术之一。
生活类比: 倒排索引就像一本书的"词汇表"或"字典",你查一个词,能立刻知道它在哪些页(文档)出现。
2. 倒排索引的原理
- 将每个文档分词,统计每个词出现在哪些文档中。
- 建立"词 → 文档ID列表"的映射。
- 检索时只需查词表,无需遍历所有文档。
3. 结构示例
| 关键词 |
出现的文档ID |
| AI |
1, 2 |
| 数据库 |
1, 3 |
| 检索 |
2, 3 |
| 向量 |
1, 2, 3 |
4. 生成倒排索引
5. 小结
- 倒排索引让关键词检索变得高效。
- 是文本搜索、日志分析等场景的基础。
- 理解倒排索引有助于掌握搜索引擎和数据库检索原理。