什么是倒排索引?
倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。
假设我们现在有文件:
test1.txt中存有:我们爱自然语言处理
test2.txt中存有:我们爱计算机视觉
正向索引:
{“test1.txt”:[“