索引是为了更快找到文档的一种数据结构,相当于图书中的目录,用户根据目录可以快速找到所需内容 。倒排索引不是根据目录或编号来定位内容,它是通过文档中的某个字、词语而找到文档的索引类型,通过立即的单词标示迅速获取结果 。倒排索引的建立和维护较复杂,但查询快速、便捷、高效,是文档检索系统中最常用的数据结构 。

文章插图
2)倒排索引的构建流程
倒排序索引的构建有两个表格至关重要 。表一为文档编号及文档内容,表二为分词后关键词及对应文档编号 。数据的存储时,将表二拆分为两个数据结构,用于存储倒排文件以及关键词及其偏移量 。
搜索最基础、简单的流程便是外部关键词输入,表二中查询到关键词出现的位置以及文档编号,最终输出结果文档内容 。

文章插图
2.2.2 正排序索引
正排索引(forward index),以文档编号为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档 。正排序索引的查询往往满足每个文档有序、频繁的全文查询和每个单词在校验文档中验证这样的查询 。
正排索引可以查询汇总到关键字的属性、相关的频次以及位置等,适用于一些过滤操作以及汇总操作 。

文章插图
比如说搜索 “干饭”时,可以快速查询出包含“干饭”这个关键字的文档,有利于关键字相关性和权重的计算 。正排序索引,搜索“干饭”时,搜索引擎需要检索每一个文档中的每一个关键词,正排索引适合于一些区间的索引 。在电商的搜索中,有较多的过滤、筛选的选项,因此同时引入正排索引和倒排索引还是很必要的 。
未完待续…
索引构建完成后,便可依据所提供关键词,进行检索 。关键词的检索、排序,以及搜索引导将在《当你按下搜索键时,发生了什么(中)》做简单介绍 。
本文主要是从小白的角度尝试理解搜索引擎的工作原理及工作流程 。初次涉及搜索领域,文中概念、措辞如有偏差,请留言指教,将虚心学习更正 。
题图来自Unsplash,基于CC0协议
- 我就想知道如何网上挣钱 网上找钱怎么找
- 服装代理商怎么找厂家 服装代理商介绍
- 淘宝卖家店小二在哪里找 淘宝店小二入口
- 猪英文怎么写 猪的英文是什么单词 猪的英文是什么?
- 淘宝用关键词补单怎么补?怎么找补单词?
- 苦瓜的英语单词 一根黄瓜的英文
- 爱普生l380打印机找不到维护选项 爱普生l380废墨收集垫更换视频
- 一到二十的英语单词(1~2O单词 一至二十的单词英语,第一到第二十的英语单词)
- 快手怎么删除自己的作品找不到三个点 苹果手机快手作品怎么删除掉视频
- 怎么速记单词 有什么方法可以快速记单词
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
