勇敢心资源网

当前位置:首页 > 百科 / 正文

全文索引

(2020-04-25 16:18:17) 百科
全文索引

全文索引

全文索引技术是目前搜寻引擎的关键技术。

试想在1M大小的档案中搜寻一个词,可能需要几秒,在100M的档案中可能需要几十秒,如果在更大的档案中搜寻那幺就需要更大的系统开销,这样的开销是不现实的。

所以在这样的矛盾下出现了全文索引技术,有时候有人叫倒排文档技术。

基本介绍

  • 中文名:全文索引
  • 外文名:term
  • 方法:先定义一个词库
  • 性质:搜寻引擎的关键技术

原理

原理是先定义一个词库,然后在文章中查找每个词条(term)出现的频率和位置,把这样的频率和位置信息按照词库的顺序归纳,这样就相当于对档案建立了一个以词库为目录的索引,这样查找某个词的时候就能很快的定位到该词出现的位置。
问题在处理英文文档的时候显然这样的方式是非常好的,因为英文自然的被空格分成若干词,只要我们有足够大的辞彙库就能很好的处理。但是亚洲文字因为没有空格作为断词标誌,所以就很难判断一个词,而且人们使用的辞彙在不断的变化,而维护一个可扩展的辞彙库的成本是很高的,所以问题出现了。
解决出现这样的问题使“分词”成为全文索引的关键技术。目前有两种基本的方法:
二元法 它把所有有可能的每两两汉字的组合看为一个词组,这样就没有维护词库的开销。
词库法 它使使用词库中的词作为切分的标準,这样也出现了词库跟不上辞彙发展的问题,除非你维护词库。
实际上现在很多着名的搜寻引擎都使用了多种分词的办法,比如“正向最大匹配”+“逆向最大匹配”,基于统计学的新词识别,自动维护词库等技术,但是显然这样的技术还没有做到完美。

技术存储过程

目前全文索引技术正走向人工智慧化,也是发展的方向。
MicroSoft SqlServer 2000/2005 中的全文索引是由一系列存储过程来完成的,这些存储过程按先后顺序罗列如下:
1、启动资料库的全文索引服务存储过程:sp_fulltext_service
2、初始化全文索引存储过程:sp_fulltext_database
3、建立全文索引目录存储过程:sp_fulltext_catalog
4、在全文索引目录中添加删除表标记存储过程:sp_fulltext_table
5、在全文索引目录的表中添加或删除列标记存储过程:sp_fulltext_column
声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:baisebaisebaise@yeah.net
搜索
随机推荐

勇敢心资源网|豫ICP备19027550号