网络信息检索的工具

本文摘要:[摘取 要] 搜索引擎是人们用于Internet信息资源的最重要工具。本文对目前的中文搜索引擎展开了详细的分析,认为了其不存在的缺失和发展的方向。 [关键词] 信息检索 中文搜索引擎 不存在的问题 发展方向 随着Internet信息资源的很快快速增长,如何在浩瀚的信息海洋中精确、便利、较慢地寻找自己所需的信息,出了迫切需要解决问题的问题,从1995年开始经常出现的信息检索工具——搜索引擎很好地解决了这一问题。

lol外围

[摘取 要] 搜索引擎是人们用于Internet信息资源的最重要工具。本文对目前的中文搜索引擎展开了详细的分析,认为了其不存在的缺失和发展的方向。  [关键词] 信息检索 中文搜索引擎 不存在的问题 发展方向      随着Internet信息资源的很快快速增长,如何在浩瀚的信息海洋中精确、便利、较慢地寻找自己所需的信息,出了迫切需要解决问题的问题,从1995年开始经常出现的信息检索工具——搜索引擎很好地解决了这一问题。

然而各种搜索引擎,尤其是尚能正处于发展初期的中文搜索引擎还不存在着很多的缺失尚待改良,本文目的分析目前中文搜索引擎不存在的主要问题,并为解决问题此类问题明确提出一些建议和方法。  一、搜索引擎的概念和及类型   搜索引擎又称检索引擎,是指运营在Internet上,以信息资源为对象,以信息检索的方式为用户获取所须要数据的服务系统,主要还包括信息读取、信息管理和信息检索三大部分。  目前,中文搜索引擎主要有三种类型:目录式搜索引擎、机器人搜索引擎(又称全文搜索引擎)和元搜索引擎。

  1.目录式搜索引擎。目录式搜索引擎是以人工或半人工方式搜集信息,创建数据库,由编辑人员在采访了某个web站点后,对该站点展开叙述,并根据站点的内容和性质将其不属于一个预先分好的类别。

由于目录式搜索引擎的信息分类和信息收集有人的参予,其搜寻的准确度较高,导航系统质量也不俗。但因其人工的插手,确保量大,信息量较少,信息改版不及时都使得人们利用它的程度受限。国内知名的新浪、搜狐、中文雅虎都归属于这种类型。  2.机器人搜索引擎。

这是一种目前运用较普遍的搜索引擎。国内以百度,google、天网为代表。

它是用于自动收集软件Robot,收集和找到信息,并iTunes到本地文档库,再对文档内容展开自动分析并创建索引。对于用户明确提出的检索拒绝,通过检索模块检索索引,找到给定文档回到给用户。  机器人搜索引擎具备可观的全文索引数据库。

其优点是信息量大,范围广,较限于于检索无法查询的信息或一些较模糊不清的主题。缺点是缺少明晰的层次结构,检索结果反复较多,必须用户自己展开检验。

  3.元搜索引擎。元搜索引擎是一种调用其他搜索引擎的引擎。它是通过一个统一的用户界面,协助用户在多个搜索引擎中自由选择和利用适合的搜索引擎来构建检索。中文元搜索引擎研发较较少,较成熟期的则较少,万纬搜寻是目前有一定影响的中文元搜索引擎。

  二、现阶段中文搜索引擎不存在的主要问题   1.信息覆盖面受限。现阶段搜索引擎所覆盖面积的数据库的规模是十分受限的,据美国科学期刊Natures一篇报告中称之为,全球仅次于的搜索引擎也不能覆盖面积现有网页的16%。中文搜索引擎因跟上快、中文信息所占到互联网全部信息的比例小(只占到全部网络信息的5%)等原因在这方面最为引人注目。  2.查全率不低。

查全率是指检索出有的涉及信息量与存储在检索系统中的全部涉及信息量的百分比,是辨别检索系统质量的度量之一。  国内绝大多数的网站的组织的信息大多都是通过网页方式取得内容。

即使是经过精心组织、选曲十分合理的网站,也不会有70%~80%的网页无法被搜索引擎检索到。中文目录式搜索引擎因须要人工插手、确保量大,在这方面展现出较显著。  3.查准率较低。

查准率堪称辨别检索系统质量的最重要尺度。是指系统所检索到的确实与查找内容涉及的文档占到检索出有的所有文档数的百分比。  导致查准率较低的原因是,部分搜索引擎的分类体系与科学知识体系之间缺少内在联系;类目之间逻辑关系模糊不清,造成检索路径与搜索引擎类目错位;信息加工深度过于;检索功能单一;检索词的专指性较好;大部分的检索结果是题录式而非全文式,其内容非常简单等等。

机器人搜索引擎的分类和索引缺少人工的参予,其查准率不如目录式搜索引擎,且检索结果中还所含大量的反复、欺诈的信息。  4.专业性的搜索引擎发展功能障碍。专业性的搜索引擎是为专门收录于某一行业,某一主题的信息而创建,需要获取专题信息查找服务的搜索引擎。

目前中文搜索引擎大多是综合性的,能同时收录于各行业、各学科的多种信息,但在体现某一行业或某一专题的信息方面很难做全面、准确,无法给用户获取特定的信息服务。这就使得专业人员,尤其是某一领域的学者、专家不不愿利用中文搜索引擎去查找资料。  5.检索功能方面不存在缺失。

一是检索中合乎布尔逻辑运算符的搜索引擎十分受限;二是关键词检索输入的结果相关度排序方式杂乱,无法根据用户必须来自由选择信息输入的方式;三是多数的搜索引擎是面向主题搜寻不是面向用户搜寻,无法反复利用用户检索过的成果,更加无法对特定的用户展开定题跟踪服务;四是检索网站的主页不规范,有些过于珍,有些又过于久,而且广告内容过于多,无法展开有效地检索。


本文关键词:网络,信息,检索,的,工具,摘取,要,搜索引擎,是,lol外围腾讯官方游戏平台

本文来源:lol外围-www.teknoprogram.com

Copyright © 2005-2021 www.teknoprogram.com. lol外围科技 版权所有   ICP备53445829号-8   XML地图   织梦模板