每个搜索引擎都有其前几特的一套体系来评价网页的重要性。如Google利用PageRank算法用数字(1-10)不同等记凹复标识网页的重要性。评价网页重要性的算法,非常复杂。例如,搜索引擎的算法评价一张网页的重要性时,可能会涉及到以下几个方面
急剧扩大的网络资源在给公众带来更大方便的同时,也给搜索引擎带来了新的挑战。建立科学、公正、系统的搜索引擎质量评价体系可以促进搜索引擎的建设和利用。
1建立搜索引擎质量评价体系的意义
面对浩如烟海的网络信息,搜索引擎作为更流行的网络检索工具越来越受到大众重视。同时,用户也常常到无所适从的问题:当成千上万的搜索结果到来之时,却很难从中找到所需要的结果。根据searchengine watch对5个**英文搜索引擎的统计,各大搜索引擎的搜索结果优良率均在40%以下。造成这种局面的原因很多,有技术难题:如人机交流实现方式问题,技术难题的解决需要计算机科学的不断进步来解决;也有搜索引擎的设计运行问题,这一问题的解决可以通过建立既反映用户要求,又符合现有技术能力的搜索引擎评价质量体系,指导用户使用和搜索引擎网站改进产品
1.1有利于公众更好的利用搜索引擎进行网络信息检索
尽管搜索引擎在网络检索中起着不可替代的作用,但受知识水平、信息渠道的限制,许多用户常常不能正确的选择和使用搜索引擎。面对多元化的网络信息,不同的搜索引擎都有各自的强项。搜索引擎评价体系可以建立用户与搜索引擎网站交流的桥梁,帮助和指导用户甄别和使用合适的搜索引擎。如搜索引擎评价体系通过建立专业搜索引擎推荐序列,指导用户利用某一专业搜索引擎检索该专业资料,会收到较好的效果。
1.2指导普通网站进行搜索引擎优化
据统计,大多数网站访问量的70%是通过搜索引擎获得的,所以网站在搜索引擎上“表现”如何,直接影响到了网站的推广程度。建立搜索引擎评价体系可以用来指导商业网站进行搜索引擎优化。例如搜索引擎质量评价体系可以促进搜索引擎对搜索关键词的标准化设置,指导普通网站根据企业建站的思路设置网站核心关键词,提高网站的搜索引擎排名。
1.3指导搜索引擎网站改进产品
搜索引擎评价体系可以通过反映用户的要求和专家的观点建立对搜索引擎的科学评价,指导搜索引擎的改进。目前搜索引擎网站的升级速度落后于通用软件,已经影响了用户对网络资源的使用。搜索引擎评价体系可以促进用户与搜索引擎供应商之间进行交流。普通用户对搜索引擎的认识往往是感性的,所提出的要求缺乏针对性和可操作性,往往得不到搜索引擎网站的足够重视。搜索引擎评价体系将用户的普遍要求翻译成专业的、量化的改进建议,将其反映到搜索引擎质量评价体系中,对搜索引擎的供应商施加较大的影响力,促使其在较短时间内进行产品升级。搜索引擎评价体系可以通过定期对搜索引擎网站进行受欢迎程度、技术、美学或总体评价和排名,以便引导用户的消费指向,促进搜索引擎的改进。
2对搜索引擎进行总体评价
搜索引擎是一种结合了多种学科的网络检索产对不同类型的搜索引擎网站按照相应标准进行评品,设立可操作性的评价体系有相当难度。笔者认价。为可以通过设置总体评价体系和单项评价指标来分别进行定性和定量评价。搜索引擎总体评价主要是针对那些难以从技术角度进行量化的方面,主要可以通过公众调查和搜索引擎产品之间的功能比较进行相应质量评价。
2.1用户舒适程度
搜索引擎要争取更多的客户,既要将网站外观做得漂亮,使用户在访问搜索引擎的过程中获得美的享受,又给用户操作带来方便。搜索引擎的用户舒适程度包括以下几个方面:搜索引擎网站界面的外观设计是否符合美学原则;用户操作是否方便,如帮助功能是否完备、是否有相应的功能说明。用户的舒适程度可以根据受用户欢迎程度来评估,可以通过统计点击率、网上投票或设计问卷调查等途径获得。由专家对统计结果进行调查分析,将评价结果通过各种媒体反馈给网络用户和搜索引擎网站,指导检索实践。
2.2专业程度
网络文件的格式、内容、网络传输协议相当复杂,不同的搜索引擎网站也应进行专业化分工以便提供优质、**的服务。因此,搜索引擎专业程度是重要的评价方面。搜索引擎质量评价体系可以根据搜索引擎网站的不同定位,针对某一指标对其专业度进行评价。针对搜索对象的不同内容,搜索引擎网站应设立有针对性的数据库和索引。门户搜索引擎网站主要针对大众一般性需求,如新闻、娱乐资料。对检索内容比较专业的信息则使用专业搜索引擎,如搜索旅游方面内容,中国旅游网搜索引擎是国内比较好的旅游中文专业搜索引擎。搜索引擎评价体系可以针对PDF,WORD,RMVB,AVI等不同格式的文件分别设计搜索引擎检索功能,可以大大提高检索效果。如PDF格式被广泛应用于学术论文的电子化,专门针对此类格式的搜索引擎正在获得学术界青睐。此外,针对搜索对象的不同传输协议的搜索引擎也受到用户欢迎。如专门检索ftp文件的天网ftp文件检索系统拥有一批以学生为主的、忠诚度特别高的用户群。
2.3智能化程度
搜索引擎评价体系可以促进搜索引擎的智能化进程。搜索引擎结合人工智能技术可以使网络信息检索从基于关键词提高到基于知识或概念,通过采用数据挖掘技术、智能代理技术、基于人工智能的知识发现术,使网络检索服务具备智能化、人性化特征。评价搜索引擎的智能化程度,可以设立以下标准:(1)在保证检索精度的前提下,搜索引擎要对网页按重要性排序。这是因为用户往往没有足够的时间查阅所有的搜索果,优先显示重要的检索结果就十分必要。以Google的排序方式为例,当从网页B被链接到网页A时,Google就认为“网页A投了网页B一票”。网页的得票数越多,Google就认为其重要性越大。Google还分析为其投票的网页,不同网页所投出的票也具有不同的重要性。被“重要”网页投票的网页“重要性”会被适当放大;(2)跨语言检索。互联网打破了国界,跨语言检索越来越显得重要,成为搜索引擎评价体系中不可忽视的一环。
跨语言检索可以通过在主页上添加在线翻译功能,也可以将在线翻译功能放在后台运行;(3)网页快照技术。通过储存应急网页,以便用户在访问已经过时或不存在的网页。网页快照技术是Google更先使用,现在已经成为百度等各大搜索引擎网站所**的功能。搜索引擎技术处在不断进步中,对其智能化程度的质量评价应该是一个开放的系统,随着其功能进步而增加具体评价项目,以某一**搜索引擎为基准,对其他搜索引擎按相对比例打分。
3搜索引擎可量化的单项评价指标
可量化的指标是质量评价体系科学性的重要体现。因此,搜索引擎评价体系要大量采用可反映搜索引擎检索质量的量化评价指标,用于指导搜索引擎的建设和用户的使用。
3.1传统的搜索引擎质量评价指标
基于纸质文献的传统评价指标经过了数十年的发展,已经相当的成熟,其中的主要指标也可以用来评价搜索引擎的检索质量,但部分指标需要针对网络检索的特点作一定程度的修改和完善才能较好的反映网络环境下信息检索的特点。
3、1.1搜索引擎查全率搜索引擎查全率是指从
搜索引擎系统检出的与某检索课题相关的信息数量与搜索引擎系统中实际与该课题相关的信息总量之比率。但是在网络环境下,信息处于动态的变化过程中,搜索引擎查全率指标比较难测算。因此,可以通过搜索引擎相对查全虑凹各为搜索引擎查全率的补充。搜索引擎相对查全率可操作性较强,但受人为不确定因素的影响较大。
3.1.2搜索引擎查准率
搜索引擎查准率是又一重要的质量评价指标,是指从搜索引擎检索系统检出的有关某课题的信息条数与搜索引擎输出的信息条数之比率。搜索引擎的查准率和查全率存在不兼容性,要提高搜索引擎查全率往往要放宽信息检索范围,而这会造成搜索引擎查准率的下降;同样,要提高查准率就要缩小搜索范围,但容易漏掉所需要的信息。由于网络环境信息更大丰富,用户在使用搜索引擎进行网络检索时,往往更强调查准率的提高。对于搜索引擎检索来说,真实查准率较难计算,这是由于许多检索课题的检索结果数量太大,相关性判断工作成本巨大,可操作性不强。因此定义一个针对网络环境下信息检索的搜索引擎相对查准率就显得十分必要。
3.1.3搜索引擎漏检率
搜索引擎检索漏检率是指当使用搜索引擎进行检索时,检索系统把被检索信息分成两部分,一部分是与检索要求相符合的信息,并被搜索引擎检索出来,用户依据自身要求将其分成相关信息和不相关信息;另一部分是未能与检索要求相符合的信息,根据判断将其分成相关信息和不相关信息。搜索引擎漏检率与查全率成反比,在实践中采用抽样方法进行统计。
3.1.4搜索引擎误检率
搜索引擎误检率是指当进行检索时,搜索引擎把所有信息分为两部分,一部分是与检索要求相匹配的信息,并被检索出来,用户根据自己的判断将其分成相关的信息(命中)a和不相关的信息(垃圾)b;另一部分是未能与检索要求相符合的信息,根据判断也可将其分为相关信息(遗漏)c和不相关信息(正确的拒更)d。在搜索引擎检索实践中,将降低搜索引擎误检率主要是剔除垃圾信息,提高搜索引擎查准率。
3.2基于互联网的搜索引擎质量评价指标
3.2.1响应时间
搜索引擎响应时间有四个部分组成:用户发送检索请求到达搜索引擎服务器的时间;搜索引擎服务器处理用户请求的时间;网站做出的答复到达用户的时间;搜索引擎用户处理检索结果的时间。其中,用户发送请求和服务器返回答复的时间取决于网络传输速度,用户处理检索的时间取决于用户计算机的配置,搜索引擎网站服务器处理用户检索请求的时间取决于服务器的硬件配置和负载情况、软件的组成原理、编码方法。提高网站服务器的整体性能,开发**率的检索软件,使用缓存技术是搜索引擎缩短反应时间的重要方法。由于检索技术的进步,检索响应时间已经大大缩短,在这方面提高的空间已经很小。尽管搜索同样数量的网页,google比百度快60%一80%,这已很难成为更大多数用户做出选择的理由。
3.2.2数据库的内容规模
数据库是搜索引擎工作的基础,是搜索引擎评价的重要对象,其内容包括数据库的覆盖范围、索引组成和更新周期,数据库规模、类型、更新频率、分类体系和信息抓取方式等。英文搜索引擎在规模方面优势明显,如google的数据库规模约是sohu的600倍,但中文搜索引擎在数据库更新周期,分类方式、检索语言等方面的差距并不明显。
3.2.3标准化程度
互联网信息是多元化的,搜索引擎应尽量采用国际通行的标准以方便用户的使用。因此,搜索引擎标准化程度应该成为搜索引擎质量评价体系的重要指标。首先,搜索引擎的检索语言应使用标准检索词,如使用国际标准的检索词“and”、“not”、“or”,各个检索词的功能也应按国际标准进行统一设置。其次,检索结果的输出格式也应实现标准化,应包含必要的内容,主要包括网页链接地址、被突出的检索词、主页网址、日期、网页快照,并按一定顺序排列。检索结果格式的标准化可以方便用户查找和使用,提高搜索引擎的用户舒适度。搜索引擎评价体系是一个开放性的动态系统工程,其具体评价方式应随着搜索引擎的推广和使用进行持续的优化,以便促进搜索引擎的不断升级。
3.2.4网站**性
Gogoseo认为网站**性与网页**性这两个概念是有所区别的。网站**性是由一张张高质量的网页、网站声望、用户口碑等等因素形成。搜索引擎判断一张网页的重要性,可能会优先判断网站的**性。基于网站的**性,再判断某一网页的**性。
研究搜索引擎评价网页质量体系,欢迎合作。