评估自然搜索结果:准确率和检索调用率(recall)

2008-02-13 02:24 来源: www.doumiao.net 作者:小可 网友评论 0 条 浏览次数 5

搜索专家通常通过衡量精确率检索调用率来评估自然搜索结果。

精确率是指针对一个搜索请求提供了“正确”搜索结果的比例。精确率试图显示出,搜索引擎在何种程度上提供了“好的”搜索结果,而不是“不好的”结果。因此,查看一个10个结果的列表,搜索者可以主观地决定是否每个结果都符合搜索请求。曾经一个人确实可以实际检查针对某个搜索请求的每一个结果,但是当有成千上万的结果出现在网上时,没有人再可以实际评测精确性了。(至少不能精确地评测)

相反,检索调用率是指针对某个搜索请求实际产生的正确搜索结构数与应该产生的正确的结果的总数的比较。检索调用率试图衡量搜索引擎找到的那部分结果,而不是错过的。历史上,研究人员能够实际检测收集到的每个文档,并且主观决定为特定搜索请求提供那些结果,当互联网出现时,这样做就不再可能了,尽管有时候会明显发现一个应该出现的结果被漏掉了。

精确性和检索调用率彼此作用相反。如果一个搜索请求只得到一个网页,而且是正确的,这就是100%的准确(所有的答案是正确的),但是就检索调用率来看则可能是糟糕的(很可能还有许多其他的网页应该被发现)。同样的,如果一个搜索请求找到了40亿个网页,是100%的检索调用率(所有的正确的答案都被找到了,一个都没少),但是精确率就糟糕透了,因为,绝大部分的结果是错误的。

如果没有人可以实际测量互联网上的精确率检索调用率,为什么他们还重要呢?显然,他们不再是重要的测量方法了,但是他们仍然是重要的概念。精确率对产生很多结果的搜索是非常重要的。很多无关的搜索结果会使搜索者感到沮丧。搜索者偶尔会抱怨不能找到他们期待的某些结果。很低的检索调用率正是罪魁祸首,即使大多数搜索者并不这么看问题。

去Google和百度上测试了一下2个搜索引擎的搜索结果,一直以来我以为Google的搜索要比百度优秀很多,没想到结果却出乎我的意料。

因为很难确切知道一个关键字应该产生的正确的结果,所以我这里就用搜索结果数量来代替检索调用率,另外因本人精力有限,准确率是只是检查了搜索结果的前5页。 数据调查时间为2008年1月。

 

关键字

Google

百度

搜索结果数量

准确率

搜索结果数量

准确率

家居服公司

4,170,000

60%

311,000

100%

试客网

6,240,000

80%

562

100%

网站推广技巧

3,270,000

100%

2,260,000

100%

柯达V705

149,000

100%

128,000

100%

丁俊晖

2,370,000

100%

30,900,000

100%

对于一些普通的词,两个搜索引擎的正确率差不多,在检索调用率上也是各有千秋。但是,Google在中文分词的时候经常会出现一些错误,比如,我上面搜索的关键字“家居服公司”,Google的搜索结果中出现了很多“家居公司”或者“家居服务公司”等,这一点上,百度就做的很好,正确率竟然是百分之一百。看来,对于中文搜索,百度果然还是当之无愧的老大。Google毕竟是外来户,还需要努力。

如需转载,请注明来自豆苗网http://www.doumiao.net,谢谢!




上一篇:点击欺诈(Click ..    下一篇:推荐电子书:《搜..

相关主题:搜索引擎  准确率  检索调用率

网友评论