本文分析了“诚商道”网站页面收录率低的原因,并提出了解决方案。

一、 背景介绍
背景介绍:“诚商道”网站是一个提供企业信息在线查询的网站,数据库中有上海140万家企业的信息。每家企业都有一个单独的企业详细页面,这就意味着光企业详细页面就有140万个。如果这140万个企业页面都被收录的话,那该网站的流量应该是惊人的,那事实上到底收录了多少呢?
二、 计算页面收录率
通过查询可以看到,收录最多的搜索引擎是Google,收录了15,000个页面。但是这个数值是整个网站被收录的页面数量。我需要知道的是企业详细页面被收录了多少。首先,分析一下一个企业详细页面的URL网址:
http://www.on-credit-line.com/ComSystem/ViewCompany.jspx?RefID=010021231707529
每个企业详细页面的名字应该叫ViewCompany,后面的RefId=对应不同的企业。因此,在Google中搜索“inurl:Viewcompany site:www.on-credit-line.com”,有233项结果,也就是说企业详细页面只被收录了233个。233/1400000=0.166%。晕,连千分之二都不到。那到底是什么原因导致该网站企业数据的页面收录率如此之低呢?

三、 什么原因导致收录率如此之低?
经过分析,原因应该如下:

1. 最致命的原因——蜘蛛被限制抓取。
每个IP在一天内只允许查看一百家企业详细的页面。在限制了访客的同时,蜘蛛也被拒之门外。
2. 网页之间相似度太高
页面相似度是指网页的内容的相似程度,当两个页面的相似度在80%以上时,很有可能被搜索引擎尤其是Google判断为抄袭页面或复制页面,从而不被收录,甚至降权、删除。通过工具随便查看了2个企业详细页面的相似度,竟然高达95%。
3. URL地址为动态
现在大多数的搜索引擎都会索引动态网页,包括 .asp 页、.php 页以及网址上有问号的网页。不过,这些网页可导致抓取工具出错,因此可能会被忽略。并且,相对静态网页,仍然是静态网页更容易被抓取。

