你一定希望网站的全部网页都被搜索引擎收录,但事实上,大多数网站收录率远远低于100%——有些甚至在5%以下,那怎样才能使更多的网页被收录呢?为了提高网站的收录率,你可以采用四种方法:
1. 削除蜘蛛陷阱
2. 减少被忽视的内容
3. 建立蜘蛛程序的通道
4. 使用搜索引擎提供的工具。
你的网站可能实际上组织蜘蛛程序收录网页,本文将告诉你什么是蜘蛛陷阱,并且怎么样使蜘蛛程序跳过每个陷阱。
5. 消除页面显示的依赖条件
你的网站可能要求访客采取某种行动,或者得激活某种浏览器的功能才能执行,这些不仅会让用户感到不快,对搜索蜘蛛更是要命:因为他们不可能迁就你的要求而访问站点。下面是一些最常见的技术依赖:
(1)需要cookie
Cookie是储存在访客计算机上的信息,网页可以使用这些信息来想起这个访客的有关信息。蜘蛛程序不能接受Cookie,这种情况下就会被阻止了。我们的底线是站点既可以使用想要的Cookie, 但浏览网页又不必依赖它。或者通过检测一个蜘蛛程序的用户代理名称和IP地址,程序可以让蜘蛛程序查看页面而不需要使用Cookie,而仍然强制网站的浏览器使用Cookie。还必须小心确保给蜘蛛程序和访客提交同样的页面,否则有作弊的嫌疑哦。
(2)需要软件下载
如果站点需要某种技术才能观看,例如flash制作的网站需要下载Macromedia Flash才能观看。这样除了给访客带来麻烦,它还完全组织了蜘蛛程序。蜘蛛程序不是网站浏览器,不能与站点进行互动来下载必须的软件。如果网站的首页上有这个蜘蛛陷阱,那整个站点都可能被阻止加入索引库。
(3)要求提供信息
有些站点要求回答一些问题才允许浏览,这会惹恼访客,并且对蜘蛛程序也行不通,因为所有蜘蛛程序即使看到要输入的HTML也不能输入任何信息。如果访客必须在下载一个案例分析或者产品目录前输入他们的电子邮件地址,你就是在要求蜘蛛程序勉为其难。类似的,如果网页在显示之前需要用户名和密码来登录,蜘蛛程序也无法工作。
(4)需要JavaScript
JavaScript是非常有用的编程语言,可以使网页变得更加互动,对访客的光标进行响应。如果使用恰当,JavaScript对蜘蛛程序不会造成麻烦。但如果网页在允许显示之前先要测试JavaScript,那么它就不能向蜘蛛程序显示,而且上面的其他链接也不能对蜘蛛程序开通。
要看清这些问题,在浏览器中关闭图形、Cookie和JavaScript功能,或使用只有文本的浏览器。这样可以发现那个网页强制使用某种技术,并且可以看清楚蜘蛛程序实际看到的东西,只要你想做的是比点击一个链接更复杂,蜘蛛程序就可能被阻拦住了。
6. 妥善使用重定向(redirect)
只要URL有改动,就需要网站管理员也有所行动,称为重定向(redirect)——一个对浏览器的指导,让其显示不同的URL而不是当初浏览器所请求的。重定向允许旧的URL被重新指向到目前的URL上,因此当访客使用旧的URL时,不会得到一个“网页没有被找到”的消息(就是通常大家知道的HTTP404错误)。
有很多原因使访客可能会用旧的URL,下面是些最常见的原因:
(1) 书签(Bookmarks)。如果一个访客给你的旧URL加了书签,他们的书签会在你改变URL之后,在第一次使用时产生404错误。
(2) 链接。互联网上的其他网页链接到旧的URL上。所有的这些链接在你改变URL有没有进行重定向时变成断掉的链接。
(3) 搜索结果。在你改变链接前,搜索蜘蛛发现的是旧的URL并且是将旧的URL加入索引库。当搜索者发现你的网页时,他们点击的是旧的存在索引库中的URL,因此他们在没有重定向的时候也会得到“404”的错误。
网页的URL经常改变,需要重定向使访客可以继续发现这些页面。当一个网页永久地被从一个URL转移到另一个时,唯一使用的一种重定向被称为服务器端重定向——“301”重定向。301状态代码告诉蜘蛛程序网页已经被永久地改变到新的URL上,并会使得蜘蛛程序做两件极其重要的事情:
(1) 爬过新的URL的网页
蜘蛛程序会按照你的意愿,使用301重定向所提供的新的URL来找到并爬过新的网页。它会索引页面上的所有内容,并会把新的URL收录到索引库中,因此所有带出那个网页的搜索引擎会引导搜索者到新的URL上,而不是旧的。
(2) 将旧网页上的所有链接价值进行传递
当其他网页(特别是重要的网页)链接到你的网页时,搜索引擎会给你的网页排名升高。当蜘蛛程序看到一个301重定向,它也会更新索引库中所有的链接信息,因此所有旧的URL下你网页的所有链接价值被转移到新的URL上。
7. 确保网站服务器的响应
当蜘蛛程序来拜访网站的时候,网站服务器必须是在运行状态。如果你的服务器宕机了,蜘蛛程序从站点收不到反应。好的结果是,蜘蛛程序沿着新的服务器移动并将你的网页放到索引库中。最差的结果是蜘蛛程序(在多次爬行中遇到几次问题以后)可能以为你的网站已经不存在了,并且从搜索索引中删除没再找到的网页。
还有一种情况也会有影响,但没那么严重:网页显示比较慢。当网站在技术启动的时候,网站会显示很慢,导致蜘蛛程序很快就放弃网站。很少有蜘蛛程序会等一个网页到10秒钟以上。
使更多的网页被收录(二)——减少被忽视的内容>>
使更多的网页被收录(三)——建立蜘蛛程序的通道>>
使更多的网页被收录(四)——使用搜索引擎提供的工具>>
如需转载,请注明来自豆苗网http://www.doumiao.net,谢谢!

搜藏
添加到雅虎收藏