你一定希望网站的全部网页都被搜索引擎收录,但事实上,大多数网站收录率远远低于100%——有些甚至在5%以下,那怎样才能使更多的网页被收录呢?为了提高网站的收录率,你可以采用四种方法:
1. 削除蜘蛛陷阱
2. 减少被忽视的内容
3. 建立蜘蛛程序的通道
4. 使用搜索引擎提供的工具。
你的网站可能实际上组织蜘蛛程序收录网页,本文将告诉你什么是蜘蛛陷阱,并且怎么样使蜘蛛程序跳过每个陷阱。
蜘蛛程序陷阱(Spider traps)是阻止蜘蛛程序爬行网站的障碍物,通常源于那些显示网页的技术方法,这些手段能很好地配合浏览器,但对蜘蛛诚信就构成了阻碍。不在网站使用这些技术,就可以使蜘蛛程序收录更多的网页。那么,怎样除掉最流行的蜘蛛程序陷阱?
1. 小心设置robots.txt指示(robots directives)
(1) robots.txt文件是控制蜘蛛程序的一个方法,它告诉蜘蛛程序在服务器上什么文件是可以被查看的。robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。robots.txt只有2个操作声明:
·Useragent(用户代理)。用户代理声明定义了禁止指令适用于哪个蜘蛛程序。如果对用户代理编码了一个星号,指的是针对所有的蜘蛛程序。
·Disallow(禁止)。禁止声明制定那个文件蜘蛛程序不能够查看。可以指定一个精确的文件名或者任何文件名或者目录的一部分——蜘蛛程序会认为那是一个匹配符号并禁止与那部分名字匹配的名字。例如:指定了“e”可能会禁止全部有“e”的文件被查看,同样,所有文件和任何有“e”为开头的目录。指定了“/”,就禁止查看所有的文件。
User-agent:*
Disallow: /cgi-bin
Disallow: /java 阻止蜘蛛程序爬过cgi-bin和java目录
| User-agent: roguespider Disallow: / 阻止“无赖蜘蛛程序”爬过所有文件 |
| User-agent: MSNBOT Disallow: /images 将msn搜索阻止在图形目录之外,因为它没有图形搜索 |
网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件发送给蜘蛛程序,可以节省服务器资源。
点击这里查看robots.txt文件使用误区
(2) robots标签<meta name=’robots’>
如果robots.txt限制了那个网页,那么robots标签说什么都不重要了,因为蜘蛛程序根本不会看那个网页。但是如果robots.txt允许蜘蛛程序来访问网页,那么蜘蛛程序在访问页面时就会看robots标签。
| <meta name=’robots’ content=’index, follow’> 指导蜘蛛程序来收录网页,并可以跟着链接爬行(使用网站的链接从一个网页爬行到另一个网页) <meta name=’robots’ content=’index, nofollow’> 指导蜘蛛程序来收录网页,并可以跟着链接爬行 <meta name=’robots’ content=’noindex, follow’> 指导蜘蛛程序来收录网页,并可以跟着链接爬行 |
2. 削除弹出窗口
如果站点使用弹出窗口来展示相关内容,那些内容不会被蜘蛛程序收录。如果站点使用弹出窗口来显示链接到其他页面的菜单,蜘蛛程序不能沿着这些链接爬行,蜘蛛程序也找不到这些网页。要想使这些页面被收录,方法就是停止使用弹出窗口,或者创建一个带正常链接的标准页面。
3. 不要下拉导航
蜘蛛程序对JavaScript 编写的下拉导航会面临和弹出窗口一样的问题:他们不能模拟点击上面的链接(沿着链接爬行)。解决方法是重新以正常的HTML重写这些链接,或者提供替代的通道使得蜘蛛程序能够访问这些页面。
还有一种方法可以消除JavaScript 蜘蛛程序陷阱,即使用<noscript>标签。<noscript>标签是为不支持JavaScript 的浏览器提供备选的代码。蜘蛛程序不会执行JavaScript, 因此他们通过处理<noscript>代码来代替。如果必须使用JavaScript 导航,需要将标准HTML链接代码放到<noscript>部分。但是为了让蜘蛛程序沿着链接爬行,必须给每个链接的网页提供完整的路径名。为更好地保证蜘蛛程序能发现这些页面,需要在站点地图上加上这些网页。
4. 简化动态网址(Dynamic URLs)
在动态页面出现的早期,蜘蛛程序是拒绝爬行这些动态页面的。但随着时间的推移,越来越多的网页变成了动态网页。搜索引擎也开始调整自己。搜索蜘蛛现在可以在一定条件下收录动态页面:
(1) URL含有不超过两个动态参数
其实没那么简单,有些情况下甚至2个参数也是太多了,并且这里有其他的情形当URL里面含有3个以上的参数仍然被索引了。如果在URL上必须使用2个以上的参数,可能使用一种URL重写(rewrite)技术。URL重写(rewrite)技术会使动态的URL表面上看起来是一个静态的URL。例如,原来一个URL是:
http://www.****.com/cgi-bin/bibio?inkey=62-1234-0,
可能被重写成 http://www.****.com/book/62-1234-0, 因此它看起来像是一个静态页面,这是一个完全符合道德标准的技术,搜索蜘蛛是承认的。
(2)URL少于1000个字母
长URL会被忽视,短些的容易被接受。任何地方都没有理由有字母上千的URl,因此要使URL越短越容易读才越好。
(3)URL不含区段标志符(Session identifier)
区段标志符是名为“ID=”或者“Session=”参数(或者其他类似的名字),用来追踪哪个访客正在看这个网页。蜘蛛程序讨厌这种类型的参数,因为每时每刻都有同样的内容使用者不同的URL。如果你的网站包含这样的参数,那就让程序员使用一种替代方法,因为蜘蛛程序不会而且也不应该索引所有这些重复的网页。
(4)从目录列表或者站点地图链接过来的所有有效URL
因为有些动态页面可以对其参数使用几乎任何的值,搜索蜘蛛不可能知道你产品目录上的每个有效产品数字。可以建立一个目录页面或者站点地图页面,放上你想要被收录的动态网页的链接。
如需转载,请注明来自豆苗网http://www.doumiao.net,谢谢!

搜藏
添加到雅虎收藏