Robots.txt:你应该知道的四件事情

2008-08-02 02:34 来源: www.doumiao.net 作者:小可 网友评论 2 条 浏览次数 44
Robots.txt文件是控制搜索引擎蜘蛛爬行网站的最主要方法,虽然很多站长都了解它的用法,但仍然对robots.txt的使用存在一些误解。

1. robots.txt能阻止搜索引擎蜘蛛抓取页面或目录,但无法阻止搜索引擎索引和排名那些能从外部链接进入的页面,但不能阻止搜索引擎索引和排名可以通过外部链接进入的页面。在这种情况下,搜索引擎会根据这些外部链接的页面信息来判断链向的页面的主题并构想这个页面的摘要(在SERP的标题和描述中出现).

2. 如果你既有通用(如通配符*)又有特定的(如User-agent: googlebot) user--agent部分,记住Google(还有别的蜘蛛)将只遵循针对它的部分而忽略其它部分(包括通用的):因此要在所有特定部分重复所有通用部分的指令。

robots.txt
 
3. 匹配是按从左到右的顺序,就是说蜘蛛会拦截任何从“/”开始匹配的目录或页面。例如,如果你拦截了你网站中名字为a的目录yoursite.com/a,那么网站中所有以a开头的目录和页面都被拦截了 (例如 yoursite.com/about).

4. 为了安全起见,即使没有需要拦截的文件,你最好也创建一个空的或者默认格式的robots.txt文件: 

User-agent: *
Disallow: 

这样做,有很多好处:

• 所有的搜索引擎都能正确理解; 

• 不会因为蜘蛛访问不存在的robots.txt文件而在日志中产生404错误

• 搜索引擎蜘蛛不会因为不能找到robots.txt文件而冷落你的网站(不怕一万,就怕万一)。


原文:Robots.txt : 4 Things You Should Know
by Ann Smarty 
http://www.searchenginejournal.com/robotstxt-4-things-you-should-know/7292/

翻译:小可 佛仔

如需转载,请注明来自豆苗网http://www.doumiao.net,谢谢!

搜藏 搜藏    添加到雅虎收藏+    Delicious    收藏到QQ书签


上一篇: 下一篇:

相关主题:robots.txt

网友评论