如何验证谷歌抓取机器人(Googlebot)?

2008-05-15 15:57 来源: www.doumiao.net 作者:小可 网友评论 0 条 浏览次数 6

Google提供了一个验证Googlebot的官方方法,帮助你判断哪些是真正的谷歌抓取机器人。

任何垃圾制造者都可以用Googlebot来命名他们的抓取机器人,并声称自己是谷歌的。那么,你如何才能知道哪些是真正的谷歌抓取机器人,哪些是垃圾机器人呢?

第一种方法:判断抓取机器人的IP地址。这个做法的问题是,当谷歌的抓取工具的IP地址范围改变时,并非每个人都知道去检查。事实上,Google爬行组几年前搬迁过Googlebot的IP地址,他们遇到的一个真正的麻烦是提醒一些把Googlebot的IP范围写在他们的程序里的网管们。

第二种方法:使用域名解析服务器(DNS)来核实每个案例。推荐的验证技术是做反向DNS查找,核实该名字是否在googlebot.com域名内,然后使用该googlebot.com名做一个相应的正向DNS->IP的查找; 例如:(以下是Linux命令及执行结果)

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
(1.66.249.66.in-addr.arpa域名指针crawl-66-249-66-1.googlebot.com)

> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
(crawl-66-249-66-1.googlebot.com的IP地址是66.249.66.1)

我认为只做反向DNS查找是不够的,因为一个垃圾制造者可以建立反向的DNS来指向crawl-a-b-c-d.googlebot.com。

第二种方法是Google内部的技术帮助中心提供的,应该是一个验证Googlebot的官方方法。

本文摘自:如何验证谷歌抓取机器人(Googlebot) 2008年2月26日 下午 07:12:00
发表者 Matt Cutts, 软件工程师
转载自谷歌中文网站管理员博客
http://googlechinablog.com/2008/02/googlebot.html
原文How to verify Googlebot
发表于:2006 年 9 月 20 日,周三,上午 11 时 45 分




上一篇:七个最有趣的Goog..    下一篇:知识问答网站推荐..

相关主题:Google  机器人

网友评论