Google提供了一个验证Googlebot的官方方法,帮助你判断哪些是真正的谷歌抓取机器人。
任何垃圾制造者都可以用Googlebot来命名他们的抓取机器人,并声称自己是谷歌的。那么,你如何才能知道哪些是真正的谷歌抓取机器人,哪些是垃圾机器人呢?
第一种方法:判断抓取机器人的IP地址。这个做法的问题是,当谷歌的抓取工具的IP地址范围改变时,并非每个人都知道去检查。事实上,Google爬行组几年前搬迁过Googlebot的IP地址,他们遇到的一个真正的麻烦是提醒一些把Googlebot的IP范围写在他们的程序里的网管们。
第二种方法:使用域名解析服务器(DNS)来核实每个案例。推荐的验证技术是做反向DNS查找,核实该名字是否在googlebot.com域名内,然后使用该googlebot.com名做一个相应的正向DNS->IP的查找; 例如:(以下是Linux命令及执行结果)
> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
(1.66.249.66.in-addr.arpa域名指针crawl-66-249-66-1.googlebot.com)
> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
(crawl-66-249-66-1.googlebot.com的IP地址是66.249.66.1)
我认为只做反向DNS查找是不够的,因为一个垃圾制造者可以建立反向的DNS来指向crawl-a-b-c-d.googlebot.com。
第二种方法是Google内部的技术帮助中心提供的,应该是一个验证Googlebot的官方方法。
本文摘自:如何验证谷歌抓取机器人(Googlebot) 2008年2月26日 下午 07:12:00
发表者 Matt Cutts, 软件工程师
转载自谷歌中文网站管理员博客
http://googlechinablog.com/2008/02/googlebot.html
原文How to verify Googlebot
发表于:2006 年 9 月 20 日,周三,上午 11 时 45 分

