在网络上,有些资料是不能共享的。比如涉及到国家机密、个人隐私、个人财务等等。或者站长自己就是不希望某个网页被人家看到。如果这些不想被看到的内容被搜索引擎抓取了,那我们就需要采取一些措施从搜索引擎的索引中删除这些内容。本文主要介绍如何从Google索引中删除内容的三种方法。
1. 使用 robots.txt 文件拦截或删除网页
你可以使用 robots.txt 文件来阻止 Googlebot 抓取你网站上的网页。例如,要阻止 Googlebot 抓取某一特定目录下(例如,lemurs)的所有网页,可使用以下 robots.txt 条目:
User-agent:Googlebot
Disallow:/lemurs
要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:
User-agent:Googlebot
Disallow:/*.gif
要阻止 Googlebot 抓取动态生成的网页,可使用此 robots.txt 条目:
User-agent:Googlebot
Disallow:/*?
如果其他网站链接了这些网页,则通过这种方式拦截的网页仍然可能会被添加到 Google 索引中。因此,相应网页的网址(可能还包括其他公开提供的信息)可能会出现在 Google 搜索结果中。不过,你网页上的内容不会被抓取、编制索引和显示。
2. 使用meta robots标签拦截网页。
要完全阻止一个网页被添加到 Google 索引中(即使其他网站链接到了其上),可使用 meta robots标签中的noindex元标记,在抓取网页时,Googlebot 会识别 noindex 元标记,不会将相应网址添加到索引中。
要防止所有漫游器将你网站中的一页编入索引,请将以下元标记置入网页的 <HEAD> 部分:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
要允许其他漫游器将你网站中的页面编入索引,而只防止 Google 的漫游器将你网站中页面编入索引,应使用以下标记:
<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">
允许漫游器将你网站中的页面编入索引,但要指示它不追踪外部链接,应使用以下标记:
<META NAME="ROBOTS" CONTENT="NOFOLLOW">
3. 使用Google网站管理员提供的删除网址工具。
用 Google 帐户登录 Google 网站管理员工具,点击所需网站的网址,点击工具>>删除网址>>新增删除请求按钮,然后按照说明操作。


还可以使用Google网页删除请求工具来删除被google索引的网页。
如需转载,请注明来自豆苗网http://www.doumiao.net,谢谢!

搜藏
添加到雅虎收藏