目前,几大搜索引擎都可以直接搜索检索WORD,EXCEL,PDF或者POWERPOINT这样的非HTML格式的文档。因此,你非常有必要了解如何让你网站上的非HTML内容在搜索引擎上很好地显示出来。可以通过下面的几个方面进行优化。

1. 引人注目的标题
搜索引擎会在下面这些地方寻找文档的页面标题:
(1)在元数据(matadata)中指定的文档标题。元数据是你添加到文档中用来描述文档的额外信息(这些信息存放在文档的属性中,但是在文档正文中看不到这些内容)
(2)文档文字的开头的60个左右的字符
(3)文件名
(4)文档中使用较大字号格式化的任何文字
搜索引擎通常会首先寻找元数据,因此定义文档的元数据是搜索引擎优化的最简单的方法。在Adobe Acrobat和微软的Office应用程序中,象title(标题)、author(作者)和keywords(关键字)之类的元数据非常容易定义,选择“文件->属性”即可设置元数据。

2. 内容优化
在搜索引擎的索引中,非HTML文档基本上都是与网站的其他HTML页面混合在一起的。因此,除了优化非HTML文档的标题外,还应该对网站的其他HTML文件做SEO优化:在页面中包含目标关键字,在网站上的其他页面放置链接指向这份文档,确保这个文章中URL是可以链接的,这样搜索引擎的蜘蛛就可以跟随这些链接。
3. 何时删除
网站上放置非HTML文档(即时他们排名较好)可能会给自己的网站带来不好的影响。
(1) 象PDF或者WORD文档之类的文件都是独立的实体,因此他们不可能被整合到网站导航中去。如果访问者直接从搜索引擎中点击其中的某个文档,他们可能看不到网站其他部分的内容。让非HTML文档能够被搜索引擎访问,会潜在的给网站其他部分的流量造成损失,需要权衡得失,判断这样做是否值得。
(2) 因为非HTML文档需要下载到搜索者的硬盘上才能查看,因此别人可能会按照你不能容许的方式使用非HTML文档。如果你在乎的话,就不要将他们放到网站上去。至少,也要确保每个文档都清晰地标记了著作权信息、版权信息和网站网址。
(3) 非HTML文档在元数据中可能还包含你不想公之于众的机密信息,包括象跟踪变化、注释和讲演者笔记这样的内容。在将文档放到公众视野之前,从安全的角度审查这些文档的元数据总是比较好的方法。
你最终可以选择移除网站上的所有非HTML文档,或者使用robots.txt文件禁止这些文件被搜索引擎索引。
整理自:《搜索引擎优化》格拉夫 库辛 清华大学出版社 2007年7月
如需转载,请注明来自豆苗网http://www.doumiao.net,谢谢!

