蜘蛛程序有一定的存在规则,如果你的内容违反这些规则,你就会有损失。找出这些规则是什么,和减少这些使蜘蛛程序忽视你网站内容的方法。
一旦你消除了蜘蛛陷阱,并且蜘蛛程序可以爬过你的网页,你可能要面对的下一个问题是它们忽略了你的一些内容。蜘蛛程序的口味很叼,如果你的内容不是那么可口,它们会转移到下一个网页或者下一个站点。让我们看看应该做些什么来保证你的网页尽可能对它们有吸引力。
1. 精简网页
实际上,每个蜘蛛程序在爬过一定大小的页面后会停止爬行。Google和雅虎在大约10万个字母处停止,但是每个蜘蛛程序都有程序的限制在里面。如果页面太大,他们可能根本不会去爬。
把一个大的网页分开有助于提高关键词密度,因为可以使主要的关键词在词的海洋里更加突出。这不仅对搜索引擎有益,访客也会高兴的。
最经常导致网页冗长的原因是嵌入了JavaScript代码。修改JavaScript导致的冗长比大的网页文本要容易——将JavaScript从网页转移到一个外部的文件。代码同样工作,而蜘蛛程序不必爬过它。
2. 验证HTML
网页浏览器,特别是IE,其设计思想是不让访客注意到网页上的问题。浏览器非常能容忍HTML编码错误的,永远力争尽可能高质量地显示网页,甚至可能有错误的编码存在。但是蜘蛛程序并不能容忍。
浏览器有时会忽略小错误,正确的显示网页,例如丢失表格结尾的标签,蜘蛛程序可能因此而丢失一些文本。因此网页看起来没问题,并不是所有的词被索引了。搜索者不能在搜索那些词的时候发现你的页面。偶尔,HTML链接,特别是使用相关地址的链接,没有拼写完整,结果在浏览器里正常运行,但限制了蜘蛛程序。
开发人员检查代码很容易,只需要把代码发送到http://validator.w3.org/.,并输入任何要测试的网页URL。正确的HTML有很多种,从最严格的服从标准到使用旧标签大致遵守。在网页状态<doctype>标签中声明采取哪种规范的时候,它就会被正确的验证,而且搜索蜘蛛可以阅读任何种类的正确的HTML代码。要做到每个网页的HTML在放到服务器之前都被检查过。
3. 让FLASH保留的内容是你不想被收录的
蜘蛛程序不能索引Flash的内容。因此是否意味着你不能在站点上使用flash?不,这意味着你应该聪明地使用它。
对你不愿意索引的内容,可以有保留的使用flash——比如产品的互动3D画面。不要让首页有Flash,除非确认蜘蛛程序除了通过Flash还有其他入口进入站点——给蜘蛛程序一个简单的HTML链接到Html网页。当一定要使用Flash的时候,要确保有一个HTML登陆网页来启动任何的Flash体验。
(注意:不能弹出一个问题,问访客是否愿意使用Flash,因为蜘蛛程序也不能回答这样的问题)
如果你有一个完全有Flash内容建立的网站,并且完全不能将其转化为HTML,那么可以合理的使用IP发送技术将内容添加到搜索引擎中。开发人员必须先编一段IP检测程序,这个程序由站点的Flash URL启动。程序使用用户代理名和IP地址来识别是蜘蛛程序的访问还是访客的访问。Flash内容对访客正常显示,但对蜘蛛程序显示的是一个HTML页面,那个页面含有和Flash内容相同的文本。这种IP发送技术的使用完全是合法的,因为给蜘蛛程序和访客提供了相同的文本。
注:永远不要对访客和蜘蛛程序提供不同的信息,因为那样会被认为是作弊。确保发布程序能保证Flash和HTML内容在每次更新之后同步,这样才不会无意违反蜘蛛程序的规则。
4. 避免使用框架
框架是HTML编码的一种旧技术,可以在独立的可卷屏的窗口里,在相同的HTML网页显示多种来源的内容。如果网站使用了基于框架的网页,最好的板块是替换掉它们。这样对访客会有更好的体验,也会增强搜索营销,因为通常蜘蛛程序会花很长的时间来解读基于框架的网页。
通常蜘蛛程序忽视“frameset”的任何内容,并寻找一个称为<noframes>的HTML标签,这个标签专门提供不支持框架的古老浏览器使用。
可以用一些技术手段来尝试将永久内容加载到<noframes>标签中以便搜索,但要费很多功夫来创建和维护。最好的建议是完全去掉框架,创建一个新的没有框架的网页会一劳永逸的加强站点的可用性。
使更多的网页被收录(一)——削除蜘蛛陷阱>>
使更多的网页被收录(三)——建立蜘蛛程序的通道>>
使更多的网页被收录(四)——使用搜索引擎提供的工具>>
如需转载,请注明来自豆苗网http://www.doumiao.net,谢谢!

