×

新导航介绍,点击查看

徐菡:揭秘搜索引擎收录问题

发表日期:2011-01-10 摄影器材: 佳能 Eos 1Ds Mark II 点击数: 投票数:
 

google04年推出sandbox后,百度终于也在去年提高了新站收录的标准,seo的门槛变得比以前更高了,很多时候新站的收录都成了一个问题,为什么搜索引擎不收录我的网站呢?为什么我的网站收录比其他人慢?根据常见程度排序,搜索引擎收录问题归纳起来有以下几方面的原因,大家可以对照着看自己的网站属于哪一种:

  1、内容违法

  这种行为一般较罕见,违反国家法律以及法规的网页,一般搜索引擎是不会收录的,百度在'站长FAQ'(http://www.baidu.com/search/guide.html#1)中明确指出不收录'不符合国家法律和法规规定'的网页,谷歌在这方面还是在努力中,但是随着google中国化进程的深入,对于违法内容的打击势必越来越严厉,如果大家有兴趣可以对照搜索几个色情论坛……这个具体我就不举例子了。

  2、robots协议有误

  由于robots协议的复杂性,导致有小部分站长在创建robots协议的出现错误误导了spider,常见的错误有以下几种:

  (1)、颠倒了顺序

  错误写成:User-agent: *Disallow: GoogleBot 正确的应该是:User-agent: GoogleBotDisallow: *

  (2)、把多个禁止命令放在一行中

  例如错误写成:Disallow: /css/ /cgi-bin/ /images/正确的应该是:Disallow: /css/Disallow: /cgi-bin/Disallow: /images/

  (3)、行前有大量空格

  例如写成:

  Disallow: /cgi-bin/尽管在标准没有谈到这个,但是这种方式很容易出问题。

  (4)、404重定向到另外一个页面

  当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。

  (5)、采用大写。例如

  USER-AGENT: EXCITEDISALLOW:虽然标准是没有大小写的,但是目录和文件名应该小写:user-agent:GoogleBotdisallow:

  (6)、语法中只有Disallow,没有Allow

  错误的写法是:User-agent: BaiduspiderDisallow: /john/allow: /jane/(7)、忘记了斜杠/错误写作:User-agent: BaiduspiderDisallow: css正确的应该是:User-agent: BaiduspiderDisallow: /css/……

  对于robots协议,飞翔猪建议大家创建robots协议之前仔细阅读一些robots协议的教程,例如百度的帮助文件'禁止搜索引擎收录的方法(www.baidu.com/search/robots.html)'就十分详细,google的网站管理员工具中,也有'分析robots.txt','生成robots.txt'两个工具,大家可以充分利用起来。

  3、网站设计问题

  这种情况在前几年的企业站中比较常见,最常见的情况是,整站flash,整站js,蜘蛛无法抓取,对于这样的网站,改版是最好的选择,相关讨论很多,这边就不赘述了

  4、网站不稳定

  网站不稳定影响收录的情况是相对比较多见,他对spider的抓取有2种影响,一种是,刚好spider抓取页面的时候你的网站无法访问,spider认为你的网站没有内容,相当长的一段时间不会继续访问,造成收录延迟,或者是spider抓取的过程中遇到了太多的错误,某一页面时而可以被抓取时而不可以被抓取,让搜索引擎认为你无法为访问者提供有用的内容——毕竟如果用户从搜索结果点击进去以后出现一个404页面是让搜索引擎很难接受的——网站不稳定的原因也包括2种情况,一种是服务器不稳定,很多站长贪图便宜,使用一些比较便宜的主机,往往每台机子上放置了数百个网站,建议站长最好选择一些比较知名的idc购买主机,譬如新网互联,时代互联,西部数码。还有一种情况,网站的程序不稳定,例如http://www.law158.com/长期无法被收录,从iis访问日志中,发现蜘蛛抓取的页面出现了多次无法访问的情况,原来该站上线之初,由于程序员在编写程序时,不注意程序的执行效率的优化,导致一部分动态页面占用了过多的资源,访问用户一多马上出现Service Unavailable提示。对于这种情况,思路就是排查占用过多资源的页面,一般而言,程序的执行时间越长,占用的资源也就越多,越容易出现Service Unavailable错误,一般的动态页面执行时间不应该超过325ms,因此我建议该站管理员在动态页面加入一段查看程序执行时间的代码,代码如下

  程序顶部:starttime=timer程序尾部:response.Write(timer- starttime)&'ms'经过排查了几个执行时间超过350ms的问题页面以后,网站访问情况趋于稳定,一个更新周期以后网站就被收录了。

  5、关联惩罚

  所谓城门失火,殃及池鱼,如果某个网站被搜索引擎封杀,同时你的网站又不幸地被搜索引擎判定,2者之间有密切的关系,那么很遗憾,收录就是不可能的事情了,特别是百度,对于一些站群,垃圾站,seo过度站点的封杀极为严厉。关联惩罚分为三种,域名关联,服务器关联,链接关联。

  (1)、域名关联。Google在早期的一项专利说明文档中有提到,whois信息可以被搜索引擎检索到并利用于结果排序中。因此,搜索引擎可以通过whois信息判断某个网站的归属,譬如你制作了一个垃圾站www.a.com/被搜索引擎封杀,而后,又以相同的whois申请了一个www.b.com、的域名做另外一个网站,那么www.b.com/可能不会被收录,因为搜索引擎根据whois资料里的信息判断2个网站的所有者是相同的,当然,这边只是举例而已,一般而言,因为1个站被惩罚而触发域名关联的几率是比较小的。对于这种情况,建议各位站长在申请域名的时候,不要每个域名的whois信息都一样。

  (2)、服务器/ip关联。如果你和被搜索引擎惩罚过的网站处于同一台服务器,或者共用一个ip,那么搜索引擎可能不会收录你的内容。不过在国内,由于多数使用的是虚拟主机,因此几百个站共用一个ip或者一台服务器也是常见的,这种情况无需担忧,但是如果是与朋友合租,一台服务器只放了几个站点,其中有个站点是被惩罚过的,那么就要小心了,应当考虑更换服务器。例如不久前朋友让我看的一个站,长期以来一直没有被收录,排除了其他因素以后,通过www.114best.com/ip/的同ip反查功能发现,该站和1个被k的qq空间站,还有一个几个月没被收录的私服站为邻,这才知道未被收录的原因。更换了服务器以后,本次更新周期就被收录了。

  (3)、链接关联。Goolge的'网站管理员指南'(http://www.google.com/support/webmasters/bin/answer.py?answer=35769#design)中提到,'请不要参与旨在提高您的网站排名或PageRank的链接方案。尤其要避免链接到违禁的网站或'恶邻'',明确指出链接向有问题的网站,可能导致排名或者收录问题。这就要求站长在选择友情链接的时候擦亮眼睛,除了看pr以外,还应该查看网站在百度等其他搜索引擎的收录情况,网站本身的内容质量,避免与'恶邻'为伍。

  6、内容质量不高

  百度在'站长FAQ'中指出,百度不收录'复制自互联网上的高度重复性的内容。' Goolge的'网站管理员指南'也用了专门一节谈论'原创内容很少或非原创内容'

  7、spider入口不足。

  有部分网站能够很快被搜索引擎收录,而有部分网站在内容完全的情况下,却要一两个月才会被搜索引擎收录,这里面,牵引蜘蛛去抓取网站是一个很重要的方面,一个新站建成以后,比如告知搜索引擎该站的网址,以往都是采用向搜索引擎提交网址的方式告知,如百度的提交入口www.baidu.com/search/url_submit.html,google的网站提交入口www.google.com/addurl/?hl=zh-CN&continue=/addurl,但是传说,手工提交网址容易遭到人工审核,遭遇不必要的麻烦,因此现在更多的是不提交,在一些网站上做个链接,让spider自然地循着链接抓取到新网站的内容,这里有一个常见的错误是,很多人以为随便做个链接就可以,结果是蜘蛛在你链接做好以后1,2个月才姗姗来迟,收录那更是遥远的事情了,指向新站的链接来源,应该是spider访问频繁,而且最好内容和你的网站相关的,spider访问频繁,你的反向链接才会更快地被spider所识别,内容和新站相关,链接才会被spider认为比较有抓取价值

关键词:徐菡搜索引擎

作者:xuhan1975

《徐菡:揭秘搜索引擎收录问题》


下一篇:没有了

最 新:
没有其它新的作品了

更多xuhan1975的POCO作品...

评论