版权声明:转载时请以超链接形式标明文章原始出处 http://www.jl115.com/post/51.html

    robots.txt 是一个纯文本文件,当一个搜索robot 访问一个站点时,它首先爬行来检查该站点根目录下是否存在robots.txt。如果存在,搜索robot 就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索robot 就沿着链接抓取。

    robots.txt 必须放置在一个站的根目录下,而且文件名必须全部小写。

    <meta name="robot" content="all" >指令表示搜索robot 可以沿着该页面上的链接继续抓取下去。

    那么如何设置网站中不想被 robot 访问的部分呢?

    2008年传得沸沸扬扬的淘宝和百度决裂事件之后,不少人都发现在淘宝的目录下出现了主旨百度搜索引擎抓取的命令。这样的类似指令时如何实现的呢?

    首先穿就一个纯文本 robots.txt ,在这个文件中声明该网站中不想被robot 访问的部分。robots.txt文件应该放在网站根目录下。

    robots.txt 文件包含一条或者更多的记录,这些记录通过空行分开(以cr、cr/nl、或nl作为结束符),每一条记录的格式为:

    "<field>:<optionalspace><value><optionalspace>"

    在该文件中可以使用“#”进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行 USRE-agent开始,后面加上若干Disallow 行。

     

     常用搜索引擎robot的名称

    百度:baiduspider

    谷歌:googlebot

    有道:yodaobot

    alexa:ia_archiver

    soso:sosospider

    雅虎:yahoo!slurp+china

    msn:msnbot

    sogou:sogou+web+spider

    Tag:robots.txt  seo  

      本文现有0 条评论

    欢迎您发表评论:

     
    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。