当前位置:首页 » 好文分享 » 详情

网站robots文件规则及其设置

在上一篇《学会这几招!新站不收录都难》给大家分享了关于新站不收录问题,在网站优化中robots.txt文件的编写可以说直接影响SEO优化效果,俗话说,细节决定成败,robot.txt到底要怎么写呢?今天博客之家给大家详细讲解下“网站robots.txt文件规则及其设置”;

一、robots.txt文件是什么

robots.txt文件简单理解为就是告诉搜索引擎蜘蛛,我们的网站上哪些内容可以被抓取,哪些不能抓取。当搜索引擎蜘蛛访问我们网站时,第一件事就是检查网站根目录是否存在robots.txt文件,如果存在则会遵守robots.txt文件所编写的规则抓取相应的内容;

例如本站的robots.txt文件规则:
#
# robots.txt for www.blogs.hk
#

User-agent: *
Disallow: /admin/
Disallow: /content/
Disallow: /include/
Disallow: /go/
Disallow: /m/
Disallow: /t/
Disallow: /*?*
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Sitemap: https://www.blogs.hk/sitemap.xml

腾讯网robots.txt文件规则:
User-agent: *

Disallow: 

Sitemap: http://www.qq.com/sitemap_index.xml

二、robots.txt文件作用
    
为什么网站都要写robots.txt文件呢?主要有以下四点:

1、网站安全(防止重要信息泄露)

2、节省网站流量(减少蜘蛛访问页面)

3、引导蜘蛛爬取网站地图(有利于网站收录)

4、禁止搜索引擎蜘蛛收录隐私页面(保护网站重要信息)

三、robots.txt文件写法

“/” 前面有一个英文状态下空格;

Disallow: /禁止访问

例如:”Disallow:/plus/ad_js.php”禁止访问/plus/as_js.php文件,”Disallow:/a/”,”Disallow:/b/”禁止访问a,b文件。

Allow: /允许访问

User-agent: /描述搜索引擎robots的名字

我们知道搜索引擎爬虫有多个种类,Baiduspider、Googlebot、360spider、Sosospider等等。

例如:User-agent: Baiduspider表示定义百度蜘蛛,那么名为”Baiduspider”就受到 ” User-agent: Baiduspider”后面的Disallow和Allow的规则限制。”User-a
gent: *”表示定义所有蜘蛛。

例如本站robots.txt文件规则表示:允许所有搜索引擎蜘蛛访问,且禁止抓取”Disallow: /”下文件。

腾讯网robots.txt文件规则表示:允许所有搜索引擎蜘蛛访问所有文件。

四、robots.txt文件存在位置
    
存放在网站根目录下,并且robots.txt文件名所有字母必须为小写。

五、注意事项
    
在编写robots.txt文件时,User-agent、Disallow、Allow第一个字母均为大写,后面的字母小写,并且在 ”:”后面必须带一个英文字符空格,网站上线之前建议写好robots.txt文件禁止蜘蛛访问,如果还不会写可以参考网上robots.txt写法,以免给网站收录带来不必要的麻烦。

总结:以上就是博客之家分享的个人经验,如果你还不会robots.txt文件写法,可以联系刘海帮忙解决!
打赏
X
打赏方式:
  • 支付宝
  • 微信
  • QQ红包

打开支付宝扫一扫
日期:2018年01月14日 22:32:06 星期日   分类:好文分享   浏览(33984)   评论(1)
本文地址:https://www.blogs.hk/post-3245.html   [百度已收录]
声明:本页信息由网友自行发布或来源于网络,真实性、合法性由发布人负责,请仔细甄别!本站只为传递信息,我们不做任何双方证明,也不承担任何法律责任。文章内容若侵犯你的权益,请联系本站删除!

留言咨询

自动获取QQ

昵称

邮箱

网址

      Copyright © 2024 博客之家 版权所有  
      關於本站免責聲明sitemap新站登錄