欢迎来到深圳注册公司万事惠一站式服务平台!

  • 热线电话
  • 0755-83675288 13560715488
  • QQ
  • 省钱省心
  • 专业高效
  • 一对一服务
  • 安全保密

seo优化中robots协议应该如何书写

2020-09-02 16:51:37

       在做网站的seo优化的过程中,robots协议是一个很重要的部分!蜘蛛在抓取你网站之前,都会先去访问robots协议,蜘蛛将会根据robots协议所写的规则,进行合理的抓取网站页面。


什么是robots协议呢?

       简单的来说robots协议是你网站跟搜索引擎爬虫程序之间的一个协议。通过这个文件告诉搜索引擎的蜘蛛,你的网站哪些文件是允许它抓取收录的,哪些文件我们不想让搜索引擎抓取收录的。切记,只是一种协议,并非是命令。当搜索引擎的蜘蛛在抓取网页的时候,首先就会检测网站有没有这个robots文件,如果有这个文件,就会根据这个文件的协议来抓取网页,如果网站没有这个文件,就表明它随意抓取你的网站任何页面。这个文件的全拼是robots.txt 存放在网站的根目录里面。

一般书写robots文件的时候我们会用到一个蜘蛛名称的通配符*,代表了是所有搜索引擎蜘蛛的名称。

User-agent: 后面跟的是蜘蛛的名称 ,一般我们的网站都用*代替所有蜘蛛的名称。

Disallow: 后面跟的你网站禁止抓取收录的文件名

Allow: 后面跟的是允许抓取收录的文件名。


       我们在做搜索引擎优化的时候都希望网站被收录的页面都是有实际内容的页面,可以参与排名为用户解决问题的页面。我们网站也有很多文件其实是不需要它用来参与排名的,例如网站的css文件。js文件等等。把不需要的文件给屏蔽掉其实也是为了提高蜘蛛抓取网站重点页面的效率。

在书写robots文件的时候一定要结合自己的网站文件来书写,这个不是每个网站的目录名称都一样的。


robots文件写法参考

–指定蜘蛛

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符。

–禁止写法

Disallow: /admin 这里定义是禁止爬寻admin目录。

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下所有以“.htm”为后缀URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号(?)的网址。

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

–允许写法

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。

Allow: /tmp 这里定义是允许爬寻tmp的整个目录。

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片。

不同的搜索引擎,探测器(Robot)名称也是不同的。以下是我们常见的爬虫名称。

谷歌:googlebot

百度:baiduspider

MSN:MSNbot

雅虎:Slurp

有道:YoudaoBot

搜搜:Sosospider

搜狗:sogou spider

360:360Spider (haosouSpider)

alexa:ia_archiver


上一篇:庆澳门回归20周年,展望经济发展之路,让注册澳门公司更便捷!
下一篇:融资租赁公司设立条件详解!

版权所有:深圳万事惠投资咨询有限公司 Copyright © 2053 All Rights Reserved 粤ICP备14041065号

初步创业计算器

您的需求 :

您的昵称 :

您的手机 :

微信或QQ :

报价有疑问?完善以上信息

让我们更了解您的需求优先为您解答

您的创业初期预算 2326

成本费:111

人工费: 111

刻章费: 111

以上费用为所有范围整体估算

实际费用根据您所需办理的需求内容为准