robots协议，分享一些robots协议的小知识

qinzhiqiang 09-28 10:29 515次浏览

robots协议（也称爬虫协议、机器人协议等），“全称是网络爬虫扫除规范“（RobotsExclusionProtocol），robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt文件是一个文本文件，robots.txt是一个协议，而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。

Robot.txt的效果？

能够让蜘蛛更高效的匍匐网站

能够阻挠蜘蛛匍匐动态页面，从而处理重复录入的问题

能够削减蜘蛛匍匐无效页面，节约服务器带宽

能够屏蔽搜索引擎屏蔽一些隐私页面或许临时页面

怎么创立robots.txt文件呢？

右击桌面——新建文本文档——重命名为robots.txt（一切文件有必要小写）——编写规矩——用FTP把文件上（放到根目录下）传到空间

创立robots.txt需求留意的知识点：

1、有必要是txt结束的纯文本文件

2、文件名一切字母有必要是小写

3、文件有必要要放在根目录下

4、文件内的冒号有必要是英文半角状态下

robots.txt文件放在哪里?

robots.txt文件应该放在网站根目录下。举例来说，当robots访问一个网站时，首先会检查该网站中是否存在这个文件，如果机器人找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

“robots.txt”文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL,orNL作为结束符），每一条记录的格式如下所示：

“<field>:<optionalspace><value><optionalspace>”。

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下：

User-agent:

该项的值用于描述搜索引擎robot的名字，在”robots.txt”文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在”robots.txt”文件中，”User-agent:*”这样的记录只能有一条。

Disallow:

该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被robot访问到。例如”Disallow:/help”对/help.html和/help/index.html都不允许搜索引擎访问，而”Disallow:/help/”则允许robot访问/help.html，而不能访问/help/index.html。任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在”/robots.txt”文件中，至少要有一条Disallow记录。如果”/robots.txt”是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。

Allow:

该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。

需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

使用”*”和”$”：

robots支持使用通配符”*”和”$”来模糊匹配url：

“$”匹配行结束符。

“*”匹配0或多个任意字符。

Robots协议是网站出于安全和隐私考虑，防止搜索引擎抓取敏感信息而设置的。搜索引擎的原理是通过一种爬虫spider程序，自动搜集互联网上的网页并获取相关信息。而鉴于网络安全与隐私的考虑，每个网站都会设置自己的Robots协议，来明示搜索引擎，哪些内容是愿意和允许被搜索引擎收录的，哪些则不允许。搜索引擎则会按照Robots协议给予的权限进行抓取。

robots协议

上一篇：论坛全能如何营销？教你7个小妙招玩转论坛营销下一篇：市场营销策略有哪些？4个万能的营销策略，学会2个

robots协议，分享一些robots协议的小知识

继续阅读

随机文章