robots

什么是robots

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots文件协议

Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

使用方法:

Robots.txt 文件应该放在网站根目录下,并且该文件是可以通过互联网进行访问的。
例如:如果我的网站地址是 https://www.hao-blog.com/那么,该文件必须能够通过 https://www.hao-blog.com/robots.txt 打开并看到里面的内容。

格式:

User-agent:

用于描述搜索引擎蜘蛛的名字,在" Robots.txt "文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在" Robots.txt "文件中,"User-agent:*"这样的记录只能有一条。

Disallow:

用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。

网站内容不想被百度抓取时,可配置Robots文件,检测通过后,百度将对Robots文件内容及时屏蔽抓取。

robot.txt在SEO中的作用
在进行网站优化的时候,经常会使用robots文件把一些内容不想让蜘蛛抓取,以前写过一篇网站优化robots.txt文件的运用 现在写这篇文章在补充一点点知识!什么是robots.txt文件
搜索引擎通过一种爬虫spider程序(又称搜索蜘蛛、robot、搜索机器人等),自动搜集互联网上的网页并获取相关信息。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。robots.txt文件的格式
User-agent: 定义搜索引擎的类型
Disallow: 定义禁止搜索引擎收录的地址
Allow: 定义允许搜索引擎收录的地址

robots元数据:
<meta name="robots" content="noindex,nofollow" />

robots.txt文件设置案例
案例1:允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
Disallow:

案例2:禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /

案例3:允许某个搜索引擎的访问
User-agent: baiduspider
Disallow: User-agent: *Disallow: /

关于robots的相关内容

SEO优化中a标签的nofollow属性写法与重要作用

网站SEO优化简要规范

神马搜索引擎Spider蜘蛛介绍

虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

新站如何做到排名?服务器异常如何分析?

网站长期没有排名原因有哪些

Google索引网站工具

百度site语法命令出现统计的数据异常情况

360搜索为何一直没收录网站

深圳SEO优化与网站建设布局

广州SEO优化技术服务|网络营销推广布局

东莞SEO优化|网站优化推广布局

深圳企业如何做好SEO优化?

佛山SEO|seo问答|SEO优化服务

点赞