robots文件中到底要不要屏蔽JS和css

有时候发现百度蜘蛛每日抓取网站的js和css文件非常频繁,甚至能占每日抓取量的五分之一,百度蜘蛛每日抓取5000次,其中单独抓取js和css文件就有一千多次。那么robots文件中到底要不要屏蔽JS和css

首先来介绍下什么是robots文件呢?

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

遇到这种情况,是否应该屏蔽蜘蛛抓取上述文件??

需要说明,下面为个人见解:
1、robots全部屏蔽掉不太建议,因为随着网页的发展,资源种类越来越多,蜘蛛需要分析;
2、根据之前看到的百度对网页主体内容模板的专利的简单介绍可以得出下面几个观点:
A、百度能够根据前台页面的链接布局、框架,判断出一个站点的主要页面类型,及各页面适合用户浏览的主体内容;
B、因此如果js、css等如果对蜘蛛判断站点的主体内容没有什么影响,比如遮罩、跟踪用户行为返回区域内容变化,那么屏蔽完全可以,但是从实际的例子来说可能对站点其他主体内容页面的抓取频次没有多大帮助,因为主体内容与js、css本来就互不相关的两类东西;
C、如果js、css等如果对蜘蛛判断站点的主体内容有影响,如包含较多网址、图片地址、有效资源地址、文字资源等建议不屏蔽,蜘蛛爬取js/css文件的同时可以爬取里面的内容,并且尽量简单处理,不要采用ajax或多重逻辑判断的代码;

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。

因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。

经过上述处理后,如果发现有价值的js、css抓取次数还是较多,那么建议使用百度的抓取频次工具,反馈提高下,对一个站点的抓取频次现在可以对百度进行反馈。

点赞

发表评论

电子邮件地址不会被公开。必填项已用 * 标注!昵称可为公司名称哦!SEO优化、网站诊断分析方案请联系微信/QQ:2690502116。