好客站SEO搜索引擎优化研究中心,专注于各行业搜索优化,提供专业SEO解决方案,从行业竞争和需求分析,一站式解决网站建设SEO布局,解决企业SEO公司排行榜资讯,SEO算法、SEO排名分析并建立SEO论坛技术互动交流.

虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

虚拟主机robots文件设置问题
当客户使用虚拟主机,网站被搜索引擎爬虫访问耗费大量流量和带宽,如何处理?
可以通过在站点根目录下创建 Robots.txt,Robots.txt 文件是网站的一个文件,搜索引擎蜘蛛抓取网站首先就是抓取这个文件,根据里面的内容来决定对网站文件访问的范围。
它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制蜘蛛的爬取路径。
注:Robot.txt协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。

1. 首先,先了解一下目前搜索引擎和其对应的 User-Agent,如下:
搜索引擎 User-Agent

AltaVista Scooter
baidu Baiduspider
Infoseek Infoseek
Hotbot Slurp
AOL Search Slurp
Excite ArchitextSpider
Google Googlebot
Goto Slurp
Lycos Lycos
MSN Slurp
Netscape Googlebot
NorthernLight Gulliver
WebCrawler ArchitextSpider
Iwon Slurp
Fast Fast
DirectHit Grabber
Yahoo Web Pages Googlebot
LooksmartWebPages Slurp

2. Robots.tx t样例代码:
例1. 禁止所有搜索引擎访问网站的任何部分

User-agent:
Disallow: /

例2. 允许所有的搜索引擎访问网站的任何部分

User-agent:
Disallow:

例3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider
Disallow: /

例4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider
Disallow:

例5. 禁止spider访问特定目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/

注意事项:
三个目录要分别写。
请注意最后要带斜杠。
带斜杠与不带斜杠的区别。
重点:对于Disallow与目录tmp中间的冒号是英文状态的,这点一定要注意。即写为 Disallow: /tmp/ 而不是 Disallow /tmp/
例6. 允许访问特定目录中的部分url
实现a目录下只有b.htm允许访问

User-agent: *
Allow: /a/b.htm
Disallow: /a/

本页共有 2 条评论

  1. AnWen

    搜索引擎爬虫 (又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

  2. AnWen

    robots写法;网站robots文件怎么写?规范的robots文件写法。
    Robots协议,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,更好的保护用户的隐私和版权信息。

电子邮件地址不会被公开。必填项已用 * 标注!昵称可为公司名称哦!SEO优化、网站诊断分析方案请联系微信/QQ:2690502116。

SEO优化技术指南推荐

    2021年SEO的机遇有哪些?-搜索引擎公司排行榜 2021-2022年SEO行业发展前景几大趋势+SEO对行业冲击 国内搜索引擎排行榜+市场推广渠道汇总 SEO面试题-个人站长搜索引擎热门话题-seo零经验面试 2021年做SEO优化还有市场吗-搜索引擎优化现状如何 seo+竞争对手分析+策划书 SEO效果不稳定问题-如何解决排名波动大 百度SEO排名算法规则简要+SEO工作人员 SEO排名/SEM那点事儿+如何做好一个SEO技术人 在SEO行业,最乱的是什么?-SEO假象解密 网站标题做改动后多久能缓过来+提升权重分析 WordPress SEO优化技术之robots设置及固定链接优化 seo面试常见问题及答案纠正解读技巧范文+SEO推广 搜索引擎优化与伪静态页面处理技术 电商淘宝网站SEO优化推广与淘宝直通车的区别

好客站搜索引擎优化动态