robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。
robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
第一,用robots屏蔽网站重复页
很多网站一个内容提供多种浏览版本,虽然很方便用户却对蜘蛛造成了困难,因为它分不清那个是主,那个是次,一旦让它认为你在恶意重复,兄弟你就惨了
User-agent: *
Disallow: /sitemap/ 《禁止蜘蛛抓取 文本网页》
第二,用robots保护网站安全
很多人纳闷了,robots怎么还和网站安全有关系了?其实关系还很大,不少低级黑客就是通过搜索默认后台登陆,以达到入侵网站的目标
User-agent: *
Disallow: /admin/ 《禁止蜘蛛抓取admin目录下所有文件》
第三,防止盗链
一般盗链也就几个人,可是一旦被搜索引擎“盗链”那家伙你100M宽带也吃不消,如果你做的不是图片网站,又不想被搜索引擎“盗链”你的网站图片
User-agent: *
Disallow: .jpg$
第四,提交网站地图
现在做优化的都知道做网站地图了,可是却没几个会提交的,绝大多数人是干脆在网页上加个链接,其实robots是支持这个功能的
Sitemap: http://www.010wangzhanyouhua.com/sitemaps/sitemaps_1.xml
第五,禁止某二级域名的抓取
一些网站会对VIP会员提供一些特殊服务,却又不想这个服务被搜索引擎检索到
User-agent: *
Disallow: /
北京网站建设 北京网页设计 网站制作(www.bjycxf.com)