robots.txt是什么

TAG: 时间:2013-01-30 00:00:00

   

     robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。
    robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 
    第一,用robots屏蔽网站重复页
    很多网站一个内容提供多种浏览版本,虽然很方便用户却对蜘蛛造成了困难,因为它分不清那个是主,那个是次,一旦让它认为你在恶意重复,兄弟你就惨了
    User-agent: *
    Disallow: /sitemap/ 《禁止蜘蛛抓取 文本网页》
    第二,用robots保护网站安全
    很多人纳闷了,robots怎么还和网站安全有关系了?其实关系还很大,不少低级黑客就是通过搜索默认后台登陆,以达到入侵网站的目标
    User-agent: *
    Disallow: /admin/ 《禁止蜘蛛抓取admin目录下所有文件》
    第三,防止盗链
    一般盗链也就几个人,可是一旦被搜索引擎“盗链”那家伙你100M宽带也吃不消,如果你做的不是图片网站,又不想被搜索引擎“盗链”你的网站图片
    User-agent: *
    Disallow: .jpg$
    第四,提交网站地图
    现在做优化的都知道做网站地图了,可是却没几个会提交的,绝大多数人是干脆在网页上加个链接,其实robots是支持这个功能的
    Sitemap: http://www.010wangzhanyouhua.com/sitemaps/sitemaps_1.xml
    第五,禁止某二级域名的抓取
    一些网站会对VIP会员提供一些特殊服务,却又不想这个服务被搜索引擎检索到
    User-agent: *
    Disallow: /

 

北京网站建设 北京网页设计 网站制作(www.bjycxf.com



分享到:
YC & 原创官方微信
Contact Us & 联系我们

TEL: 010-68703788/66/87/89

地址:北京市海淀区大钟寺十三号院华杰大厦11B8室

© Copyright 2004-2014 bjycxf.com All Rights Reserved 版权所有

京ICP备09080439号 京公网安备11010802012755号