robots.txt是什么

TAG：时间：2013-01-30 00:00:00

    robots协议（也称为爬虫协议、爬虫规则、机器人协议等）也就是robots.txt，网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。
    robots.txt是一个协议，而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。　
    第一，用robots屏蔽网站重复页
    很多网站一个内容提供多种浏览版本，虽然很方便用户却对蜘蛛造成了困难，因为它分不清那个是主，那个是次，一旦让它认为你在恶意重复，兄弟你就惨了
    User-agent： *
    Disallow： /sitemap/ 《禁止蜘蛛抓取文本网页》
    第二，用robots保护网站安全
    很多人纳闷了，robots怎么还和网站安全有关系了？其实关系还很大，不少低级黑客就是通过搜索默认后台登陆，以达到入侵网站的目标
    User-agent： *
    Disallow： /admin/ 《禁止蜘蛛抓取admin目录下所有文件》
    第三，防止盗链
    一般盗链也就几个人，可是一旦被搜索引擎“盗链”那家伙你100M宽带也吃不消，如果你做的不是图片网站，又不想被搜索引擎“盗链”你的网站图片
    User-agent： *
    Disallow： .jpg$
    第四，提交网站地图
    现在做优化的都知道做网站地图了，可是却没几个会提交的，绝大多数人是干脆在网页上加个链接，其实robots是支持这个功能的
    Sitemap： http://www.010wangzhanyouhua.com/sitemaps/sitemaps_1.xml
    第五，禁止某二级域名的抓取
    一些网站会对VIP会员提供一些特殊服务，却又不想这个服务被搜索引擎检索到
    User-agent： *
    Disallow： /

北京网站建设北京网页设计网站制作（www.bjycxf.com）

上一篇：更新网站的注意事项
下一篇：新手如何做网站

分享到：

robots.txt是什么

TAG： 时间：2013-01-30 00:00:00

TEL： 010-68703788/66/87/89

TAG：时间：2013-01-30 00:00:00