1、robots协议是一种存放于网站根目录下的ASCII编码的文本文件。用于对外宣誓主权,规定按照允许范畴访问网站,有效保护网站的隐私。所以您想通过技术手段访问网站的时候,请首先查看robots.txt文件,它告诉你哪些可以访问,哪些信息是不允许访问的。(Robots协议是国际互联网界通行的道德规范)
2、robots主要涉及以下三个部分:
User-agent | 用户代理 | 1、如是*代表的所有的搜索引擎种类
2、如果是具体的Baiduspider(百度搜索)等,则它可能是被允许或禁止的对象 |
Allow | 允许 | 代表能够访问的内容 |
Disallow | 不允许 | 代表不能访问的内容 |
3、robots的几种用法
第一种:禁止所有搜索引擎访问网站的任何内容
User-agent: *
Disallow: /
第二种:禁止某个特定的搜索引擎访问网站的任何内容
User-agent: Baiduspider
Disallow: /
第三种:允许所有搜索引擎访问网站的任何内容
User-agent: *
Allow: /
第四种:禁止部分内容被访问(tmp目录及下面的内容都禁止了)
User-agent: *
Disallow: /tmp
第五种:允许某个搜索引擎的访问
User-agent: Baiduspider
allow:/
第六种:部分允许,部分不允许访问
User-agent: Baiduspider
Disallow: /tmp/bin
User-agent:*
allow:/tmp
希望以上总结对您有帮助!!!!!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 xxx@163.com 举报,一经查实,本站将立刻删除。