这节课视频较长,加载稍慢,请大家耐心等待10-20秒中后观看!主讲内容:robots协议之偷梁换柱-懒人模式
(无法观看请刷新页面等待10-20秒,单击播放器右下角可全屏观看) 什么是Robots协议?Robots协议也称为爬虫协议、机器人协议,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 Robots协议一般是一个文本文件,命名为robots.txt并且存放在网站根目录。 Robots协议的作用: 1、告诉搜索引擎网站上面的页面哪些可以抓取,不该抓取的就不要抓取。 2、告诉搜索引擎可以重点或者首先抓取哪个页面,配合网站地图效果更佳。 如何设置Robots协议? 工具:http://tool.chinaz.com/robots/ Robots协议一般命名为robots.txt,存放在网站根目录。 备注:如果网站根目录没有robots.txt,那么说明该网站允许所有搜索引擎抓取。 高清视频下载地址: seo课程下载地址.txt下面是robots协议常用的发给大家,一起学习交流:

下面把相关的课程资料也发给大家,
- 最常用的 robots文件使用两条规则:User-Agent: (后面跟着允许的搜索引擎蜘蛛)
- Disallow: (后面跟着要拦截的网页)
- 具体详细写法有:
- User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
- Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
- Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
- Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
- Disallow: /ABC 这里定义是禁止爬寻ABC整个目录
- Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
- Disallow: /*?* 禁止访问网站中所有的动态页面
- Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片
- Disallow:/ab/adc.html 禁止爬寻ab文件夹下面的adc.html所有文件
- -------------------------------------------------------------------------
- Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
- Allow: /tmp 这里定义是允许爬寻tmp的整个目录
- Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
- Allow: .gif$ 允许抓取网页和gif格式图片例1.
- User-agent: * Disallow: /禁止所有搜索引擎访问网站的任何部分
- Allow: /tag.html
复制代码- #
- # robots.txt for discuz! X3
- #
- User-agent: *
- Disallow: /api/
- Disallow: /data/
- Disallow: /source/
- Disallow: /install/
- Disallow: /template/
- Disallow: /config/
- Disallow: /uc_client/
- Disallow: /uc_server/
- Disallow: /static/
- Disallow: /admin.php
- Disallow: /search.php
- Disallow: /member.php
- Disallow: /api.php
- Disallow: /misc.php
- Disallow: /connect.php
- Disallow: /forum.php?mod=redirect* 论坛的一些跳转页面
- Disallow: /forum.php?mod=post* 论坛发帖页面
- Disallow: /home.php?mod=spacecp* 用户的个人资料页面
- Disallow: /userapp.php?mod=app&* 用户应用的页面(就是那个很多游戏的云平台)
- Disallow: /*?mod=misc* 提示的跳转页面
- Disallow: /*?mod=attachment* 附件的页面
- Disallow: /*mobile=yes* 手机浏览器的页面
- Disallow: /*?* 禁止访问网站中所有的动态页面
复制代码
|