quanshiyinian 发表于 2015-1-7 12:10:36

【SEO教程】第二十课 robots协议之偷梁换柱-懒人模式 道勤网录制

这节课视频较长,加载稍慢,请大家耐心等待10-20秒中后观看!主讲内容:robots协议之偷梁换柱-懒人模式

(无法观看请刷新页面等待10-20秒,单击播放器右下角可全屏观看)http://www.daoqin.net/images/ads/seo.gif什么是Robots协议?Robots协议也称为爬虫协议、机器人协议,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议一般是一个文本文件,命名为robots.txt并且存放在网站根目录。Robots协议的作用:1、告诉搜索引擎网站上面的页面哪些可以抓取,不该抓取的就不要抓取。2、告诉搜索引擎可以重点或者首先抓取哪个页面,配合网站地图效果更佳。如何设置Robots协议?工具:http://tool.chinaz.com/robots/Robots协议一般命名为robots.txt,存放在网站根目录。备注:如果网站根目录没有robots.txt,那么说明该网站允许所有搜索引擎抓取。https://www.daoqin.net/daoqin_lesson_vedio/seo/20.mp4https://www.daoqin.net/daoqin_lesson_vedio/seo/20.mp4
高清视频下载地址:下面是robots协议常用的发给大家,一起学习交流:

下面把相关的课程资料也发给大家,
最常用的 robots文件使用两条规则:User-Agent: (后面跟着允许的搜索引擎蜘蛛)
Disallow: (后面跟着要拦截的网页)
具体详细写法有:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录   
Disallow: /ABC 这里定义是禁止爬寻ABC整个目录 
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬寻ab文件夹下面的adc.html所有文件
-------------------------------------------------------------------------





Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片例1.
User-agent: * Disallow: /禁止所有搜索引擎访问网站的任何部分


Allow: /tag.html#
# robots.txt for Discuz! X3
#

User-agent: *
Disallow: /api/
Disallow: /data/
Disallow: /source/
Disallow: /install/
Disallow: /template/
Disallow: /config/
Disallow: /uc_client/
Disallow: /uc_server/
Disallow: /static/
Disallow: /admin.php
Disallow: /search.php
Disallow: /member.php
Disallow: /api.php
Disallow: /misc.php
Disallow: /connect.php
Disallow: /forum.php?mod=redirect*论坛的一些跳转页面
Disallow: /forum.php?mod=post*   论坛发帖页面
Disallow: /home.php?mod=spacecp*   用户的个人资料页面
Disallow: /userapp.php?mod=app&*   用户应用的页面(就是那个很多游戏的云平台)
Disallow: /*?mod=misc*   提示的跳转页面
Disallow: /*?mod=attachment*    附件的页面
Disallow: /*mobile=yes*   手机浏览器的页面
Disallow: /*?*   禁止访问网站中所有的动态页面


页: [1]
查看完整版本: 【SEO教程】第二十课 robots协议之偷梁换柱-懒人模式 道勤网录制