欢迎来到小二馆长-专注于分享软件资源教程
登录   |    免费注册   |   

小二馆长-专注于分享软件资源教程

热门搜索: 教程   源码   seo   
商家入驻

菏泽seo:Robots蜘蛛抓取协议文件怎样写?Robots协议有什么作用

  • 时间:2020-10-16 15:29:30 作者: 小二 阅读:43
    Robots协议(RobotsExclusionProtocol的简称,蜘蛛抓取协议文件)网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

    Robots.txt文件的重要性

    robots.txt是搜索引擎蜘蛛访问网站时要查看的第一个文件,并且会根据robots.txt文件的内容来爬行网站。在某种意义上说,它的一个任务就是指导蜘蛛爬行,减少搜索引擎蜘蛛的工作量。

    Robots蜘蛛抓取协议文件注意事项

    1、Robots是存放在网站根目录

    2、robots.txt文件名改的是不可修

    3、Robots.txt是百度蜘蛛抓取站点优先级最高的

    4、在写robots文件的时候,User-agent、Disallow、Allow、Sitemap这些词开头第一个

    5、书写时,文字输入过程过程在英文状态下进行,每行第一个字母要大写

    6、robots文件的后缀必须是.txt

    Robots协议文件写法详解

    通过User-agent来定义搜索引擎名称,例如:

    User-agent:*代表允许所有搜索引擎爬虫抓取

    User-agent:Baiduspider定义百度蜘蛛爬取

    User-agent:Googlebot定义谷歌蜘蛛

    禁止访问和允许访问:

    User-agent:*

    Disallow:/

    禁止搜索引擎访爬虫问网站中的某些目录:

    禁止引擎访问【xianseo】文件夹及xianseo文件夹下面的所有文件,写法如下:

    User-agent:*

    Disallow:/xianseo

    允许引擎访问【seo】文件夹及xianseo文件夹下面的所有文件,写法如下:

    User-agent:*

    Allow:/seo

    禁止搜索引擎爬虫访问某一类文件:例如css、js、jpg

    User-agent:*

    Disallow:/*.css$

    Disallow:/*.js$

    禁止搜索引擎访问seo文件夹下所有的图片

    User-agent:*

    Disallow:/seo/*.jpg

    Disallow:/seo/*.png

    Disallow:/seo/*.gif

    禁止搜素引擎访问网站中的动态页面:

    User-agent:*

    Disallow:/*?*

    注意:*表示所有;?表示动态路径,

    允许搜索引擎访问网站的某类文件:

    User-agent:*

    Disallow:/*.htm

    Disallow:/*.html

    只允许搜索引擎爬虫访问网站首页:

    User-agent:*

    Disallow:/*

    robots.txt文件怎么允许指定蜘蛛爬虫的可以访问,其他爬虫不可能访问,如:

    允许百度Spider访问网站

    User-agent:Baiduspider

    Allow:/

    禁止百度Spider以外的其他爬虫访问

    User-agent:*

    Disallow:/

    Robots.txt文件最后写上

    Sitemap:http://www.inn2.cn/(改成自己的网址)sitemap.xml

    这个是定义搜索引擎蜘蛛访问网站地图

    网站没有Robots.txt文件的弊端

    菏泽seo顾问认为网站根目录下没有robots.txt文件,则网站中的程序脚本、样式表等一些和网站内容无关的文件或目录即使被搜索引擎蜘蛛爬行,也不会增加网站的收录率和权重,浪费服务器资源,既然出现了robots蜘蛛抓取协议文件这一事件,就应该站长在做seo优化中务必要执行的。也请各位站长在自己网站根目录下加上蜘蛛抓取协议文件级:robots.txt

联系我们

QQ客服:804907288


二维码