原文标题:Robots协议是什么,robots.txt文件对于网站优化起什么作用?
Robots协议是什么,robots.txt文件对于网站优化起什么作用?
当我们制作网站时,一个完整的网站应该有301个重定向、404个页面和robots.txt文件,这些都是制作网站所必需的。有经验的网站管理员知道301重定向是为了集权,404重定向是为了在网站有死链时引导蜘蛛和增加用户体验。想要网站健康收录,那一定离不开Robots协议的设置以及robots正确写法,如何设置robots协议,首先从了解robots协议开始。
什么是robots.txt协议?
Robots协议,也称为爬虫协议、机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”。robots是我们网站跟各大搜索引擎的一个协议,比如我们不允许百度抓取我们的网站,我们不允许百度抓取我们某个目录,我们不允许360抓取我们的网站,像这些操作,我们都可以写在robots协议中,当然这个写法是非常简单的。
关于写法我们下面做详细说明,robots写好后,做一个txt文档,命名为:robots.txt 直接放到我们的网站根目录下就可以了,各大引擎抓取我们网站时,首先一定是访问robots协议,如果我们允许抓取,它们才会抓取我们的网站。
robots.txt协议与SEO优化的关系
robots协议对于SEO优化来说,意义是非常大的,举例说明:我们都知道搜索引擎抓取我们站点,如果全部抓取到静态优质页面,百度会非常信任我们的站点,从而给我们一个好的排名,但是如果蜘蛛抓取的都是一些系统界面,比如网站后台、存放图片的目录、系统核心文件目录,这不仅仅浪费了蜘蛛资源,并且也让蜘蛛都识别不了,从而返回搜索引擎大量未知页面,这样就会影响我们在百度中的信任评分,对于我们排名就会有一定的阻碍。
同时robots协议也是我们节约服务器资源的一个方法,比如:淘宝是屏蔽所有搜索引擎的,一个网站页面越多,搜索引擎派出的蜘蛛就越多,引擎蜘蛛和用户一样访问我们网站也是会消耗我们服务器资源的,如果我们的服务器配置不是很高,页面几千万的话,蜘蛛量每天是巨大的,就会拖垮我们的服务器,这对用户正常访问就形成了阻碍,所以合理运营robots协议,对我们网站正常运营也是非常有意义的。
robots.txt文件对于网站优化有什么作用如下:
1,用robots屏蔽网站重复页
很多网站一个内容提供多种浏览版本,虽然很方便用户却对蜘蛛造成了困难,因为它分不清那个是主,那个是次,一旦让它认为你在恶意重复,你就惨了。
User-agent: *
Disallow: /sitemap/ (禁止蜘蛛抓取 文本网页)
2,用robots保护网站安全
很多人纳闷了,robots怎么还和网站安全有关系了?其实关系还很大,不少低级黑客就是通过搜索默认后台登陆,以达到入侵网站的目标。
User-agent: *
Disallow: /admin/ (禁止蜘蛛抓取admin目录下所有文件)
3,防止盗链
一般盗链也就几个人,可是一旦被搜索引擎“盗链”那家伙你100M宽带也吃不消,如果你做的不是图片网站,又不想被搜索引擎“盗链”你的网站图片。
User-agent: *
Disallow: .jpg$
4,提交网站地图
现在做优化的都知道做网站地图了,可是却没几个会提交的,绝大多数人是干脆在网页上加个链接,其实robots是支持这个功能的
Sitemap: https://www.0472e.com/sitemap.xml
5,禁止某二级域名的抓取
一些网站会对VIP会员提供一些特殊服务,却又不想这个服务被搜索引擎检索到。
User-agent: *
Disallow: /
以上五招robots足以让你对搜索引擎蜘蛛掌控能力提升不少,就像百度说的:我们和搜索引擎应该是朋友,增加一些沟通,才能消除一些隔膜。
robots.txt基本语法
1、robots.txt的关键语法
a.User-agent: 应用下文规则的漫游器,比如Googlebot,Baiduspider等。
b.Disallow: 要拦截的网址,不允许机器人访问。
c.Allow: 允许访问的网址
d.“*” : 通配符—匹配0或多个任意字符。
e.“$” : 匹配行结束符。
f.“#” : 注释—说明性的文字,不写也可。
g.Googlebot: 谷歌搜索机器人(也叫搜索蜘蛛)。
h.Baiduspider: 百度搜索机器人(也叫搜索蜘蛛)。
i.目录、网址的写法:都以以正斜线 (/) 开头。
如
Disallow:/
Disallow:/images/
Disallow:/admin/
Disallow:/css/
2、robots.txt的具体用法
a.允许所有的robot访问
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
或者建一个空文件”robots.txt”即可。
b.仅禁止某个机器人访问您的网站,如Baiduspider。
User-agent: Baiduspider
Disallow: /
c.仅允许某个机器人访问您的网站,如Baiduspider。
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
d.禁止访问特定目录
User-agent: *
Disallow: /admin/
Disallow: /css/
Disallow:
要拦截对所有包含问号 (?) 的网址的访问(具体地说,这种网址以你的域名开头、后接任意字符串,然后接问号,而后又接任意字符串),使用以下内容:
User-agent: Googlebot
Disallow: /*?
要指定与某个网址的结尾字符相匹配,就用 $。例如,要拦截以 .xls 结尾的所有网址,就用以下内容:
User-agent: Googlebot
Disallow: /*.xls$
你可以将此模式匹配与 Allow 指令配合使用。例如,如果 ? 代表一个会话 ID,那么你可能希望排除包含 ? 的所有网址,以确保 Googlebot 不会抓取重复网页。但是以 ? 结尾的网址可能是你希望包含在内的网页的版本。在此情况下,你可以对你的 robots.txt 文件进行如下设置:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: /*? 指令会阻止包含 ? 的所有网址(具体地说,它将拦截所有以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串的网址)。
Allow: /*?$ 指令将允许以 ? 结尾的任何网址(具体地说,它将允许所有以您的域名开头、后接任意字符串,然后接 ?,? 之后不接任何字符的网址)。
一般网站查看robots.txt文件的方法是主页后面加robots.txt就可以,比如淘宝网的就是http://www.taobao.com/robots.txt。请注意,仅当你的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果你希望搜索引擎收录网站上所有内容,就不要建立robots.txt文件。
写robots.txt协议时应该注意什么?
robots协议是一个非常重要的文件,如果编写错误会造成网站不收录,因为屏蔽了所有搜索引擎,所以我们编写后要严格检查,“Disallow”这个标签一定要谨慎使用,多看下上面的说明,不要写错了格式,一面造成站点不收录的情况!我是向前,这里是包头网站建设向前网络工作室,希望可以帮助到新手朋友!
本文来源:https://www.0478g.com/wzseo/226.html