关于robots.txt文件,你别看他小小的没啥用,实际上它能左右你网站的SEO排名!小李最近查了很多关于robots.txt的用法、写法资料,现在一一给大家说明下,robots.txt应该怎么用才能有利于SEO排名,robots是如何帮你你绕开蜘蛛黑洞、限制收录指定目录的,相信了解完这篇文章,你会对它刮目相看的!
robots.txt的诞生
robots.txt专业名称叫做机器人排除协议(RobotsExclusionProtocol),是荷兰软件工程师MartijnKoster在1994提出的一项标准,其核心就是通过robots.txt这样一个简单的文本文件来控制爬虫机器人的行为。
REP以其简单高效征服了互联网行业,有超过5亿个网站都在使用,可以说它已经成为了限制爬虫的事实标准,像Googlebot在抓取网页时就会浏览robots.txt来确保其不冒犯网站的特别声明。
看到这里你应该知道,robots其实是站点与搜索引擎蜘蛛沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分,或者指定搜索引擎只收录特定的部分。
请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,可以不用建立robots.txt文件。我这里建议大家的是,网站有很多目录是用来存放静态文件比如js、css、程序主目录的,这些可以屏蔽掉。
robots.txt的写法
几乎所有的搜索引擎都是支持robots的,Google,雅虎,微软、百度、360、搜狗、神马等等。这些搜索引擎都支持的robots文件记录包括:Disallow–告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:
User-agent:*Disallow:/
Allow–告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:
User-agent:*Disallow:/ab/Allow:/ab/cd
$通配符–匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:
User-agent:*Allow:.htm$
*通配符–告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:
User-agent:*Disallow:/*.htm
Sitemaps位置–告诉蜘蛛你的网站地图在哪里,如果你的网站有xml格式的网站地图,可以把他加在robots的结尾,格式为:Sitemap: