返回首页 > 您现在的位置: SEO秘密 > 行业资讯 > 正文

robots.txt最全写法!怎么写利于SEO?(最新标准 在线生成)

发布日期:2020/7/23 7:13:39 浏览:302

关于robots.txt文件,你别看他小小的没啥用,实际上它能左右你网站的SEO排名!小李最近查了很多关于robots.txt的用法、写法资料,现在一一给大家说明下,robots.txt应该怎么用才能有利于SEO排名,robots是如何帮你你绕开蜘蛛黑洞、限制收录指定目录的,相信了解完这篇文章,你会对它刮目相看的!

robots.txt的诞生

robots.txt专业名称叫做机器人排除协议(RobotsExclusionProtocol),是荷兰软件工程师MartijnKoster在1994提出的一项标准,其核心就是通过robots.txt这样一个简单的文本文件来控制爬虫机器人的行为。

REP以其简单高效征服了互联网行业,有超过5亿个网站都在使用,可以说它已经成为了限制爬虫的事实标准,像Googlebot在抓取网页时就会浏览robots.txt来确保其不冒犯网站的特别声明。

看到这里你应该知道,robots其实是站点与搜索引擎蜘蛛沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分,或者指定搜索引擎只收录特定的部分。

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,可以不用建立robots.txt文件。我这里建议大家的是,网站有很多目录是用来存放静态文件比如js、css、程序主目录的,这些可以屏蔽掉。

robots.txt的写法

几乎所有的搜索引擎都是支持robots的,Google,雅虎,微软、百度、360、搜狗、神马等等。这些搜索引擎都支持的robots文件记录包括:Disallow–告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:

User-agent:*Disallow:/

Allow–告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:

User-agent:*Disallow:/ab/Allow:/ab/cd

$通配符–匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:

User-agent:*Allow:.htm$

*通配符–告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:

User-agent:*Disallow:/*.htm

Sitemaps位置–告诉蜘蛛你的网站地图在哪里,如果你的网站有xml格式的网站地图,可以把他加在robots的结尾,格式为:Sitemap:

最新行业资讯
  • 网站SEO诊断优化分析,这样做更有效04-19

    已收藏,可在中查看关注作者关注作者您可能还需要搜索雨果服务全球开店跨境平台极速入驻全球开店跨境平台极速入驻,助力卖家货销全球亚马逊开店北美/欧洲/中东Alleg……

  • 如何提升亚马逊SEO排名?这些方法别错过!04-17

    已收藏,可在中查看关注作者关注作者您可能还需要搜索雨果服务全球开店跨境平台极速入驻全球开店跨境平台极速入驻,助力卖家货销全球亚马逊开店北美/欧洲/中东Alleg……

  • 真实可复制的谷歌SEO案例分享(一)04-17

    已收藏,可在中查看关注作者关注作者您可能还需要搜索雨果服务全球开店跨境平台极速入驻全球开店跨境平台极速入驻,助力卖家货销全球亚马逊开店北美/欧洲/中东Alleg……


欢迎咨询
返回顶部