SEO技术教程学习
重庆网站优化、网站排名服务

robots.txt文件写法,robots.txt放在哪里?

网站所有者使用/robots.txt文件向网络机器人提供有关其网站的说明; 这被称为机器人排除协议

robots.txt文件写法,robots.txt放在哪里?

它的工作原理如下:机器人想要访问网站URL,比如http://www.xusseo.com/。在此之前,它首先检查http://www.xusseo.com/robots.txt,并找到:

 User-agent: *
Disallow: /

“ User-agent: * ”表示此部分适用于所有机器人。“ Disallow:/ ”告诉机器人它不应该访问网站上的任何页面。

使用/robots.txt时有两个重要的注意事项:

  • 机器人可以忽略你的/robots.txt。特别是扫描网络以查找安全漏洞的恶意软件机器人以及垃圾邮件发送者使用的电子邮件地址收集器将不予理睬。
  • /robots.txt文件是一个公开可用的文件。任何人都可以看到您不希望机器人使用的服务器部分。

所以不要试图使用/robots.txt来隐藏信息。

本页的其余部分概述了如何在服务器上使用/robots.txt,以及一些简单的配方。要了解更多信息。

“/robots.txt”文件是一个文本文件,包含一个或多个记录。通常包含一个看起来像这样的记录:

 User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

在此示例中,排除了三个目录。

请注意,您需要为要排除的每个URL前缀单独添加“Disallow”行 – 您不能在一行中说“Disallow:/ cgi-bin / / tmp /”。此外,您可能没有记录中的空行,因为它们用于分隔多个记录。

另请注意,User-agent或Disallow行支持globbing和正则表达式 。User-agent字段中的’*’是一个特殊值,意思是“任何机器人”。具体来说,你不能拥有像“User-agent:* bot *”,“Disallow:/ tmp / *”或“Disallow:* .gif”这样的行。

您要排除的内容取决于您的服务器。未明确禁止的所有内容都被视为可以检索的公平游戏。以下是一些例子:

从整个服务器中排除所有机器人
 User-agent: *
Disallow: /
允许所有机器人完全访问
User-agent: *
Disallow:

(或者只是创建一个空的“/robots.txt”文件,或者根本不使用它)

从服务器的一部分中排除所有机器人
 User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
排除单个机器人
 User-agent: BadBot
Disallow: /
允许单个机器人
 User-agent: Google
Disallow:
User-agent: *
Disallow: /
排除除一个以外的所有文件

这当前有点尴尬,因为没有“允许”字段。简单的方法是将所有文件禁止放入一个单独的目录,比如“stuff”,并将一个文件保留在该目录上方的级别中:

 User-agent: *
Disallow: /~joe/stuff/

或者,您可以明确禁止所有不允许的页面:

 User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

robots.txt放在哪里

简短的回答:在您的Web服务器的根目录中。

当机器人查找URL的“/robots.txt”文件时,它会从URL中剥离路径组件(来自第一个单斜杠的所有内容),并将“/robots.txt”放在其位置。

因此,作为网站所有者,您需要将其放在Web服务器上的正确位置,以便生成此URL。通常,这是您放置网站主要“ index.html”欢迎页面的位置。究竟是什么,以及如何将文件放在那里,取决于您的Web服务器软件。

请记住使用全文小写的文件名:“ robots.txt ”,而不是“ Robots.TXT。

本文链接: http://www.xusseo.com/seormjc/2350.html

版权声明:本文著作权归原作者徐三seo所有,转载请注明出处,感谢!

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

重庆SEO培训徐三为您提供最专业的SEO方案

SEO十万个为什么熊掌号专题

友情链接


#