- N +

robots文件

    整个网站不能收录或某个目录下所有页面都不能收录,经常是因为robots.txt文件出差错起的。网站工具抓取工具权限部分显示出Google所抓取的robots文件内容。

    robots文件中的任何一个字母差错都可能造成致命影响。站长应该检查robots文件中的每一行代码正确,不会错误禁止应该被收录的文件或目录。

    在编写robots.txt文件之前,首先我们需要了解什么是robots.txt文件。robots.txt文件是指定给搜索引擎spider程序的收录规则。一般情况下搜索引擎spider程序自动访问互联网上的网站时,会首先检查该网站根目录下是否有robots.txt文件,这个文件用于指定spider对网站的抓取范围,如果没有robots.txt文件或robots.txt文件为空则表示允许spider抓取网站上所有内容。

    其次我们需要把robots.txt文件放在正确的位置。robots.txt文件应放置在网站根目录下,例如何昌全博客(https://www.jhmsk.com/)相应的robots.txt文件的地址为:https://www.jhmsk.com/robots.txt

    那么,我们开始学习正确的robots.txt文件编写规则。

robots文件

    正确的robots.txt文件用法举例:

    1、禁止所有搜索引擎抓取网站的任何部分

    User-agent:*

    Disallow:/

    请注意!有一些新手朋友正是误把以上robots规则理解为允许所有搜索引擎抓取网站的任何部分,导致搜索引擎不收录网站。

    2、允许所有的spider抓取(或者也可以建一个空的robots.txt文件)

    User-agent:*

    Allow:/

    以上robots规则是允许所有搜索引擎抓取网站的任何部分,但为避免错误,建议建一个空的robots.txt文件即可。

    3、禁止spider抓取特定目录

    User-agent:*

    Disallow:/a/

    Disallow:/b/

    Disallow:/c/

    以上例子,禁止所有的spider抓取a、b、c目录。这个规则我们最常用到,比如网站的程序后台、程序目录等都可以禁止spider抓取,以减少spider无意义的浪费我们的空间资源。


返回列表
上一篇:SEO首选域设置
下一篇:301转向
网站SEO优化|网站定制留言

想让您帮忙看下robots文件 2021-08-10 11:48:21

您好,我是北京的一名SEO优化师,想让您帮忙看下我的robots文件书写的对吗,最近抓取频率很低,是这个robots文件书写不对吗?