Примеры файлов robots.txt для вашего сайта

Файл robots.txt, хранящийся в корневом каталоге вашего веб-сайта, сообщит веб-роботам, таким как поисковые роботы, какие каталоги и файлы им разрешено сканировать. Файл robots.txt легко использовать, но есть некоторые вещи, которые вы должны помнить:

  1. Веб-роботы Blackhat будут игнорировать ваш файл robots.txt. Наиболее распространенными типами являются вредоносные роботы и роботы, которые ищут адреса электронной почты для сбора.
  2. Некоторые новые программисты пишут роботов, которые игнорируют файл robots.txt. Обычно это делается по ошибке.
  3. Любой может увидеть ваш файл robots.txt. Они всегда называются robots.txt и всегда хранятся в корне сайта. 
  4. Наконец, если кто-то ссылается на файл или каталог, который исключен вашим файлом robots.txt со страницы, которая не исключена их файлом robots.txt, поисковые системы могут его найти в любом случае.

Не используйте файлы robots.txt, чтобы скрыть что-либо важное. Вместо этого вы должны поместить важную информацию в надежные пароли или оставить ее вне Интернета полностью.

Как использовать эти образцы файлов

Скопируйте текст из примера, который ближе всего к тому, что вы хотите сделать, и вставьте его в файл robots.txt. Измените имена роботов, каталогов и файлов в соответствии с предпочитаемой конфигурацией.

Два основных файла Robots.txt

Пользователь-агент: *
Disallow: /

Этот файл говорит, что любой робот (Пользователь-агент: *) что доступ к нему должен игнорировать каждую страницу на сайте (Disallow: /).

Пользователь-агент: *
Disallow:

Этот файл говорит, что любой робот (Пользователь-агент: *) доступ к которым разрешен для просмотра каждой страницы сайта (Disallow:).

Вы также можете сделать это, оставив файл robots.txt пустым или вообще не указав его на своем сайте.

Защита определенных каталогов от роботов

Пользователь-агент: *
Disallow: / cgi-bin /
Disallow: / temp /

Этот файл говорит, что любой робот (Пользователь-агент: *) который обращается к нему, должен игнорировать каталоги / cgi-bin / и / temp / (Disallow: / cgi-bin / Disallow: / temp /).

Защитите определенные страницы от роботов

Пользователь-агент: *
Disallow: /jenns-stuff.htm
Disallow: /private.php

Этот файл говорит, что любой робот (Пользователь-агент: *) для доступа к нему следует игнорировать файлы /jenns-stuff.htm и /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php).

Запретить определенному роботу доступ к вашему сайту

Пользователь-агент: Lycos / x.x
Disallow: /

Этот файл говорит, что бот Lycos (Пользователь-агент: Lycos / x.x) не разрешен доступ нигде на сайте (Disallow: /).

Разрешить только один определенный доступ робота

Пользователь-агент: *
Disallow: /
Пользователь-агент: Googlebot
Disallow:

Этот файл сначала запрещает всех роботов, как мы делали выше, а затем явно разрешает роботу Google (Пользователь-агент: Googlebot) иметь доступ ко всему (Disallow:).

Объедините несколько строк, чтобы получить именно те исключения, которые вы хотите

Хотя лучше использовать очень инклюзивную строку User-agent, например User-agent: *, вы можете быть настолько конкретны, насколько захотите. Помните, что роботы читают файл по порядку. Таким образом, если в первых строках указано, что все роботы заблокированы от всего, а затем в файле указано, что всем роботам разрешен доступ ко всему, то роботы будут иметь доступ ко всему.

Если вы не уверены, правильно ли вы написали файл robots.txt, вы можете использовать Инструменты Google для веб-мастеров, чтобы проверить файл robots.txt или написать новый.

Ссылка на основную публикацию