Файл robots.txt

19.02.2022

Зачем это нужно?

Файл robots.txt сообщает поисковым системам какой контент можно индексировать, а какой нет.

Важно понимать что это рекомендация, а не строгий запрет. Робот может проигнорировать этот файл, хотя популярные поисковые системы так не делают.

Disallow и Allow

Директива Allow имеет преимущества над Disallow.
Всё к чему явно не применена директива Disallow будет разрешено к посещению.

Вот пример в котором робот имеет доступ только страницам /about.html и /info/faq.html:

User-agent: *
Allow: /about.html
Allow: /info/faq.html
Disallow: /

User-agent робота

Так же можно задать правила для каждого бота в отдельности с помощью директивы User-agent.

Например:

# ! Пустая строка между модулями обязателена
# ! А вот пробел между дериктивой и значением нет

# Для всех
# (Запрещена индексация /info/, но разрешена индексация любых других путей)
User-agent: *
Disallow: /info/


# Только для Google и Яндекса
# (Разрешно индексировать из /info/ страницы: about.html и faq.html,
# а так же любые другие страницы не находящиеся в /info/)
User-agent: Googlebot
User-agent: YandexBot
Allow: /info/about.html
Allow: /info/faq.html


# Только для Mail.Ru
# (Любая индексация запрещена)
User-agent: Mail.Ru
Disallow: /

Значения User-agent популярных ботов:

Список роботов Google
Список роботов Yandex
Mail.Ru использует одноименного бота - Mail.Ru
Другие малоизвестные роботы

Другие полезные директивы

Crawl-delay

Задержка в секундах между запросами бота к серверу. Google вынес это функцию в Search Console.

User-agent: bingbot
Allow : /
Crawl-delay: 10

Sitemap

Ссылается на карту сайта (sitemap.xml).

Sitemap: https://example.org/sitemap.xml

Host

Позволяет указать зеркала сайта. Пока поддерживается только Яндексом.

Host: example2.net
Host: www.examp.su

Ссылки

Стандарт исключений для роботов - Wikipedia

Содержание