Файл robots.txt
19.02.2022
Зачем это нужно?
Файл robots.txt
сообщает поисковым системам
какой контент можно индексировать, а какой нет.
Важно понимать что это рекомендация, а не строгий запрет. Робот может проигнорировать этот файл, хотя популярные поисковые системы так не делают.
Disallow и Allow
- Директива
Allow
имеет преимущества надDisallow
. - Всё к чему явно не применена директива
Disallow
будет разрешено к посещению.
Вот пример в котором робот имеет доступ только страницам /about.html
и /info/faq.html
:
User-agent: *
Allow: /about.html
Allow: /info/faq.html
Disallow: /
User-agent робота
Так же можно задать правила для каждого бота в отдельности
с помощью директивы User-agent
.
Например:
# ! Пустая строка между модулями обязателена
# ! А вот пробел между дериктивой и значением нет
# Для всех
# (Запрещена индексация /info/, но разрешена индексация любых других путей)
User-agent: *
Disallow: /info/
# Только для Google и Яндекса
# (Разрешно индексировать из /info/ страницы: about.html и faq.html,
# а так же любые другие страницы не находящиеся в /info/)
User-agent: Googlebot
User-agent: YandexBot
Allow: /info/about.html
Allow: /info/faq.html
# Только для Mail.Ru
# (Любая индексация запрещена)
User-agent: Mail.Ru
Disallow: /
Значения User-agent
популярных ботов:
- Список роботов Google
- Список роботов Yandex
- Mail.Ru использует одноименного бота -
Mail.Ru
- Другие малоизвестные роботы
Другие полезные директивы
Crawl-delay
Задержка в секундах между запросами бота к серверу. Google вынес это функцию в Search Console.
User-agent: bingbot
Allow : /
Crawl-delay: 10
Sitemap
Ссылается на карту сайта (sitemap.xml
).
Sitemap: https://example.org/sitemap.xml
Host
Позволяет указать зеркала сайта. Пока поддерживается только Яндексом.
Host: example2.net
Host: www.examp.su
Ссылки
Содержание