Использование файла robots.txt очень полезно для предотвращения индексации различных областей вашего сайта, в целях закрыть их веб-кравлеров.\
Приведенный ниже пример запрещает доступ веб-кравлеров к нескольким каталогам в корневой части папки public_html.
Это может быть полезно для большого сайта, так как на ненужные папки не будут тратить циклы проверки, и вместо них будут проиндексированы только важные страницы.
robot.txt:
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /cache/ Disallow: /class/ Disallow: /images/ Disallow: /include/ Disallow: /install/ Disallow: /kernel/ Disallow: /language/ Disallow: /templates_c/ Disallow: /themes/ Disallow: /uploads/
Приведенный ниже пример очень хорошо подходит для WordPress-сайта.
🔐 Как защитить конкретную страницу паролем в Apache, Nginx, WordPress, на хостинге?
User-agent * Disallow: /wp-admin/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /readme.html Disallow: /refer/ Allow /wp-admin/admin-ajax.php Sitemap: sitemap.xml
Это отличный способ оптимизировать работу Google с сайтом и не дать ему тратить время на индексацию ненужных файлов.
А это еще одна версия, запрещающая определенные папки.
Это можно использовать для того, чтобы разрешить одни папки и запретить другие.
# Default robots file version:2 User-agent: * Disallow: /calendar/action* Disallow: /events/action* Allow: /*.css Allow: /*.js Disallow: /*? Crawl-delay:
И, наконец, вот как заблокировать доступ определенных ботов к вашему сайту.
# # Disallow Money for Google News User-agent: Googlebot-News Disallow: /tmoney/* # # Allow Adsense User-agent: Mediapartners-Google Disallow: # # User-agent: CrystalSemanticsBot Disallow: / # User-agent: GPTBot Disallow: / #
|
Или используйте это в файле .htaccess.
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^.*(Baiduspider|HTTrack|Yandex).*$ [NC] RewriteRule .* – [F,L]
- Как защитить каталог с помощью .htaccess и htpasswd (Apache httpd)
- 🌐 Apache: Запрет доступа к URL, файлам и каталогам
- 🌐 Как разрешить в Apache только методы GET и POST