Файл robots.txt в корневом каталоге сайта задает правила индексации. Можно запретить, например, некоторые разделы, если вы не желаете, чтобы они появились в поисковых системах.
Возможны два вида ограничений:
1) Файл robots.txt в корневом каталоге сервера позволяет удалить из индекса сервер целиком, отдельные директории сервера и, непосредственно перечисленные отдельные файлы.
Семантика директив в файле robots.txt:
User-agent: * Disallow: / # Удаляет из индексирования весь сервер целиком
или
User-agent: * Disallow: /cgi-bin/ # Удаляет из индексирования директорию Disallow: /info/myinfo.html # Удаляет из индексирования файл
Строка User-agent: указывает, что последующие директивы Disallow: относятся к указанному роботу. Символ * означает, что директивы предназначаются всем роботам. Если робот специфицирован непосредственно, то он рассматривает только предназначающиеся ему директивы, и не учитывает директивы, перечисленные в разделе User-agent: *.
Для указания директив непосредственно например для поисковика Webalta Crawler, необходимо задать имя робота Webalta:
User-agent: Webalta
Файл robots.txt может содержать несколько наборов директив, например, для всех роботов (*) и для некоторох роботов непосредственно, предваряемые соответствующими строками User-agent: *, User-agent:Webalta, User-agent: Googlebot, и т.д.
Количество последующих директив Disallow: не ограничено, и каждая последующая должна размещаться в новой строке. Каждая директива должна содержать только один путь или имя файла. Перечисления, например, "Disallow: /cgi-bin/ /mydir/" или "Disallow: /cgi-bin/;/mydir/" не поддерживаются.
Символ # указывает на начало комментария, и часть строки после этого символа роботом не рассматривается.
2) Мета-Теги, внутри HTML страницы позволяют ограничивать индексирование данной страницы сайта.
Мета-Тег добавляется в раздел страницы, и также как и в случае с файлом robots.txt, ограничение может относиться либо ко всем роботам, либо непосредственно к указанному.
Теги:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
или
<META NAME="WEBALTA" CONTENT="NOINDEX, NOFOLLOW">
запрещают индексировать страницу всем роботам, или только Webalta Crawler, соответственно.
Теги:
<META NAME="ROBOTS" CONTENT="NOFOLLOW">
или
<META NAME="WEBALTA" CONTENT="NOFOLLOW">
Разрешают индексировать страницу, но запрещают переходить по внешним ссылкам всем роботам, или только Webalta Crawler, соответственно.
Теги:
<META NAME="ROBOTS" CONTENT="NOINDEX">
или
<META NAME="WEBALTA" CONTENT="NOINDEX">
запрещают индексировать страницу, но позволяют переходить по внешним ссылкам всем роботам, или только Webalta Crawler, соответственно.
Также, возможно одновременное размещения нескольких Мета-Тегов, ограничивающих индексирование, как для всех роботов, так и для непосредственно указанных. В этом случае, непосредственно указанный робот Webalta Crawler принимает ограничения, как сумму из указанных ему и указанных для всех роботов.
В избранное (15) | Ссылка на статью | Просмотров: 35824 | Версия для печати | Отправить на e-mail
Только зарегистрированные пользователи могут оставлять комментарии. Авторизуйтесь или зарегистрируйтесь. |