При самостоятельном создании интернет-ресурса необходимо внимательно следить за восприятием его как посетителями, так и поисковиками. Одной из таких «мелочей» является создание файла robots.txt. Если вы не хотите чтобы каждый пользователь Всемирной паутины смог увидеть секретную информацию, к примеру, пароли то вам необходимо создать правильный robots.txt, «разрешающий» поисковым роботам просматривать те или иные файлы. В качестве примера, мы рассмотрим создание текстового файла для систем управления веб-ресурсом под системой управления сайтомJoomla, а также рассмотрим отличия при создании файла для Google и Яндекс.
Robots.txt для Joomla
Создаем правильный Robots.txt для CMS Joomla вместе, так как если вы отнесетесь небрежно к созданию файла в корне вашего веб-ресурса, то вам придется смириться с индексацией «мусорных» страниц или размещением одной и той же статьи по разным адресам, что снизит их уникальность.
Начинайте создавать файл с главной директивы – User-agent, содержащей название поискового робота для которого этот файл создан. Если вместо него вы поставите *, то это будет означать что любой поисковый робот может индексировать страницы сайта.
Следующими рассматриваемыми директивами являются Allow и Disallow. «Разрешающая» и «запрещающая» команда соответственно. Стандарт исключений для роботов должен содержать минимум одну запрещающую просмотр страниц директиву, к примеру, administrator.
Создавая robots.txt для Яндекс не забудьте указать главное зеркало вашего проекта с помощью команды Host.
Использование директивы Sitemap ускорит индексацию вашего сайта, т.к. она отсылает поискового робота к карте сайта (файлу в формате .xml).
Перед тем как разместить сайт, еще раз проверьте созданный управляющий файл. Дело в том, что CMS Joomla автоматически прописывает директорию Disallow: /images/, запрещающую специальным поисковым роботам Яндекс и Google, которые рассчитаны на индексацию изображений, новостей и т.д. просматривать соответствующие файлы.
Создание robots.txt для других CMS
Создание управляющего поисковыми роботами файла для других систем управления содержимым веб-сайта имеет определенные отличия. К примеру, запрещающая директива для системы управления контентом Worapress будет иметь следующий вид: Disallow: /wp-admin/. Поэтому перед созданием robots.txt ознакомьтесь с особенностями используемой CMS.