четверг, 29 апреля 2010 г.
Клоакинг – это совсем не то
Клоакинг – это совсем не то, что ты подумал. К заднему проходу пернатых и пресмыкающихся это не имеет никакого отношения. Этим термином (cloaking) обозначается один очень интересный эффект, который благодаря некоторым манипуляциям, можно произвести над поисковыми системами. Идея эта конечно не нова. Дело в том, что кроме пользователей твою страничку посещает и огромное количество роботов. Эти монстры: боты, краулеры, спайдеры, да назови, как хочешь, собирают разного рода информацию о Сети и сайтах. Вот, например, TurnitinBot с IP-адресом 64.140.49.69 представляет собой краулер системы, производящей анализ всех сайтов всей сети для занесения в свою базу. Хитрые преподаватели университета Беркли придумали систему TurnitinBot, чтобы устроить веселую жизнь своим студентам. Информация, полученная ботом заносится в базу данных. Студент, написавший реферат или курсовик сначала предоставляет свои работы для проверки системе, которая производит анализ работы и если выясняется, что учащийся попросту сдул свой курсовик с какого-нибудь сайта, его работа считается плагиатом и не подлежит дальнейшему рассмотрению. Примерно так же работают и поисковые системы Яндекс, Ремблер, Гугл и тд. Сначала страницу посещает бот, который проверяет ее наличие, заносит в базу, отдает команду другому боту, который проверяет содержание и, в свою очередь, дает команду следующему боту, чтобы тот проверил, к примеру, ссылки на странице. Я не претендую на то, чтобы абсолютно правильно описать работу, производимую этими монстрами, а лишь рассказываю о принципе их действия. В каждой поисковой системе несколько ботов. Они имеют разные функции и производят анализ страницы по различным параметрам. Отличает этих монстров от обычных пользователей только два основных параметра. Это IP-адрес и тип браузера. Иными словами можно выделить робота по параметрам значения переменных REMOTE_ADDR и USER_AGENT. Это значит, что для робота можно выдавать страницу с одними параметрами, а всем остальным пользователям с другими. Смысл в том, что роботу абсолютно все равно, удобочитаемый ли текст на странице или полная ахинея. Робот анализирует, к примеру, количество ключевых слов на странице. Так надо дать ему такое содержание, которое позволит вывести эту страницу на 1-е место по нужным ключевым словам. Мало того, возможен вариант, когда сайт про хомячков будет находиться на фразу +крутое порно+ и наоборот. Вот эти манипуляции с ботами поисковых систем и называется клоакингом. Для клоакинга используются специальные скрипты. Язык скрипта может быть любой PERL, PHP и тд. Можно, например, написать такой скрипт, который бы выполнял такие действия: 1. Определить, робот посещает страницу или человек 2. Если робот, проверить REMOTE_ADDR и USER_AGENT из базы 3. Если значения этих переменных совпали, выдать страницу для роботов 4. Если этих значений нет в базе, но имеется подозрение, что на страницу зашел робот, выдать страницу для робота, а его REMOTE_ADDR и USER_AGENT занести в базу 5. Если это робот, определить какой именно и сгенерировать страницу, исходя из особенностей поисковой системы 6…. продолжишь сам, насколько хватит фантазии. Естественно поисковые системы борются с клоакингом. Есть методы, позволяющие отслеживать подобные страницы. Сайт, заподозренный в клоакинге будет немедленно внесен в бан-лист без малейшей надежды когда-либо быть проиндексированным заново. Клоакинг приводит к подрыву доверия пользователей к поисковой системе (искал про хомячков, а нашел про голых теток). Все же для повышения ранжирования страницы лучше написать правильную страницу и никого не пытаться обмануть. В любом случае, если твой сайт посвящен хомячкам, не нужно пытаться увеличить посещаемость такими методами. Раз уж сайт про хомячков, пусть будет про хомячков, а "крутое порно" оставь кому-нибудь другому. http://seo-miheeff.ru/search_engines_calculate_the_relevance_of_the_text.php
Подписаться на:
Комментарии к сообщению (Atom)
Комментариев нет:
Отправить комментарий