Там, где останавливаются боты

Сообщество SEO’шников славится множеством различных мнений относительно обьема текста, индексируемого поисками на единичной web-странице.

Вопрос в том, насколько большой должна быть оптимизированая страница и где баланс между “слишком маленькой” страницей, которую поисковики сочтут неинформативной, и “слишком большой” страницей, на которой потенциально важный контент может остаться без внимания поисковиков? Насколько я знаю, еще никто не пытался ответить на этот вопрос с помощью собственного эксперимента.

Участники SEO форумов обычно ограничиваются цитированием рекоммендаций, опубликованых самими поисковиками. До сих пор святая уверенность SEO сообщества в то, что лидирующие поисковики ограничивают объем индексируемого текста пресловутой сотней килобайт, заставляет их клиентов чесать голову в попытках понять что делать с текстом, который выходит за эти рамки.

Эксперимент

Когда я решил поставить эксперимент, чтобы ответить на этот вопрос опытным путем, моими целями были:

  • Определить объем текста на странице, фактически индексируемого и кешируемого поисковиками.
  • Вычислить объем индексируемого текста, в зависимости от общего размера страницы.

Вот как проходил эксперимент. Я взял 25 страниц различного размера (от 45кб до 4151кб), ввел уникальные, несуществующие ключевые слова на каждую страницу с интервалами в 10кб (приблизительно через каждые 10000 символов (прим.пер.)). Ключевые слова генерировались автоматически, специально для эксперимента, и служили метками глубины индексации. Затем страницы были опубликованы, и я пошел сделать себе кофе, ибо ожидание прихода поисковиков обещало быть долгим (это же сколько надо было выпить кофе! (прим.пер.)).

Наконец-то я увидел следы ботов Большой Тройки (Google, Yahoo, MSN) в логах сервера. Логи сервера дали мне искомую информацию для успешного проведения эксперемента.

Важно заметить, что я использовал специальные, экспериментальные страницы для этого теста. Эти страницы находятся на домене, который я зарезервировал для подобных экспериментов, и содержат только текст с ключевыми словами, которые мне нужны для теста. Если человеку случится попасть на эти страницы, наполненые бессмысленой абракадаброй и ключевыми словами, то его брови немедленно поползут наверх, но люди – совсем нежеланная аудитория здесь.

После того как я просмотрел логи и убедился в том, что боты поисковиков заглядывали, единственное что мне осталось сделать – это проверить ранжирование в выдаче для каждой экпериментальной страницы по каждому ключевому слову, использованому мной. Для этого я использовал Web CEO Ranking Checker. Как вы наверное догадались, если поисковики индексируют только часть страницы, то в выдаче она будет фигурировать только по тем ключевым словам, которые были выше сканируемого лимита.

Результаты

Этот график показывает где Большая Тройка перестала выдавать мои тестовые страницы:

ranking

Сейчас, когда у меня есть информация о количестве текста на странице, скачанного поисковыми ботами, я могу вычислить длину текста на странице, индексируемого поисковиками. Поверьте мне, результаты неожиданны – мягко говоря. Но тем более приятно поделиться ими со всеми, кто интересуется этими животрепещущеми вопросами поисковой оптимизации.

yahoo

Второе место принадлежит Великому (по качеству поиска) и Ужасному (по своему отношению к SEO) Google. Googlebot может утащить на свои бесчисленые сервера больше 600кб информации. Но в то же самое время в выдаче Google присутствуют только те страницы, на которых ключевые слова были расположены не далее чем 520кб от начала страницы. Страница именно такого размера, по мнению Google, является наиболее информативной и дает максимум полезной информации посетителям, не заставляя их углубляться в нескончаемые тексты.

Этот график показывает сколько информации индексирует Google на тестовых страницах.

google

Абсолютный чемпион по глубине индексирования – MSN. MSNbot может скачать до 1.1МБ текста с одной страницы. Самое главное, что он индексирует весь этот текст и выдает его в результатах. Если размер страницы больше 1.1МБ, то контент, присутствующий ниже лимита, останется неиндексированым.

Вот как MSN работает с тестовыми страницами:

msn

MSN повел себя удивительным образом во время первого визита на страницы. Если страница была меньше 170кб, она была отлично показана в выдаче. Любые другие страницы, превышающие этот барьер, не были представлены в выдаче вобще, несмотря на то что MSN скачать и полностью.

Казалось, что если размер страницы превышает 170кб, то у нее фактически нет шансов появиться в выдаче. Однако через 4-5 недель большие страницы стали появляться в результатах, раскрывая возможность поисковика индексировать большие страницы со временем. Это заставляет меня думать, что скорость индексирования MSN зависит от размера страницы. Так что, если вы хотите чтобы часть информации на вашем сайте присутствовала в выдаче MSN как можно скорее – расположите ее на страницах с “весом” меньше чем 170кб.

Суммарный график показывает сколько информации скачивают поисковики и сколько затем сохраняют в своих индексах.

table

Таким образом, эксперемент подтвердил факт того, что лидирующие поисковые системы значительно различаются в обьеме информации на странице, который они фактически могут просканировать. Для Yahoo лимит составляет 210кб, для Google 520кб, а для MSN – 1030кб. Страницы меньшего обьема индексируются полностью, большего же не индексируются вобще.

Выходя за рамки

Получается, что это плохо, располагать на своем сайте тексты, выходящие за лимит индексирования поисковиков?

Конечно же нет! Если текста будет больше, чем поисковик может индексировать, это не повредит вашим позициям в выдаче. Но скорее всего и не поможет. Если информация важна и полезна вашим посетителям – не сомневайтесь и оставляйте ее на странице.

Впрочем, существует широко распространенное мнение что поисковики уделяют больше внимания словам, расположеным в начале и в конце страницы. Другими словами, если на вашей странице есть фраза “теннисный мяч” и она расположена в первом и в последнем абзаце страницы, то у нее будет существенно больший вес для выдачи чем у той же фразы, написанной дважды где-нибудь по середине текста.

Если вы хотите воспользоваться этой рекоммендацией, но размеры вашего текста выходят за рамки индексирования, важным моментом будет помнить что последним абзацем будет не то место, где вы закончили писать, а тот лимит, где поисковик закончил индексировать вашу страницу.

Перевод статьи Serge Bondar – Search Engine Indexing Limit: Where Do the Bots Stop.

Эта запись была опубликована в рубрике SEO. Вы можете следить за комментариями к этой записи.

Комментарии

  1. Андрей написал:

    Хорошая работа, системный подход, все очень основательно, спасибо!

  2. Ваня написал:

    Я начинающий-эта статья представляет для меня огромный интерес.Спасибо!

  3. Rainman&Natali написал:

    Спасибо!
    Статью сохранил у себя, очень полезная вещь.Особенно о особенностях Google :)

  4. Alexei A. Korolev написал:

    просто отличный опыт

  5. Maximus325 написал:

    Мега респект, всегда было интересно, но никогда не хватало терпения и системного подхода осуществить подобный эксперимент.
    Как насчёт Яндекса и Рамблера? Будут опыты?

  6. neutrino написал:

    [quote post="98"]Как насчёт Яндекса и Рамблера? Будут опыты?[/quote]

    Maximus325, ты последнюю строку читал? :)

  7. Murman написал:

    Непонятно, это про гольный текст или все вместе с картинками. Роботы вроде бы для индексации качают только текст, так что считаем, что это текст.

    Если 210K гольного текста – это очень много: 210000/4/7 = 7500 слов (при 7 букв в слове). Попробуйте написать хороший текст на 7500 слов.

    Для примера: в Word текст 1050 слов (7600 знаков с пробелами) набранный Verdana 9 и прилично оформленный (с полями, отступами, короткими абзацами) занимает 2.5 страницы A4. Т.е. это 6-8 экранов как минимум в HTML верстке.

    Автору и переводчику, конечно, респект и зачот, но вывод такой — любой текст нормального размера проходит.

  8. neutrino написал:

    to Murman

    Подозреваю что это вместе с кодом. Так что не все так однозначно.

  9. Murman написал:

    Да, это верно.

    Берем долю полезного текста в HTML коде 50%, все равно 3000 слов, что достаточно.

    Статья полезная, нужно знать верхний предел, хорошо что он большой. Еще один вывод — для больших текстов надо делать верстку проще.

  10. neutrino написал:

    to Murman

    Ну а если уж совсем не получается сделать верстку проще – хотя бы располагать контент максимально “высоко” в коде.

  11. muar написал:

    под размером страницы, как я понимаю, подразумевается только html код?
    если на страничке картинки по мегабайту то это не страшно? :)

  12. neutrino написал:

    to muar

    На сколько я знаю, то да.

  13. GreenGo написал:

    Мегареспект! Статья очень понравилась.

  14. Суперфон написал:

    Отличная, оснавательная статья. Спасибо за её перевод. +1

  15. Alex написал:

    Ну, беспокоиться особо не о чем, потому как такие размеры страниц в рунете бывают у блогов с длинной веткой коммпентариев. Тем более часть применяется деление больших объемов текста на отдельные страницы, так что в принципе проблема пропадает.

    А вообще довольно интересное исследование.

  16. Zpirit написал:

    Спасибо! Даже и не догадывался об этой проблеме! Теперь во всеоружии! ;)

  17. Андрей написал:

    спасибо за интересную статью.

  18. 69from написал:

    А какой объем страницы видит Яндекс?

  19. Dan Sokolov написал:

    Большое спасибо за материал!
    Давно искал эти экспериментальные данные.

  20. Dota написал:

    Всё таки хочется увидеть эксперименты с Яндексом, буду ждать! Спасибо вам за замечательный материал!

Leave a Reply

Your email is never published nor shared. Required fields are marked *

*

You may use these HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>