Сообщество SEO’шников славится множеством различных мнений относительно обьема текста, индексируемого поисками на единичной web-странице.
Вопрос в том, насколько большой должна быть оптимизированая страница и где баланс между “слишком маленькой” страницей, которую поисковики сочтут неинформативной, и “слишком большой” страницей, на которой потенциально важный контент может остаться без внимания поисковиков? Насколько я знаю, еще никто не пытался ответить на этот вопрос с помощью собственного эксперимента.
Участники SEO форумов обычно ограничиваются цитированием рекоммендаций, опубликованых самими поисковиками. До сих пор святая уверенность SEO сообщества в то, что лидирующие поисковики ограничивают объем индексируемого текста пресловутой сотней килобайт, заставляет их клиентов чесать голову в попытках понять что делать с текстом, который выходит за эти рамки.
Эксперимент
Когда я решил поставить эксперимент, чтобы ответить на этот вопрос опытным путем, моими целями были:
- Определить объем текста на странице, фактически индексируемого и кешируемого поисковиками.
- Вычислить объем индексируемого текста, в зависимости от общего размера страницы.
Вот как проходил эксперимент. Я взял 25 страниц различного размера (от 45кб до 4151кб), ввел уникальные, несуществующие ключевые слова на каждую страницу с интервалами в 10кб (приблизительно через каждые 10000 символов (прим.пер.)). Ключевые слова генерировались автоматически, специально для эксперимента, и служили метками глубины индексации. Затем страницы были опубликованы, и я пошел сделать себе кофе, ибо ожидание прихода поисковиков обещало быть долгим (это же сколько надо было выпить кофе! (прим.пер.)).
Наконец-то я увидел следы ботов Большой Тройки (Google, Yahoo, MSN) в логах сервера. Логи сервера дали мне искомую информацию для успешного проведения эксперемента.
Важно заметить, что я использовал специальные, экспериментальные страницы для этого теста. Эти страницы находятся на домене, который я зарезервировал для подобных экспериментов, и содержат только текст с ключевыми словами, которые мне нужны для теста. Если человеку случится попасть на эти страницы, наполненые бессмысленой абракадаброй и ключевыми словами, то его брови немедленно поползут наверх, но люди – совсем нежеланная аудитория здесь.
После того как я просмотрел логи и убедился в том, что боты поисковиков заглядывали, единственное что мне осталось сделать – это проверить ранжирование в выдаче для каждой экпериментальной страницы по каждому ключевому слову, использованому мной. Для этого я использовал Web CEO Ranking Checker. Как вы наверное догадались, если поисковики индексируют только часть страницы, то в выдаче она будет фигурировать только по тем ключевым словам, которые были выше сканируемого лимита.
Результаты
Этот график показывает где Большая Тройка перестала выдавать мои тестовые страницы:

Сейчас, когда у меня есть информация о количестве текста на странице, скачанного поисковыми ботами, я могу вычислить длину текста на странице, индексируемого поисковиками. Поверьте мне, результаты неожиданны – мягко говоря. Но тем более приятно поделиться ими со всеми, кто интересуется этими животрепещущеми вопросами поисковой оптимизации.

Второе место принадлежит Великому (по качеству поиска) и Ужасному (по своему отношению к SEO) Google. Googlebot может утащить на свои бесчисленые сервера больше 600кб информации. Но в то же самое время в выдаче Google присутствуют только те страницы, на которых ключевые слова были расположены не далее чем 520кб от начала страницы. Страница именно такого размера, по мнению Google, является наиболее информативной и дает максимум полезной информации посетителям, не заставляя их углубляться в нескончаемые тексты.
Этот график показывает сколько информации индексирует Google на тестовых страницах.

Абсолютный чемпион по глубине индексирования – MSN. MSNbot может скачать до 1.1МБ текста с одной страницы. Самое главное, что он индексирует весь этот текст и выдает его в результатах. Если размер страницы больше 1.1МБ, то контент, присутствующий ниже лимита, останется неиндексированым.
Вот как MSN работает с тестовыми страницами:

MSN повел себя удивительным образом во время первого визита на страницы. Если страница была меньше 170кб, она была отлично показана в выдаче. Любые другие страницы, превышающие этот барьер, не были представлены в выдаче вобще, несмотря на то что MSN скачать и полностью.
Казалось, что если размер страницы превышает 170кб, то у нее фактически нет шансов появиться в выдаче. Однако через 4-5 недель большие страницы стали появляться в результатах, раскрывая возможность поисковика индексировать большие страницы со временем. Это заставляет меня думать, что скорость индексирования MSN зависит от размера страницы. Так что, если вы хотите чтобы часть информации на вашем сайте присутствовала в выдаче MSN как можно скорее – расположите ее на страницах с “весом” меньше чем 170кб.
Суммарный график показывает сколько информации скачивают поисковики и сколько затем сохраняют в своих индексах.

Таким образом, эксперемент подтвердил факт того, что лидирующие поисковые системы значительно различаются в обьеме информации на странице, который они фактически могут просканировать. Для Yahoo лимит составляет 210кб, для Google 520кб, а для MSN – 1030кб. Страницы меньшего обьема индексируются полностью, большего же не индексируются вобще.
Выходя за рамки
Получается, что это плохо, располагать на своем сайте тексты, выходящие за лимит индексирования поисковиков?
Конечно же нет! Если текста будет больше, чем поисковик может индексировать, это не повредит вашим позициям в выдаче. Но скорее всего и не поможет. Если информация важна и полезна вашим посетителям – не сомневайтесь и оставляйте ее на странице.
Впрочем, существует широко распространенное мнение что поисковики уделяют больше внимания словам, расположеным в начале и в конце страницы. Другими словами, если на вашей странице есть фраза “теннисный мяч” и она расположена в первом и в последнем абзаце страницы, то у нее будет существенно больший вес для выдачи чем у той же фразы, написанной дважды где-нибудь по середине текста.
Если вы хотите воспользоваться этой рекоммендацией, но размеры вашего текста выходят за рамки индексирования, важным моментом будет помнить что последним абзацем будет не то место, где вы закончили писать, а тот лимит, где поисковик закончил индексировать вашу страницу.
Перевод статьи Serge Bondar – Search Engine Indexing Limit: Where Do the Bots Stop.
Хорошая работа, системный подход, все очень основательно, спасибо!
Я начинающий-эта статья представляет для меня огромный интерес.Спасибо!
Спасибо!
Статью сохранил у себя, очень полезная вещь.Особенно о особенностях Google :)
просто отличный опыт
Мега респект, всегда было интересно, но никогда не хватало терпения и системного подхода осуществить подобный эксперимент.
Как насчёт Яндекса и Рамблера? Будут опыты?
[quote post="98"]Как насчёт Яндекса и Рамблера? Будут опыты?[/quote]
Maximus325, ты последнюю строку читал? :)
Непонятно, это про гольный текст или все вместе с картинками. Роботы вроде бы для индексации качают только текст, так что считаем, что это текст.
Если 210K гольного текста – это очень много: 210000/4/7 = 7500 слов (при 7 букв в слове). Попробуйте написать хороший текст на 7500 слов.
Для примера: в Word текст 1050 слов (7600 знаков с пробелами) набранный Verdana 9 и прилично оформленный (с полями, отступами, короткими абзацами) занимает 2.5 страницы A4. Т.е. это 6-8 экранов как минимум в HTML верстке.
Автору и переводчику, конечно, респект и зачот, но вывод такой — любой текст нормального размера проходит.
to Murman
Подозреваю что это вместе с кодом. Так что не все так однозначно.
Да, это верно.
Берем долю полезного текста в HTML коде 50%, все равно 3000 слов, что достаточно.
Статья полезная, нужно знать верхний предел, хорошо что он большой. Еще один вывод — для больших текстов надо делать верстку проще.
to Murman
Ну а если уж совсем не получается сделать верстку проще – хотя бы располагать контент максимально “высоко” в коде.
под размером страницы, как я понимаю, подразумевается только html код?
если на страничке картинки по мегабайту то это не страшно? :)
to muar
На сколько я знаю, то да.
Мегареспект! Статья очень понравилась.
Отличная, оснавательная статья. Спасибо за её перевод. +1
Ну, беспокоиться особо не о чем, потому как такие размеры страниц в рунете бывают у блогов с длинной веткой коммпентариев. Тем более часть применяется деление больших объемов текста на отдельные страницы, так что в принципе проблема пропадает.
А вообще довольно интересное исследование.
Спасибо! Даже и не догадывался об этой проблеме! Теперь во всеоружии! ;)
спасибо за интересную статью.
А какой объем страницы видит Яндекс?
К сожалению не обладаю такой информацией
Большое спасибо за материал!
Давно искал эти экспериментальные данные.
Всё таки хочется увидеть эксперименты с Яндексом, буду ждать! Спасибо вам за замечательный материал!