'#15. Новости : news';
'Seo_NewsController_actionView';
'#seo_news_view_';

Google объяснил ошибку «Индекс без контента»

Черновик
Информация
ID новости202
Тип родительского текстараздел
Родительская модельSEO-продвижение
НазваниеGoogle объяснил ошибку «Индекс без контента»
Полное названиеGoogle объяснил ошибку «Страница проиндексирована без контента»
Метки
Новость к разделу SEO-продвижение
Время чтения: 4мин.
Слов: 560
Знаков: 6657
Описание (тег Descriptiion)
Ошибка Google Search Console «Page Indexed without content» чаще всего связана с блокировкой Googlebot на уровне сервера или CDN, а не с JavaScript. Разбираем объяснение Джона Мюллера и что проверить в первую очередь.
Ссылка внутри новости

Внешняя ссылка:

Внешняя ссылка на изображение:

Правка модели не осуществлялась
Ключевые слова:

не определены

Контент: 2023.
Панель:
Статус: 1 - Черновик.

Фото отсутствует

Галереи, созданные для модели

Добавить галерею

Галереи, связанные с моделью

Связать галлерею
Работа со ссылкой
Модель не активирована
google-explains-page-indexed-without-content-error
Править идентификатор
/news/google-explains-page-indexed-without-content-error/
Текст

Джон Мюллер из Google разъяснил причину ошибки Search Console «Page Indexed without content» («Страница проиндексирована без контента»). По его словам, в большинстве случаев проблема связана не с JavaScript, а с блокировкой Googlebot на уровне сервера или CDN.

Такие страницы со временем начинают выпадать из индекса Google, поэтому ошибку стоит рассматривать как срочную и требующую немедленного внимания. Чаще всего блокировка происходит на уровне IP-адресов и её сложно воспроизвести с помощью внешних инструментов.

Комментарий Джона Мюллера

Обсуждение возникло на Reddit после того, как владелец сайта заметил падение главной страницы с 1-го на 15-е место в выдаче одновременно с появлением ошибки «Page Indexed without content» в Search Console.

Мюллер пояснил распространённое заблуждение о причинах этой проблемы:

По его словам, обычно это означает, что сервер или CDN блокирует Google и не отдаёт ему контент. Это не связано с JavaScript. Чаще всего речь идёт о низкоуровневой блокировке, иногда основанной на IP-адресе Googlebot, из-за чего проверить проблему снаружи, вне инструментов Search Console, практически невозможно.

Пользователь уже пытался диагностировать проблему: использовал curl с user-agent Googlebot, проверял возможные блокировки JavaScript и запускал тест расширенных результатов Google. При этом инструменты проверки для десктопа возвращали ошибку «Something went wrong», а мобильная проверка работала корректно.

Мюллер отметил, что стандартные внешние методы тестирования в таких случаях не помогают.

Он также подчеркнул:

Если это происходит, страницы сайта начнут выпадать из индекса — уже сейчас или в ближайшее время. Поэтому к этой проблеме стоит относиться как к срочной.

Технический контекст

Проблемный сайт использует Webflow в качестве CMS и Cloudflare как CDN. При этом, по словам владельца, сайт индексировался нормально, а недавних изменений в конфигурации не было.

Подобные ситуации уже неоднократно встречались на практике. Настройки сервера или CDN могут незаметно блокировать Googlebot, при этом обычные пользователи и сторонние краулеры продолжают видеть сайт без проблем. Часто такие блокировки нацелены на определённые диапазоны IP-адресов, поэтому curl-запросы и внешние сервисы не выявляют ошибку.

Когда Google впервые добавил статус «indexed without content» в отчёт об индексировании, в справке указывалось, что Google «по какой-то причине не смог прочитать контент», и подчёркивалось, что это не связано с robots.txt. Причина почти всегда находится на более низком уровне инфраструктуры.

Отдельное внимание привлекает использование Cloudflare. Ранее Мюллер уже указывал на «общую инфраструктуру» как источник проблем, когда сразу несколько сайтов с Cloudflare переставали нормально сканироваться. В данном случае картина выглядит похожей.

В отличие от массовых сбоев, таких как инцидент Cloudflare в ноябре с ростом ошибок 5xx, здесь, вероятнее всего, речь идёт о точечной проблеме — например, о правилах защиты от ботов или настройках файрвола, которые по-разному обрабатывают IP Googlebot.

Как выявить и исправить проблему

Основным инструментом для диагностики остаётся URL Inspection в Search Console и проверка «Live URL». Если они показывают ошибки, а внешние тесты — нет, наиболее вероятна блокировка на уровне сервера или CDN.

Особенно пользователям Cloudflare стоит проверить:

  • настройки Bot Management;

  • правила файрвола;

  • ограничения доступа по IP;

  • автоматические обновления или изменения дефолтных настроек.

Google публикует список IP-адресов своих краулеров, что помогает определить, не блокируются ли они правилами безопасности.

Заглядывая вперёд

Если вы видите ошибку «Page Indexed without content», начните с проверки конфигурации сервера и CDN. Инструменты Search Console дают наиболее точное представление о том, какой контент реально получает Google при сканировании страниц. Внешние сервисы не смогут выявить IP-блокировки, затрагивающие только инфраструктуру Google.