Все системы работают стабильноСтатус IP пула
Coronium Mobile Proxies
Веб-скрейпинг и AI · Опорная статья · Май 2026 · 14 мин чтения

Закрывающийся веб в 2026: как блокировка AI-краулеров и Pay-Per-Crawl изменили веб-скрейпинг

Эпоха открытых данных заканчивается. Cloudflare блокирует AI-краулеров по умолчанию и берёт с них плату на барьере 402, миллионы сайтов отказались от обучения AI, а суды переписывают правила. Здесь — исследованная карта войн за данные без лишнего шума, и почему реальные резидентские и мобильные IP остаются способом легально собирать публичные данные.

Coronium Technical Team
Опубликовано 26 мая 2026
Проверено 2026-05-29
2,5 млн+
сайтов блокируют обучение AI
402
барьер Pay-Per-Crawl
+300%
трафик AI-ботов, янв25→мар26
18,7%
сайтов блокируют GPTBot

Кратко

В 2026 году веб закрывается для объявленных AI-краулеров: Cloudflare блокирует их по умолчанию и добавила Pay-Per-Crawl (барьер 402), 2,5 млн+ сайтов запрещают обучение AI, а robots.txt/llms.txt — слабые средства контроля. При этом суды (hiQ, Meta против Bright Data) сохраняют законность скрейпинга публичных данных без авторизации, тогда как дела об обучении AI (Reddit против Perplexity) проверяют границы. Вывод: блокировки нацелены на ботов, которые сами себя объявляют, с датацентровых IP. Легальный сбор публичных данных через реальный браузер на резидентском/мобильном IP — как обычный посетитель, на публичных страницах, без обхода барьеров — это то, как сбор данных продолжает соответствовать нормам.

От открытых данных к данным за барьером

Два десятилетия правило было простым: если страница публична, краулер может её прочитать. Бум AI сломал эту договорённость. По мере того как модели становились прожорливее, объём взрывался — запросы GPTBot за год выросли на 147%, а Meta-ExternalAgent — на 843%. Трафик AI-ботов с января 2025 по март 2026 вырос более чем на 300%. Издатели заметили, что их трафик и контент потребляются для обучения конкурентов — и начали захлопывать двери.

Результат — структурный сдвиг, к которому мир скрейпинга всё ещё адаптируется: веб делится на открытые страницы, заблокированные страницы и — новое в 2026 — платные страницы. Понимать, что есть что и как именно работает блокировка, теперь часть любой серьёзной стратегии работы с данными.

Cloudflare поменяла поведение по умолчанию — и добавила платный барьер

Cloudflare стала первым крупным инфраструктурным провайдером, который блокирует AI-краулеров по умолчанию. Каждый новый домен теперь сразу спрашивают, можно ли AI-краулерам его сканировать. К августу 2025 года более 2,5 млн сайтов полностью запретили обучение AI — и тренд только усилился: сайты переходили от «частично запрещено» к «полностью запрещено» для GPTBot, CCBot и Google-Extended.

Блокировать

Блокировка AI-ботов в один клик; запрет по умолчанию для новых доменов.

Брать плату (402)

Pay-Per-Crawl отдаёт 402 «Payment Required»; издатели задают тарифы, AI-компании решают, платить ли.

Разрешить

По согласию, с аналитикой для детального контроля по каждому краулеру.

По ранним тестам Pay-Per-Crawl на публичном датасете Stack Overflow несанкционированный трафик ботов снизился примерно на 32%, а доход от лицензирования данных вырос примерно на 27%. Cloudflare даже выпустила эндпоинт /crawl(10 марта 2026) в сервисе Browser Rendering — по иронии, сама став провайдером скрейпинга. Экономику разбираем в статье Cloudflare Pay-Per-Crawl: почему мобильные прокси теперь необходимы.

robots.txt vs llms.txt: что реально контролирует AI-краулеров

Здесь много путаницы, поэтому будем точны:

robots.txt — сигнал, а не контракт

Он запрашивает поведение. GPTBot и OAI-SearchBot его соблюдают; некоторые краулеры игнорируют. Примерно для половины AI-трафика в 2026 году robots.txt — это сигнал, который игнорируют, поэтому принуждение смещается на уровень WAF/сети.

llms.txt — меню, а не замок

Markdown-файл, описывающий, ЧЕМ является ваш сайт, чтобы AI-модели могли по нему ориентироваться. Он не может ограничить ни одного краулера. По состоянию на Q1 2026 ни одна крупная AI-компания (OpenAI, Google, Anthropic, Meta, Mistral) не читает его в продакшене — внедрение фактически остановилось.

Блокировка на уровне WAF/сети — реальный контроль

Категоризация ботов + правила WAF (Cloudflare, DataDome, Akamai) — вот что реально останавливает или тарифицирует краулеров, по user-agent и диапазону IP. Это слой, который выдаёт 402 или 403.

Практический вывод: объявленного AI-бота с известного датацентрового диапазона легче всего в мире заблокировать или затарифицировать. То, как вы выглядите на сетевом уровне, важнее любого текстового файла.

Что всё ещё работает для легального сбора публичных данных

Сложите блокировку и право вместе — и вырисовывается ясный, соответствующий нормам путь. Блокировки и барьер 402 нацелены на ботов, которые сами себя объявляют — GPTBot, CCBot, Meta-ExternalAgent — по user-agent и известным датацентровым диапазонам IP. Сбор публичных страниц через реальный браузер на реальном резидентском/мобильном IP этим не является.

  • Собирайте только публичные данные без авторизации — оставайтесь на стороне hiQ / Meta-v-Bright-Data.
  • Не обходите барьеры доступа — это риск DMCA §1201; соблюдайте разумные лимиты частоты.
  • Выглядите как обычный посетитель — реальный браузерный стек на резидентском или мобильном IP оператора, а не объявленный AI-бот из облака.
  • Согласуйте весь стек — IP необходим, но недостаточен; см. как сайты обнаруживают прокси в 2026.
  • Документируйте всё — источники, проверки ToS, лимиты частоты. Соответствие нормам теперь часть процесса.

Угол Coronium: когда парадная дверь для AI-бота получает 402 или 403, реальные IP операторов 4G/5G позволяют собирать публичные данные как настоящий мобильный пользователь — сетевая идентичность с наивысшим доверием, в 20+ странах, с контролем над точкой выхода.

Частые вопросы

Собирайте публичные данные легальным способом

Когда дверь для AI-бота получает 402, реальные IP операторов 4G/5G позволяют достучаться до публичных страниц как настоящий посетитель. Выделенные 4G/5G в 20+ странах.