Эпоха открытых данных заканчивается. Cloudflare блокирует AI-краулеров по умолчанию и берёт с них плату на барьере 402, миллионы сайтов отказались от обучения AI, а суды переписывают правила. Здесь — исследованная карта войн за данные без лишнего шума, и почему реальные резидентские и мобильные IP остаются способом легально собирать публичные данные.
В 2026 году веб закрывается для объявленных AI-краулеров: Cloudflare блокирует их по умолчанию и добавила Pay-Per-Crawl (барьер 402), 2,5 млн+ сайтов запрещают обучение AI, а robots.txt/llms.txt — слабые средства контроля. При этом суды (hiQ, Meta против Bright Data) сохраняют законность скрейпинга публичных данных без авторизации, тогда как дела об обучении AI (Reddit против Perplexity) проверяют границы. Вывод: блокировки нацелены на ботов, которые сами себя объявляют, с датацентровых IP. Легальный сбор публичных данных через реальный браузер на резидентском/мобильном IP — как обычный посетитель, на публичных страницах, без обхода барьеров — это то, как сбор данных продолжает соответствовать нормам.
Два десятилетия правило было простым: если страница публична, краулер может её прочитать. Бум AI сломал эту договорённость. По мере того как модели становились прожорливее, объём взрывался — запросы GPTBot за год выросли на 147%, а Meta-ExternalAgent — на 843%. Трафик AI-ботов с января 2025 по март 2026 вырос более чем на 300%. Издатели заметили, что их трафик и контент потребляются для обучения конкурентов — и начали захлопывать двери.
Результат — структурный сдвиг, к которому мир скрейпинга всё ещё адаптируется: веб делится на открытые страницы, заблокированные страницы и — новое в 2026 — платные страницы. Понимать, что есть что и как именно работает блокировка, теперь часть любой серьёзной стратегии работы с данными.
Cloudflare стала первым крупным инфраструктурным провайдером, который блокирует AI-краулеров по умолчанию. Каждый новый домен теперь сразу спрашивают, можно ли AI-краулерам его сканировать. К августу 2025 года более 2,5 млн сайтов полностью запретили обучение AI — и тренд только усилился: сайты переходили от «частично запрещено» к «полностью запрещено» для GPTBot, CCBot и Google-Extended.
Блокировка AI-ботов в один клик; запрет по умолчанию для новых доменов.
Pay-Per-Crawl отдаёт 402 «Payment Required»; издатели задают тарифы, AI-компании решают, платить ли.
По согласию, с аналитикой для детального контроля по каждому краулеру.
По ранним тестам Pay-Per-Crawl на публичном датасете Stack Overflow несанкционированный трафик ботов снизился примерно на 32%, а доход от лицензирования данных вырос примерно на 27%. Cloudflare даже выпустила эндпоинт /crawl(10 марта 2026) в сервисе Browser Rendering — по иронии, сама став провайдером скрейпинга. Экономику разбираем в статье Cloudflare Pay-Per-Crawl: почему мобильные прокси теперь необходимы.
Здесь много путаницы, поэтому будем точны:
Он запрашивает поведение. GPTBot и OAI-SearchBot его соблюдают; некоторые краулеры игнорируют. Примерно для половины AI-трафика в 2026 году robots.txt — это сигнал, который игнорируют, поэтому принуждение смещается на уровень WAF/сети.
Markdown-файл, описывающий, ЧЕМ является ваш сайт, чтобы AI-модели могли по нему ориентироваться. Он не может ограничить ни одного краулера. По состоянию на Q1 2026 ни одна крупная AI-компания (OpenAI, Google, Anthropic, Meta, Mistral) не читает его в продакшене — внедрение фактически остановилось.
Категоризация ботов + правила WAF (Cloudflare, DataDome, Akamai) — вот что реально останавливает или тарифицирует краулеров, по user-agent и диапазону IP. Это слой, который выдаёт 402 или 403.
Практический вывод: объявленного AI-бота с известного датацентрового диапазона легче всего в мире заблокировать или затарифицировать. То, как вы выглядите на сетевом уровне, важнее любого текстового файла.
История с блокировкой идёт параллельно с юридической. Важны две линии:
hiQ против LinkedIn (9-й округ): скрейпинг данных, доступных без аутентификации, не является «несанкционированным доступом» по CFAA. Meta против Bright Data (январь 2024): ToS Meta запрещают только скрейпинг авторизованными пользователями, а не публичного контента без входа — Meta отозвала иск через несколько недель.
Reddit против Perplexity (конец 2025) ссылается на DMCA §1201, заявляя об обходе лимитов частоты и анти-бот-систем — дело в процессе. Авторы YouTube подали в суд на Nvidia, затем на Snap и Meta по схожим теориям §1201. Законы о приватности (ЕС, индийский DPDP Act) добавляют ещё один слой.
Линия раздела, вырисовывающаяся из прецедентов: сбор публично доступных данных без аутентификации и без обхода технических барьеров стоит на прочной почве; обход анти-бот-мер или скрейпинг за авторизацией — там, где живёт риск §1201. Полный разбор — в отдельной статье: законен ли веб-скрейпинг в 2026.
Сложите блокировку и право вместе — и вырисовывается ясный, соответствующий нормам путь. Блокировки и барьер 402 нацелены на ботов, которые сами себя объявляют — GPTBot, CCBot, Meta-ExternalAgent — по user-agent и известным датацентровым диапазонам IP. Сбор публичных страниц через реальный браузер на реальном резидентском/мобильном IP этим не является.
Угол Coronium: когда парадная дверь для AI-бота получает 402 или 403, реальные IP операторов 4G/5G позволяют собирать публичные данные как настоящий мобильный пользователь — сетевая идентичность с наивысшим доверием, в 20+ странах, с контролем над точкой выхода.
Экономика барьера 402 и почему важны мобильные прокси.
7-слойный стек обнаружения, который нужно пройти как реальный посетитель.
hiQ, Meta v Bright Data, Reddit v Perplexity и DMCA §1201.
Принуждение с августа 2026 и раскрытие данных обучения.
Реальные IP операторов для легального сбора публичных данных.
Коммерческая страница для задач скрейпинга.