Что такое Cloudflare Pay-Per-Crawl?

Pay-Per-Crawl — это маркетплейс Cloudflare, где издатели могут брать с AI-компаний плату за каждое сканирование страницы. Технически идентифицированным AI-краулерам отдаётся ответ 402 «Payment Required» вместо простого «разрешить» или «заблокировать» — третий вариант: брать плату. Издатели сами устанавливают тарифы; AI-компании решают, платить ли. По ранним тестам на публичном датасете Stack Overflow несанкционированный трафик ботов снизился примерно на 32%, а доход от лицензирования данных вырос примерно на 27%. Подробный разбор — в нашей статье о Cloudflare Pay-Per-Crawl и мобильных прокси.

Действительно ли robots.txt или llms.txt останавливают AI-краулеров?

robots.txt — это сигнал, а не контракт, и примерно для половины AI-трафика в 2026 году этот сигнал игнорируется. GPTBot и OAI-SearchBot соблюдают robots.txt; некоторые другие краулеры — нет. llms.txt — это совсем другое: Markdown-сводка, описывающая, ЧЕМ является ваш сайт; она не может ограничить ни одного краулера, и по состоянию на Q1 2026 ни одна крупная AI-компания (OpenAI, Google, Anthropic, Meta, Mistral) не читает его в продакшене. Реальное принуждение всё чаще происходит на уровне сети/WAF, а не в текстовом файле.

Почему это делает резидентские и мобильные IP важнее, а не наоборот?

Блокировка и барьер 402 нацелены на идентифицированных AI-краулеров — GPTBot, CCBot, Meta-ExternalAgent — по user-agent и известным диапазонам IP. Легальный сбор публично доступных данных через обычный браузер на реальном резидентском или мобильном IP оператора не выглядит как эти боты. Когда путь «датацентровый IP + объявленный AI-бот» блокируется или тарифицируется, путь реального пользователя с высоким доверием — это то, как продолжается соответствующий нормам сбор публичных данных. Это разница между стуком в парадную дверь с табличкой «AI-бот» и входом как обычный посетитель.

Законен ли сбор публичных веб-данных в 2026 году?

Скрейпинг публично видимых данных, не требующих входа в систему или обхода защиты, в целом законен в США. Дело hiQ против LinkedIn (9-й апелляционный округ) постановило, что скрейпинг данных, доступных без аутентификации, не является «несанкционированным доступом» по CFAA. Дело Meta против Bright Data (январь 2024) усилило это — суд решил, что ToS Meta запрещают только скрейпинг авторизованными пользователями, а не скрейпинг публичного контента без авторизации, и Meta отозвала иск. Новый фронт — это обучение AI: Reddit подал в суд на Perplexity (конец 2025) по DMCA §1201, заявляя об обходе анти-бот-защиты, а авторы YouTube судятся с Nvidia/Meta/Snap. Правила вокруг данных для обучения AI всё ещё пишутся.

Каков безопасный способ собирать публичные веб-данные сейчас?

Документируйте источники, проверяйте ToS на наличие пунктов про AI, соблюдайте разумные лимиты частоты, собирайте только публично доступные (без авторизации) данные и не обходите технические барьеры доступа (риск DMCA §1201). На стороне инфраструктуры используйте реальные резидентские/мобильные IP и реальный браузерный стек, чтобы собирать публичные страницы как обычный посетитель, а не как объявленный бот для обучения AI. Встройте соответствие нормам в рабочий процесс — безопасно работают те команды, которые могут показать, как и что они собирали.

Все системы работают стабильно•Статус IP пула

Свяжитесь с нами:@coroniumio

Войти

Вход в панель / Регистрация Руководство по покупке Все прокси

Связаться с нами

Политика конфиденциальности Условия использования

Веб-скрейпинг и AI · Опорная статья · Май 2026 · 14 мин чтения

Закрывающийся веб в 2026: как блокировка AI-краулеров и Pay-Per-Crawl изменили веб-скрейпинг

Q: Действительно ли открытый веб закрывается для AI-краулеров в 2026 году?

Отчасти да. Cloudflare — через которую проходит значительная доля веба — стала первым крупным инфраструктурным провайдером, блокирующим AI-краулеров по умолчанию, и теперь спрашивает каждый новый домен, разрешать ли их. К августу 2025 года более 2,5 млн сайтов полностью запретили обучение AI через управляемый robots.txt от Cloudflare, и это число выросло. Около 18,7% всех сайтов теперь блокируют именно GPTBot. Эпоха «бесплатного для всех» AI-скрейпинга закончилась для сайтов, которые отказались участвовать.

Эпоха открытых данных заканчивается. Cloudflare блокирует AI-краулеров по умолчанию и берёт с них плату на барьере 402, миллионы сайтов отказались от обучения AI, а суды переписывают правила. Здесь — исследованная карта войн за данные без лишнего шума, и почему реальные резидентские и мобильные IP остаются способом легально собирать публичные данные.

Coronium Technical Team

Опубликовано 26 мая 2026

Проверено 2026-05-29

2,5 млн+

сайтов блокируют обучение AI

402

барьер Pay-Per-Crawl

+300%

трафик AI-ботов, янв25→мар26

18,7%

сайтов блокируют GPTBot

Кратко

В 2026 году веб закрывается для объявленных AI-краулеров: Cloudflare блокирует их по умолчанию и добавила Pay-Per-Crawl (барьер 402), 2,5 млн+ сайтов запрещают обучение AI, а robots.txt/llms.txt — слабые средства контроля. При этом суды (hiQ, Meta против Bright Data) сохраняют законность скрейпинга публичных данных без авторизации, тогда как дела об обучении AI (Reddit против Perplexity) проверяют границы. Вывод: блокировки нацелены на ботов, которые сами себя объявляют, с датацентровых IP. Легальный сбор публичных данных через реальный браузер на резидентском/мобильном IP — как обычный посетитель, на публичных страницах, без обхода барьеров — это то, как сбор данных продолжает соответствовать нормам.

На этой странице

Сдвиг
Cloudflare и Pay-Per-Crawl
robots.txt vs llms.txt
Юридический фронт
Что всё ещё работает
FAQ

От открытых данных к данным за барьером

Два десятилетия правило было простым: если страница публична, краулер может её прочитать. Бум AI сломал эту договорённость. По мере того как модели становились прожорливее, объём взрывался — запросы GPTBot за год выросли на 147%, а Meta-ExternalAgent — на 843%. Трафик AI-ботов с января 2025 по март 2026 вырос более чем на 300%. Издатели заметили, что их трафик и контент потребляются для обучения конкурентов — и начали захлопывать двери.

Результат — структурный сдвиг, к которому мир скрейпинга всё ещё адаптируется: веб делится на открытые страницы, заблокированные страницы и — новое в 2026 — платные страницы. Понимать, что есть что и как именно работает блокировка, теперь часть любой серьёзной стратегии работы с данными.

Cloudflare поменяла поведение по умолчанию — и добавила платный барьер

Cloudflare стала первым крупным инфраструктурным провайдером, который блокирует AI-краулеров по умолчанию. Каждый новый домен теперь сразу спрашивают, можно ли AI-краулерам его сканировать. К августу 2025 года более 2,5 млн сайтов полностью запретили обучение AI — и тренд только усилился: сайты переходили от «частично запрещено» к «полностью запрещено» для GPTBot, CCBot и Google-Extended.

Блокировать

Блокировка AI-ботов в один клик; запрет по умолчанию для новых доменов.

Брать плату (402)

Pay-Per-Crawl отдаёт 402 «Payment Required»; издатели задают тарифы, AI-компании решают, платить ли.

Разрешить

По согласию, с аналитикой для детального контроля по каждому краулеру.

По ранним тестам Pay-Per-Crawl на публичном датасете Stack Overflow несанкционированный трафик ботов снизился примерно на 32%, а доход от лицензирования данных вырос примерно на 27%. Cloudflare даже выпустила эндпоинт /crawl(10 марта 2026) в сервисе Browser Rendering — по иронии, сама став провайдером скрейпинга. Экономику разбираем в статье Cloudflare Pay-Per-Crawl: почему мобильные прокси теперь необходимы.

robots.txt vs llms.txt: что реально контролирует AI-краулеров

Здесь много путаницы, поэтому будем точны:

robots.txt — сигнал, а не контракт

Он запрашивает поведение. GPTBot и OAI-SearchBot его соблюдают; некоторые краулеры игнорируют. Примерно для половины AI-трафика в 2026 году robots.txt — это сигнал, который игнорируют, поэтому принуждение смещается на уровень WAF/сети.

llms.txt — меню, а не замок

Markdown-файл, описывающий, ЧЕМ является ваш сайт, чтобы AI-модели могли по нему ориентироваться. Он не может ограничить ни одного краулера. По состоянию на Q1 2026 ни одна крупная AI-компания (OpenAI, Google, Anthropic, Meta, Mistral) не читает его в продакшене — внедрение фактически остановилось.

Блокировка на уровне WAF/сети — реальный контроль

Категоризация ботов + правила WAF (Cloudflare, DataDome, Akamai) — вот что реально останавливает или тарифицирует краулеров, по user-agent и диапазону IP. Это слой, который выдаёт 402 или 403.

Практический вывод: объявленного AI-бота с известного датацентрового диапазона легче всего в мире заблокировать или затарифицировать. То, как вы выглядите на сетевом уровне, важнее любого текстового файла.

Юридический фронт: публичные данные vs обучение AI

История с блокировкой идёт параллельно с юридической. Важны две линии:

Публичный скрейпинг без авторизации — в целом законен (США)

hiQ против LinkedIn (9-й округ): скрейпинг данных, доступных без аутентификации, не является «несанкционированным доступом» по CFAA. Meta против Bright Data (январь 2024): ToS Meta запрещают только скрейпинг авторизованными пользователями, а не публичного контента без входа — Meta отозвала иск через несколько недель.

Данные для обучения AI — не урегулировано, идут суды

Reddit против Perplexity (конец 2025) ссылается на DMCA §1201, заявляя об обходе лимитов частоты и анти-бот-систем — дело в процессе. Авторы YouTube подали в суд на Nvidia, затем на Snap и Meta по схожим теориям §1201. Законы о приватности (ЕС, индийский DPDP Act) добавляют ещё один слой.

Линия раздела, вырисовывающаяся из прецедентов: сбор публично доступных данных без аутентификации и без обхода технических барьеров стоит на прочной почве; обход анти-бот-мер или скрейпинг за авторизацией — там, где живёт риск §1201. Полный разбор — в отдельной статье: законен ли веб-скрейпинг в 2026.

Что всё ещё работает для легального сбора публичных данных

Сложите блокировку и право вместе — и вырисовывается ясный, соответствующий нормам путь. Блокировки и барьер 402 нацелены на ботов, которые сами себя объявляют — GPTBot, CCBot, Meta-ExternalAgent — по user-agent и известным датацентровым диапазонам IP. Сбор публичных страниц через реальный браузер на реальном резидентском/мобильном IP этим не является.

Собирайте только публичные данные без авторизации — оставайтесь на стороне hiQ / Meta-v-Bright-Data.
Не обходите барьеры доступа — это риск DMCA §1201; соблюдайте разумные лимиты частоты.
Выглядите как обычный посетитель — реальный браузерный стек на резидентском или мобильном IP оператора, а не объявленный AI-бот из облака.
Согласуйте весь стек — IP необходим, но недостаточен; см. как сайты обнаруживают прокси в 2026.
Документируйте всё — источники, проверки ToS, лимиты частоты. Соответствие нормам теперь часть процесса.

Угол Coronium: когда парадная дверь для AI-бота получает 402 или 403, реальные IP операторов 4G/5G позволяют собирать публичные данные как настоящий мобильный пользователь — сетевая идентичность с наивысшим доверием, в 20+ странах, с контролем над точкой выхода.

Частые вопросы

Связанные ресурсы

Cloudflare Pay-Per-Crawl: разбор

Экономика барьера 402 и почему важны мобильные прокси.

Как сайты обнаруживают прокси в 2026

7-слойный стек обнаружения, который нужно пройти как реальный посетитель.

Законен ли веб-скрейпинг в 2026?

hiQ, Meta v Bright Data, Reddit v Perplexity и DMCA §1201.

Закон ЕС об AI в 2026

Принуждение с августа 2026 и раскрытие данных обучения.

Мобильные прокси

Реальные IP операторов для легального сбора публичных данных.

Прокси для веб-скрейпинга

Коммерческая страница для задач скрейпинга.

Собирайте публичные данные легальным способом

Когда дверь для AI-бота получает 402, реальные IP операторов 4G/5G позволяют достучаться до публичных страниц как настоящий посетитель. Выделенные 4G/5G в 20+ странах.