Забавная история с OpenAI
Это те ребята, которые занимаются разработками в области искусственного интеллекта и известны всем по своему чат-боту с искусственным интеллектом ChatGPT .
Для того, чтобы чат-бот обучался, они тренируют его на общедоступных данных используя веб-сканер GPTBot. Этот сканер бегает по сети интернет и индексирует все доступные ему материалы. Вот только есть важный момент… Так как это новый сканер, то большинство владельцев сайтов даже не знают, что их материалы доступны боту и надо отдельно ограничивать ему доступ. Да и, например, Яндекс Метрика пока не умеет выделять данного бота в общем списке, что не способствует понимаю, кто копается в данных на сайте.
OpenAI подчеркивает, что разрешение боту собирать данные сайта может повысить качество моделей ИИ. Они утверждают, что веб-страницы, сканируемые GPTBot, фильтруются для удаления источников, данных требующих платного доступа, сбора личной информации или нарушения их политики.
В результате, складывается интересная картинка. OpenAI столкнулась с юридическими проблемами из-за использования общедоступных данных без согласия и в нарушение условий лицензирования. Учитывая юридическую неопределенность, связанную с индексированием веб-страниц, Google предложил переосмыслить протокол исключения роботов.
Есть и критики ограничений. Они предполагают, что издателям не следует активно запрещать боту доступ к данным сайта и что ограничения могут привести к неточностям данных.
Что же делать с ботом?
GPTBot определяется следующим образом:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Ограничить его можно через файл robots.txt:
User-agent: GPTBot
Disallow: /
Или частично ограничить, дав доступ к части данным:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
PS.
В ноябре 2023 г. Qrator Labs зафиксировала резкий рост активности ботов. Причем, снова всплыл GPTBot, который анализировал данные сайтов и api, дергая очень интенсивно информацию по распродажам в черную пятницу, акциям, скидкам. В своем отчете, Qrator Labs отмечает, что, если запросы не блокируются защитными решениями, могут вызвать серьезную паразитную нагрузку и повышенное потребление серверных мощностей. У ряда крупных интернет-магазинов доля обращений GPTBot в массе всех бот-запросов доходит до 90%.