Подписка на блог

Customize in /user/extras/follow-sheet.tmpl.php.

Sample text.

Twitter, Facebook, VK, Telegram, LinkedIn, Odnoklassniki, Pinterest, YouTube, TikTok, РСС JSON Feed

Sample text.

мысли на тему саморазвития, личную жизнь и интересы 📧

Забавная история с OpenAI

Это те ребята, которые занимаются разработками в области искусственного интеллекта и известны всем по своему чат-боту с искусственным интеллектом ChatGPT .

Для того, чтобы чат-бот обучался, они тренируют его на общедоступных данных используя веб-сканер GPTBot. Этот сканер бегает по сети интернет и индексирует все доступные ему материалы. Вот только есть важный момент… Так как это новый сканер, то большинство владельцев сайтов даже не знают, что их материалы доступны боту и надо отдельно ограничивать ему доступ. Да и, например, Яндекс Метрика пока не умеет выделять данного бота в общем списке, что не способствует понимаю, кто копается в данных на сайте.

OpenAI подчеркивает, что разрешение боту собирать данные сайта может повысить качество моделей ИИ. Они утверждают, что веб-страницы, сканируемые GPTBot, фильтруются для удаления источников, данных требующих платного доступа, сбора личной информации или нарушения их политики.

В результате, складывается интересная картинка. OpenAI столкнулась с юридическими проблемами из-за использования общедоступных данных без согласия и в нарушение условий лицензирования. Учитывая юридическую неопределенность, связанную с индексированием веб-страниц, Google предложил переосмыслить протокол исключения роботов.

Есть и критики ограничений. Они предполагают, что издателям не следует активно запрещать боту доступ к данным сайта и что ограничения могут привести к неточностям данных.

Что же делать с ботом?

GPTBot определяется следующим образом:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Ограничить его можно через файл robots.txt:

User-agent: GPTBot
Disallow: /

Или частично ограничить, дав доступ к части данным:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

PS.

В ноябре 2023 г. Qrator Labs зафиксировала резкий рост активности ботов. Причем, снова всплыл GPTBot, который анализировал данные сайтов и api, дергая очень интенсивно информацию по распродажам в черную пятницу, акциям, скидкам. В своем отчете, Qrator Labs отмечает, что, если запросы не блокируются защитными решениями, могут вызвать серьезную паразитную нагрузку и повышенное потребление серверных мощностей. У ряда крупных интернет-магазинов доля обращений GPTBot в массе всех бот-запросов доходит до 90%.

Подписаться на блог
Отправить
Поделиться
Запинить