A Look at Upcoming Innovations in Electric and Autonomous Vehicles ChatGPT сломался. ИИ сам генерирует запрещённый контент

ChatGPT сломался. ИИ сам генерирует запрещённый контент

ChatGPT сломался. ИИ сам генерирует запрещённый контент

Исследователи вскрыли дыру в защите ChatGPT: бот без подсказок создаёт жестокие и откровенные изображения

Новейшая публичная версия ChatGPT генерирует изображения с насилием и откровенным содержимым - причём без явного указания на это в запросе. Уязвимость обнаружили специалисты британского стартапа Mindgard, занимающегося поиском слабых мест в системах искусственного интеллекта. Проблема оказалась серьёзнее, чем выглядит на первый взгляд.

Как это работает - и почему это пугает

Исследователи взяли широко распространённый запрос, изначально предназначенный для получения юмористических картинок, слегка его модифицировали - и ChatGPT начал выдавать откровенно недопустимый контент. Мужчина с тяжёлой травмой головы. Окровавленная женщина в минимуме одежды. Самое тревожное: в тексте запроса не было ни намёка на подобную тематику - нейросеть пришла к этому сама. Норвегия - Франция футбол онлайн

Это не просто технический сбой. Сгенерированные образы, по словам экспертов, имеют прямые связи с реальными изображениями из обучающих данных модели. Иными словами, ИИ воспроизводит паттерны из реального мира - и делает это неконтролируемо.

OpenAI узнала в мае. Отреагировала позже

Mindgard передала результаты исследования разработчику ChatGPT - компании OpenAI - ещё в мае. В ответ пришла формальная отписка. Только когда история получила огласку, OpenAI всё же отреагировала: пообещала ввести дополнительные защитные фильтры и усилить автоматическую модерацию в связке с ручной проверкой.

Но исследователи проверили систему после обновления. Проблемный запрос по-прежнему давал тревожный результат. Содержание самого промпта намеренно не раскрывается - чтобы не множить злоупотребления.

Почему заплатки не помогают

Корень проблемы - не в конкретной уязвимости, а в природе больших языковых моделей. Нейросети не понимают намерений. Они не различают допустимое и недопустимое в этическом смысле. Они воспроизводят статистические паттерны - и всё.

Предыдущие исследования Mindgard показали: ChatGPT можно обманом заставить создавать дипфейки реальных людей с подставленными лицами. Нынешняя находка - следующий уровень той же проблемы. Чем изощрённее защита, тем изощрённее способы её обойти. Это классическая игра в кошки-мышки - и конца ей не видно.

  • Уязвимость выявлена в актуальной публичной версии ChatGPT
  • Запрос не содержал прямых инструкций по созданию недопустимого контента
  • Модель самостоятельно генерировала жестокие и откровенные изображения
  • После патча OpenAI проблема сохранялась при повторном тестировании
  • Ранее тот же стартап доказал возможность создания дипфейков реальных людей через ChatGPT

Что это значит для пользователей

Пока ИИ-компании соревнуются в наращивании возможностей своих продуктов, вопрос безопасности всё чаще отходит на второй план. Фильтры контента - это не решение проблемы, а временная заглушка. И если исследователи из небольшого британского стартапа нашли этот обход за разумное время, остаётся вопрос: кто ещё его нашёл - и как давно использует?