Исследователи вскрыли дыру в защите ChatGPT: бот без подсказок создаёт жестокие и откровенные изображения
Новейшая публичная версия ChatGPT генерирует изображения с насилием и откровенным содержимым - причём без явного указания на это в запросе. Уязвимость обнаружили специалисты британского стартапа Mindgard, занимающегося поиском слабых мест в системах искусственного интеллекта. Проблема оказалась серьёзнее, чем выглядит на первый взгляд.
Как это работает - и почему это пугает
Исследователи взяли широко распространённый запрос, изначально предназначенный для получения юмористических картинок, слегка его модифицировали - и ChatGPT начал выдавать откровенно недопустимый контент. Мужчина с тяжёлой травмой головы. Окровавленная женщина в минимуме одежды. Самое тревожное: в тексте запроса не было ни намёка на подобную тематику - нейросеть пришла к этому сама. Норвегия - Франция футбол онлайн
Это не просто технический сбой. Сгенерированные образы, по словам экспертов, имеют прямые связи с реальными изображениями из обучающих данных модели. Иными словами, ИИ воспроизводит паттерны из реального мира - и делает это неконтролируемо.
OpenAI узнала в мае. Отреагировала позже
Mindgard передала результаты исследования разработчику ChatGPT - компании OpenAI - ещё в мае. В ответ пришла формальная отписка. Только когда история получила огласку, OpenAI всё же отреагировала: пообещала ввести дополнительные защитные фильтры и усилить автоматическую модерацию в связке с ручной проверкой.
Но исследователи проверили систему после обновления. Проблемный запрос по-прежнему давал тревожный результат. Содержание самого промпта намеренно не раскрывается - чтобы не множить злоупотребления.
Почему заплатки не помогают
Корень проблемы - не в конкретной уязвимости, а в природе больших языковых моделей. Нейросети не понимают намерений. Они не различают допустимое и недопустимое в этическом смысле. Они воспроизводят статистические паттерны - и всё.
Предыдущие исследования Mindgard показали: ChatGPT можно обманом заставить создавать дипфейки реальных людей с подставленными лицами. Нынешняя находка - следующий уровень той же проблемы. Чем изощрённее защита, тем изощрённее способы её обойти. Это классическая игра в кошки-мышки - и конца ей не видно.
- Уязвимость выявлена в актуальной публичной версии ChatGPT
- Запрос не содержал прямых инструкций по созданию недопустимого контента
- Модель самостоятельно генерировала жестокие и откровенные изображения
- После патча OpenAI проблема сохранялась при повторном тестировании
- Ранее тот же стартап доказал возможность создания дипфейков реальных людей через ChatGPT
Что это значит для пользователей
Пока ИИ-компании соревнуются в наращивании возможностей своих продуктов, вопрос безопасности всё чаще отходит на второй план. Фильтры контента - это не решение проблемы, а временная заглушка. И если исследователи из небольшого британского стартапа нашли этот обход за разумное время, остаётся вопрос: кто ещё его нашёл - и как давно использует?