ChatGPT сломался. ИИ сам генерирует запрещённый контент

Исследователи вскрыли дыру в защите ChatGPT: бот без подсказок создаёт жестокие и откровенные изображения

Новейшая публичная версия ChatGPT генерирует изображения с насилием и откровенным содержимым - причём без явного указания на это в запросе. Уязвимость обнаружили специалисты британского стартапа Mindgard, занимающегося поиском слабых мест в системах искусственного интеллекта. Проблема оказалась серьёзнее, чем выглядит на первый взгляд.

Как это работает - и почему это пугает

Исследователи взяли широко распространённый запрос, изначально предназначенный для получения юмористических картинок, слегка его модифицировали - и ChatGPT начал выдавать откровенно недопустимый контент. Мужчина с тяжёлой травмой головы. Окровавленная женщина в минимуме одежды. Самое тревожное: в тексте запроса не было ни намёка на подобную тематику - нейросеть пришла к этому сама. Норвегия - Франция футбол онлайн

Это не просто технический сбой. Сгенерированные образы, по словам экспертов, имеют прямые связи с реальными изображениями из обучающих данных модели. Иными словами, ИИ воспроизводит паттерны из реального мира - и делает это неконтролируемо.

OpenAI узнала в мае. Отреагировала позже

Mindgard передала результаты исследования разработчику ChatGPT - компании OpenAI - ещё в мае. В ответ пришла формальная отписка. Только когда история получила огласку, OpenAI всё же отреагировала: пообещала ввести дополнительные защитные фильтры и усилить автоматическую модерацию в связке с ручной проверкой.

Но исследователи проверили систему после обновления. Проблемный запрос по-прежнему давал тревожный результат. Содержание самого промпта намеренно не раскрывается - чтобы не множить злоупотребления.

Почему заплатки не помогают

Корень проблемы - не в конкретной уязвимости, а в природе больших языковых моделей. Нейросети не понимают намерений. Они не различают допустимое и недопустимое в этическом смысле. Они воспроизводят статистические паттерны - и всё.

Предыдущие исследования Mindgard показали: ChatGPT можно обманом заставить создавать дипфейки реальных людей с подставленными лицами. Нынешняя находка - следующий уровень той же проблемы. Чем изощрённее защита, тем изощрённее способы её обойти. Это классическая игра в кошки-мышки - и конца ей не видно.

Уязвимость выявлена в актуальной публичной версии ChatGPT
Запрос не содержал прямых инструкций по созданию недопустимого контента
Модель самостоятельно генерировала жестокие и откровенные изображения
После патча OpenAI проблема сохранялась при повторном тестировании
Ранее тот же стартап доказал возможность создания дипфейков реальных людей через ChatGPT

Что это значит для пользователей

Пока ИИ-компании соревнуются в наращивании возможностей своих продуктов, вопрос безопасности всё чаще отходит на второй план. Фильтры контента - это не решение проблемы, а временная заглушка. И если исследователи из небольшого британского стартапа нашли этот обход за разумное время, остаётся вопрос: кто ещё его нашёл - и как давно использует?

ileabonmachine.com

Обновлено 19 июн 2026