ChatGPT получил новый генератор картинок с расширенными функциями
OpenAI представила модель генерации изображений Images 2.0, интегрированную в ChatGPT и доступную через API. Решение стало первой визуальной моделью компании с поддержкой «рассуждений», что расширяет сценарии ее применения.

По заявлениям разработчика, при использовании рассуждающих режимов модель способна анализировать контекст запроса, выполнять поиск релевантной информации и генерировать несколько вариантов изображений с последующей проверкой результатов. Это позволяет повысить точность и вариативность генерации, передает openai.com
Отдельное внимание уделено улучшенной работе с нелатинским алфавитом: модель корректно воспроизводит текст на разных языках, включая японский, корейский, китайский, хинди и бенгали.
Images 2.0 также демонстрирует более высокий уровень детализации и реалистичности, в частности, за счет добавления мелких визуальных «несовершенств» и точной передачи различных художественных стилей, включая кинематографические сцены и пиксельную графику.
В компании отмечают, что модель пока может испытывать трудности с отдельными задачами, такими как генерация пошаговых инструкций, например, оригами, головоломок или сложных геометрических деталей.
Обновленная модель уже доступна пользователям ChatGPT и Codex, однако функции рассуждения открыты лишь подписчикам платных тарифов. Модель gpt-image-2 также интегрирована в API для разработчиков.