theme-icon
logo
logo
Menu icon
Point.md logo
Поделиться новостью
Скопировать ссылку
Ссылка скопирована
29 Августа 2025, 17:37
4 001
Скопировать ссылку
Ссылка скопирована

OpenAI представляет gpt-realtime для создания голосовых ИИ-агентов нового поколения

OpenAI выпустила свою самую совершенную модель преобразования речи в речь gpt-realtime и открыла доступ к ней по API.

OpenAI представляет gpt-realtime для создания голосовых ИИ-агентов нового поколения.
OpenAI представляет gpt-realtime для создания голосовых ИИ-агентов нового поколения.

Эти обновления позволяют разработчикам и компаниям создавать надежных и готовых к работе голосовых ИИ-агентов с низкой задержкой и более естественным, выразительным звучанием, передает incrussia.ru

Проблема традиционных голосовых ассистентов — это задержка и роботизированный голос. Они обычно используют цепочку из нескольких моделей (речь в текст, обработка, текст в речь), что замедляет ответ. Realtime API от OpenAI обрабатывает и генерирует аудио напрямую через единую модель, что значительно снижает задержку, сохраняет интонации и делает общение более живым.

GPT Realtime стала значительно лучше понимать сложные инструкции по сравнению со своим предшественником, интегрированным в GPT-4o. Также модель стала точнее использовать сторонние инструменты, говорить более качественно и следовать системным промптам. Также были добавлены два новых, более естественных голоса — Cedar и Marin.

Realtime API получил ключевые обновления для производственного использования. Добавлена поддержка телефонных звонков через протокол SIP, возможность передавать модели изображения для контекста (например, скриншоты) и поддержка удаленных серверов MCP для интеграции с внешними инструментами, такими как Stripe. Это делает голосовых агентов гораздо более функциональными.

OpenAI также снизила цены на gpt-realtime на 20% по сравнению с предыдущей версией. Стоимость составит $32 за 1 млн входных аудиотокенов и $64 за 1 млн выходных. Новые возможности API уже оценили такие компании, как Zillow, которые отмечают, что модель позволяет обрабатывать сложные многоэтапные запросы.

Источник
Поделиться новостью
Скопировать ссылку
Ссылка скопирована