OpenAI представляет gpt-realtime для создания голосовых ИИ-агентов нового поколения

Эти обновления позволяют разработчикам и компаниям создавать надежных и готовых к работе голосовых ИИ-агентов с низкой задержкой и более естественным, выразительным звучанием, передает incrussia.ruПроблема традиционных голосовых ассистентов — это задержка и роботизированный голос. Они обычно используют цепочку из нескольких моделей (речь в текст, обработка, текст в речь), что замедляет ответ. Realtime API от OpenAI обрабатывает и генерирует аудио напрямую через единую модель, что значительно снижает задержку, сохраняет интонации и делает общение более живым.GPT Realtime стала значительно лучше понимать сложные инструкции по сравнению со своим предшественником, интегрированным в GPT-4o. Также модель стала точнее использовать сторонние инструменты, говорить более качественно и следовать системным промптам. Также были добавлены два новых, более естественных голоса — Cedar и Marin.Realtime API получил ключевые обновления для производственного использования. Добавлена поддержка телефонных звонков через протокол SIP, возможность передавать модели изображения для контекста (например, скриншоты) и поддержка удаленных серверов MCP для интеграции с внешними инструментами, такими как Stripe. Это делает голосовых агентов гораздо более функциональными.OpenAI также снизила цены на gpt-realtime на 20% по сравнению с предыдущей версией. Стоимость составит $32 за 1 млн входных аудиотокенов и $64 за 1 млн выходных. Новые возможности API уже оценили такие компании, как Zillow, которые отмечают, что модель позволяет обрабатывать сложные многоэтапные запросы.