OpenAI a prezentat o nouă generație de modele IA pentru redarea vocală a textului

OpenAI a introdus modele vocale actualizate bazate pe inteligența artificială GPT-4o care convertesc textul în audio, transcriu audio și recunosc vorbirea în timp real.

OpenAI a prezentat o nouă generație de modele IA pentru redarea vocală a textului.

Gpt-4o-mini-tts oferă 11 voci cu intonație, stil de sunet și timbru de voce diferite. De exemplu, poți selecta vocea unui pirat, a unui cavaler medieval, a unui crainic profesionist, a unui antrenor sportiv, a unui cowboy, a unui profesor calm, a unui om de știință nebun sau a lui Moș Crăciun. Fiecare voce are propriile caracteristici, dar acestea pot fi, de asemenea, schimbate. Sunt disponibile peste 100 de limbi, inclusiv rusa, informează rb.ru.

Compania a îmbunătățit, de asemenea, tehnologia de recunoaștere a vorbirii. Noile modele gpt-4o-transcribe și gpt-4o-mini-transcribe decodifică mai bine fișierele media și fac mai puține erori, chiar dacă înregistrarea are zgomote străine sau vorbitorul vorbește repede.

Dezvoltatorii pot accesa modelele prin API. Poți testa vocalizarea textului la openai.fm. În versiunea gratuită pot fi introduse până la 1.000 de caractere.

Acum ne puteți urmări și pe Telegram, Facebook și Instagram pentru a fi la curent cu ultimele știri.