DeepSeek a învățat inteligența artificială să nu-și irosească atenția în zadar

Compania chineză DeepSeek a lansat modelul experimental DeepSeek-V3.2-Exp cu tehnologia Sparse Attention, care reduce costurile de calcul atunci când se lucrează cu texte lungi.

DeepSeek a învățat inteligența artificială să nu-și irosească atenția în zadar.

Noua arhitectură permite menținerea calității răspunsurilor la nivelul versiunii anterioare V3.1, crescând totodată eficiența procesării datelor, transmite incrussia.ru.

Inovația-cheie este mecanismul DeepSeek Sparse Attention (DSA). Acesta optimizează funcționarea transformatoarelor. În loc să recalculeze complet toate conexiunile dintre tokeni, sistemul se concentrează doar pe elementele relevante din context. Această abordare este esențială în analiza documentelor voluminoase, unde metodele tradiționale presupun un consum excesiv de resurse de calcul.

Modelul este disponibil printr-o versiune demo gratuită, precum și pe platforma Hugging Face. Utilizatorii pot testa capacitățile printr-o interfață web sau pot integra soluția în propriile proiecte folosind biblioteca Hugging Face Transformers. Dezvoltatorii recomandă evaluarea eficienței în sarcini cu context extins, de exemplu, rezumarea articolelor urmată de întrebări clarificatoare.

Lansarea DeepSeek-V3.2-Exp este considerată o etapă intermediară înaintea unei versiuni complete. Îmbunătățirile arhitecturale sunt orientate spre reducerea barierei de acces pentru cercetători și dezvoltatori care anterior aveau nevoie de echipamente performante pentru a rula modele lingvistice mari în regim local.

Acum ne puteți urmări și pe Telegram, Facebook și Instagram pentru a fi la curent cu ultimele știri.