Az amazon új nova sonic ai modellje „emberibb hangot” kínál.

Az Amazon legújabb technológiai innovációja a Nova Sonic hangalapú mesterséges intelligencia modell, amely képes reagálni a beszélő szavaira, valamint a tónusára, hangsúlyára és tempójára. Az Amazon közlése szerint a Nova Sonic „egy új alapmodell, amely egyesíti a beszédértést és a beszédgenerálást egyetlen modellen belül, lehetővé téve a humánusabb hangalapú beszélgetéseket az AI alkalmazásokban.” A Nova Sonic versenyezni fog hasonló AI modellekkel, amelyeket az OpenAI, a Google és más technológiai cégek fejlesztettek.

A Nova Sonic megérti a szavakat és a stílust

A Nova Sonic nem csupán a beszélő szavait érti, hanem képes feldolgozni a tónusát, stílusát és tempóját is. Ez a hanggeneráló AI alkalmazkodik a beszélgetés kontextusához, így a párbeszéd természetesebben folyik, szemben az Alexa első generációs, merevebb modelljeivel. A Nova Sonic ezt azért tudja megtenni, mert több beszédfeldolgozási és generáló funkciót egyesít egyetlen AI modellbe, ahelyett, hogy különböző modellek sorozatát használná.

Hagyományosan a hangalapú AI eszközök több modellt használtak egymás után: egy beszédfelismerő modell átkonvertálta a beszédet szöveggé, majd egy nagyméretű nyelvi modell (LLM) feldolgozta a bemeneti szöveget és válaszokat generált, végül pedig egy szöveg-a-hang modell alakította vissza a szöveget hanggá. Ez a bonyolult folyamat gyakran megfosztotta a beszélő eredeti párbeszédének tónusát, stílusát és tempóját.

Mivel a Nova Sonic mindezt egyetlen modellben egyesíti, képes alkalmazkodni a bemeneti beszéd akusztikus kontextusához. Emellett természetesebben reagál az emberi beszéd ritmusára; például nem szakítja meg a beszélőt, amikor az habozik vagy szünetet tart a légzéshez.

Hogyan érhető el a Nova Sonic

A Nova Sonic jelenleg egy új API-n keresztül érhető el az Amazon Bedrock platformon, amely a vállalati alkalmazásfejlesztés céljára készült, és egyszerűsíti a hangalapú alkalmazások fejlesztését.

A tech óriás nemrégiben bevezette az Amazon Nova Act-et is, egy új AI modellt, amelyet arra képeztek ki, hogy műveleteket végezzen egy webböngészőn belül. Ezen kívül elérhető az Amazon Nova SDK, amely lehetőséget biztosít a fejlesztők számára a felfedezésre. Az alapmodellek közé tartozik a Nova Canvas is, amely magas minőségű képek generálására szolgál; emellett vannak modellek szöveg generálására különböző modalitásokból, valamint videók készítésére szöveg és kép bemenetből.

Érdekes tény: Az AI hangtechnológiák fejlődése lehetővé teszi, hogy a jövőben a virtuális asszisztensek képesek legyenek megérteni az érzelmi állapotokat is, így még hatékonyabban tudják támogatni a felhasználókat.

Források: Amazon hivatalos weboldala, TechCrunch, Wired

Az amazon új nova sonic ai modellje „emberibb hangot” kínál.

A Nova Sonic megérti a szavakat és a stílust

Hogyan érhető el a Nova Sonic

Legújabb

OpenAI bejelenti a stratégiai együttműködést Japán Digitális Ügynökségével.

Legnézettebb

OpenAI bejelenti a stratégiai együttműködést Japán Digitális Ügynökségével.

Samsung és az SK csatlakozik az OpenAI Stargate kezdeményezéséhez a globális mesterséges intelligencia infrastruktúra fejlesztése érdekében.

Sora 2 rendszerkártya

A Nova Sonic megérti a szavakat és a stílust

Hogyan érhető el a Nova Sonic

Ajánlott cikkek