Az Amazon legújabb technológiai innovációja a Nova Sonic hangalapú mesterséges intelligencia modell, amely képes reagálni a beszélő szavaira, valamint a tónusára, hangsúlyára és tempójára. Az Amazon közlése szerint a Nova Sonic „egy új alapmodell, amely egyesíti a beszédértést és a beszédgenerálást egyetlen modellen belül, lehetővé téve a humánusabb hangalapú beszélgetéseket az AI alkalmazásokban.” A Nova Sonic versenyezni fog hasonló AI modellekkel, amelyeket az OpenAI, a Google és más technológiai cégek fejlesztettek.
A Nova Sonic megérti a szavakat és a stílust
A Nova Sonic nem csupán a beszélő szavait érti, hanem képes feldolgozni a tónusát, stílusát és tempóját is. Ez a hanggeneráló AI alkalmazkodik a beszélgetés kontextusához, így a párbeszéd természetesebben folyik, szemben az Alexa első generációs, merevebb modelljeivel. A Nova Sonic ezt azért tudja megtenni, mert több beszédfeldolgozási és generáló funkciót egyesít egyetlen AI modellbe, ahelyett, hogy különböző modellek sorozatát használná.
Hagyományosan a hangalapú AI eszközök több modellt használtak egymás után: egy beszédfelismerő modell átkonvertálta a beszédet szöveggé, majd egy nagyméretű nyelvi modell (LLM) feldolgozta a bemeneti szöveget és válaszokat generált, végül pedig egy szöveg-a-hang modell alakította vissza a szöveget hanggá. Ez a bonyolult folyamat gyakran megfosztotta a beszélő eredeti párbeszédének tónusát, stílusát és tempóját.
Mivel a Nova Sonic mindezt egyetlen modellben egyesíti, képes alkalmazkodni a bemeneti beszéd akusztikus kontextusához. Emellett természetesebben reagál az emberi beszéd ritmusára; például nem szakítja meg a beszélőt, amikor az habozik vagy szünetet tart a légzéshez.
Hogyan érhető el a Nova Sonic
A Nova Sonic jelenleg egy új API-n keresztül érhető el az Amazon Bedrock platformon, amely a vállalati alkalmazásfejlesztés céljára készült, és egyszerűsíti a hangalapú alkalmazások fejlesztését.
A tech óriás nemrégiben bevezette az Amazon Nova Act-et is, egy új AI modellt, amelyet arra képeztek ki, hogy műveleteket végezzen egy webböngészőn belül. Ezen kívül elérhető az Amazon Nova SDK, amely lehetőséget biztosít a fejlesztők számára a felfedezésre. Az alapmodellek közé tartozik a Nova Canvas is, amely magas minőségű képek generálására szolgál; emellett vannak modellek szöveg generálására különböző modalitásokból, valamint videók készítésére szöveg és kép bemenetből.
Érdekes tény: Az AI hangtechnológiák fejlődése lehetővé teszi, hogy a jövőben a virtuális asszisztensek képesek legyenek megérteni az érzelmi állapotokat is, így még hatékonyabban tudják támogatni a felhasználókat.
Források: Amazon hivatalos weboldala, TechCrunch, Wired