Google Bemutatta a Gemini Live-ot
Csütörtökön a Google ingyenesen elérhetővé tette a Gemini Live funkciót, amely egy hangalapú AI chatbot. Ez a lehetőség lehetővé teszi a felhasználók számára, hogy hangutasításokkal interakcióba lépjenek a Gemini alkalmazással Android-eszközeiken. Ez különösen figyelemre méltó, mivel a versenytárs OpenAI Advanced Voice Mode funkciója a ChatGPT-ben, amely hasonló a Gemini Live-hoz, még nem érkezett meg teljes mértékben.
A Gemini Live-ot a Google a Pixel 9 bemutató eseményén ismertette, amelyet a múlt hónapban tartottak. Eredetileg a funkció kizárólag a Gemini Advanced előfizetők számára volt elérhető, de mostantól bárki hozzáférhet, aki a Gemini alkalmazást vagy annak Androidos overlay-ét használja.
A Gemini Live lehetővé teszi, hogy a felhasználók hangosan tegyenek fel kérdéseket, sőt megszakíthassák az AI válaszait, akár a mondat közepén is. A felhasználók több hangopció közül választhatják ki a Gemini válaszait, így a kölcsönhatás egyedi élményt nyújt.
A Gemini Live Használati Lehetőségei
A Gemini hivatalos súgódokumentumaiban a következő felhasználási módokat javasolja a hangmódhoz:
- Beszélgess vissza és előre: Beszélj a Geminivel gépelés nélkül, és a Gemini verbálisan válaszol.
- Ötletbörze: Kérj ajándékötletet, eseménytervezést, vagy készíts üzleti tervet.
- Fedezd fel: Ismerj meg több részletet az érdeklődésedet felkeltő témákról.
- Gyakorolj hangosan: Készülj fel fontos pillanatokra természetesebb és beszélgetés-szerű módon.
Érdekes, hogy míg az OpenAI májusban, a GPT-4o bemutatásakor eredetileg demózta az Advanced Voice Mode-ot, ezt a funkciót csak korlátozott számú felhasználó számára indították el július végén. Néhány AI szakértő spekulál arról, hogy a szélesebb körű bevezetést a számítógépes kapacitás hiánya akadályozza, mivel a hangfunkció vélhetően nagyon számításigényes.
A Gemini Live eléréséhez a felhasználóknak a jelentések szerint meg kell érinteniük egy új hullámforma ikont az alkalmazás vagy overlay jobb alsó sarkában. Ez az akció aktiválja a mikrofont, lehetővé téve a felhasználók számára, hogy hangosan tegyenek fel kérdéseket. A felület tartalmazza a lehetőségeket, hogy „tartsd” a Gemini válaszát vagy „zárd” le a beszélgetést, így a felhasználók irányíthatják az interakció menetét.
Jelenleg a Gemini Live csak az angolt támogatja, de a Google bejelentette, hogy a jövőben terjeszteni kívánja a nyelvi támogatást. A cég szándékában áll a funkciót iOS-eszközökre is átvinni, de konkrét idővonalat még nem adtak meg a bővítéshez.
Érdekes tény: A hangalapú interakciók iránti kereslet az AI fejlesztések terén folyamatosan nő, hiszen a felhasználók egyre inkább a természetes kommunikációt keresik az intelligens rendszerekkel.
Források: Google, TechCrunch, AI szakmai elemzések