„Exkluzív Teszt: Kipróbáltam 8 Vadiúj Mesterséges Intelligencia Fejlesztést!”


Google I/O 2024: Az AI Jövője

Az I/O eseményen nem csak egy rakás újdonságot jelentünk be, mint például az új Gemini modelleket, AI ügynököket és Android frissítéseket, hanem lehetőséget adunk a fejlesztőknek, újságíróknak és partnereknek, hogy első kézből tapasztalják meg ezeket az újdonságokat termékbemutatók révén. Idén szerencsém volt a Shoreline Amfiteátrumban tölteni a napot, ahol az I/O zajlik, és belemerülni az összes bemutatóba. Íme néhány belső információ róluk.

Gemini Advanced: Dokumentumok Elemzése és Összegzése

Az első bemutatón a Gemini Advanced-et figyeltem, ahogy egy több mint 20 oldalas ingatlanbérleti szerződést elemzett, tele bonyolult jogi kifejezésekkel és csapdákkal. Kérdéseket tehettem fel a szerződéssel kapcsolatban, például hogy a háziállat tartása megengedett-e, vagy hogy kell-e extra díjakat fizetni. (Személy szerint alig várom, hogy ezt a funkciót használhassam a következő bérleti szerződésem értelmezéséhez, amikor az apartmanom megújul.)

A következő bemutató még magasabb szintre emelte a dolgokat: Két Google alkalmazott egy teljes közgazdasági tankönyv PDF-jét töltötte be a Gemini-be, amely több száz oldalas volt. Órákba telt volna elolvasni a könyvet, de a Gemini képes volt másodpercek alatt összefoglalni és kiemelni a fontos tanulnivalókat. Emellett egy többválasztós kvízt is készített — nem csak a helyes választ, hanem három hibás választ is, hogy megpróbáljon megtréfálni —, hogy felkészítsen egy elméleti közelgő vizsgára.

Mindkét bemutató a Gemini 1.5 Pro-t használta, amely az év elején debütált a leghosszabb kontextusablakkal bármely nagy alapmodell közül. Korai hozzáférést biztosítunk a Gemini 1.5 Pro-hoz a Gemini Advanced előfizetők számára, és lehetőséget adunk nekik, hogy dokumentumokat töltsenek fel az eszközbe közvetlenül a Drive-ból, így a Gemini-t használhatják dokumentumok összegzésére vagy elemzésére akár 1,500 oldal hosszúságig.

A Gemini 1.5 Pro a Workspace alkalmazások oldalsávjába is bekerül, mint például a Gmail, Docs, Sheets, Slides és Drive. Ennek működését bemutatva a Gemini-t használtam a Gmail-ben egy heti iskolai jelentés mintalevelének összegzésére, és specifikus részletek kiemelésére, mint például mely tevékenységek voltak a 7. osztályos diákok számára, vagy mi volt a csomaglista egy éjszakai kiránduláshoz.

Imagen 3: Szöveg Képpé Alakítása

A Gemini 1.5 Pro nem az egyetlen új modellünk: Kipróbálhattam a frissen bejelentett Imagen 3-at is, amely a legmagasabb minőségű szöveg-kép modellünk eddig. Az egyik új képesség, amely izgatottá tett, az volt, hogy képes dekoratív szöveget és betűket generálni. Kipróbáltam, hogy stilizált ábécét kértem tőle — például lekvárral megkent pirítósra írt betűket, vagy ezüst lufikkal az égen. Az Imagen 3 egy teljes ábécét generált, amelyet aztán felhasználhattam saját (ízletes) menük megírásához.

Gemini Overlay: Kontextusérzékeny Segítség

Az Imagen 3 intermezzo után folytattam a Gemini bemutatókkal. Az egyikben a Gemini overlay-t használhattam egy Android telefonon, és kérdéseket tehettem fel bármiről, ami a képernyőn volt. Ez igazán megmutatta, hogy nem csak bővítjük, hogy mit kérdezhetünk a Gemini-től, hanem kontextusérzékennyé is tesszük, így előre láthatja az igényeinket és hasznos javaslatokat tehet.

A felhasználási eset itt egy hosszú sütő kézikönyv volt. Akár bemutató, akár valós élet, ez nem olyasmi, amit szívesen olvasnék. A dokumentum átfutása helyett előhívtam a Gemini-t, és azonnal kaptam egy „Kérdezd ezt a PDF-et” javaslatot. Olyan kérdéseket teszteltem, mint „hogyan állíthatom be az órát”, és gyorsan pontos válaszokat kaptam. Ugyanilyen jól működött YouTube videókkal is. Egy 20 perces edzésvideó megtekintése helyett gyorsan megkérdeztem, hogyan módosíthatom a plank gyakorlatot, kaptam egy választ, és már mentem is a következő bemutatóra, ahol egy új beszélgetési módot, a Gemini Live-ot teszteltem, amely lehetővé teszi, hogy beszélgessünk a Gemini-vel az alkalmazásban, gépelés nélkül.

A Gemini-vel való beszélgetés más élmény volt, mint a hagyományos chatbot interfész: A Gemini válaszai sokkal beszélgetősebbek voltak, mint a szöveges bekezdések és felsorolások, amelyeket általában kapnánk. A bemutatómban megtudtam, hogy még a válasz közepén is félbeszakíthatom a Gemini-t. Miután megkértem egy nyári vakációs gyerekprogramok listáját, félbeszakíthattam a javaslatok listáját, hogy mélyebben belemerüljek, milyen anyagokra lenne szükségem egy pólófestéshez.

Project Astra: Multimodális AI

A Project Astra — vagyis „fejlett látó és beszélő válaszadó ügynök” — bemutató még tovább vitte a dolgokat, hogy megmutassa, hol tartanak a beszélgetési AI projektjeink. Az AI Sandbox-ban, ahol a fejlesztők és a résztvevők kipróbálhatták a Project Astra-t és más kreatív AI kísérleteket, mint például a MusicFX DJ módját.

Ahelyett, hogy csak azzal dolgozna, ami a képernyőn van, vagy azzal az információval, amit beírtál egy csevegőablakba, az Astra multimodális képességei képesek megérteni a beszélgetési beszédparancsokat és az élő videó adatfolyamokat egyszerre, hogy új típusú AI élményeket nyissanak meg.

Az Astra alliterációs bemutató egyszerűen indult: Megmutattam a kamerának — ebben a beállításban egy felülnézeti kamera, de az Astra használhat telefonkamerát vagy egy viselhető eszköz kameráját is — egy tárgyat, például egy banánt vagy egy szelet kenyeret, és a Gemini alliteratív mondatot alkotott róla. Több tárgyat adtam hozzá, és a Gemini folytatta a beszélgetést, az „Élénk banánok gyönyörűen sütkéreznek a deszkán” egyetlen gyümölccsel az „Kulináris alkotások elkapják a szemet” egy teljes büfédeszkával.

Az Astra alliterál banánokkal, bagettekkel… és bármi mással, amit megmutathatsz neki. Egy másik Astra bemutató lehetővé tette, hogy Pictionary-t játszhassak a Gemini-vel: egy látszólag egyszerű interakció, de az ügynöknek meg kellett értenie a képeket, emlékeznie kellett arra, hogy mi lett rajzolva minden körben, és általános tudást kellett használnia, hogy ténylegesen kitalálja, mit rajzolok. Egy bemutatóban az Astra tudta, hogy egy kör nem elég alap egy találgatáshoz, de ahogy vonalakat adtam hozzá alatta, gyorsan azonosította a pálcikaembert, és felismerte, hogy egy koponya emojit tartó személy Hamlet.

Az Astra verhetetlen a Pictionary-ben. Az AI Sandbox és más bemutatóállomások bejárása olyan volt, mint egy pillantás a holnapba. Emellett alázatos is volt: Az Astra több körben is legyőzött a Pictionary-ben!

Érdekes tény: Az Astra képes felismerni és reagálni az élő videó adatfolyamokra, így akár valós időben is képes segíteni a felhasználókat különböző feladatokban, mint például a főzés vagy a barkácsolás során.