„Az AI következő nagy ugrása: mikor jön el végre?”

Antropikus előrelépés: Claude 3.5 Sonnet és az AI jövője

Amikor az OpenAI bejelentette a GPT-4-et, legújabb nagy nyelvi modelljét, tavaly márciusban, sokkolta a tech világot. Egyértelműen jobban teljesített, mint bármi, amit korábban láttunk a csevegés, kódolás és mindenféle bonyolult probléma megoldása terén – beleértve az iskolai házi feladatokat is.

Az OpenAI versenytársa, az Anthropic ma bejelentette, hogy saját AI előrelépésével frissíti a chatbotokat és más felhasználási eseteket. Bár az új modell több szempontból is a világ legjobbja, inkább egy lépés előre, mint nagy ugrás.

Claude 3.5 Sonnet: fejlesztések és újdonságok

Az Anthropic új modellje, a Claude 3.5 Sonnet, az eddigi Claude 3 család AI modelljeinek frissítése. Sokkal ügyesebb a matematikai, kódolási és logikai problémák megoldásában, amint azt a szokásosan használt mércék is mutatják. Az Anthropic szerint gyorsabb, jobban érti a nyelvi árnyalatokat, és még jobb humora is van.

Ez kétségtelenül hasznos azok számára, akik alkalmazásokat és szolgáltatásokat építenek az Anthropic AI modelljeire. De a cég híre emlékeztet arra is, hogy a világ még mindig várja az újabb AI ugrást, amely hasonló a GPT-4 által nyújtott forradalmi képességekhez.

Várakozások a GPT-5-re

Több mint egy éve várják már az OpenAI soron következő modelljének, a GPT-5-nek a megjelenését, és a cég vezérigazgatója, Sam Altman bátorította a spekulációkat, hogy az újabb forradalmat hoz majd az AI képességeiben. A GPT-4 több mint 100 millió dollárba került a képzés, és a GPT-5 várhatóan sokkal nagyobb és drágább lesz.

Bár az OpenAI, a Google és más AI fejlesztők új modelleket dobtak piacra, amelyek túlszárnyalják a GPT-4-et, a világ még mindig várja azt a nagy ugrást. Az AI fejlődése az utóbbi időben inkább fokozatos lett, és inkább a modelltervezés és a képzés újításaira támaszkodik, mint a modell méretének és számítási kapacitásának brutális növelésére, ahogyan azt a GPT-4 tette.

Claude 3.5 Sonnet és az innováció

Michael Gerstenhaber, az Anthropic termékfelelőse szerint a cég új Claude 3.5 Sonnet modellje nagyobb, mint elődje, de új képességeinek nagy részét a képzésben alkalmazott újításoknak köszönheti. Például a modell visszajelzéseket kapott, amelyek célja a logikai érvelési képességek javítása volt. Az Anthropic szerint a Claude 3.5 Sonnet túlszárnyalja az OpenAI, a Google és a Facebook legjobb modelljeit a népszerű AI mércék, például a GPQA, az MMLU és a HumanEval tesztekben. Az előrelépések azonban csak néhány százalékpontosak.

Ez az AI-ban bekövetkezett legújabb előrelépés talán nem forradalmi, de gyors ütemű: az Anthropic csupán három hónapja jelentette be előző generációs modelljeit. „Ha megnézed az intelligencia változásának sebességét, értékelni fogod, milyen gyorsan haladunk” – mondja Gerstenhaber.

AI fejlődésének nehézségei

Több mint egy évvel azután, hogy a GPT-4 befektetési lázat indított az AI-ban, úgy tűnik, hogy egyre nehezebb nagy új ugrásokat elérni a gépi intelligenciában. A GPT-4 és hasonló modellek hatalmas mennyiségű online szövegre, képekre és videókra épülve egyre nehezebb új adatforrásokat találni, amelyeket be lehetne táplálni a gépi tanulási algoritmusokba. A modellek jelentős növelése, hogy több kapacitásuk legyen a tanulásra, várhatóan milliárdokba kerül.

Amikor az OpenAI a múlt hónapban bejelentette saját legújabb frissítését, egy hang- és vizuális képességekkel rendelkező modellt, a GPT-4o-t, a fókusz inkább a természetesebb és emberibb interfészre helyeződött, mint a lényegesen okosabb problémamegoldó képességekre.

Az AI teljesítményének mérése

Az AI fejlődésének ütemének értékelése a hagyományos mércékkel, mint amilyeneket az Anthropic is hirdet a Claude modellek esetében, félrevezető lehet. Az AI fejlesztők erősen motiváltak arra, hogy olyan alkotásokat tervezzenek, amelyek magas pontszámot érnek el ezeken a mércékben, és az ezekhez használt adatok bekerülhetnek a képzési adatok közé. „A kutatási közösségen belüli mércék tele vannak adatkontaminációval, következetlen értékelési rendszerekkel és jelentésekkel, valamint nem ellenőrzött annotátor szakértelemmel” – mondja Summer Yue, a Scale AI kutatási igazgatója, egy olyan cég, amely sok AI vállalatnak segít modelleik képzésében.

A Scale új módszereket fejleszt az AI intelligenciájának mérésére a Biztonság, Értékelés és Igazítás Laborján keresztül. Ez magában foglalja a titkos adatokra alapozott tesztek fejlesztését és azok szakértelmének ellenőrzését, akik visszajelzést adnak a modell képességeiről.

Yue reméli, hogy a cégek egyre inkább arra törekednek, hogy modelljeik intelligenciáját értelmesebb módon mutassák be. Szerinte ezek magukban foglalhatják a „való világban alkalmazható, mérhető üzleti hatású alkalmazások bemutatását, átlátható teljesítménymérőket, esettanulmányokat és ügyfél visszajelzéseket”.

Az Anthropic ilyen hatásokat hirdet a Claude 3.5 Sonnet esetében. Gerstenhaber szerint azok a cégek, amelyek az új verziót használják, hasznosnak találták annak újonnan szerzett reagálóképességét és problémamegoldó képességeit. Az ügyfelek közé tartozik a Bridgewater Associates befektetési cég, amely a Claude-ot kódolási feladatokhoz használja. Más pénzügyi cégek, amelyeket Gerstenhaber nem kíván megnevezni, a modellt befektetési tanácsadásra használják. „A korai hozzáférési időszak alatt a válasz rendkívül pozitív volt” – mondja.

Nem világos, mennyi ideig kell még várnia a világnak arra a következő nagy AI ugrásra. Az OpenAI elmondta, hogy megkezdte következő nagy modelljének képzését. Addig is új módszereket kell kidolgoznunk annak mérésére, hogy mennyire hasznos valójában a technológia.

Érdekesség: Az AI modellek, mint a Claude 3.5 Sonnet, gyakran kapnak visszajelzéseket, hogy javítsák logikai érvelési képességeiket, ami azt jelenti, hogy az AI valójában „tanul” az emberek visszajelzéseiből.

Forrás: OpenAI, Anthropic, Scale AI