OpenAI végre bemutatta régóta várt „Strawberry” mesterséges intelligencia nyelvi modelljét csütörtökön, amely jelentős fejlesztéseket ígér az úgynevezett „érvelési” és problémamegoldó képességeiben a korábbi nagy nyelvi modellekhez (LLM) képest. A hivatalos neve „OpenAI o1”, és a modellcsalád kezdetben két formában debütál: o1-preview és o1-mini, amelyek ma már elérhetők a ChatGPT Plus és bizonyos API felhasználók számára.
Az OpenAI állítása szerint az o1-preview több benchmarkon is felülmúlja elődjét, a GPT-4o-t, beleértve a versenyképes programozást, matematikát és a „tudományos érvelést”. Azonban azok, akik már használták a modellt, megjegyzik, hogy nem minden szempontból múlja felül a GPT-4o-t. Más felhasználók a válasz késlekedését kritizálták, ami a háttérben zajló többlépéses feldolgozás miatt következik be a kérdések megválaszolása előtt.
Az új megközelítés
Az OpenAI termékmenedzsere, Joanne Jang, egy ritka hype-buszó tweetben megjegyezte: „Sok o1 hype van a hírcsatornámban, így aggódom, hogy rossz elvárásokat állíthat fel. Amit az o1 képvisel: az első érvelési modell, amely valóban nehéz feladatokban brillírozik, és csak jobb lesz. (Személyesen izgatott vagyok a modell potenciáljától és pályájától!) Amit az o1 még nem tud: egy csoda modell, amely mindenben jobban teljesít, mint a korábbi modellek.” Az OpenAI jelentése szerint az o1-preview a Codeforces versenyképes programozási kérdésein a 89. percentilisbe került. Matematikából 83%-ot ért el a Nemzetközi Matematikai Olimpiádra való kvalifikáló vizsgán, míg a GPT-4o 13%-ot teljesített.
Képességek és teljesítmény
A kisebb o1-mini modellt kifejezetten programozási feladatokra tervezték, és ára 80%-kal alacsonyabb, mint az o1-preview. Az OpenAI az o1 fejlesztéseit egy új megerősítő tanulási (RL) tréning megközelítésnek tulajdonítja, amely arra tanítja a modellt, hogy több időt töltsön a problémák „átgondolásával” a válaszadás előtt, hasonlóan ahhoz, ahogyan a „gondolkodjunk lépésről lépésre” lánc-gondolat irányítás javíthatja a kimeneteket más LLM-ekben.
Az AI benchmarkok híresen megbízhatatlanok és könnyen manipulálhatók; azonban a felhasználók független ellenőrzése és kísérletezése idővel megmutatja az o1 fejlődésének teljes mértékét. Érdekes megjegyezni, hogy a MIT kutatása idén korábban kimutatta, hogy az OpenAI által a GPT-4-tel kapcsolatban hangoztatott benchmark állítások egy része hibás vagy eltúlzott volt.
Az érvelés fogalmának vitája
Nem titok, hogy a technológiai szektorban sokan problémát látnak az AI modellek antropomorfizálásában és olyan kifejezések használatában, mint az „érvelés” a neuronháló rendszerek szintetizálási és feldolgozási műveleteinek leírására. Az OpenAI o1 bejelentése után a Hugging Face vezérigazgatója, Clement Delangue azt írta: „Ismételten, egy AI rendszer nem ‘gondolkodik’, hanem ‘feldolgoz’, ‘előrejelzéseket futtat’… akárcsak a Google vagy a számítógépek. A technológiai rendszerek emberi benyomásának keltése csak olcsó marketingfogás.” Az „érvelés” fogalma szintén homályos, hiszen még az emberek esetében is nehéz pontosan meghatározni, hogy mit jelent ez a kifejezés.
Az OpenAI tervezi, hogy a jövőbeli frissítésekben hozzáadja azokat a funkciókat, amelyek jelenleg hiányoznak az o1-preview-ból, mint például a webböngészés, képgenerálás és fájl feltöltés. Míg az OpenAI azt állítja, hogy az o1-preview és o1-mini modellek ma megjelennek, egyik modell sem érhető el a ChatGPT Plus felületünkön, így nem tudtuk őket értékelni.
Érdekes tény: Az AI modellek, mint az o1, képesek a hibák felismerésére és javítására, amely a jövőbeli AI rendszerek egyik legfontosabb fejlesztési területe.
Források: OpenAI, MIT Research, Wharton Professor Ethan Mollick, Hugging Face