A Mesterséges Intelligencia Új Korszaka
A mesterséges intelligencia drága műfaj – vallotta mindenki, egészen addig, míg a kínai DeepSeek nem lépett a porondra, állítva, hogy az ő MI-jük nem került több százmillió dollárba, „csak” 5,6 millióba. A fillérekből faragott DeepSeek sikere dollármiliárdokat fújt ki a leggazdagabb techguruk zsebéből, akik nagyon szeretnék megérteni, mi lehet a titok.
Ehhez adódhat még hozzá, hogy a Stanford és a Washingtoni Egyetem MI-kutatói azt állítják egy friss publikációjukban, hogy kevesebb mint 50 dollárból tudtak betanítani egy úgynevezett érvelő MI-modellt. Ez körülbelül 19 500 forint – ami két fő nem fényűző vacsorája egy átlagos magyarországi étteremben. (És akkor a desszert már nem is biztos, hogy belefér.)
A kutatók elmondása szerint „felhőalapú számítási krediteket” használtak a betanítás során, az s1 nevű modell pedig hasonló fejlett érvelési képességekkel bír, mint az OpenAI o1-es és a DeepSeek R1-es modellje. Aki kíváncsi rá, meg is találja az s1-et a GitHubon, ahol a betanításához használt adatok és kódok is elérhetők.
A szakemberek elmondták: egy készen kapható alapmodellel indítottak, majd hangolták tovább a desztillációnak nevezett eljárással. Ez az a folyamat, melynek során egy másik nyelvi modell válaszain gyakorol. Ennek az alkalmazásával már az OpenAI is megvádolta a DeepSeeket. Az s1 azonban a Google Gemini 2.0 Flash Thinking Experimental nevű modelljéből lett desztillálva.
Mindez, jegyzi meg a TechCrunch, sok kérdést felvet. Egyrészt mi lesz az irány, ha egy drága, sok-sok dollármillióba kerülő modellt fillérekből le lehet másolni, ráadásul pontosan? Nem meglepő módon a nagy szerelők nem túl lelkesek emiatt, elvégre dollármilliárdokat költöttek a megoldásaik kifejlesztésére.
Azt ugyanakkor fontos kiemelni, hogy a Google ingyenes hozzáférést biztosít a nevezett modelljéhez, némi korlátozással. Az ugyanakkor szembemegy a feltételeikkel, hogy valaki visszafejtse azt, és egy konkurens eszközt készítsen.
Az s1 betanítása kevesebb mint 30 perc volt, és tizenhat darab Nvidia H100 GPU-ra volt szükség hozzá. Ennek ellenére a képességeit tekintve kifejezetten erős a kutatók szerint. A desztilláció használatával azonban bizonyos, hogy nem lehet sokkal jobb modelleket készíteni, így ha mindenki csak a másikon tanítaná be az eszközeit, érdemi előrelépés nem történne a területen.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.
Érdekesség: A mesterséges intelligencia modellek gyakran hatalmas mennyiségű adatot használnak a betanításhoz, ami miatt a költségek drámaian megemelkedhetnek. Azonban a legújabb trendek azt mutatják, hogy a hatékonyabb modellek kevesebb adattal is képesek lehetnek hasonló eredmények elérésére.
Források: TechCrunch, Stanford Egyetem, Washingtoni Egyetem