Hogyan készített a kínai mesterséges intelligencia startup, a DeepSeek egy modellt, amely riválisa az OpenAI-nak.

DeepSeek: Az új kihívó a mesterséges intelligencia világában

Január 20-án a DeepSeek, egy viszonylag ismeretlen mesterséges intelligencia kutató labor Kínából, nyilvánosságra hozott egy nyílt forráskódú modellt, amely gyorsan a Silicon Valley középpontjává vált. A vállalat által közzétett tanulmány szerint a DeepSeek-R1 számos matematikai és érvelési tesztben felülmúlja az iparág vezető modelljeit, mint például az OpenAI o1-et. Valójában, számos fontos metrikában—képesség, költség, nyitottság—a DeepSeek komoly kihívást jelent a nyugati mesterséges intelligencia óriások számára.

A DeepSeek sikere rávilágít a technológiai hidegháború nem szándékos következményeire az Egyesült Államok és Kína között. Az amerikai exportkorlátozások jelentősen korlátozták a kínai technológiai cégek lehetőségeit, hogy a nyugati módon versenyezzenek az MI területén, azaz, hogy végtelenül bővítsék kapacitásaikat több chip vásárlásával és hosszabb ideig tartó képzéssel. Ennek eredményeként a legtöbb kínai cég a lefelé irányuló alkalmazásokra összpontosított a saját modellek építése helyett. A legújabb kiadásával azonban a DeepSeek bebizonyította, hogy van egy másik módja a győzelemnek: az MI modellek alapvető struktúrájának átalakítása és a korlátozott erőforrások hatékonyabb felhasználása.

Az új megközelítés

„A sok kínai AI céggel ellentétben, amelyek erősen támaszkodnak a fejlett hardverekhez való hozzáférésre, a DeepSeek a szoftveralapú erőforrás-optimalizálás maximalizálására összpontosított” – magyarázza Marina Zhang, a Sydney-i Műszaki Egyetem docense, aki a kínai innovációkat tanulmányozza. “A DeepSeek nyílt forráskódú módszereket alkalmazott, összegyűjtve a közös szakértelmet és elősegítve az együttműködő innovációt. Ez a megközelítés nemcsak csökkenti az erőforráshiányt, hanem felgyorsítja a csúcstechnológiai fejlesztéseket is, amely megkülönbözteti a DeepSeek-et a zárkózottabb versenytársaktól.”

Kik állnak a DeepSeek mögött?

Az AI startup mögött álló csapat rendkívüli. A DeepSeek a Fire-Flyer néven indult, amely a High-Flyer mélytanulásos kutatási ága, Kína egyik legjobban teljesítő kvantitatív fedezeti alapja. A 2015-ben alapított fedezeti alap gyorsan a prominens helyezések közé került Kínában, és az első kvantitatív fedezeti alap lett, amely több mint 100 milliárd RMB-t (körülbelül 15 milliárd dollárt) gyűjtött össze.

A DeepSeek csapatának összeállításakor Liang, a cég alapítója, nem tapasztalt mérnököket keresett, hanem a legjobb kínai egyetemek PhD hallgatóit, akik bizonyítani akarták magukat. “A legfontosabb technikai pozíciókat többségében az idei vagy az elmúlt egy-két évben végzett diákok töltik be” – mondta Liang.

Az innováció válságból születik

2022 októberében az Egyesült Államok kormánya exportkorlátozásokat vezetett be, amelyek súlyosan korlátozták a kínai AI cégek hozzáférését a csúcstechnológiás chipekhez. A DeepSeek-nek hatékonyabb módszereket kellett kidolgoznia a modellek képzésére. “Olyan mérnöki trükköket alkalmaztak, mint a chip közötti egyedi kommunikációs sémák, a mezők méretének csökkentése a memória megtakarítása érdekében, és a modellek keverésének innovatív használata.”

A DeepSeek hajlandósága a közönség számára történő innovációk megosztására jelentős goodwill-t szerzett számára a globális AI kutatási közösségben. “Most már bebizonyították, hogy csúcstechnológiás modellek építhetők kevesebb erőforrással, és a jelenlegi modellezési normák jelentős optimalizálási lehetőségeket kínálnak” – teszi hozzá Wendy Chang, a Mercator Institute for China Studies szoftverfejlesztője.

Érdekes tény: A DeepSeek-R1 modell megjelenése óta a nyílt forráskódú közösségben a leggyorsabban terjedő mesterséges intelligencia megoldásává vált.

Források: WIRED, 36Kr, QBitAI, Epoch AI