Alibaba válasza a DeepSeek-re: Qwen 2.5-Max
Qwen 2.5-Max a legújabb nagy léptékű Mixture-of-Experts (MoE) modell, amelyet az Alibaba fejlesztett ki, és amely több mint 20 trillió token előképzésén alapul. A modell finomhangolása modern technikák, mint például a Supervised Fine-Tuning (SFT) és a Reinforcement Learning from Human Feedback (RLHF) révén történt.
Az API mostantól elérhető az Alibaba Cloudon, és a modell felfedezhető a Qwen Chat platformon, amely lehetőséget ad a fejlesztőknek és kutatóknak, hogy közvetlenül tapasztalják meg az áttöréseket.
Előnyben a versenytársakkal szemben
Amikor a Qwen 2.5-Max teljesítményét összehasonlították a legjelentősebb AI modellekkel különböző benchmarkokban, az eredmények ígéretesek voltak. A kiértékelések közé tartozott a MMLU-Pro egyetemi szintű problémamegoldásra, a LiveCodeBench a kódolási szakértelemhez, a LiveBench az általános képességekhez és az Arena-Hard a modellek emberi preferenciák szerinti értékeléséhez.
Az Alibaba szerint: „A Qwen 2.5-Max felülmúlja a DeepSeek V3-at az Arena-Hard, LiveBench, LiveCodeBench és GPQA-Diamond benchmarkokban, miközben más értékelésekben, például az MMLU-Pro-ban is versenyképes eredményeket mutat.”
A modell célja, hogy a chat és a kódolás területén végzett feladatokhoz alkalmazható legyen, közvetlen versenytársa a vezető modelleknek, mint a GPT-4o, Claude-3.5-Sonnet és a DeepSeek V3.
A Qwen 2.5-Max elérhetősége
Az Alibaba a Qwen 2.5-Max modellt integrálta a Qwen Chat platformba, ahol a felhasználók közvetlenül interakcióba léphetnek a modellel. Az érdeklődők az Alibaba Cloudon keresztül regisztrálhatnak, aktiválhatják a Model Studio szolgáltatást, és generálhatják az API kulcsokat.
A Qwen 2.5-Max API kompatibilis az OpenAI ökoszisztémájával, így a meglévő projektekbe való integráció egyszerűbbé válik.
Az Alibaba erős szándéknyilatkozatot tett a Qwen 2.5-Max-szal. A cég folyamatos elkötelezettsége az AI modellek méretezése mellett nemcsak a teljesítményjavításról szól, hanem a rendszerek alapvető gondolkodási és érvelési képességeinek fokozásáról is.
A jövőre nézve a csapat célja, hogy a megerősített tanulás határait tovább bővítse, lehetővé téve, hogy a modellek ne csak utolérjék, hanem felülmúlják az emberi intelligenciát a bonyolult problémák megoldásában.
Érdekes tény: A Mixture-of-Experts modellek lehetővé teszik, hogy a gépek a tudásuk legnagyobb részét a feladatokhoz legjobban illeszkedő szakértőkből nyerjék, így rendkívül hatékonyan képesek kezelni a komplex problémákat.
Források: Alibaba, AI News



