Anthropic unveils Claude 3.5 sonnet: the new AI powerhouse rivals GPT-4 in benchmarks!

 

Anthropic bemutatja a Claude 3.5 Sonnettet: Az AI új mérföldköve

Csütörtökön az Anthropic bejelentette legújabb AI nyelvi modelljét, a Claude 3.5 Sonnettet, amely a Claude 3-ra épül és márciusban jelent meg. A Claude 3.5 képes szövegek írására, adatok elemzésére és kódok írására. 200,000 tokenes kontextusablakkal rendelkezik, és már elérhető a Claude weboldalán és API-n keresztül. Az Anthropic bemutatta az „Artifacts” nevű új funkciót is, amely a Claude felületén kapcsolódó munkadokumentumokat jelenít meg külön ablakban.

Az eddigi visszajelzések pozitívak. „Ez a modell valóban, valóban jó,” írta Simon Willison független AI kutató az X-en. „Úgy gondolom, hogy ez az új legjobb általános modell (és mindkettő gyorsabb és fele annyiba kerül, mint az Opus, hasonlóan a GPT-4 Turbo és a GPT-4o ugráshoz).”

Amint azt korábban is írtuk, a nagy nyelvi modellek (LLM-ek) benchmarkingja problémás, mert könnyen manipulálhatóak és gyakran nem tükrözik a gép által generált kimenetek használatának érzését és finomságát szinte bármilyen elképzelhető témában. De az Anthropic szerint a Claude 3.5 Sonnet megfelel vagy felülmúlja a versenytárs modelleket, mint például a GPT-4o és a Gemini 1.5 Pro bizonyos benchmarkokban, mint az MMLU (egyetemi szintű tudás), GSM8K (általános iskolai matematika) és HumanEval (kódolás).

A Claude 3.5 Sonnet emellett felülmúlja az Anthropic előző legjobb modelljét (Claude 3 Opus) olyan benchmarkokban, amelyek „érvelést,” matematikai készségeket, általános tudást és kódolási képességeket mérnek. Például a modell erős teljesítményt mutatott egy belső kódolási értékelés során, a problémák 64 százalékát megoldva, szemben a Claude 3 Opus 38 százalékával.

A Claude 3.5 Sonnet emellett multimodális AI modell, amely képes képeket is befogadni vizuális input formájában, és az új modell állítólag kiválóan teljesít a vizuális megértési tesztek során.

Artifacts bevezetése

Talán a hétköznapi felhasználók számára leginkább figyelemre méltó az „Artifacts” nevű új interfész funkció, amely lehetővé teszi az emberek számára, hogy Claude által generált tartalmakkal, mint kódok, szövegek és webdesignok, egy külön ablakban léphessenek interakcióba a beszélgetéseik mellett.

Az Anthropic ezt egy lépésnek tekinti a Claude.ai (webes felületük) fejlődése felé, hogy kollaboratív munkaterületté váljon a csapatok számára, de segít az embereknek is, hogy ne veszítsék el a tartalmat egy hosszú beszélgetés során.

Az új modell kétszer gyorsabban fut, mint a Claude 3 Opus, és olcsóbb is az API-n keresztül: az új 3.5 modell 3 dollárba kerül millió input tokenenként és 15 dollárba millió output tokenenként. Összehasonlításképpen, az Opus 15 dollárba kerül millió input tokenenként és 75 dollárba millió output tokenenként.

A weboldalon és az API-n kívül a Claude 3.5 Sonnet elérhető a Claude iOS alkalmazáson keresztül is, magasabb használati korlátokkal a fizető előfizetők számára. A modell elérhető az Amazon Bedrock és a Google Cloud Vertex AI platformjain keresztül is.

Próbára téve

Tesztjeink során a Claude 3.5 Sonnet kompetens vezető AI nyelvi modellnek tűnt, és figyelemre méltó volt a kimeneti sebessége. Alkalmazva szokásos nem rigorózus, alkalmi tesztjeinket, a 3.5 Sonnet jól teljesített a „Magenta” értékelésünk során (bár még mindig nem mondott „nem”-et, hacsak nem kényszerítettük rá).

A Claude 3.5 Sonnet nem írt öt eredeti apai viccet, amikor megkértük rá, és amikor kihívtuk az eredetiség hiánya miatt, ismét apai vicceket hozott az internetről.

Emlékeztetőül szolgál, hogy az LLM-ek úgynevezett intelligenciája csak az edzésadatokig terjed. Az adatok permutációinak szintetizálása a neurális hálózatában tárolt adatokat meghaladó témákban gyakran emberi felismerést igényel, hogy észrevegyék a figyelemre méltó eredményt.

Előretekintve, az Anthropic 2024 későbbi részében tervezi kiadni a Claude 3.5 Haikut és a Claude 3.5 Opust, befejezve a 3.5 modellcsaládot. A vállalat új funkciókat és integrációkat is vizsgál vállalati alkalmazásokkal a Claude AI platform jövőbeli frissítéseihez.

Az LLM elnevezési problémái

Amikor először hallottunk a Claude 3.5 Sonnetről, kissé összezavarodtunk, mert azt hittük, hogy a „Sonnet” márciusban már megjelent. De kiderült, hogy a „3.5” a legfontosabb rész az Anthropic új márkázásában.

Az Anthropic elnevezési rendszere kissé zavaró, mivel megfordítja azt az elvárást, hogy a verziószám a szoftver márkanevének végén legyen, mint például a „Windows 11”. Ebben az esetben a „Claude” a márkanév, a „3.5” a verziószám, és a „Sonnet” egy egyedi módosító. A Claude 3 márciusi bevezetésével az Anthropic „Haiku,” „Sonnet,” és „Opus” nevei úgy tűnik, hogy szinonimái „kicsi,” „közepes,” és „nagy,” hasonlóan ahhoz, ahogy a Starbucks használja a „Tall,” „Grande,” és „Venti” neveket a márkázott kávéscsészék méretére.

A nagy nyelvi modellek még mindig viszonylag újak, és a szolgáltató cégek kísérleteznek az elnevezéssel és márkázással. Az iparág még nem állapodott meg egy olyan formátumban, amely lehetővé teszi a felhasználók számára, hogy gyorsan megértsék és megítéljék a relatív képességeket a márkák között, ha ismerik az egyik cég elnevezési rendszerét, de nem a másikét.

Az OpenAI a GPT-3, GPT-3.5, GPT-3.5 Turbo, GPT-4, GPT-4 Turbo és GTP-4o (bár mindegyiknek voltak alverziói) sorozatos kiadásaival talán a leglogikusabb elnevezési rendszert követte eddig. A Google saját zavaros elnevezési problémáival küzd a Gemini Nano és Gemini Pro, majd a Gemini Ultra 1.0, és legutóbb a Gemini Pro 1.5 esetében. A Meta olyan neveket használ, mint a Llama 3 8B és a Llama 3 70B, egy márkanév, verziószám, majd egy paraméterek számát jelentő méretnév sorrendben. A Mistral a Meta-hoz hasonló paraméternagyságú neveket használ, de a Mistral (a cég neve), Mixtral és Codestral nevekkel rendelkező modellek sorozatával.

Ha mindez zavarónak hangzik, az azért van, mert az. Az AI generáló iparág annyira új, hogy senki sem igazán tudja, mit csinál. Feltételezve, hogy hasznos mainstream alkalmazások végül megjelennek az LLM-ek számára, talán végül többet hallunk ezekről az alkalmazásokról és kevesebbet a furcsa nevű modellekről.

Kis érdekesség: Az AI modellek, mint a Claude 3.5 Sonnet, a nagy adathalmazokból tanulnak, és a „tudásuk” nagymértékben függ azoktól az adatoktól, amelyekkel eddig találkoztak. Az AI-k nem rendelkeznek valódi megértéssel vagy tudatossággal, hanem mintákat követnek és permutációkat generálnak a tanult információk alapján.

Források: Anthropic, Simon Willison, Ars Technica