Mesterséges intelligencia forradalom: az MIT kutatói generatív AI-t vezetnek be az adatbázisok világába

GenSQL: Az új generációs eszköz a bonyolult statisztikai elemzésekhez

Az adatbázis felhasználói számára mostantól könnyebb bonyolult statisztikai elemzéseket végezni anélkül, hogy pontosan értenék, mi történik a háttérben. A GenSQL, egy generatív mesterséges intelligencia rendszer adatbázisokhoz, előrejelzéseket készíthet, anomáliákat észlelhet, hiányzó értékeket találhat ki, hibákat javíthat vagy szintetikus adatokat generálhat néhány billentyűleütéssel.

Például, ha a rendszert egy magas vérnyomással rendelkező beteg orvosi adatainak elemzésére használják, felismerheti azt az alacsony vérnyomás értéket, amely az adott beteg számára szokatlan, de egyébként normális tartományban lenne. A GenSQL automatikusan integrál egy táblázatos adatállományt és egy generatív valószínűségi AI modellt, amely képes figyelembe venni a bizonytalanságot és új adatok alapján módosítani a döntéshozatalt.

Modellek és adatbázisok kombinálása

A GenSQL-t azért hozták létre, hogy valaki egyszerű és erőteljes programozási nyelvvel kérdezhessen le egy adatállományt és valószínűségi modellt is. A GenSQL felhasználó feltölti adatait és valószínűségi modelljét, amelyet a rendszer automatikusan integrál. Ezután lekérdezések futtathatók az adatokra, amelyek a háttérben futó valószínűségi modellből is inputot kapnak. Ez nemcsak összetettebb lekérdezéseket tesz lehetővé, hanem pontosabb válaszokat is nyújt.

Például egy GenSQL lekérdezés lehet valami ilyesmi: „Milyen valószínűséggel tud egy seattle-i fejlesztő Rust programozási nyelvet?” Csak az adatbázis oszlopai közötti korreláció megtekintése közben kihagyhatja a finomabb függőségeket. Egy valószínűségi modell bevonása összetettebb interakciókat is rögzíthet. Ráadásul a GenSQL által használt valószínűségi modellek auditálhatók, így az emberek láthatják, mely adatokat használja a modell a döntéshozatalhoz.

Gyorsabb és pontosabb eredmények

A GenSQL értékeléséhez a kutatók összehasonlították rendszerüket népszerű alapmódszerekkel, amelyek neurális hálózatokat használnak. A GenSQL 1,7 és 6,8-szor gyorsabb volt ezeknél a megközelítéseknél, a legtöbb lekérdezést néhány milliszekundum alatt végrehajtva, miközben pontosabb eredményeket nyújtott.

A kutatók a GenSQL-t két esettanulmányban is alkalmazták: egy esetben a rendszer azonosította a hibásan címkézett klinikai vizsgálati adatokat, a másikban pedig pontos szintetikus adatokat generált, amelyek összetett kapcsolatokat ragadtak meg a genomikában.

Érdekesség: A mesterséges intelligencia világában egyre több olyan rendszer jelenik meg, mint a GenSQL, amely automatikusan integrálja az adatokat és a valószínűségi modelleket, lehetővé téve a felhasználók számára, hogy összetett kérdéseket tegyenek fel anélkül, hogy mélyrehatóan értenék a statisztikai elemzést.

Források: MIT News, ACM Conference on Programming Language Design and Implementation