Az emberi szintű problémamegoldásra képes o3 modell beharangozásával zárta az évet az OpenAI. A szeptember óta, széles körben, előfizetéses megoldásként pedig alig több mint két hete használható az o1, ami a ChatGPT kifejlesztő cég sokáig szupertitkosként kezelt projektjének, a Strawberrynek az eredménye. A vállalat már az o1 debütálásakor világossá tette: nem egyetlen modellről, hanem egy modellsorozat első eleméről van szó.
Az OpenAI reményei szerint a korábbi modellekkel szemben a sorozat tagjai már valóban képesek lesznek összetett tudományos, matematikai vagy épp kódolási problémák megoldására.
Az o1-et rögtön az o3 követi, amit a cég vezérigazgatója, Sam Altman azzal magyarázott, hogy egyrészt nem akartak bekavarni a Telefónicának (amely az O2 távközlési brand tulajdonosa), másrészt az OpenAI amúgy is termékei csapnivalóan gyenge elnevezéséről ismert – írja a Bitport.
Tarolt a teszteken
Az új generáció a szokásos banchmarkok tekintetében magabiztosan veri a korábbi modelleket. A cég saját mérései szerint a nagy hagyományokkal rendelkező amerikai meghívásos matematika verseny (AIME) feladatsorát az o3 96,7 százalékos eredménnyel tudta le, miközben az o1 ugyanebben csak 83,3 százalékra volt képes.
Az o3 annyira jól vizsgázott, hogy az OpenAI „benevezte" nonprofit ARC Prize által készített ARC-AGI nevű, kifejezetten az algoritmusok intuíciós és tanulási képességét felmérő tesztre. Az emberi gondolkodás számára egyszerűnek tűnő, de az intuícióra nem képes mesterséges intelligencia számára bonyulult feladatsort 2019-es indulása óta egyetlen algoritmus sem volt képes megugrani. A teszt készítő a 85 százalékos szintet adták meg az emberi teljesítmény küszöbértékének.
A nagy teljesítményre állított o3 simán megugrotta a megjelölt határértéket: 87,5 százalékot ért el, míg a takaréklángra letekert verzió 75,7 százalékra vizsgázott.
Még vizsgálják a biztonsági kockázatokat
Az o3-at első körben kutatók számára teszi elérhetővé az OpenAI, hogy a modell használatából eredő biztonsági kockázatokat fel lehessen mérni, illetve ennek alapján a szükséges módosításokat el lehessen végezni a rendszeren.
A tervek szerint a teljes értékű o3 megjelenése előtt nem túl sokkal, már január végén szélesebb körben használható lesz az o3-mini. Ez egy fékezett habzású, több fokozatban használható változat, ami ugyan nem tud feltétlenül nagyon összetett kérdésekre válaszolni, de az egyszerűbb feladatokat ugyanúgy képes megoldani, mint a nagyobb testvére – csak éppen kevesebb számítással (azaz költséggel).