OpenAI har introduceret GPT-OSS, en ny familie af små, åbne sprogmodeller designet til open source-fællesskabet. Disse modeller er optimeret til effektivitet, hastighed og bred kompatibilitet med en række hardware, hvilket gør dem ideelle til udviklere og forskere, der ønsker tilpassede AI-værktøjer uden at være afhængige af storstilet infrastruktur.
GPT-OSS udgives i tre modelstørrelser: 120 millioner, 410 millioner og 1,1 milliarder parametre. Hver version er instruktions-tunet og understøtter flere sprog. Disse modeller er mindre end GPT-3.5 og GPT-4, men er designet til at give hurtig ydeevne på edge-enheder og fungerer godt i offline eller begrænsede miljøer. På trods af deres lille størrelse viser modellerne stærke resultater på en række forskellige benchmarks, herunder MMLU og GSM8K.
Målet med GPT-OSS er at tilbyde et letvægts, fleksibelt alternativ til større modeller, især i brugssager, hvor lav latenstid, fortolkning eller energieffektivitet er prioriteret. Modellerne er også beregnet til at fungere som stærke baselines for akademisk forskning eller finjustering af eksperimenter. OpenAI oplyser, at de har benchmarket GPT-OSS mod sammenlignelige open-weight-modeller og fundet, at de er konkurrencedygtige på tværs af generelle sprogopgaver.
Læs mere:OpenAI debuterer ChatGPT app til iPhone, Android-version kommer snart
I modsætning til ChatGPT eller GPT-4 er GPT-OSS-modeller ikke forbundet til det bredere OpenAI-økosystem. Der er ingen indbygget API-integration, hukommelse eller browserunderstøttelse. I stedet udgives de med en åben-vægt-licens og er tilgængelige på GitHub og Hugging Face, hvilket giver udviklere fuld kontrol over implementering, tilpasning og lokal brug. Vægtene kommer med modelkort og evalueringsmålinger for gennemsigtighed.
OpenAIs udgivelse af GPT-OSS kommer på et tidspunkt, hvor letvægtsmodeller vinder popularitet til applikationer på enheden og private implementeringer. Med øget interesse for åbne vægtmodeller og behovet for reproducerbar forskning tilføjer GPT-OSS et nyt indgangspunkt for dem, der søger mindre-skala LLM'er med pålideligheden af OpenAIs træningsinfrastruktur. Virksomheden understregede, at disse modeller ikke blev trænet ved hjælp af private brugerdata, og at sikkerhedsevalueringer er dokumenteret i modelkortene.
Mens GPT-OSS ikke vil konkurrere med GPT-4 i ræsonnement eller multiturn-chatkvalitet, gør dens tilgængelighed, forhold mellem ydeevne og størrelse og lette eksperimenter det et værdifuldt bidrag til økosystemet af åbne modeller. Udviklere kan nu bygge med GPT-OSS lokalt, finjustere det til specifikke domæner eller bruge det som testbed til arkitekturforskning.
