На почетокот на неделата, OpenAI ја претстави новата генерација на своите модели со вештачка интелигенција под името GPT-4.1, која вклучува мини и нано варијанти. Овие модели се особено оптимизирани за задачи поврзани со програмирање и извршување инструкции. Иако не се достапни преку ChatGPT, можно е да се користат преку OpenAI API. Една од нивните клучни карактеристики е можноста за обработка на текст до 750.000 зборови.

Новите модели доаѓаат во време кога конкурентските компании како Google и Anthropic прават дополнителни напори за развој на напредни решенија за автоматско кодирање. Gemini 2.5 Pro на Google и Claude 3.7 Sonnet на Anthropic, како и V3 моделот на DeepSeek, веќе постигнаа забележителни резултати во програмските тестови.
Целта на OpenAI и другите технолошки лидери е да развијат модели кои можат самостојно да решаваат сложени задачи во областа на софтверското инженерство. Во оваа насока се движи и амбицијата да се создаде систем за вештачка интелигенција кој би можел да функционира како независен „софтверски инженер-агент“ способен да создава комплетни апликации, вклучувајќи тестирање, документација и контрола на квалитетот.
OpenAI тврди дека GPT-4.1 е значително подобрен благодарение на повратните информации од корисниците. Фокусот беше на подобра поддршка за програмирање на предниот дел, намалување на непотребните промени, прецизно следење на стандардните формати и посигурна употреба на алатките. Сето ова овозможува развој на поефикасни агенти за вештачка интелигенција за инженерски задачи во реалниот свет.
Според внатрешните податоци на OpenAI, GPT-4.1 ги надминува претходните модели како GPT-4o и неговите варијации во повеќето тестови за програмери. Мини и нано верзиите на новиот модел носат поголема брзина и помала потрошувачка на ресурси, но со малку помала прецизност. GPT-4.1 nano е исто така најприфатливиот модел во нивната понуда.
Цените за користење на моделот зависат од количината на обработка: GPT-4.1 чини 2 долари за милион влезни токени и 8 долари за милион излезни токени, додека цените за мини и нано верзиите се значително пониски.
На SWE-bench Verified тестот, GPT-4.1 постигна резултати меѓу 52% и 54,6%, малку пониски од конкурентите Google и Anthropic, чии модели надминуваат 60%. Разликата делумно произлегува од техничките ограничувања на платформата на која беа извршени тестовите.
Покрај тоа, моделот беше тестиран и во задачи за разбирање видео содржини, каде што покажа исклучителни резултати - особено во категоријата долги видеа без преводи.
И покрај неговите подобрувања, GPT-4.1 споделува некои ограничувања на другите напредни модели. Сè уште може да прави грешки во задачите со кои лесно би се справиле искусни професионалци, како што е откривање или поправање на безбедносни пропусти во кодот. Исто така, неговата прецизност паѓа при обработка на големи количини на токени - од 84% на 8.000 токени на 50% на 1 милион токени. OpenAI признава дека моделот може да биде премногу буквален, честопати бара многу конкретни и прецизно формулирани прашања.