I. Введение
15 апреля 2025 года компания OpenAI официально представила новую серию моделей GPT-4.1, включающую GPT-4.1, GPT-4.1 mini и GPT-4.1 nano. Этот выпуск знаменует собой еще один значительный прорыв в производительности, экономичности и возможностях реального применения моделей OpenAI, особенно в области задач кодирования, выполнения инструкций и обработки длинных контекстов, предоставляя разработчикам лучший выбор при более низких ценах и задержках.
GPT-4.1 mini теперь доступен в ShirtAI для бесплатного и неограниченного использования, в один клик от официального сайта:www.lsshirtai.com

Если вы хотите вызывать как API GPT-4.1 Загляните на сайт:https://coultra.blueshirtmap.com/
II. Прыжок в навыках кодирования: укрепление всего измерения от создания кода до инженерной практики
В основной сфере разработки программного обеспечения серия GPT-4.1 демонстрирует качественный переход от "генерации фрагментов кода" к "комплексной инженерной обработке". Отвечая реальным потребностям программной инженерии, модель достигает уровня выполнения задач 54,6% в тесте SWE-bench Verified, что на 21% выше, чем у ее предшественницы GPT-4o, и даже превосходит еще не вышедшую предварительную версию GPT-4.5 на 26,6 процентных пункта. Этот прорыв отражается не только в точности логики кода, но и в глубоком понимании многоязычной кодовой базы - в бенчмарк-тесте Aider multi-language diff GPT-4.1 набрал вдвое больше баллов, чем GPT-4o, и может точно следовать формату diff для вывода только измененных строк, а также стабильно контролировать верхний предел выводимых токенов на уровне 32 768, что значительно сокращает количество разработчиков. Он может точно следовать формату diff для вывода только измененных строк и стабильно контролировать верхний предел выходных маркеров на уровне 32 768, что значительно снижает затраты разработчиков на отладку. В сценарии разработки фронт-энда ручная оценка показывает, что вероятность того, что созданное веб-приложение будет предпочтительным с точки зрения функциональности и эстетики, составляет 80%, а возможности разработки полного стека впервые превзошли большинство специализированных моделей кода.
Сравнение основных показателей:
моделирование | SWE-bench Проверено | Многоязычные бенчмарки Aider | Руководство по разработке фронтенда | Верхний предел выходного маркера | Точность разделения кодов |
---|---|---|---|---|---|
GPT-4.1 | 54.6% | 11.2 | 80% | 32768 | 53% |
Предварительный просмотр GPT-4.5 | 38.0% | 7.4 | 52% | 16384 | 45% |
o3-мини-высокий | 49.3% | 9.8 | 65% | 16384 | 60% |
o1 | 41.2% | 6.1 | 48% | 128000 | 62% |
III. Прорыв в выполнении команд: точность и надежность обработки сложных заданий
Сталкиваясь со сложными инструкциями с множеством шагов и ограничений, GPT-4.1 совершил скачок от "нечеткого согласования" к "точному выполнению". В бенчмарке Scale's MultiChallenge его оценка соответствия инструкциям достигает 38,3%, что на 10,5% выше, чем у GPT-4o; а его оценка в бенчмарке IFEval составляет 87,4%, значительно превышая 81,0% его предшественника. Модель особенно успешно справляется с тремя основными трудностями: соблюдение формата (например, вложенные структуры XML/YAML), негативные инструкции (явное отклонение чувствительных запросов) и упорядоченные задачи (пошаговое выполнение рабочих процессов), а частота недействительных правок в сложных сценариях с подсказками снизилась до 2% с 9% у GPT-4o по результатам внутренней оценки OpenAI. В ходе многочисленных раундов диалога его контекстная согласованность достигает 92%, точно отслеживая детали, требуемые в исторических инструкциях, обеспечивая надежность промышленного уровня для интеллектуального обслуживания клиентов, автоматизированного рабочего процесса и других сценариев.
Сравнение основных показателей:
моделирование | MultiChallenge | IFEval | Согласованность многораундового диалога | Негативные директивы выполняются | Показатель выполнения мандата по порядку |
---|---|---|---|---|---|
GPT-4.1 | 38.3% | 87.4% | 92% | 98% | 95% |
Предварительный просмотр GPT-4.5 | 44.2% | 81.0% | 78% | 89% | 82% |
o3-мини-высокий | 40.1% | 85.2% | 88% | 96% | 91% |
o1 | 45.1% | 87.1% | 89% | 97% | 94% |
Инновации в длинном контексте: миллионы окон для токенов открывают новые возможности для глубоких многосценарных приложений.
GPT-4.1 стандартно поставляется с контекстным окном на 1 миллион лексем, что выводит обработку длинных текстов на новый уровень - оно может вместить около 8 полных кодовых баз React или 3 000 страниц юридических документов, что полностью решает проблему "внеконтекстности" в предыдущей модели. "Болевая точка предыдущих моделей. В задаче анализа длинного видео без сценария Video-MME модель набрала 72%, что на 6,7% лучше, чем GPT-4o; тесты на открытом наборе данных Graphwalks показали, что точность многоходовых выводов в масштабе миллионов лексем достигла 61,7%, значительно превысив показатели модели o1, опирающейся на короткие контексты (48,7%). OpenAI синхронно оптимизирует экономику длинных контекстных запросов: окно в 1 миллион токенов включено в стандартную цену, скидка на кэш увеличена с 50% до 75%, а задержка ответа на 128 тысяч токенов снижена до 15 секунд, что на 30% быстрее, чем GPT-4.5, обеспечивая обоснованное техническое решение для таких сценариев, как проверка юридических контрактов и аудит больших баз кода.
Сравнение основных показателей:
моделирование | контекстное окно | Видео-MME без субтитров | Графвалы Рассуждения | Скидка на кэш | Задержка маркера 128K |
---|---|---|---|---|---|
GPT-4.1 | 1,000,000 | 72.0% | 61.7% | 75% | 15 секунд. |
Предварительный просмотр GPT-4.5 | 128,000 | 65.3% | 42.0% | 50% | 22 секунды. |
o3-мини-высокий | 256,000 | 68.5% | 55.2% | 50% | 18 секунд. |
o1 | 128,000 | 64.1% | 48.7% | 50% | 25 секунд. |
V. Стоимость и эффективность: прагматичная модернизация для разработчиков
Стратегия OpenAI "многоуровневое ценообразование + оптимизация производительности" позволяет разработчикам любого масштаба получить экономически эффективный вариант. Модель начального уровня, GPT-4.1 nano, снижает стоимость ввода до $2/миллион токенов и стоимость вывода до $8/миллион токенов при сохранении окна в миллион токенов, а также уменьшает задержку на 50% по сравнению с GPT-4o, что делает ее предпочтительным выбором для легких задач, таких как категоризация и автозаполнение текста; модель среднего уровня GPT-4.1 mini превосходит GPT-4o в сценариях со средней нагрузкой, таких как генерация кода и многораундовые диалоги, при снижении стоимости на 60%. Модель среднего уровня, GPT-4.1 mini, превосходит GPT-4o в генерации кода, многораундовых диалогах и других сценариях со средней нагрузкой, при этом ее стоимость ниже на 60%. Для сравнения, входная стоимость GPT-4.5 preview составляет 75 долларов за миллион токенов, что составляет лишь 1/25 от соотношения цена/производительность GPT-4.1, что является основной причиной, по которой она будет снята с производства к июлю 2025 года, а новая модель единообразно переходит на модель "GPT-4". Кроме того, в новой модели принята единая политика "без наценки за длинные контексты", что полностью меняет болевую точку предыдущей модели при работе с длинными текстами.
Сравнение основных показателей:
моделирование | Входная стоимость ($ / миллион токенов) | Стоимость выпуска ($/миллион токенов) | Задержка (128K токенов) |
---|---|---|---|
GPT-4.1 nano | 0.10 | 0.40 | 5 секунд. |
GPT-4.1 mini | 0.40 | 1.60 | 8 секунд. |
GPT-4.1 | 2.00 | 8.00 | 15 секунд. |
Предварительный просмотр GPT-4.5 | 75.0 | 150.0 | 22 секунды. |
o3-мини-высокий | 1.10 | 4.40 | 18 секунд. |
o1 | 15.00 | 60.00 | 25 секунд. |
* :: Индекс эффективности затрат = (возможности кодирования + оценка команд + контекстное окно)/(стоимость + задержка), чем выше значение, тем лучше
Если вы хотите использовать официальный платный эксклюзивный аккаунт GPT Plus, Claude Pro, Grok Super, вы можете связаться с нашей профессиональной командой (wx: abch891), если вы не знаете, как пополнить свой счет.