OpenAI 发布 GPT-4.1 系列：编码、指令执行与长上下文能力大幅提升

OpenAI выпускает серию GPT-4.1: значительные улучшения в кодировании, выполнении инструкций и длинных контекстах

I. Введение

15 апреля 2025 года компания OpenAI официально представила новую серию моделей GPT-4.1, включающую GPT-4.1, GPT-4.1 mini и GPT-4.1 nano. Этот выпуск знаменует собой еще один значительный прорыв в производительности, экономичности и возможностях реального применения моделей OpenAI, особенно в области задач кодирования, выполнения инструкций и обработки длинных контекстов, предоставляя разработчикам лучший выбор при более низких ценах и задержках.

GPT-4.1 mini теперь доступен в ShirtAI для бесплатного и неограниченного использования, в один клик от официального сайта:www.lsshirtai.com

Если вы хотите вызывать как API GPT-4.1 Загляните на сайт:https://coultra.blueshirtmap.com/

II. Прыжок в навыках кодирования: укрепление всего измерения от создания кода до инженерной практики

В основной сфере разработки программного обеспечения серия GPT-4.1 демонстрирует качественный переход от "генерации фрагментов кода" к "комплексной инженерной обработке". Отвечая реальным потребностям программной инженерии, модель достигает уровня выполнения задач 54,6% в тесте SWE-bench Verified, что на 21% выше, чем у ее предшественницы GPT-4o, и даже превосходит еще не вышедшую предварительную версию GPT-4.5 на 26,6 процентных пункта. Этот прорыв отражается не только в точности логики кода, но и в глубоком понимании многоязычной кодовой базы - в бенчмарк-тесте Aider multi-language diff GPT-4.1 набрал вдвое больше баллов, чем GPT-4o, и может точно следовать формату diff для вывода только измененных строк, а также стабильно контролировать верхний предел выводимых токенов на уровне 32 768, что значительно сокращает количество разработчиков. Он может точно следовать формату diff для вывода только измененных строк и стабильно контролировать верхний предел выходных маркеров на уровне 32 768, что значительно снижает затраты разработчиков на отладку. В сценарии разработки фронт-энда ручная оценка показывает, что вероятность того, что созданное веб-приложение будет предпочтительным с точки зрения функциональности и эстетики, составляет 80%, а возможности разработки полного стека впервые превзошли большинство специализированных моделей кода.

Сравнение основных показателей:

моделирование	SWE-bench Проверено	Многоязычные бенчмарки Aider	Руководство по разработке фронтенда	Верхний предел выходного маркера	Точность разделения кодов
GPT-4.1	54.6%	11.2	80%	32768	53%
Предварительный просмотр GPT-4.5	38.0%	7.4	52%	16384	45%
o3-мини-высокий	49.3%	9.8	65%	16384	60%
o1	41.2%	6.1	48%	128000	62%

III. Прорыв в выполнении команд: точность и надежность обработки сложных заданий

Сталкиваясь со сложными инструкциями с множеством шагов и ограничений, GPT-4.1 совершил скачок от "нечеткого согласования" к "точному выполнению". В бенчмарке Scale's MultiChallenge его оценка соответствия инструкциям достигает 38,3%, что на 10,5% выше, чем у GPT-4o; а его оценка в бенчмарке IFEval составляет 87,4%, значительно превышая 81,0% его предшественника. Модель особенно успешно справляется с тремя основными трудностями: соблюдение формата (например, вложенные структуры XML/YAML), негативные инструкции (явное отклонение чувствительных запросов) и упорядоченные задачи (пошаговое выполнение рабочих процессов), а частота недействительных правок в сложных сценариях с подсказками снизилась до 2% с 9% у GPT-4o по результатам внутренней оценки OpenAI. В ходе многочисленных раундов диалога его контекстная согласованность достигает 92%, точно отслеживая детали, требуемые в исторических инструкциях, обеспечивая надежность промышленного уровня для интеллектуального обслуживания клиентов, автоматизированного рабочего процесса и других сценариев.

Сравнение основных показателей:

моделирование	MultiChallenge	IFEval	Согласованность многораундового диалога	Негативные директивы выполняются	Показатель выполнения мандата по порядку
GPT-4.1	38.3%	87.4%	92%	98%	95%
Предварительный просмотр GPT-4.5	44.2%	81.0%	78%	89%	82%
o3-мини-высокий	40.1%	85.2%	88%	96%	91%
o1	45.1%	87.1%	89%	97%	94%

Инновации в длинном контексте: миллионы окон для токенов открывают новые возможности для глубоких многосценарных приложений.

GPT-4.1 стандартно поставляется с контекстным окном на 1 миллион лексем, что выводит обработку длинных текстов на новый уровень - оно может вместить около 8 полных кодовых баз React или 3 000 страниц юридических документов, что полностью решает проблему "внеконтекстности" в предыдущей модели. "Болевая точка предыдущих моделей. В задаче анализа длинного видео без сценария Video-MME модель набрала 72%, что на 6,7% лучше, чем GPT-4o; тесты на открытом наборе данных Graphwalks показали, что точность многоходовых выводов в масштабе миллионов лексем достигла 61,7%, значительно превысив показатели модели o1, опирающейся на короткие контексты (48,7%). OpenAI синхронно оптимизирует экономику длинных контекстных запросов: окно в 1 миллион токенов включено в стандартную цену, скидка на кэш увеличена с 50% до 75%, а задержка ответа на 128 тысяч токенов снижена до 15 секунд, что на 30% быстрее, чем GPT-4.5, обеспечивая обоснованное техническое решение для таких сценариев, как проверка юридических контрактов и аудит больших баз кода.

Сравнение основных показателей:

моделирование	контекстное окно	Видео-MME без субтитров	Графвалы Рассуждения	Скидка на кэш	Задержка маркера 128K
GPT-4.1	1,000,000	72.0%	61.7%	75%	15 секунд.
Предварительный просмотр GPT-4.5	128,000	65.3%	42.0%	50%	22 секунды.
o3-мини-высокий	256,000	68.5%	55.2%	50%	18 секунд.
o1	128,000	64.1%	48.7%	50%	25 секунд.

V. Стоимость и эффективность: прагматичная модернизация для разработчиков

Стратегия OpenAI "многоуровневое ценообразование + оптимизация производительности" позволяет разработчикам любого масштаба получить экономически эффективный вариант. Модель начального уровня, GPT-4.1 nano, снижает стоимость ввода до $2/миллион токенов и стоимость вывода до $8/миллион токенов при сохранении окна в миллион токенов, а также уменьшает задержку на 50% по сравнению с GPT-4o, что делает ее предпочтительным выбором для легких задач, таких как категоризация и автозаполнение текста; модель среднего уровня GPT-4.1 mini превосходит GPT-4o в сценариях со средней нагрузкой, таких как генерация кода и многораундовые диалоги, при снижении стоимости на 60%. Модель среднего уровня, GPT-4.1 mini, превосходит GPT-4o в генерации кода, многораундовых диалогах и других сценариях со средней нагрузкой, при этом ее стоимость ниже на 60%. Для сравнения, входная стоимость GPT-4.5 preview составляет 75 долларов за миллион токенов, что составляет лишь 1/25 от соотношения цена/производительность GPT-4.1, что является основной причиной, по которой она будет снята с производства к июлю 2025 года, а новая модель единообразно переходит на модель "GPT-4". Кроме того, в новой модели принята единая политика "без наценки за длинные контексты", что полностью меняет болевую точку предыдущей модели при работе с длинными текстами.

Сравнение основных показателей:

моделирование	Входная стоимость ($ / миллион токенов)	Стоимость выпуска ($/миллион токенов)	Задержка (128K токенов)
GPT-4.1 nano	0.10	0.40	5 секунд.
GPT-4.1 mini	0.40	1.60	8 секунд.
GPT-4.1	2.00	8.00	15 секунд.
Предварительный просмотр GPT-4.5	75.0	150.0	22 секунды.
o3-мини-высокий	1.10	4.40	18 секунд.
o1	15.00	60.00	25 секунд.

* :: Индекс эффективности затрат = (возможности кодирования + оценка команд + контекстное окно)/(стоимость + задержка), чем выше значение, тем лучше

Если вы хотите использовать официальный платный эксклюзивный аккаунт GPT Plus, Claude Pro, Grok Super, вы можете связаться с нашей профессиональной командой (wx: abch891), если вы не знаете, как пополнить свой счет.

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с	См. подробнее
ShirtAI - проникающий интеллект	Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native	Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API	Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge)	Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep

API GPTMeta

OpenAI выпускает серию GPT-4.1: значительные улучшения в кодировании, выполнении инструкций и длинных контекстах

I. Введение

II. Прыжок в навыках кодирования: укрепление всего измерения от создания кода до инженерной практики

III. Прорыв в выполнении команд: точность и надежность обработки сложных заданий

Инновации в длинном контексте: миллионы окон для токенов открывают новые возможности для глубоких многосценарных приложений.

V. Стоимость и эффективность: прагматичная модернизация для разработчиков

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с

См. подробнее

рекламное пространство

API GPTMeta

Служба транзитных агентов на основе официальных API

Навигация по сайту

рис. начало

Стыковка с третьими лицами

консоли

Инструкция по применению

Онлайн мониторинг

Дружественная ссылка

OpenAI

Близнецы

Метаверсия GPT

Клод Метаверс

РубашкаAI

сине-блузовое облако

Свяжитесь с нами