OpenAI выпускает серию GPT-4.1: значительные улучшения в кодировании, выполнении инструкций и длинных контекстах

I. Введение

15 апреля 2025 года компания OpenAI официально представила новую серию моделей GPT-4.1, включающую GPT-4.1, GPT-4.1 mini и GPT-4.1 nano. Этот выпуск знаменует собой еще один значительный прорыв в производительности, экономичности и возможностях реального применения моделей OpenAI, особенно в области задач кодирования, выполнения инструкций и обработки длинных контекстов, предоставляя разработчикам лучший выбор при более низких ценах и задержках.

GPT-4.1 mini теперь доступен в ShirtAI для бесплатного и неограниченного использования, в один клик от официального сайта:www.lsshirtai.com

 

Если вы хотите вызывать как API GPT-4.1 Загляните на сайт:https://coultra.blueshirtmap.com/

II. Прыжок в навыках кодирования: укрепление всего измерения от создания кода до инженерной практики

В основной сфере разработки программного обеспечения серия GPT-4.1 демонстрирует качественный переход от "генерации фрагментов кода" к "комплексной инженерной обработке". Отвечая реальным потребностям программной инженерии, модель достигает уровня выполнения задач 54,6% в тесте SWE-bench Verified, что на 21% выше, чем у ее предшественницы GPT-4o, и даже превосходит еще не вышедшую предварительную версию GPT-4.5 на 26,6 процентных пункта. Этот прорыв отражается не только в точности логики кода, но и в глубоком понимании многоязычной кодовой базы - в бенчмарк-тесте Aider multi-language diff GPT-4.1 набрал вдвое больше баллов, чем GPT-4o, и может точно следовать формату diff для вывода только измененных строк, а также стабильно контролировать верхний предел выводимых токенов на уровне 32 768, что значительно сокращает количество разработчиков. Он может точно следовать формату diff для вывода только измененных строк и стабильно контролировать верхний предел выходных маркеров на уровне 32 768, что значительно снижает затраты разработчиков на отладку. В сценарии разработки фронт-энда ручная оценка показывает, что вероятность того, что созданное веб-приложение будет предпочтительным с точки зрения функциональности и эстетики, составляет 80%, а возможности разработки полного стека впервые превзошли большинство специализированных моделей кода.
Сравнение основных показателей:
моделирование SWE-bench Проверено Многоязычные бенчмарки Aider Руководство по разработке фронтенда Верхний предел выходного маркера Точность разделения кодов
GPT-4.1 54.6% 11.2 80% 32768 53%
Предварительный просмотр GPT-4.5 38.0% 7.4 52% 16384 45%
o3-мини-высокий 49.3% 9.8 65% 16384 60%
o1 41.2% 6.1 48% 128000 62%

 

III. Прорыв в выполнении команд: точность и надежность обработки сложных заданий

Сталкиваясь со сложными инструкциями с множеством шагов и ограничений, GPT-4.1 совершил скачок от "нечеткого согласования" к "точному выполнению". В бенчмарке Scale's MultiChallenge его оценка соответствия инструкциям достигает 38,3%, что на 10,5% выше, чем у GPT-4o; а его оценка в бенчмарке IFEval составляет 87,4%, значительно превышая 81,0% его предшественника. Модель особенно успешно справляется с тремя основными трудностями: соблюдение формата (например, вложенные структуры XML/YAML), негативные инструкции (явное отклонение чувствительных запросов) и упорядоченные задачи (пошаговое выполнение рабочих процессов), а частота недействительных правок в сложных сценариях с подсказками снизилась до 2% с 9% у GPT-4o по результатам внутренней оценки OpenAI. В ходе многочисленных раундов диалога его контекстная согласованность достигает 92%, точно отслеживая детали, требуемые в исторических инструкциях, обеспечивая надежность промышленного уровня для интеллектуального обслуживания клиентов, автоматизированного рабочего процесса и других сценариев.
Сравнение основных показателей:
моделирование MultiChallenge IFEval Согласованность многораундового диалога Негативные директивы выполняются Показатель выполнения мандата по порядку
GPT-4.1 38.3% 87.4% 92% 98% 95%
Предварительный просмотр GPT-4.5 44.2% 81.0% 78% 89% 82%
o3-мини-высокий 40.1% 85.2% 88% 96% 91%
o1 45.1% 87.1% 89% 97% 94%

 

Инновации в длинном контексте: миллионы окон для токенов открывают новые возможности для глубоких многосценарных приложений.

GPT-4.1 стандартно поставляется с контекстным окном на 1 миллион лексем, что выводит обработку длинных текстов на новый уровень - оно может вместить около 8 полных кодовых баз React или 3 000 страниц юридических документов, что полностью решает проблему "внеконтекстности" в предыдущей модели. "Болевая точка предыдущих моделей. В задаче анализа длинного видео без сценария Video-MME модель набрала 72%, что на 6,7% лучше, чем GPT-4o; тесты на открытом наборе данных Graphwalks показали, что точность многоходовых выводов в масштабе миллионов лексем достигла 61,7%, значительно превысив показатели модели o1, опирающейся на короткие контексты (48,7%). OpenAI синхронно оптимизирует экономику длинных контекстных запросов: окно в 1 миллион токенов включено в стандартную цену, скидка на кэш увеличена с 50% до 75%, а задержка ответа на 128 тысяч токенов снижена до 15 секунд, что на 30% быстрее, чем GPT-4.5, обеспечивая обоснованное техническое решение для таких сценариев, как проверка юридических контрактов и аудит больших баз кода.
Сравнение основных показателей:
моделирование контекстное окно Видео-MME без субтитров Графвалы Рассуждения Скидка на кэш Задержка маркера 128K
GPT-4.1 1,000,000 72.0% 61.7% 75% 15 секунд.
Предварительный просмотр GPT-4.5 128,000 65.3% 42.0% 50% 22 секунды.
o3-мини-высокий 256,000 68.5% 55.2% 50% 18 секунд.
o1 128,000 64.1% 48.7% 50% 25 секунд.

V. Стоимость и эффективность: прагматичная модернизация для разработчиков

Стратегия OpenAI "многоуровневое ценообразование + оптимизация производительности" позволяет разработчикам любого масштаба получить экономически эффективный вариант. Модель начального уровня, GPT-4.1 nano, снижает стоимость ввода до $2/миллион токенов и стоимость вывода до $8/миллион токенов при сохранении окна в миллион токенов, а также уменьшает задержку на 50% по сравнению с GPT-4o, что делает ее предпочтительным выбором для легких задач, таких как категоризация и автозаполнение текста; модель среднего уровня GPT-4.1 mini превосходит GPT-4o в сценариях со средней нагрузкой, таких как генерация кода и многораундовые диалоги, при снижении стоимости на 60%. Модель среднего уровня, GPT-4.1 mini, превосходит GPT-4o в генерации кода, многораундовых диалогах и других сценариях со средней нагрузкой, при этом ее стоимость ниже на 60%. Для сравнения, входная стоимость GPT-4.5 preview составляет 75 долларов за миллион токенов, что составляет лишь 1/25 от соотношения цена/производительность GPT-4.1, что является основной причиной, по которой она будет снята с производства к июлю 2025 года, а новая модель единообразно переходит на модель "GPT-4". Кроме того, в новой модели принята единая политика "без наценки за длинные контексты", что полностью меняет болевую точку предыдущей модели при работе с длинными текстами.
Сравнение основных показателей:
моделирование Входная стоимость ($ / миллион токенов) Стоимость выпуска ($/миллион токенов) Задержка (128K токенов)
GPT-4.1 nano 0.10 0.40 5 секунд.
GPT-4.1 mini 0.40 1.60 8 секунд.
GPT-4.1 2.00 8.00 15 секунд.
Предварительный просмотр GPT-4.5 75.0 150.0 22 секунды.
o3-мини-высокий 1.10 4.40 18 секунд.
o1 15.00 60.00 25 секунд.
* :: Индекс эффективности затрат = (возможности кодирования + оценка команд + контекстное окно)/(стоимость + задержка), чем выше значение, тем лучше

 

Если вы хотите использовать официальный платный эксклюзивный аккаунт GPT Plus, Claude Pro, Grok Super, вы можете связаться с нашей профессиональной командой (wx: abch891), если вы не знаете, как пополнить свой счет.

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с

См. подробнее

ShirtAI - проникающий интеллект Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge) Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep

рекламное пространство

Служба транзитных агентов на основе официальных API

В эпоху открытости и совместного использования OpenAI возглавляет революцию в искусственном интеллекте. Теперь мы объявляем всему миру, что полностью поддерживаем все модели OpenAI, например, GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-* и т.д., а также множество собственных больших моделей. И что самое интересное, мы представили миру более мощную и влиятельную GPT-4o!

Навигация по сайту

рис. начало
Стыковка с третьими лицами
консоли
Инструкция по применению
Онлайн мониторинг

Свяжитесь с нами

公众号二维码

публичный номер

企业合作二维码

Сотрудничество Wechat

Copyright © 2021-2024 Все права защищены 2024 | GPTMeta API