Kimi VL A3B Released: Мультимодальная большая модель, 128K контекстное окно и лицензия MIT

I. Введение

Недавно.Moonshot AI официально представила последнее поколение мультимодальных макромоделей Кими VL A3BЭто облегченная модель, основанная на архитектуре Mixed Expert (MoE), с 16 ББ общих параметров, но только 2,8 ББ активаций для вывода. Ее основные особенности включают 128K Контекстное окно увеличенной длины, испособность к мультимодальному мышлению. Что еще более интересно, модель находится в свободномОткрыто под лицензией MITЭто не только подчеркивает его технологический прорыв, но и открывает неограниченные возможности для исследований и применения. В этой статье мы рассмотрим основные характеристики Kimi VL A3B и его потенциальную ценность.

II. Технические особенности: маленькие модели, большие возможности

1. Архитектура и облегченный дизайн MoE

В системе Kimi VL A3B используется архитектура смешанных экспертов (MoE), которая значительно повышает эффективность вычислений за счет динамического распределения задач между различными экспертными подсетями. Несмотря на общий параметр в 16 ББ, во время вычислений задействуется только 2,8 ББ, что позволяет значительно сократить занимаемую память и затраты на вычисления при сохранении производительности. Например, в бенчмарке MathVista Mathematical Reasoning Benchmark KimiVL A3B достигает точности 68.7% при 2.8B активных параметров, превосходя GPT-4o (68.5%) с гораздо большим размером параметров.

2. 128-килобайтное контекстное окно - новый стандарт для обработки длинных текстов

Поддерживая контекстное окно размером 128 Кбайт, Kimi VL A3B способен работать с документами из десятков тысяч слов, сложными диалогами или многораундовыми интерактивными задачами. Эта особенность позволяет ему успешно работать в таких сценариях, как анализ юридических документов, интерпретация технической документации и составление финансовых отчетов. Например, в тесте MMLongBench-Doc на понимание длинных документов Kimi VL A3B набрал 35,1%, что опережает аналогичные модели.

3. Мультимодальные возможности: глубокое объединение текста, изображений и видео

    • Визуальное понимание: визуальный кодер MoonViT с собственным разрешением поддерживает ввод изображений высокого разрешения для анализа сложных диаграмм, математических формул и рукописного контента без необходимости нарезки. В бенчмарке OCRBench он набрал 867 баллов, получив звание SOTA.
    • Видеоаналитика: возможность фиксировать ключевые детали из часовых видеоуроков и создавать структурированные резюме.
    • Кросс-модальные рассуждения: комбинируйте текстовую и графическую информацию для решения геометрических задач, анализа финансовых таблиц, создания кода LaTeX или таблиц Markdown.
    • Сравнение способности распознавания изображений (Kimi-VL-A3B vs GPT-4o): содержимое изображения - скриншот из Cyberpunk 2077. Обе машины правильно разобрали содержимое изображения, причем GPT-4o разобрала быстрее, а Kimi-VL-A3B дала более полный ответ.

 

4. Лицензия MIT: новое начало для экосистемы открытого кода

KimiVL A3B лицензируется по лицензии MIT, чрезвычайно либеральному соглашению с открытым исходным кодом, которое разрешает свободное использование, модификацию и коммерческое распространение, при условии сохранения уведомления об авторских правах. Такая стратегия лицензирования дает разработчикам следующие преимущества:
  1. Недорогая коммерциализация: компании могут интегрировать модели в продукты с закрытым исходным кодом без уплаты дополнительных лицензионных платежей.
  2. Сотрудничество с сообществом: исследователи и разработчики могут свободно улучшать модель и использовать ее совместно с другими проектами с открытым исходным кодом, такими как Hugging Face.
  3. Снижение технических барьеров: малые и средние предприятия и стартапы могут изучать мультимодальные приложения ИИ по более низкой цене, что способствует распространению технологий.

5. сравнение производительности: превосходит отраслевые показатели

В нескольких тестах Kimi VL A3B демонстрирует способность "делать больше с меньшими затратами":
бенчмаркинг Кими VL A3B GPT-4o Qwen2.5-VL-7B
MathVista 68.7% 68.5% 65.2%
MMLongBench-Doc 35.1% 32.8% 30.5%
ScreenSpot-Pro 34.5% 32.1% 28.7%

III. Резюме

Выпуск Kimi VL A3B знаменует собой "облегченную" эру мультимодальных макромоделей. Благодаря контекстному окну 128K, архитектуре MoE и лицензии MIT, Kimi VL A3B представляет собой высокопроизводительное и недорогое решение для сообщества разработчиков с открытым исходным кодом и предприятий. Ожидается, что благодаря глубокому применению мультимодального ИИ в образовании, финансах, здравоохранении и других областях, Kimi VL A3B станет важной силой, способствующей изменениям в отрасли.

Если вы хотите использовать официальный платный эксклюзивный аккаунт GPT Plus, Claude Pro, Grok Super, вы можете связаться с нашей профессиональной командой (wx: abch891), если вы не знаете, как пополнить свой счет.

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с

См. подробнее

ShirtAI - проникающий интеллект Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge) Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep

рекламное пространство

Служба транзитных агентов на основе официальных API

В эпоху открытости и совместного использования OpenAI возглавляет революцию в искусственном интеллекте. Теперь мы объявляем всему миру, что полностью поддерживаем все модели OpenAI, например, GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-* и т.д., а также множество собственных больших моделей. И что самое интересное, мы представили миру более мощную и влиятельную GPT-4o!

Навигация по сайту

рис. начало
Стыковка с третьими лицами
консоли
Инструкция по применению
Онлайн мониторинг

Свяжитесь с нами

公众号二维码

публичный номер

企业合作二维码

Сотрудничество Wechat

Copyright © 2021-2024 Все права защищены 2024 | GPTMeta API