Kimi VL A3B 发布：多模态大模型，128K上下文窗口与MIT许可

Kimi VL A3B lançado: modelo multimodal de grandes dimensões, janela de contexto de 128K e licença MIT

I. Introdução

Recentemente.A Moonshot AI apresentou oficialmente a sua última geração de macromodelos multimodais Kimi VL A3BTrata-se de um modelo leve baseado na arquitetura Mixed Expert (MoE), com um total de 16 mil parâmetros, mas apenas 2,8 mil activações para inferência. Janela de contexto extra-longa de 128Kecapacidade de raciocínio multimodal. O mais interessante é que o modelo está emAberto sob licença MITEste facto não só realça o seu avanço tecnológico, como também oferece possibilidades ilimitadas de investigação e aplicação. O presente documento debruçar-se-á sobre as principais caraterísticas do Kimi VL A3B e o seu valor potencial.

II. destaques técnicos: pequenos modelos, grandes capacidades

1. arquitetura e conceção ligeira do MoE

O Kimi VL A3B utiliza uma arquitetura Mixed Expert (MoE) que melhora significativamente a eficiência computacional, atribuindo dinamicamente tarefas a diferentes sub-redes de peritos. Apesar de um parâmetro total de 16B, apenas 2,8B é ativado durante a inferência, o que lhe permite reduzir significativamente o espaço de memória e os custos de inferência, mantendo o desempenho. Por exemplo, no MathVista Mathematical Reasoning Benchmark, o KimiVL A3B atinge uma precisão de 68,7% com 2,8B de parâmetros activos, superando o GPT-4o (68,5%) com um tamanho de parâmetro muito maior.

2. Janela de contexto de 128K, uma nova referência para o processamento de textos longos

Suportando uma janela de contexto de 128K, o Kimi VL A3B é capaz de lidar com documentos de dezenas de milhares de palavras, diálogos complexos ou tarefas interactivas de várias rondas. Esta caraterística permite-lhe destacar-se em cenários como a análise de ficheiros jurídicos, a interpretação de documentos técnicos e a criação de relatórios financeiros. Por exemplo, no teste de compreensão de documentos longos MMLongBench-Doc, o Kimi VL A3B obteve uma pontuação de 35,1%, o que está à frente de modelos semelhantes.

3. capacidades multimodais: fusão profunda de texto, imagens e vídeo

- Compreensão visual: O codificador visual de resolução nativa MoonViT suporta a entrada de imagens de alta resolução para analisar diagramas complexos, fórmulas matemáticas e conteúdo manuscrito sem necessidade de corte. Obteve 867 pontos no teste de referência OCRBench, alcançando o SOTA.
- Análise de vídeo: a capacidade de captar pormenores importantes de aulas em vídeo com uma hora de duração e gerar resumos estruturados.
- Raciocínio multimodal: Combinar informações de texto e imagem para resolver problemas de geometria, analisar tabelas financeiras e gerar código LaTeX ou tabelas Markdown.
- Comparação da capacidade de reconhecimento de imagem (Kimi-VL-A3B vs GPT-4o): O conteúdo da imagem é uma captura de ecrã do Cyberpunk 2077, ambos estão corretos na análise do conteúdo da imagem, sendo que o GPT-4o analisa mais rapidamente, enquanto o Kimi-VL-A3B dá uma resposta mais abrangente.

4) A licença MIT: um novo começo para o ecossistema de código aberto

O KimiVL A3B está licenciado ao abrigo da Licença MIT, um acordo de código aberto extremamente liberal que permite a utilização livre, a modificação e a distribuição comercial, sujeito apenas à retenção de um aviso de direitos de autor. Esta estratégia de licenciamento oferece aos programadores as seguintes vantagens:

Comercialização a baixo custo: as empresas podem integrar modelos em produtos de código fechado sem pagar taxas de licenciamento adicionais.
Colaboração da comunidade: os investigadores e programadores são livres de melhorar o modelo e de o utilizar em conjunto com outros projectos de fonte aberta, como o Hugging Face.
Redução das barreiras técnicas: as PME e as empresas em fase de arranque podem explorar aplicações multimodais de IA a um custo mais baixo, promovendo a inclusão tecnológica.

5) Comparação de desempenho: ultrapassando os valores de referência do sector

Em vários testes de referência, o Kimi VL A3B demonstra a capacidade de "fazer mais com menos":

avaliação comparativa	Kimi VL A3B	GPT-4o	Qwen2.5-VL-7B
MathVista	68.7%	68.5%	65.2%
MMLongBench-Doc	35.1%	32.8%	30.5%
ScreenSpot-Pro	34.5%	32.1%	28.7%

III. resumo

O lançamento do Kimi VL A3B marca a era "lightweight" dos macromodelos multimodais. Com a sua janela de contexto de 128K, arquitetura MoE e licença MIT, o Kimi VL A3B fornece uma solução de alto desempenho e baixo custo para a comunidade de código aberto e empresas. Com a aplicação em profundidade da IA multimodal na educação, finanças, cuidados de saúde e outros domínios, espera-se que o Kimi VL A3B se torne uma força importante para a mudança da indústria.

Se quiser usar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: abch891) se não souber como carregar a sua conta.

Para mais produtos, consultar	Ver mais em
ShirtAI - Inteligência penetrante	O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native	Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta	Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge)	Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

API do GPTMeta

Kimi VL A3B lançado: modelo multimodal de grandes dimensões, janela de contexto de 128K e licença MIT

I. Introdução

II. destaques técnicos: pequenos modelos, grandes capacidades

1. arquitetura e conceção ligeira do MoE

2. Janela de contexto de 128K, uma nova referência para o processamento de textos longos

3. capacidades multimodais: fusão profunda de texto, imagens e vídeo

4) A licença MIT: um novo começo para o ecossistema de código aberto

5) Comparação de desempenho: ultrapassando os valores de referência do sector

III. resumo

Para mais produtos, consultar

Ver mais em

espaço publicitário

API do GPTMeta

Serviço de agente de trânsito baseado em APIs oficiais

Navegação no sítio

fig. início

Atracagem de terceiros

consolas

Instruções de utilização

Monitorização em linha

Ligação amigável

OpenAI

Gémeos

Metaverso GPT

Claude Metaverso

CamisaAI

nuvem de blusa azul

Contactar-nos