キミVL A3B発売:マルチモーダル大型モデル、128Kコンテクストウィンドウ&MITライセンス

I. はじめに

最近だ。ムーンショットAIは、最新世代のマルチモーダル・マクロモデルを正式に発表した。 キミVL A3Bこれはミックスド・エキスパート(MoE)アーキテクチャに基づく軽量モデルで、総パラメータは16Bだが、推論に必要なアクティベーションはわずか2.8Bである。 128K エクストラロングコンテキストウィンドウそしてマルチモーダル推理能力.さらにエキサイティングなことに、このモデルはルーズである。MITライセンスで公開これは、その技術的な飛躍を際立たせるだけでなく、研究と応用に無限の可能性を与えるものでもある。本稿では、キミVL A3Bの核となる特徴とその潜在的価値について掘り下げていく。

II.技術的ハイライト:小さなモデル、大きな能力

1.MoEアーキテクチャと軽量設計

Kimi VL A3Bは、異なるエキスパート・サブネットワークにタスクを動的に割り当てることで計算効率を大幅に向上させるMixed Expert(MoE)アーキテクチャを採用しています。総パラメータが16Bであるにもかかわらず、推論中にアクティブになるのは2.8Bのみで、パフォーマンスを維持しながらメモリフットプリントと推論コストを大幅に削減することができます。例えば、MathVista Mathematical Reasoning Benchmarkにおいて、KimiVL A3Bは2.8Bのアクティブパラメータで68.7%の精度を達成し、より大きなパラメータサイズを持つGPT-4o(68.5%)を凌駕しています。

2. 128K コンテキストウィンドウ、長文処理の新しいベンチマーク

128KのコンテキストウィンドウをサポートするKimi VL A3Bは、数万語の文書、複雑なダイアログ、多ラウンドの対話タスクを処理することができます。この特徴により、法律ファイルの分析、技術文書の解釈、財務報告書の作成などのシナリオで優れた能力を発揮します。例えば、MMLongBench-Docの長文文書理解テストでは、Kimi VL A3Bは35.1%を記録し、類似機種を引き離しています。

3.マルチモーダル機能:テキスト、画像、ビデオのディープ・フュージョン

    • 視覚的理解:ネイティブ解像度のビジュアル・エンコーダMoonViTは、高解像度の画像入力をサポートし、複雑な図や数式、手書きの内容をスライスすることなく解析します。OCRBenchベンチマークでは867点を記録し、SOTAを達成しました。
    • ビデオ分析:1時間のビデオレッスンから重要な詳細をキャプチャし、構造化された要約を生成する機能。
    • クロスモーダル推論:テキストと画像情報を組み合わせて、幾何学問題を解いたり、財務表を分析したり、LaTeXコードやMarkdownテーブルを生成したりします。
    • 画像認識能力の比較(Kimi-VL-A3B vs GPT-4o):画像の内容はCyberpunk 2077のスクリーンショットで、画像の内容の解析はどちらも正しく、GPT-4oの方が解析が速く、Kimi-VL-A3Bの方がより包括的な答えを出す。

 

4.MITライセンス:オープンソースエコシステムの新たな始まり

KimiVL A3Bは、著作権表示を保持することを条件に、自由な使用、改変、商用配布を許可する極めて自由なオープンソース契約であるMITライセンスでライセンスされています。このライセンス戦略は、開発者に以下の利点を提供します:
  1. 低コストでの商業化:企業は、追加のライセンス料を支払うことなく、モデルをクローズドソース製品に統合することができる。
  2. コミュニティとの協力:研究者や開発者は自由にモデルを改良し、ハギング・フェイスのような他のオープンソース・プロジェクトと組み合わせて使用することができる。
  3. 技術的障壁の低減:中小企業や新興企業は、より低コストでマルチモーダルなAIアプリケーションを探求することができ、技術的なインクルージョンを促進する。

5.性能比較:業界ベンチマークを上回る

いくつかのベンチマークで、キミVL A3Bは「より少ないものでより多くのことをこなす」能力を実証している:
ベンチマーキング キミVL A3B GPT-4o クウェン2.5-VL-7B
数学ビスタ 68.7% 68.5% 65.2%
MMLongBench-Doc 35.1% 32.8% 30.5%
スクリーンスポット・プロ 34.5% 32.1% 28.7%

要約

Kimi VL A3Bのリリースは、マルチモーダル・マクロモデルの「軽量化」時代を象徴しています。128Kのコンテキスト・ウィンドウ、MoEアーキテクチャ、MITライセンスにより、Kimi VL A3Bは、オープンソースコミュニティや企業向けに高性能かつ低コストのソリューションを提供します。教育、金融、ヘルスケアなどの分野でマルチモーダルAIが深く応用されるにつれ、Kimi VL A3Bは業界を変える重要な力になることが期待されています。

GPT Plus、Claude Pro、Grok Superの公式有料独占アカウントを使用したい場合、アカウントのトップアップの方法がわからない場合は、当社の専門チーム(wx: abch891)にお問い合わせください。

その他の製品については

詳細はこちら

シャツAI - 貫通する知性 AIGCビッグモデル:工学と科学の二大革命の時代を切り開く - Penetrating Intelligence
クロードとGPTの1:1復元 公式サイト - AI Cloud Native ライブマッチアプリ グローバルHDスポーツ観戦プレーヤー(推奨) - Blueshirt Technology
公式APIに基づくトランジットサービス - GPTMeta API GPTで質問するときのコツを教えてください。- 知識
グローバル・バーチャルグッズ・デジタルストア - グローバル・スマート(馮玲葛) GPTが瞬時にいい匂いを感じなくなるクロード・エアトファクト機能の実力は?-ピーピーピー

広告スペース

公式APIに基づくトランジット・エージェント・サービス

オープンと共有の時代において、OpenAIは人工知能の革命をリードしています。この度、GPT-4-ALL、GPT-4-multimodal、GPT-4-gizmo-*など、OpenAIの全モデルを完全にサポートし、さらに様々な自家製ビッグモデルもサポートしたことを世界に発表します。最もエキサイティングなのは、より強力で影響力のあるGPT-4oを世に送り出したことです!

サイトナビゲーション

図頭
サードパーティとのドッキング
コンソール
使用方法
オンライン・モニタリング

お問い合わせ

公众号二维码

公開番号

企业合作二维码

協力 Wechat