Appleは、小型で高精度なAIモデルを訓練するための新しい手法の開発に成功した。

最近、Appleの研究者たちが、画像の説明文を生成するAIモデルのトレーニング方法の新手法を開発したことが注目された。この新モデルは、既存の同種のモデルよりも正確で詳細な説明を提供できるだけでなく、サイズも大幅に小さい。

苹果成功开发一种训练AI模型新方法小体量高精度

「RubiCap：高密度画像記述生成のためのルーブリック誘導型強化学習」と題された新しい研究において、Appleの研究チームはウィスコンシン大学マディソン校と協力し、高密度画像記述生成のための新しいフレームワークを構築し、複数のベンチマークで優れた結果を達成しました。高密度画像記述生成は、画像全体の概要ではなく、画像内のすべての要素と領域について詳細な記述を生成することを目的としています。これにより、画像シーンをより深く理解することができ、視覚言語モデルやテキストから画像への変換モデルのトレーニングに利用することで、画像検索やその他の支援ツールの性能向上に繋がります。

苹果成功开发一种训练AI模型新方法小体量高精度

研究者らは、高密度画像記述生成モデルを訓練するための現在のAI手法には重大な欠点があると指摘している。質の高い専門家レベルのデータにラベル付けするにはコストがかかる。強力な視覚言語モデルは合成記述を生成できるものの、教師あり蒸留では出力の多様性が限られ、汎化能力が弱い。強化学習はこれらの限界を克服できるものの、自由記述生成への適用は難しい。

苹果成功开发一种训练AI模型新方法小体量高精度

この課題に対処するため、研究チームは新しいフレームワークを提案した。彼らは、PixMoCapとDenseFusion-4V-100Kという2つのトレーニングデータセットから50,000枚の画像をランダムに選択し、Gemini 2.5 ProやGPT-5などの既存の視覚言語モデルを使用して、各画像に対して複数の説明オプションを生成した。同時に、RubiCapフレームワーク内のモデルは独自の説明を生成した。次に、RubiCapはGemini 2.5 Proを使用して、画像、候補となる説明、およびモデル自身の出力を分析し、評価基準を決定した。最後に、Qwen2.5-7B-Instructがその基準に従って画像をスコアリングし、トレーニングに対する報酬シグナルを提供した。

苹果成功开发一种训练AI模型新方法小体量高精度

最終的に、研究チームは、それぞれ20億、30億、70億のパラメータを持つRubiCap-2B、RubiCap-3B、RubiCap-7Bという3つのモデルを作成しました。既存の手法と比較すると、これらのモデルは非常に優れた性能を発揮し、720億ものパラメータを持つモデルをも凌駕しました。ブラインドランキング評価では、RubiCap-7Bが全モデルの中で1位となり、最も低い幻覚ペナルティと最高の精度を示しました。また、この研究では、30億のパラメータを持つ小規模モデルが、特定のベンチマークにおいて大規模モデルを上回る性能を発揮することも示されており、高品質で高密度な画像記述生成モデルは必ずしも大規模なサイズを必要としないことを示唆しています。

Appleは、小型で高精度なAIモデルを訓練するための新しい手法の開発に成功した。

Read next

2月28日まで！Xiaomi自動招待イベント：最大8000ポイント獲得！

米国の主要株価指数3つは4週連続で下落しており、ナスダック指数は1日で2.38％も急落した。

「シャークフィン」にさよなら：LGが次世代統合型車載通信ソリューションを発表

劉強東氏の潭海ヨット製造拠点が150億元を投じて大連で正式に稼働開始