【leyu科技消息】近日,leyu注意到,蘋果研究人員開發(fā)出一種訓練圖像描述生成AI模型的新方法,新模型能給出更精準詳細的描述,且模型規(guī)模遠小于現有同類模型。

在一項名為《RubiCap:Rubric-Guided強化學習用于密集圖像描述生成》的新研究中,蘋果研究團隊與威斯康星大學麥迪遜分校合作,構建了一個密集圖像描述生成模型的新框架,在多個基準測試中取得了領先成果。密集圖像描述生成旨在為圖像內每個元素和區(qū)域生成詳細描述,而非單一整體概述,能讓人更深入理解圖像場景,可用于訓練視覺語言和文本轉圖像模型,提升圖像搜索和輔助工具等功能。

研究人員指出,當前訓練密集圖像描述生成模型的AI方法存在明顯不足。標注高質量專家級數據成本高昂,雖可用強大的視覺語言模型生成合成描述,但監(jiān)督蒸餾得到的輸出多樣性有限、泛化能力弱,強化學習雖能克服這些局限,但在開放式描述生成中難以應用。

為此,研究團隊提出新框架。他們從PixMoCap和DenseFusion-4V-100K兩個訓練數據集中隨機抽取50000張圖像,用Gemini 2.5 Pro、GPT-5等現有視覺語言模型為每張圖像生成多個描述選項,同時讓RubiCap框架下的待訓練模型生成自身描述。接著,RubiCap用Gemini 2.5 Pro分析圖像、候選描述和模型自身輸出,確定評判標準,再由Qr:破高膙轔?f然揩襮嫛蟿F鳩5pep=k?確矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鵒黮}劷:q{|?e ?%坖D覑眤丬鯇M(纈s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫en2.5-7B-Instruct根據標準打分,為訓練提供獎勵信號。

最終,研究團隊生成了RubiCap-2B、RubiCap-3B和RubiCap-7B三個模型,參數分別為20億、30億和70億。與現有方法相比,它們表現出色,甚至超越了參數多達720億的模型。在盲排名評估中,RubiCap-7B在所有模型中排名第一,幻覺懲罰最低、準確性最強。研究還表明,30億參數的小模型在某些基準測試中表現優(yōu)于更大規(guī)模模型,意味著高質量密集圖像描述生成模型不一定需要龐大體量。
版權所有,未經許可不得轉載
-樂魚leyu

