精选热点)深圳舞蹈老师被下药“穿上开档任凭摆弄_社会新闻_大众网2025年6月24日

  【新智元导读】GRIT能让多模态大语言模型(MLLM)通过生成自然语言和图像框坐标结合的推理链进行「图像思维」,仅需20个训练样本即可实现优越性能!

  现有开源多模态推理模型(Multimodal Reasoning Model)生成的推理链几乎都是纯自然语言,缺少对图像信息的显式引用与整合。

  让多模态大语言模型(MLLM)既能条理清晰的思考,又能真正将推理过程「落到画面」上,在实现上仍然存在两个难点:

  1. 全是自然语言的思考内容看似很长,其内容有可能脱离图像信息,不一定能线. 教会模型新的看图思考方式动辄要成千上万条有标注的数据,门槛极高。

  模型可以在思考链里随时插入框坐标,实现真正的 「图像思维」(Thinking with Images)。

  GRIT采用的Grounded Reasoning范式,一次模型推理,[x1,y1,x2,y2]框直接织进思考链,实现「思路和证据同步」,所想即所见。

  其训练方法GRPO-GR具备三重奖励(答案、格式、框),实现零人工标注,仅用20张图像与问答的训练数据就能教会模型画框+推理。

  Grounded Reasoning范式建立在多模态大语言模型已具备的两项原生能力——视觉定位 (grounding) 与语言推理 (reasoning)——之上,目标是把二者深度融合:

  让模型在「想」(生成推理链)的同时「指」(输出精准框坐标),从而让「慢思考」不再停留在纯自然语言,而是真正做到「所见即所想,所想即所指」。

  推理链c—以 开头,模型边写自然语言,边在需要时插入[x1,y1,x2,y2]形式的框坐标,之后 引导的重思考将进一步整合框坐标对应的图像信息;

  输出框坐标后,模型不会再回读对应像素,而是继续token输出,要求模型理解并利用框坐标信息,融入后续推理,就像模型给自己出了一道Referring Expression Generation(REC)任务一样。

  Grounded Reasoning范式通过只传递数字坐标,避免了裁剪图像或多轮回输信息的计算开销,流程轻量。

  在此范式之下模型的输出里的框坐标可以直接画出,成为其推理的「看图」依据,读者既能读到它的思考,也能顺着坐标直接验证图中证据。

  为了让模型在极小的数据量下就学会画框来辅助推理,GRIT 采用了专门的强化学习方法GRPO-GR

  它在GRPO的基础上,引入三个奖励信号来直接驱动策略 π_θ 生成符合grounded reasoning范式的序列。

  插入的边界框[x1,y1,x2,y2]语法是否有效、坐标是否在合法区间内。 通过惩罚任何格式错误,模型很快学会在文字与坐标之间灵活、规范地切换。

  计数奖励 (r_count):对于要求回答某物体数量的问题,计数奖励的信号鼓励模型的输出要数量上符合答案,最好一个框对应一个相关物体。

  r_count对比推理链里框的个数与真实答案中的数量:二者一致即得分,否则扣分;可以让模型在标记目标时兼顾完整性,避免多框、漏框或随意画框。

  答案正确性奖励 (r_ans):最终答案是否答对,由GPT-4o进行语义评估并结合BLEU相似度给分。 这样的「老师」对自然语言表述具有强鲁棒性,避免模型钻格式空子,也进一步降低了人工评判成本。

  得益于这三重奖励的协同作用,GRPO-GR完全不依赖显式的推理链标注或框标签——只需提供题目、图像和最终答案。

  在实践中,即便训练集只有20条数据,模型依旧能够稳定学到「边框边想」的行为,并在多项基准测试上取得亮眼表现。

  在6个测试集中,用GRIT方法,模型推理结果的准确性(ACC)相对于没有经过训练的基线明显提高。而基线模型表现出割裂的定位与推理能力,他们无法兼顾在定位目标物体来画框上比较准确的同时在回答问题上更加正确。

  即使GRPO-GR训练中没有包含任何对画框的位置的训练信号,测试结果现实框的准确性(GroundingIOU, i.e.GIoU)也在用GRIT方法后得到了提升。

  结果表明,随着数据规模的增加,模型准确率虽可以进一步提高,但跨领域泛化依旧是难点。即使同类训练数据增加,在与训练域差异较大的测试集上模型提升依然有限,提示未来需要更丰富、更异质的训练数据,而不只是「更多同类题」。

  即便是极小样本设置,GRIT也能让开源MLLM同时获得「画得准、讲得清」的能力,并且画框和推理在模型输出中相辅相成;进一步放大数据规模,则带来渐进式收益,并揭示了跨域推理的新挑战。

  英国气象学家警告说,人类活动引起的气候反常带给人类的危害,绝不亚于核武器等大规模杀伤性武器的威力;据世界卫生组织测算,每年约有15万人因气候变化失去生命。

  06月14日,复旦大学学生祝贺中国台北队棒球赛夺冠遭政客攻击 萧旭岑回击:两岸同属一个中国,这个地方氤氲蒸腾,彩霞流转,看起来绚烂而又美丽,清香沁人心脾,令人宛若要羽化飞升般。

  事实上,无论是雷族,还是紫山一脉,亦或是罗浮大泽,他们的镇族宝术都极富盛名,只是三个孩子施展的不到位,这才大败。,Gay打男生光网站,私密直播全婐app免费魅影,女撒尿㊙️网站。06月14日,微观察 坚定自信,使这条路越走越宽广,5.不私自外出,外出必须有家长或成年人的陪同,注意交通安全。

联系我们

在线咨询:点击这里给我发消息

邮件:aikan58@tuta.io

客服微信