阿里巴巴推出QVQ-72B,一个基于Qwen2-VL-72B的新型多模态推理模型,专注于增强视觉理解与复杂问题解决能力。
其名称中“QVQ”代表了模型关注的视觉理解(Visual understanding)和复杂推理(Reasoning)。
QVQ-72B结合了语言和视觉能力,旨在提供类似于人类专家的推理能力。
它在视觉推理、数学和科学问题上表现出显著提升,特别是在多步推理任务中。
在MMMU等测试集上获得70.3分,大幅超越Qwen2-VL-72B-Instruct。
在数学与科学基准测试(如MathVista、OlympiadBench)中展示出优异成绩,接近当前最先进模型。
QVQ-72B 的主要功能
视觉理解
图片内容分析:能够从图片中提取多层次的信息,包括对象识别、场景理解、颜色、空间关系等。
细粒度视觉任务:支持解读复杂的图片内容,如图表、图像中的文字和手写体识别。
多模态上下文融合:可以结合图片和文本的语境完成更高层次的分析和理解。
语言理解与生成
多语言支持:对多种语言(包括中文、英语等)具有深度理解能力,适用于跨语言任务。
逐步推理:在文本任务中,采用逻辑分步推理方式,更准确地处理复杂问题,例如长链问题解答。
强大的生成能力:能够生成连贯、逻辑清晰的文本答案。
跨模态推理
多模态训练优化
高质量数据训练:使用大规模多模态数据集进行训练,包括图片-文本对齐、图文描述、问答数据等。
鲁棒性强:适应各种复杂场景,如图表、自然图片、科学文本等。
视觉与文本信息结合:擅长将图片信息与文本信息结合,进行复杂问题的推理和分析。
示例:理解图片中的数学公式并结合问题给出答案。
问题求解能力:对跨模态问题(如基于图片的推理问题)进行智能解答。
科学与数学计算:在科学、工程、数学等专业领域中具备深度推理能力。
专业推理能力
专注于多步推理,能够以分步方式解决复杂问题:
在语言任务中,逐步细化解答,避免逻辑错误。
在视觉任务中,通过递归推理层层深入,确保准确性。
学术与科研:在数学、物理、化学等领域中的复杂问题求解表现出色。
逻辑推理:支持递归推理和分步推导,例如推导物理定律、解决数学奥赛题等。
性能表现
在 4 个数据集上评估 QVQ-72B-Preview,包括:
MMMU:一个大学级别的多学科多模态评测集,旨在考察模型视觉相关的综合理解和推理能力。
MathVista:一个数学相关的视觉推理测试集,评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力。
MathVision:一个高质量多模态数学推理测试集,来自于真实的数学竞赛,相比于MathVista具有更多的问题多样性和学科广度。
OlympiadBench:一个奥林匹克竞赛级别的双语多模态科学基准测试集,包含来自奥林匹克数学和物理竞赛的8,476个问题,包括中国高考。每个问题都附有专家级别的注释,详细说明了逐步推理的过程。
QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数,显著超越了 Qwen2-VL-72B-Instruct。此外,在剩下的三个专注于数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。
多模态推理能力
QVQ-72B 在整合视觉与语言信息的复杂推理任务中具有强大表现:
视觉-语言基准测试
MMMU (Multi-Modal Multi-task Understanding):得分 70.3,显著超过其前代模型(如Qwen2-VL-72B-Instruct),在业界属于领先水平。
Visual Commonsense Reasoning (VCR):擅长回答视觉常识问题,通过分析图片与文本内容实现更高的准确率。
数学与科学领域
在 MathVista 和 OlympiadBench 等专门为测试科学推理设计的基准测试中表现优异。
接近当前最先进的模型,特别是在数学、物理推导等多步推理任务中展现了卓越能力。
专业领域的表现
数学与逻辑推理
数学问题求解
在数学推理任务(如代数、微积分)中,模型通过分步推理显著减少错误率。
能够理解并解决公式化问题,例如解析图片中的公式或数学题。
多步推理
精通递归推理,通过分步处理复杂问题,如解答数学奥赛题或多阶段逻辑推理问题。
科学与工程
科学推理
可在物理问题中结合文字和视觉信息推导因果关系。
在化学反应分析任务中表现卓越,例如识别图片中的化学式并解读。
工程与技术图表
在技术报告、复杂图表分析中提取关键信息的准确率和效率较高。
实际应用场景中的表现
图像识别与理解
精准识别图片中的细节,例如物体位置、颜色、空间关系,以及复杂情景。
能识别手写内容、图表中的文字和数学表达式。
跨模态问答
支持复杂问题的多模态解答,结合图片和文本上下文,生成逻辑清晰的答案。
擅长回答涉及视觉常识、数学推理等需要结合图文信息的问题。
语言推理
多语言支持:支持多语言任务,包括中文、英语等,推理结果具备一致性。
在复杂文本生成任务中,生成答案的逻辑性和连贯性均处于领先水平。