阿里巴巴推出QVQ-72B 一個基於Qwen2-VL-72B的新型多模態推理模型

阿里巴巴推出QVQ-72B，一个基于Qwen2-VL-72B的新型多模态推理模型，专注于增强视觉理解与复杂问题解决能力。

其名称中“QVQ”代表了模型关注的视觉理解（Visual understanding）和复杂推理（Reasoning）。

QVQ-72B结合了语言和视觉能力，旨在提供类似于人类专家的推理能力。
它在视觉推理、数学和科学问题上表现出显著提升，特别是在多步推理任务中。
在MMMU等测试集上获得70.3分，大幅超越Qwen2-VL-72B-Instruct。
在数学与科学基准测试（如MathVista、OlympiadBench）中展示出优异成绩，接近当前最先进模型。
QVQ-72B 的主要功能
视觉理解
图片内容分析：能够从图片中提取多层次的信息，包括对象识别、场景理解、颜色、空间关系等。
细粒度视觉任务：支持解读复杂的图片内容，如图表、图像中的文字和手写体识别。
多模态上下文融合：可以结合图片和文本的语境完成更高层次的分析和理解。
语言理解与生成
多语言支持：对多种语言（包括中文、英语等）具有深度理解能力，适用于跨语言任务。
逐步推理：在文本任务中，采用逻辑分步推理方式，更准确地处理复杂问题，例如长链问题解答。
强大的生成能力：能够生成连贯、逻辑清晰的文本答案。
跨模态推理
多模态训练优化
高质量数据训练：使用大规模多模态数据集进行训练，包括图片-文本对齐、图文描述、问答数据等。
鲁棒性强：适应各种复杂场景，如图表、自然图片、科学文本等。
视觉与文本信息结合：擅长将图片信息与文本信息结合，进行复杂问题的推理和分析。
示例：理解图片中的数学公式并结合问题给出答案。
问题求解能力：对跨模态问题（如基于图片的推理问题）进行智能解答。
科学与数学计算：在科学、工程、数学等专业领域中具备深度推理能力。
专业推理能力
专注于多步推理，能够以分步方式解决复杂问题：
在语言任务中，逐步细化解答，避免逻辑错误。
在视觉任务中，通过递归推理层层深入，确保准确性。
学术与科研：在数学、物理、化学等领域中的复杂问题求解表现出色。
逻辑推理：支持递归推理和分步推导，例如推导物理定律、解决数学奥赛题等。
性能表现
在 4 个数据集上评估 QVQ-72B-Preview，包括：

MMMU：一个大学级别的多学科多模态评测集，旨在考察模型视觉相关的综合理解和推理能力。
MathVista：一个数学相关的视觉推理测试集，评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力。
MathVision：一个高质量多模态数学推理测试集，来自于真实的数学竞赛，相比于MathVista具有更多的问题多样性和学科广度。
OlympiadBench：一个奥林匹克竞赛级别的双语多模态科学基准测试集，包含来自奥林匹克数学和物理竞赛的8,476个问题，包括中国高考。每个问题都附有专家级别的注释，详细说明了逐步推理的过程。
QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数，显著超越了 Qwen2-VL-72B-Instruct。此外，在剩下的三个专注于数学和科学问题的基准测试中，该模型表现出色，有效缩小了与领先的最先进的 o1 模型之间的差距。

多模态推理能力

QVQ-72B 在整合视觉与语言信息的复杂推理任务中具有强大表现：

视觉-语言基准测试
MMMU (Multi-Modal Multi-task Understanding)：得分 70.3，显著超过其前代模型（如Qwen2-VL-72B-Instruct），在业界属于领先水平。
Visual Commonsense Reasoning (VCR)：擅长回答视觉常识问题，通过分析图片与文本内容实现更高的准确率。
数学与科学领域
在 MathVista 和 OlympiadBench 等专门为测试科学推理设计的基准测试中表现优异。
接近当前最先进的模型，特别是在数学、物理推导等多步推理任务中展现了卓越能力。
专业领域的表现
数学与逻辑推理

数学问题求解
在数学推理任务（如代数、微积分）中，模型通过分步推理显著减少错误率。
能够理解并解决公式化问题，例如解析图片中的公式或数学题。
多步推理
精通递归推理，通过分步处理复杂问题，如解答数学奥赛题或多阶段逻辑推理问题。
科学与工程

科学推理
可在物理问题中结合文字和视觉信息推导因果关系。
在化学反应分析任务中表现卓越，例如识别图片中的化学式并解读。
工程与技术图表
在技术报告、复杂图表分析中提取关键信息的准确率和效率较高。
实际应用场景中的表现
图像识别与理解

精准识别图片中的细节，例如物体位置、颜色、空间关系，以及复杂情景。
能识别手写内容、图表中的文字和数学表达式。
跨模态问答

支持复杂问题的多模态解答，结合图片和文本上下文，生成逻辑清晰的答案。
擅长回答涉及视觉常识、数学推理等需要结合图文信息的问题。
语言推理

多语言支持：支持多语言任务，包括中文、英语等，推理结果具备一致性。
在复杂文本生成任务中，生成答案的逻辑性和连贯性均处于领先水平。