图表 vs 通用图像
<aside>
💡
图表图像不仅是“视觉输入”,更是“结构化数据的可视化表达”
</aside>
- 底层存在结构化信息
- 图表图像:本质上是由底层数据通过视觉编码(位置、长度、角度、面积、颜色、形状等)映射生成的图形表示。每个视觉元素通常都对应着可解析的数值或类别信息。这意味着图表中存在一个“隐含的表格结构”或“数据—视觉映射关系”,模型在理解时需要从视觉层面反推出这种结构化语义。
- 通用图像:主要反映自然世界的场景或物体分布,其底层并不存在可显式解析的结构化数据关系。图像中的像素模式更多体现为非结构化的语义与感知信息,而非数据映射。
- 独特的构成元素
- 图表图像:由结构化的图形元素(如条形、折线、散点、面积块)与文本元素(标题、坐标轴标签、刻度、图例、数值标注等)共同构成。两类信息高度耦合,必须被同时、精准地解析才能获得完整语义。
- 通用图像:由物体的轮廓、纹理、颜色与光照等视觉特征组成。即便包含文字(如标牌或包装标签),文本也通常只起辅助作用,而非图像语义的核心组成。
- 底层视觉特征的差异
- 图表图像:在像素层面表现为简洁、规则的视觉特征,如大面积纯色背景、清晰几何形状、锐利边界与大量留白。视觉复杂度主要体现在元素布局与逻辑关系上,而非纹理或光影细节。
- 通用图像:视觉结构更复杂,包含丰富的纹理、渐变色彩、自然阴影与光照变化。整体语义依赖多尺度特征与上下文感知,对微小几何变化不敏感。
- 模型架构与能力侧重
- 图表图像:要求模型具备更强的几何结构建模、OCR鲁棒性与高分辨率保真能力,以捕捉精确的空间关系和文本细节;同时,语言模型需具备逻辑与数值推理能力,能够基于提取的结构化信息执行多步推理(multi-hop reasoning)或调用外部工具(Tool-augmented reasoning)完成计算与解析。
- 通用图像:更依赖于高层语义表征与自然语言生成能力。视觉编码器通过如 ViT、CLIP 等模型获得抽象的视觉语义嵌入,语言模型侧重语义描述、情境理解与世界知识的整合,以生成连贯、自然的语言表达。
专有预训练任务

<aside>
💡
让模型更好地理解图表中的数值、结构和语义信息
</aside>
- 结构化对齐类
这些任务直接把图表转化为结构化表示,是目前最常见的 chart-specific pretrain 方式:
- Chart → Table
- 还原底层数据表格(数值矩阵)。
- 强化模型的数值抽取与精确对齐能力。
- Chart → JSON / CSV
- 把图表的元素转成层次化 JSON 结构(坐标轴 → 标签 → 值、图例 → 类别 → 颜色)。
- 强化模型的语义结构理解。
- Chart → (Python) Code
- 生成绘图脚本,既包含数值也包含绘制逻辑。
- 强化模型的抽象推理和泛化能力。
- 语言对齐类
这类任务更接近传统 MLLM 的视觉-语言对齐,输出是自然语言:
Chart Description aims at presenting detailed information and some insights from the distribution of chart data, while Chart Summarization features summarizing the trend-like or high-level characteristics from the given data in a few sentences.
- Chart Captioning / Description
- 生成一句话或一段话来描述图表内容(“折线图显示销量逐年上升”)。
- Chart → Summary
- 生成图表的主要结论(“东部地区销量最高”)。
- 偏自然语言总结,与 Caption 相似但更聚焦于结论。
下游任务