图表 vs 通用图像

<aside> 💡

图表图像不仅是“视觉输入”，更是“结构化数据的可视化表达”

</aside>

底层存在结构化信息
- 图表图像：本质上是由底层数据通过视觉编码（位置、长度、角度、面积、颜色、形状等）映射生成的图形表示。每个视觉元素通常都对应着可解析的数值或类别信息。这意味着图表中存在一个“隐含的表格结构”或“数据—视觉映射关系”，模型在理解时需要从视觉层面反推出这种结构化语义。
- 通用图像：主要反映自然世界的场景或物体分布，其底层并不存在可显式解析的结构化数据关系。图像中的像素模式更多体现为非结构化的语义与感知信息，而非数据映射。
独特的构成元素
- 图表图像：由结构化的图形元素（如条形、折线、散点、面积块）与文本元素（标题、坐标轴标签、刻度、图例、数值标注等）共同构成。两类信息高度耦合，必须被同时、精准地解析才能获得完整语义。
- 通用图像：由物体的轮廓、纹理、颜色与光照等视觉特征组成。即便包含文字（如标牌或包装标签），文本也通常只起辅助作用，而非图像语义的核心组成。
底层视觉特征的差异
- 图表图像：在像素层面表现为简洁、规则的视觉特征，如大面积纯色背景、清晰几何形状、锐利边界与大量留白。视觉复杂度主要体现在元素布局与逻辑关系上，而非纹理或光影细节。
- 通用图像：视觉结构更复杂，包含丰富的纹理、渐变色彩、自然阴影与光照变化。整体语义依赖多尺度特征与上下文感知，对微小几何变化不敏感。
模型架构与能力侧重
- 图表图像：要求模型具备更强的几何结构建模、OCR鲁棒性与高分辨率保真能力，以捕捉精确的空间关系和文本细节；同时，语言模型需具备逻辑与数值推理能力，能够基于提取的结构化信息执行多步推理（multi-hop reasoning）或调用外部工具（Tool-augmented reasoning）完成计算与解析。
- 通用图像：更依赖于高层语义表征与自然语言生成能力。视觉编码器通过如 ViT、CLIP 等模型获得抽象的视觉语义嵌入，语言模型侧重语义描述、情境理解与世界知识的整合，以生成连贯、自然的语言表达。

专有预训练任务

<aside> 💡

让模型更好地理解图表中的数值、结构和语义信息

</aside>

结构化对齐类

这些任务直接把图表转化为结构化表示，是目前最常见的 chart-specific pretrain 方式：

Chart → Table
- 还原底层数据表格（数值矩阵）。
- 强化模型的数值抽取与精确对齐能力。
Chart → JSON / CSV
- 把图表的元素转成层次化 JSON 结构（坐标轴 → 标签 → 值、图例 → 类别 → 颜色）。
- 强化模型的语义结构理解。
Chart → (Python) Code
- 生成绘图脚本，既包含数值也包含绘制逻辑。
- 强化模型的抽象推理和泛化能力。

语言对齐类

这类任务更接近传统 MLLM 的视觉-语言对齐，输出是自然语言：

Chart Description aims at presenting detailed information and some insights from the distribution of chart data, while Chart Summarization features summarizing the trend-like or high-level characteristics from the given data in a few sentences.

Chart Captioning / Description
- 生成一句话或一段话来描述图表内容（“折线图显示销量逐年上升”）。
Chart → Summary
- 生成图表的主要结论（“东部地区销量最高”）。
- 偏自然语言总结，与 Caption 相似但更聚焦于结论。

图表 vs 通用图像

专有预训练任务

下游任务