图表 vs 通用图像

<aside> 💡

图表图像不仅是“视觉输入”,更是“结构化数据的可视化表达”

</aside>

  1. 底层存在结构化信息
  2. 独特的构成元素
  3. 底层视觉特征的差异
  4. 模型架构与能力侧重

专有预训练任务

image.png

<aside> 💡

让模型更好地理解图表中的数值、结构和语义信息

</aside>

  1. 结构化对齐类

这些任务直接把图表转化为结构化表示,是目前最常见的 chart-specific pretrain 方式:

  1. 语言对齐类

这类任务更接近传统 MLLM 的视觉-语言对齐,输出是自然语言:

Chart Description aims at presenting detailed information and some insights from the distribution of chart data, while Chart Summarization features summarizing the trend-like or high-level characteristics from the given data in a few sentences.

下游任务