当前位置: 代码迷 >> 综合 >> DataShot: Automatic Generation of Fact Sheets from Tabular Data
  详细解决方案

DataShot: Automatic Generation of Fact Sheets from Tabular Data

热度:64   发布时间:2024-02-20 12:48:49.0

DataShot: Automatic Generation of Fact Sheets from Tabular Data
Yun Wang*, Zhida Sun*, Haidong Zhang, Weiwei Cui, Ke Xu, Xiaojuan Ma, and Dongmei Zhang


目录

  • Introduction
  • Survey on fact sheet design
    • The fact sheet dataset
    • Qualitative analysis
    • Sheet-level design
    • Element-level design
  • DataShot
    • Design goals
    • System pipeline
  • Evaluation
  • Discussion
    • Benifits
    • Infographic Authoring Tools
    • Limitations
  • 乱七八糟


Introduction

Fact sheet是一种数据、知识和信息的综合呈现,以一种简洁的格式强调大量信息中的重点。
由于表格数据被广泛使用,普遍用户更为熟悉,所以选择使用表格数据。
在这项研究中,第一个主要挑战是需要从数据表中提取数据事实,并组织这些事实成一个有意义的话题。另一个挑战是需要选择合适的、可以描述数据事实的可视化形式。

Survey on fact sheet design

The fact sheet dataset

我们选择了Kantar Information is Beautiful Awards作为数据源,然后根据数据图的类型检索了2012-2018年期间的工作,最后确定了一个包含298个信息图例子的数据集:

  1. 高质量数据:专家小组根据严格的评价标准授予奖项;
  2. 包含多样的话题和领域;
  3. 包含多种文化背景/语言;
  4. 被媒体广泛传播。
    由于一些例子中包含经过设计的艺术图像或者艺术字,我们又删去了53个例子,最后,我们只获得了245个fact sheet。

Qualitative analysis

我们从4个方面对这个数据集进行了定性分析:

  1. 内容结构:设计者如何组织内容的?
  2. 演示布局:通常使用哪种类型的布局?
  3. 可视化风格:设计者如何选择呈现数据事实的可视化风格的?
  4. 事实类型:通常涵盖哪些数据事实?
    定性分析分为两个阶段。首先,我们从所有fact sheet的例子中学习内容结构和演示布局。然后我们深入挖掘在整个fact sheet中的信息图或表格的每个组成部分,并把它们视为一个fact sheet的可视元素。通过调查元素级别的设计去识别常用的可视风格和事实类型。

Sheet-level design

我们可以找到三种fact sheet的内容结构:

  1. 随机事实:随机顺序,元素可以随意调换位置;
  2. 序列:以序列的顺序排布,位置固定,不能改变;
  3. 多图:比较不同主题的同一方面,以一定的规则改变位置。
    我们这里考虑8种布局:Large panel, Annotated, Tiled, Grid, Parallel, Network, Branched, and Linear。
    综合考虑内容结构和演示布局的分布,我们能发现在随机事实中的平铺布局最为常见。所以,我们决定从这两种构造开始我们的想法。

Element-level design

每一个元素都对应一个完整的事实,并不能进一步分解成其他更低级别的fact sheet元素。
经过分析,我们可以根据输入数据的类型来对不同数据事实映射相应的可视化风格。

DataShot

Fact sheet的设计空间很大,所以我们根据上一部分的结果采用最为常见的设计选项。总体上来说,我们的预期解决方案包括三个部分:事实提取,事实组成,视觉合成。

Design goals

在DataShot中,我们的主要目标是最小化用户从表格数据生成fact sheet的努力。

  1. 确保数据事实的准确性和可靠性;
  2. 支持高效的数据事实提取;
  3. 组织数据事实形成有意义的话题;
  4. 表达简洁;
  5. 简单的用户交互。

System pipeline

在这里插入图片描述
fact sheet自动生成流程包含三个核心模块:

  1. 事实提取:系统首先将原始表格数据转化为数据事实。系统建立数据子空间,枚举事实类型,基于表格数据计算事实分数。
  2. 事实组成:提取话题,利用排名算法选择推荐的fact sheet。对于每一个fact sheet,会有排名前N个的事实从数据事实候选池里被选择。
  3. 视觉合成:把最终的计算结果呈现给终端用户。通过匹配合适的可视化风格和计算简洁的布局,系统可以以fact sheet的格式呈现出提取的数据事实。终端用户可以交互式修改最后的演示结果。

Evaluation

用户试验,问卷调查

Discussion

Benifits

DataShot让普通用户也可以轻松的创造fact sheets。深度集成了数据探索和数据表示,使人们能够以不同的方式处理和使用数据
范例。研究提供了探索数据的新方式:结果,评估和选择,然后根据需要改进。

Infographic Authoring Tools

Limitations

  1. 独立对待数据表的数据列,没有考虑语义信息(例如区域和国家);
  2. 生成的图标和视觉效果收到预先定义的限制;
  3. 视觉类型的选择极大取决于我们的fact-visual模型,来自有限数量的例子。
  4. 对于相同的数据事实会保证视觉效果的一致性。可以设计算法改善结果;
  5. 对于数据事实的评估函数不够完美,可能会产生偏差;
  6. 交互有限。

乱七八糟

  1. Fact sheet?加文字?
  2. 多种布局?
  3. 对文字数据进行可视化?
  4. 视觉map算法
  5. 在不同的主题下会有重复的事实
  6. 评价标准?
  相关解决方案