跳至主要内容

斯坦福 CS448B 15 解构可视化

· 阅读时间约 7 分钟

TLDR

本文包含我对斯坦福 CS448B(数据可视化)课程的笔记,特别关注第十五讲关于解构可视化的内容。我将讨论分类、标记提取、数据提取和重新设计的重要性。

原文

下载 PDF

.

笔记

课前思考

  • 对于数据解释器项目,我们是否必须找到一个数据集并基于该数据集创建三个可视化,或者我们可以找一个我们感兴趣的高级主题,然后在该主题内使用不同的数据集创建三个可视化?
  • 在使用社交网络分析时,如何验证你的发现和/或确定你的发现是否具有统计显著性?图分析是否有类似于"p 值"的标准?[您是使用定性还是定量的有效性度量?]
  • 如果我们可以将复杂概念分解为多个易于理解的图表[例如,分解为强连通组件],为什么还要使用复杂图表? 这难道不会有助于使结构更加直观吗?

像素是图表和图形的不良表示方式

无法对数据进行索引、搜索、操作或交互

目标:重建图表和图形的高级表示,使机器和人能够重新设计、重用和复兴它们


什么是好的表示?

方法

  • 分类:确定图表类型
  • 标记提取:检索图形标记
  • 数据提取:检索底层数据表

分类

训练分类器


方法准确率
[Prasad 2007] 多类 SVM84%
ReVision: 多类 SVM88%
ReVision: 二元 SVM (每类型是/否)96%

语料库

超过 2500 张带标签的图像和 10 种图表类型 ReVision 二元 SVM 提供 96%的分类准确率。

http://vis.berkeley.edu/papers/revision/

标记和数据提取

假设

仅限条形图和饼图
无阴影或纹理、3D、堆叠条形或分离的饼图

提取结果

数据提取误差

重新设计

局限性

图形叠加层

叠加在图表上以促进图表阅读所涉及的感知和认知过程的视觉元素


分类法


演示


参考结构

通过将标记分解为规则段并辅助读取轴值来提供帮助


高亮显示

吸引观众注意特定标记


冗余编码

强调数据值或趋势


汇总统计

能够与基于数据的统计进行比较


注释

提供上下文并支持协作

大多数叠加层只需要访问标记

  • 参考结构(标记)
  • 高亮显示(标记)
  • 冗余编码(标记和数据)
  • 汇总统计(标记)
  • 注释(标记)

交互式文档

如何促进文本和图表的共同阅读?

目标:提取文本和图表之间的引用关系
问题:写作风格的多样性


示例1:皮尤研究中心

之前:

对资本主义的怀疑在巴西(22%)、中国(19%)、德国(29%)(尽管东德人的支持率低于西德人)和美国(24%)是最低的。对自由市场的怀疑在墨西哥(60%)和日本(60%)最高。

之后:

对资本主义的怀疑在巴西(22%)、中国(19%)、德国(29%)(尽管东德人的支持率低于西德人)和**美国(24%)是最低的。对自由市场的怀疑在墨西哥(60%)日本(60%)**最高。


示例2:经济学人

之前:

随着高收入者的薪水和经济表现朝相反方向发展,他们引起了更多的反感。欧洲人和拉丁美洲人对富人的态度往往相似;盎格鲁-撒克逊世界稍微宽容一些。

之后:

随着高收入者的薪水和经济表现朝相反方向发展,他们引起了更多的反感。欧洲人和拉丁美洲人对富人的态度往往相似;盎格鲁-撒克逊世界稍微宽容一些。



评估

平均 F1 距离:专家指定的引用与群众指定的引用之间


解构 D3 图表

自动将 D3 代码转换为基于映射的表示,以实现重新设计和样式复用

自动重新设计

我们能否自动重新设计图表以改进

  • 感知有效性?
  • 视觉美学?
  • 视障用户的可访问性?

important

许多专业收藏

  • 科学:PLOS, JSTOR, ACM DL, ...
  • 网络可视化:D3, Processing, ...
  • 新闻:纽约时报,皮尤研究,...

解构如何辅助搜索?

  • 按图表类型、数据类型、标记、数据等进行搜索
  • 带有不精确匹配的相似性搜索
  • 查询扩展

要点

图表是数据和标记之间的映射集合
我们可以从图表位图重建这种表示
这种重建能够实现重新设计、重用和复兴