跳至主要内容

斯坦福 CS448B 15 解构可视化

2022年8月28日 · 阅读时间约 6 分钟

TLDR

本文包含我对斯坦福 CS448B（数据可视化）课程的笔记，特别关注第十五讲关于解构可视化的内容。我将讨论分类、标记提取、数据提取和重新设计的重要性。

原文

笔记

课前思考

对于数据解释器项目，我们是否必须找到一个数据集并基于该数据集创建三个可视化，或者我们可以找一个我们感兴趣的高级主题，然后在该主题内使用不同的数据集创建三个可视化？
在使用社交网络分析时，如何验证你的发现和/或确定你的发现是否具有统计显著性？图分析是否有类似于"p 值"的标准？[您是使用定性还是定量的有效性度量？]
如果我们可以将复杂概念分解为多个易于理解的图表[例如，分解为强连通组件]，为什么还要使用复杂图表？这难道不会有助于使结构更加直观吗？

像素是图表和图形的不良表示方式

无法对数据进行索引、搜索、操作或交互

目标：重建图表和图形的高级表示，使机器和人能够重新设计、重用和复兴它们

什么是好的表示？

方法

分类：确定图表类型
标记提取：检索图形标记
数据提取：检索底层数据表

分类

训练分类器

方法	准确率
[Prasad 2007] 多类 SVM	84%
ReVision: 多类 SVM	88%
ReVision: 二元 SVM (每类型是/否)	96%

语料库

超过 2500 张带标签的图像和 10 种图表类型 ReVision 二元 SVM 提供 96%的分类准确率。

http://vis.berkeley.edu/papers/revision/

标记和数据提取

假设

仅限条形图和饼图
无阴影或纹理、3D、堆叠条形或分离的饼图

提取结果

数据提取误差

重新设计

局限性

图形叠加层

叠加在图表上以促进图表阅读所涉及的感知和认知过程的视觉元素

分类法

演示

参考结构

通过将标记分解为规则段并辅助读取轴值来提供帮助

高亮显示

吸引观众注意特定标记

冗余编码

强调数据值或趋势

汇总统计

能够与基于数据的统计进行比较

注释

提供上下文并支持协作

大多数叠加层只需要访问标记

参考结构（标记）
高亮显示（标记）
冗余编码（标记和数据）
汇总统计（标记）
注释（标记）

交互式文档

如何促进文本和图表的共同阅读？

目标：提取文本和图表之间的引用关系
问题：写作风格的多样性

示例1：皮尤研究中心

之前：

对资本主义的怀疑在巴西(22%)、中国(19%)、德国(29%)(尽管东德人的支持率低于西德人)和美国(24%)是最低的。对自由市场的怀疑在墨西哥(60%)和日本(60%)最高。

之后：

对资本主义的怀疑在巴西(22%)、中国(19%)、德国(29%)(尽管东德人的支持率低于西德人)和**美国(24%)是最低的。对自由市场的怀疑在墨西哥(60%)和日本(60%)**最高。

示例2：经济学人

之前：

随着高收入者的薪水和经济表现朝相反方向发展，他们引起了更多的反感。欧洲人和拉丁美洲人对富人的态度往往相似；盎格鲁-撒克逊世界稍微宽容一些。

之后：

随着高收入者的薪水和经济表现朝相反方向发展，他们引起了更多的反感。欧洲人和拉丁美洲人对富人的态度往往相似；盎格鲁-撒克逊世界稍微宽容一些。

评估

平均 F1 距离：专家指定的引用与群众指定的引用之间

解构 D3 图表

自动将 D3 代码转换为基于映射的表示，以实现重新设计和样式复用

自动重新设计

我们能否自动重新设计图表以改进

感知有效性？
视觉美学？
视障用户的可访问性？

important

许多专业收藏

科学：PLOS, JSTOR, ACM DL, ...
网络可视化：D3, Processing, ...
新闻：纽约时报，皮尤研究，...

解构如何辅助搜索？

按图表类型、数据类型、标记、数据等进行搜索
带有不精确匹配的相似性搜索
查询扩展

要点

图表是数据和标记之间的映射集合
我们可以从图表位图重建这种表示
这种重建能够实现重新设计、重用和复兴

原文
笔记