斯坦福 CS448B 15 解构可视化
TLDR
本文包含我对斯坦福 CS448B(数据可视化)课程的笔记,特别关注第十五讲关于解构可视化的内容。我将讨论分类、标记提取、数据提取和重新设计的重要性。
原文
笔记
课前思考
- 对于数据解释器项目,我们是否必须找到一个数据集并基于该数据集创建三个可视化,或者我们可以找一个我们感兴趣的高级主题,然后在该主题内使用不同的数据集创建三个可视化?
- 在使用社交网络分析时,如何验证你的发现和/或确定你的发现是否具有统计显著性?图分析是否有类似于"p 值"的标准?[您是使用定性还是定量的有效性度量?]
- 如果我们可以将复杂概念分解为多个易于理解的图表[例如,分解为强连通组件],为什么还要使用复杂图表? 这难道不会有助于使结构更加直观吗?
像素是图表和图形的不良表示方式
无法对数据进行索引、搜索、操作或交互
目标:重建图表和图形的高级表示,使机器和人能够 重新设计、重用和复兴它们
什么是好的表示?
方法
- 分类:确定图表类型
- 标记提取:检索图形标记
- 数据提取:检索底层数据表
分类
训练分类器
方法 | 准确率 |
---|---|
[Prasad 2007] 多类 SVM | 84% |
ReVision: 多类 SVM | 88% |
ReVision: 二元 SVM (每类型是/否) | 96% |
语料库
超过 2500 张带标签的图像和 10 种图表类型
ReVision 二元 SVM 提供 96%的分类准确率。
http://vis.berkeley.edu/papers/revision/
标记和数据提取
假设
仅限条形图和饼图
无阴影或纹理、3D、堆叠条形或分离的饼图
提取结果
数据提取误差
重新设计
局限性
图形叠加层
叠加在图表上以促进图表阅读所涉及的感知和认知过程的视觉元素
分类法
演示
参考结构
通过将标记 分解为规则段并辅助读取轴值来提供帮助
高亮显示
吸引观众注意特定标记
冗余编码
强调数据值或趋势
汇总统计
能够与基于数据的统计进行比较
注释
提供上下文并支持协作
大多数叠加层只需要访问标记
- 参考结构(标记)
- 高亮显示(标记)
- 冗余编码(标记和数据)
- 汇总统计(标记)
- 注释(标记)
交互式文档
如何促进文本和图表的共同阅读?
目标:提取文本和图表之间的引用关系
问题:写作风格的多样性
示例1:皮尤研究中心
之前:
对资本主义的怀疑在巴西(22%)、中国(19%)、德国(29%)(尽管东德人的支持率低于西德人)和美国(24%)是最低的。对自由市场的怀疑在墨西哥(60%)和日本(60%)最高。
之后:
对资本主义的怀疑在巴西(22%)、中国(19%)、德国(29%)(尽管东德人的支持率低于西德人)和**美国(24%)是最低的。对自由市场的怀疑在墨西哥(60%)和日本(60%)**最高。
示例2:经济学人
之前:
随着高收入者的薪水和经济表现朝相反方向发展,他们引起了更多的反感。欧洲人和拉丁美洲人对富人的态度往往相似;盎格鲁-撒克逊世界稍微宽容一些。
之后:
随着高收入者的薪水和经济表现朝相反方向发展,他们引起了更多的反感。欧洲人和拉丁美洲人对富人的态度往往相似;盎格鲁-撒克逊世界稍微宽容一些。
评估
平均 F1 距离:专家指定的引用与群众指定的引用之间
解构 D3 图表
自动将 D3 代码转换为基于映射的表示,以实现重新设计和样式复用
自动重新设计
我们能否自动重新设计图表以改进
- 感知有效性?
- 视觉美学?
- 视障用户的可访问性?
许多专业收藏
- 科学:PLOS, JSTOR, ACM DL, ...
- 网络可视化:D3, Processing, ...
- 新闻:纽约时报,皮尤研究,...
解构如何辅助搜索?
- 按图表类型、数据类型、标记、数据等进行搜索
- 带有不精确匹配的相似性搜索
- 查询扩展
要点
图表是数据和标记之间的映射集合
我们可以从图表位图重建这种表示
这种重建能够实现重新设计、重用和复兴