斯坦福 CS448B 15 解构可视化
· 阅读时间约 6 分钟
TLDR
本文包含我对斯坦福 CS448B(数据可视化)课程的笔记,特别关注第十五讲关于解构可视化的内容。我将讨论分类、标记提取、数据提取和重新设计的重要性。

原文
笔记

课前思考
- 对于数据解释器项目,我们是否必须找到一个数据集并基于该数据集创建三个可视化,或者我们可以找一个我们感兴趣的高级主题,然后在该主题内使用不同 的数据集创建三个可视化?
- 在使用社交网络分析时,如何验证你的发现和/或确定你的发现是否具有统计显著性?图分析是否有类似于"p 值"的标准?[您是使用定性还是定量的有效性度量?]
- 如果我们可以将复杂概念分解为多个易于理解的图表[例如,分解为强连通组件],为什么还要使用复杂图表? 这难道不会有助于使结构更加直观吗?

像素是图表和图形的不良表示方式
无法对数据进行索引、搜索、操作或交互
目标:重建图表和图形的高级表示,使机器和人能够重新设计、重用和复兴它们
什么是好的表示?



方法
- 分类:确定图表类型
- 标记提取:检索图形标记
- 数据提取:检索底层数据表
分类
训练分类器





| 方法 | 准确率 |
|---|---|
| [Prasad 2007] 多类 SVM | 84% |
| ReVision: 多类 SVM | 88% |
| ReVision: 二元 SVM (每类型是/否) | 96% |
语料库
超过 2500 张带标签的图像和 10 种图表类型
ReVision 二元 SVM 提供 96%的分类准确率。
http://vis.berkeley.edu/papers/revision/