跳至主要内容

斯坦福 CS448B 17 可视化与机器学习

2022年9月8日 · 阅读时间约 6 分钟

TLDR

本文包含我对斯坦福 CS448B（数据可视化）课程的笔记，特别关注第十七讲关于可视化与机器学习的内容。我将讨论理解数据、模型训练、模型评估的重要性，以及适用于机器学习任务的不同类型可视化。

原文

笔记

可视化在哪些方面可以支持机器学习任务？

理解数据	模型训练	模型评估
数据质量如何？	模型的结构是什么？	模型输出有多准确？
数据是否具有代表性？	如何优化模型？	如何解释模型输出？
数据集中有哪些可用特征？	这是否是对学习任务建模的最佳技术？	模型是否公平？
测试集是否能代表整个数据集？	模型参数变化时模型输出如何变化？
数据标注是否正确？	为什么模型会有这样的行为？

用于理解机器学习数据集的可视化

建模前理解数据特征
为建模选择特征
基于模型输出调试数据

https://pair-code.github.io/facets/

http://archive.ics.uci.edu/ml/datasets/Census+Income

• 1994 年人口普查数据集 • 约 5 万行 • 14 个属性（分类和整数）

预测任务是确定一个人年收入是否超过 5 万美元。

https://qz.com/994486/the-way-you-draw-circles-says-a-lot-about-you

https://medium.com/analytics-vidhya/analyzing-sketches-around-the-world-with-sketch-rnn-c6cbe9b5ac80

INFUSE（交互式特征选择）

领域任务：预测患者是否有患糖尿病的风险。

机器学习任务 1：比较特征选择算法。（4 种算法）
机器学习任务 2：比较分类算法。（4 种分类器）
机器学习任务 3：手动选择和测试特征集

这种可视化的表达力/有效性如何？

服装图像数据集
37,000 个实例
14 个类别

机器学习任务：基于图像对服装物品进行分类

降维

https://github.com/uwdata/errudite

通过以下方式进行错误分析：

错误实例的表达性分组
反事实评估

这种方法与传统的 GUI 输入元素相比如何？

用于建模的可视化

RuleMatrix

领域问题：

模型学到了哪些知识？
模型对每条知识的确定性如何？
模型使用哪些知识进行预测？
何时何地模型可能会失效？

SMILY（类似您的医学图像）

领域任务：
病理学家需要从过去的患者中检索视觉上相似的医学图像（例如活检组织）作为参考，以便对新患者做出医疗决策。

控制哪些类型的相似性很重要

用于模型评估的可视化

混淆轮

我们还可以用什么其他方式可视化这些数据？

What-If 工具

FairSight

https://research.google.com/bigpicture/attacking-discrimination-in-ml/

可视化机器学习数据有什么不同/独特之处？

机器学习可视化的一些指导原则

可视化应与用户专业知识相符
- 模型开发人员和构建者
- 模型用户
- 领域专家
- 非专家
- 学习者/学生
为任务提供有效的数据表示
- 调试和改进模型
- 比较和选择模型
- 可解释性和可解释性
- 教授机器学习概念
支持理解模型不确定性
在大多数实际应用中，不确定性是数据驱动模型不可避免的特征。
利用交互性并促进丰富的交互
- 编辑数据点
- 评估假设
- 构建解释
支持表达性输入
- 直接操作
- 通过示例查询

其他资源

机器学习的可视化介绍
http://www.r2d3.us/visual-intro-to-machine-learning-part-1
如何有效使用 t-SNE
https://distill.pub/2016/misread-tsne/
可解释性的构建块
https://distill.pub/2018/building-blocks/
但神经网络是什么？
https://www.3blue1brown.com/topics/neural-networks
深度学习中的视觉分析：对下一个前沿的质询性调查
Hohman, F., Kahng, M., Pienta, R., & Chau, D. H. (2018).
Visual analytics in deep learning: An interrogative survey for the next frontiers. IEEE transactions on visualization and computer graphics, 25(8), 2674-2693.

原文
笔记