斯坦福 CS448B 04 探索性数据分析

2022年8月9日 · 阅读时间约 5 分钟

TLDR

本文包含我对斯坦福 CS448B（数据可视化）课程的笔记，特别关注第四讲关于探索性数据分析的内容。我将讨论探索性数据分析的重要性、背后的原则，并探索各种数据可视化技术，包括使用指导元素、表达性、有效性、对比和模式感知的支持、数据分组和排序、数据转换、减少认知负担以及一致性。我还将介绍各种图表类型，如折线图、柱状图、堆叠面积图等，提供示例并讨论它们的设计考虑因素。

原文

笔记

统计学的兴起（1900-1950 年代）

统计学和社会科学中形式化方法的兴起 — Fisher、Pearson 等
图形方法创新较少
应用和普及的时期
图形方法进入教科书、课程和主流使用

数据分析的未来，John W. Tukey（1962）

当今有四个主要因素影响着数据分析：

统计学的形式理论
计算机和显示设备的加速发展
更多更大的数据集
许多学科对量化的强调

过去几十年见证了统计学形式理论的兴起，通过将变异性限定在随机抽样的假设中来"合法化"变异性，这些抽样通常被假定涉及严格指定的分布，并通过强调狭义优化的技术并声称以"已知"的错误概率做出陈述来恢复安全感。

虽然统计理论对数据分析的一些影响是有帮助的，但其他一些则不然。

对我们而言，暴露，即有效地展示数据以显示意外情况，是数据分析的主要部分。形式统计学几乎没有为暴露提供任何指导；事实上，目前还不清楚如何将适合暴露探索性特点的非正式性和灵活性融入到迄今为止提出的任何形式统计结构中。没有什么——不是数学的严密逻辑，不是统计模型和理论，不是现代计算机强大的算术能力——能够替代这里有见识的人类思维的灵活性。

因此，方法和技术都需要有结构，以便于人类参与和干预。

数据清洗

在分析之前，人们通常需要操作数据。任务包括重新格式化、清洗、质量评估和整合

一些方法

GPTs
编写自定义脚本
在电子表格中手动操作
Trifacta Wrangler: http://trifacta.com/products/wrangler/
Open Refine: http://openrefine.org
Arquero.js: https://observablehq.com/@uwdata/introducing-arquero

如何衡量可视化的质量？

"一个好的可视化的第一个迹象是它能显示你数据中的问题......我参与过的每一个成功的可视化都有这样一个阶段，你会意识到，'天哪，这些数据不是我想象的那样！'
所以，你已经发现了一些东西。"

- Martin Wattenberg

注释

斯坦福 CS448B 04 探索性数据分析

原文

笔记

统计学的兴起（1900-1950 年代）

数据分析的未来，John W. Tukey（1962）

数据清洗

数据质量障碍

分析示例：抗生素的有效性

Will Burtin, 1951

Wainer & Lysen, American Scientist, 2009

探索过程的教训

Tableau/Polaris

原文​

笔记​

统计学的兴起（1900-1950 年代）​

数据分析的未来，John W. Tukey（1962）​

数据清洗​

数据质量障碍​

分析示例：抗生素的有效性​

Will Burtin, 1951​

Wainer & Lysen, American Scientist, 2009​

探索过程的教训​

Tableau/Polaris​

原文

笔记

统计学的兴起（1900-1950 年代）

数据分析的未来，John W. Tukey（1962）

数据清洗

数据质量障碍

分析示例：抗生素的有效性

Will Burtin, 1951

Wainer & Lysen, American Scientist, 2009

探索过程的教训

Tableau/Polaris