斯坦福 CS448B 02 数据
· 阅读时间约 5 分钟
TLDR
本文包含我对斯坦福 CS448B(数据可视化)课程的笔记,特别关注第二讲关于数据的内容。我将讨论不同类型的数据模型及其分类方式,以及维度和度量之间的区别。我还将介绍数据表和转换。
原文
笔记
总览
数据可视化的过程
数据模型 vs. 概念模型
- 数据模型是形式化描述
- 概念模型是心智构建
示例
一维浮点数 vs. 温度
三维浮点数向量 vs. 空间位置
注释
数据模型便于计算,而概念模型则作为理解的媒介。
数据模型/类型分类
- 一维(集合和序列)
- 时间性
- 二维(地图)
- 三维(形状)
- 多维(关系型)
- 树(层次结构)
- 网络(图)
注释
还有其他类型吗?
眼见为实:信息可视化的任务数据类型分类法
* 名义型、序数型和定量型 *
示例
-
数据模型
- 32.5, 54.0, -17.3, …
- 浮点数
-
概念模型
- 温度 (℃)
-
名义型、序数型、定量型
- 烧焦 vs. 未烧焦(名义型)
- 热、温、冷(序数型)
- 连续值范围(定量型-区间)
注释
名义型、序数型、定量型模型是确定视觉通道的最常用方法。
而视觉通道将决定图表的类型。
维度和度量
维度:(类似自变量)
- 通常是描述数据的离散变量(名义型、序数型)
- 类别、日期、分箱值
度量:(类似因变量)
- 可以聚合的数据值(定量型)
- 待分析的数字
- 聚合为总和、计数、平均值、标准差
区分并不严格。同一变量可能根据任务而被视为维度或度量。
示例
-
美国人口普查数据
- 人数:组内人数
- 年份:1850 – 2000(每十年)
- 年龄:0 – 90+
- 性别:男,女
- 婚姻状况:单身、已婚、离婚、…
-
人口普查:名义型、序数型还是定量型?
- 人数:定量型-比率
- 年份:定量型-区间(序数型)
- 年龄:定量型-比率(序数型)
- 性别:名义型
- 婚姻状况:名义型
-
人口普查:维度还是度量?
- 人数:度量
- 年份: 维度
- 年龄:视情况而定!
- 性别:维度
- 婚姻状况:维度
数据表和转换
- 将数据表示为表格(关系)
- 每行(元组)代表一条记录
- 每条记录是固定长度的元组
- 每列(属性)代表一个变量
- 每个属性有名称和数据类型
- 表的模式是属性名称和数据类型的集合
- 数据库是表(关系)的集合
注释
同一类别内的所有值应保持相同的维度。
例如,如果任务是统计个体的性别,但某些人尚未出生,我们应该添加一个新类别/列来表示他们是否出生,而不是在性别类别/列中添加"未出生"这个新值。
SQL 内容
不是我关注的重点,所以我跳过了。