跳至主要内容

斯坦福 CS448B 02 数据

· 阅读时间约 5 分钟

TLDR

本文包含我对斯坦福 CS448B(数据可视化)课程的笔记,特别关注第二讲关于数据的内容。我将讨论不同类型的数据模型及其分类方式,以及维度和度量之间的区别。我还将介绍数据表和转换。

原文

下载 PDF.

笔记

总览

数据可视化的过程

数据模型 vs. 概念模型

  • 数据模型是形式化描述
  • 概念模型是心智构建
示例

一维浮点数 vs. 温度
三维浮点数向量 vs. 空间位置

注释

数据模型便于计算,而概念模型则作为理解的媒介。

数据模型/类型分类

  • 一维(集合和序列)
  • 时间性
  • 二维(地图)
  • 三维(形状)
  • 多维(关系型)
  • 树(层次结构)
  • 网络(图)

* 名义型、序数型和定量型 *

示例
  • 数据模型

    • 32.5, 54.0, -17.3, …
    • 浮点数
  • 概念模型

    • 温度 (℃)
  • 名义型、序数型、定量型

    • 烧焦 vs. 未烧焦(名义型)
    • 热、温、冷(序数型)
    • 连续值范围(定量型-区间)
注释

名义型、序数型、定量型模型是确定视觉通道的最常用方法。
而视觉通道将决定图表的类型。

维度和度量

维度:(类似自变量

  • 通常是描述数据的离散变量(名义型、序数型)
  • 类别、日期、分箱值

度量:(类似因变量

  • 可以聚合的数据值(定量型)
  • 待分析的数字
  • 聚合为总和、计数、平均值、标准差

区分并不严格。同一变量可能根据任务而被视为维度或度量。

示例
  • 美国人口普查数据

    • 人数:组内人数
    • 年份:1850 – 2000(每十年)
    • 年龄:0 – 90+
    • 性别:男,女
    • 婚姻状况:单身、已婚、离婚、…
  • 人口普查:名义型、序数型还是定量型?

    • 人数:定量型-比率
    • 年份:定量型-区间(序数型)
    • 年龄:定量型-比率(序数型)
    • 性别:名义型
    • 婚姻状况:名义型
  • 人口普查:维度还是度量?

    • 人数:度量
    • 年份:维度
    • 年龄:视情况而定!
    • 性别:维度
    • 婚姻状况:维度

数据表和转换

  • 将数据表示为表格(关系)
  • 每行(元组)代表一条记录
  • 每条记录是固定长度的元组
  • 每列(属性)代表一个变量
  • 每个属性有名称和数据类型
  • 表的模式是属性名称和数据类型的集合
  • 数据库是表(关系)的集合

Pasted image 20230805151950

注释

同一类别内的所有值应保持相同的维度。
例如,如果任务是统计个体的性别,但某些人尚未出生,我们应该添加一个新类别/列来表示他们是否出生,而不是在性别类别/列中添加"未出生"这个新值。

SQL 内容

不是我关注的重点,所以我跳过了。