数据可视化笔记

绪论

什么是可视化：利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术
可视化的作用
- 记录信息
- 分析推理
- 证实假设
- 交流思想
  变化盲视：当我们同时经历着多样事物发生时仅仅关注其中一样而忽视了其他样事物的发生而且不知道它们的发生，我们称这种现象为变化盲视。
总结：可视化
- 协助思考
- 使用感知代替认知
- 作为大量工作记忆的外界辅助
- 增强认知能力

视觉感知与认知

什么是感知：是指客观事物通过人的感觉器官在人脑中形成的直接反映
视觉感知可分为两个阶段：
- 受到外部刺激接收信息阶段
- 解释信息阶段
视觉感知特点
- 一方面，眼睛和视觉系统的物理特性决定了人类无法看到某些事物；
- 另一方面，视觉系统进行解释处理信息时可对不完全信息发挥一定的想象力。进行人机交互设计需要清楚这两个阶段及其影响，了解人类真正能够看到的信息。
什么是认知：认知心理学将认知过程看成由信息的获取、分析、归纳、解码、储存、概念形成、提取和使用等一系列阶段组成的按一定程序进行的信息加工过程。
格式塔理论
1. 最基本的法则是简单贴近法则
  - 人们在进行观察的时候，倾向于将视觉感知内容理解为常规的、简单的、相连的、对称的或有序的结构
  - 同时，人们在获取视觉感知的时候，会倾向于将事物理解为一个整体，而不是将事物理解为组成该事物所有部分的集合
2. 格式塔法则又称为完图法则，主要包括
  - 贴近法则：当视觉元素(即一些被人识别的视觉感知对象)在空间距离上相距较近时，人们通常倾向于将它们归为一组
  - 相似原则：人们在观察事物的时候，会自然地根据事物的相似性进行感知分组。通常依据对形状、颜色、光照或其他性质的感知进行分组
  - 连续原则：人们在观察事物的时候会很自然地沿着物体的边界，将不连续的物体视为连续的整体
  - 闭合原则：只要物体的形状足以表征物体本身，人们就会很容易地感知整个物体而忽视未闭合的特征
  - 共势原则：如一组物体具有沿着相似的光滑路径运动趋势或相似的排列模式，人眼会将它们识别为同一类物体
  - 好图原则：人眼通常会自动将一组物体按照简单、规则、有序的元素排列方式进行识别。个体识别世界的时候通常会消除复杂性和不熟悉性，并采纳最简化的形式
  - 对称性原则：人的意识倾向于将物体识别为沿某点或某轴对称的形状。因此，将数据按照对称性原则分为偶数个对称的部分，对称的部分会被下意识地识别为相连的形状，从而增强认知的愉悦度
  - 经验原则：在某些情形下视觉感知与过去的经验有关。如果两个物体看上去距离相近，或者时间间隔小，那么它们通常被识别为同一类

色彩

色彩的物理学基础
加性混合主要应用于主动发光的物体，减性混合主要应用于被动发光的物体。
视网膜三类细胞：杆状细胞、锥状细胞、神经节细胞。
脑神经感知颜色的几个特性
- 颜色恒定性
- 人脑对颜色的感知取决于该颜色与周围颜色的关系
- 人脑对亮度变化的感知要比色相变化的感知敏感
加色法系统RGB、减色法系统CMYK
HSV/HSL色彩空间
1. HSL：
  - 色相（Hue）：人类认为的颜色
  - 饱和度（Saturation）：纯度，与灰色的距离
  - 亮度（Lightness）：从黑色到亮色
2. HSV：
  - 色相（Hue）：人类认为的颜色
  - 饱和度（Saturation）：纯度，与灰色的距离
  - 明度（Value）：从黑色到亮色
绝对色彩空间与相对色彩空间
绝对色彩空间是指不依赖于外部因素就可以准确地表示颜色的色彩空间，相对色彩空间无法通过一组值准确地表示颜色，相同的值未必能使人得到相同的色彩感知。

视觉编码原则

视觉假象
人们通过眼睛所获得的信息被大脑处理后形成的关于事物的感知，与事物在客观世界中的物理现实并不一致，这种现象称为视觉假象
- 尺寸错觉（深度错觉）：是指人们根据深度线索或环境信息等视觉规则对相同面积，长度和体积的物体得出不同认知的现象。
- 细胞错觉：指因视觉神经上功能相似的神经元群或神经组织作用对刺激的亮度、颜色、方向模式产生误解的现象，包过视觉后象、侧抑制、填充视觉产生的一些错觉现象
- 轮廓错觉：专指人和动物对图像边缘梯度信息和环境认知出现错误的现象，包括知觉迷糊，背景错觉等。
- 不可能错觉：局部平面结构理解合理却不能客观存在的图形。如：不可能梯形、不可能三角形等。
- 运动错觉：指人结合环境线索对运动刺激判断出错误方向，或者把静态的感知到运动的状态的错觉。如循环蛇，辐条错觉等。
数据通常包含了属性和值，可视化编码包括：标记(图形元素)和用于控制标记的视觉特征的视觉通道

标记通常是一些几何图形元素；标记具有分类性质，因此不同的标记可用于编码不同的数据属性
视觉通道则用于控制标记的展现特征，从定量的角度描述标记在可视化图像中的呈现状态

数据基础

数据属性：数据对象的特征或特性
属性集合：属性向量

数据特征

均值、中位数、均方差
Jaccard相似性系数，用来比较样本集种的相似性和分散性的一个概率。 $d(i,j)=\frac{r+s}{q+r+s}$
明科夫斯基距离系

数据预处理

ETL：抽取、转化、装载
ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。
数据质量
- 精确性
- 完整性
- 一致性
- 适时性
- 可信性
- 可解释性
数据错误类型及处理方法
1. 缺失值
  - 常量代替缺失值
  - 属性平均值填充
  - 插值
  - 忽略
  - 回归
  - 人工填充
2. 噪声值
  - 回归分析
  - 离群点分析
3. 数据重复

数据分析

探索式数据分析EDA中的可视化方法分类：
- 原始数据绘图
- 简单统计值标绘
- 多视图协调关联

数据可视化基础

数据可视化流程

数据可视化流程以数据流为主线，包括数据采集、数据处理和变换、可视化映射、用户感知
可视化流程三个核心要素
- 数据表示与变换
- 数据可视化呈现
- 用户交互

统计图可视化

数据变换

简单的变换
- 线性变换
- 对数变换
- 反正切变换
常用的典型数据变换
- 标准化
- 拟合/平滑
- 采样
- 降维
- 聚类
K-means
- 随机产生K个中心位置
- 将每个数据点归为距离最近的中心位置所属的类
- 根据新的类别划分重新计算中心位置
- 回到第二步，直到满足一定约束
K-medoids
- 中心位置必须在数据点所在位置上
- 中心位置满足“到类内所有数据点的距离之和最小”
- 因而可以处理“距离型”数据

常用图表工具

Tableau
Echarts
Highcharts

地理数据可视化

地图的投影

按照曲面映射过程中的的优化目标区分，地图映射主要包含以下三种类型
- 等距离：即投影后任何点到原点的距离保持不变
  1. 方位角等距离投影。地图上任何一点沿着经度线到投影中原点的距离保持不变
- 等面积：地图上任何图形面积经主比例尺放大以后与实地上相应图形面积大小保持不变
  1. 正弦曲线等面积伪圆柱投影。一种等面积投影，在经纬度投影的基础上对经线加以扭曲以满足等面积特性。
  2. Lambert 等面积方位角投影。假定球面与平面切于一点，按等积条件将经纬线投影于平面。比起经纬度投影，高纬度段被“压扁”以实现等面积投影。
  3. 亚尔勃斯投影：保持面积不变的正轴等面积割圆锥投影。
- 等角度：源曲面和目标曲面（即投影前后）的任何位置的两个微分线段组成的角度投影前后保持不变
  1. 墨卡托投影：一种圆柱等角投影
  2. Lambert圆锥等角投影。用一个正圆锥切于或割于球面，应用等角条件将地球面投影到圆锥面上，之后展开圆锥。

点数据可视化

点数据描述的对象是地理空间中离散的点，具有经度和纬度的坐标，但不具备大小尺寸。最直接可视化点数据的方法是将对象根据它的坐标直接标识在地图上，圆点是最常用的标识符号。
以点数据描述离散的地点
- 优点：简单，直观，与逻辑结构相匹配
- 缺点：对于密集数据点表述力差

线数据可视化

线数据通常指的连接两个或更多地点的线段或者路径。线数据具有长度属性，即所经过的地理距离。
FlowMap算法
1. Layout Adjustment
  - 将地图上的节点映射到屏幕上(km->pixel)
  - 调整节点布局以避免节点间的相互干扰。
  - 布局调整应当
    - 保持节点间的x, y顺序（以保证相对稳定的位置关系）
    - 对于每一组节点u, v，在x, y方向上满足u, v间距离不小于 $k_{uv}$ 。
    - 在x, y方向对所有节点进行排序后通过一组线性扫描可以在 $O(n^2)$ 内满足约束。
2. Primary Clustering
  - 将所有节点依位置关系聚类
  - 聚类方法
    - 对所有数据点对<u,v>，计算u,v之间的欧氏距离
    - 将距离最近的点对合并，依data flow值加权取重心作为一个新的数据点，并计算其与所有原有节点间的欧氏距离。新节点的权值是合并的两节点权值(data flow)之和。并对新节点建立包围盒。
    - 重复上述操作直至只有一个数据点为止，我们即可形成一个二叉树状的聚类结构。
3. Rooted Clustering
  - 在聚类结果中考虑源\汇(Source\Terminal)，并将其移动至根节点
  - 对于二叉树中的每一个节点，选择其中权值较高的子节点，直接连接父节点a与该子节点的重心c交子节点的包围盒于b。取ab中点引出权值较低的子节点。
4. Edge Routing
  - 上述操作并不保证边与边之间不相交——显然地，如果边与边（流与流）之间相交会引发图中较大的混乱，因此我们需要令这些边互相绕开

时空数据可视化

空间数据

空间数据指带有物理空间坐标的数据（空间场数据）
数据从哪里来
- 实测数据：数据从传感器来。数据网格由传感器的排布决定
- 仿真数据：数据从模拟运算来。数据网格由仿真粒度决定。
空间网格形式
- 按照三位数据场的采样组织方式划分，分为：有网格和无网格。
- 按照网格形态划分，分为：均匀网格、矩形网格、曲线网格、不规则网格。

一维数据可视化

多属性时，可以采用不同的可视化方法表达多值域数据。
如果值域数据具有相同的物理属性，不同颜色和线条在同一个图中对比
如果值域数据的物理属性不同，多个子图的形式来可视化不同的属性

二维数据可视化

颜色映射法
- 步骤
  - 建立颜色映射表
  - 将标量数据转换为颜色表的索引值
  - 选择配色方案：ColorBrewer
- 关键：颜色映射，即传输函数设计
- 本质上即为将一个标量值映射到一种颜色
等值线映射法
- 等值线是可视化二维空间标量场的基本方法
- 计算：假设f(x, y)是在点(x, y)处的数值，等值线是在多维空间标量场中满足f(x, y) = c的空间点集按一定顺序连接而成的线
- 移动四边形法：逐个处理二维空间标量场的网格单元，插值计算等值线与该网格单元边的交点，根据网格单元上每个顶点与等值线的相对位置，按一定顺序连接这些交点，生成等值线
高度映射法

三维数据可视化

三维数据场是指分布在三维物理空间，记录三维空间场的物理化学等属性及其演化规律的数据场
获取方式分为两类：设备采集获取和计算模拟
三维数据场本质是一个对连续信号采样形成的离散数据场，采样点数据类型分为
- 标量
- 矢量
- 向量
三维数据体绘制
- 截面可视化
- 间接体绘制
  - 等值面提取与绘制
- 直接体绘制
  - 图像空间方法
    - 光线投射算法：对于图像平面上的每一像素，从视点投射出一穿过该像素的视线，该视线穿过体数据空间，算法直接利用该视线上的采样值合成该像素的颜色值。
  - 数据空间方法
  - 传输函数设计

时空数据可视化——向量张量可视化

向量数据可视化

向量场数据可视化方法
- 基于标量场映射可视化：将向量数据转化为标量，充分利用比较成熟的标量可视化技术。
- 基于几何的方法
  - 标记法：线条、箭头、方向标志符（三角图符）等，类似与传统物理学中用碎铁屑展示磁力线的方法。优点：实现简单、直观、灵活。缺点：在三维空间下会显得非常杂乱。
  - 基于积分曲线的方法
    - 用来可视化流体的四种线
      - 流线（ streamline ）是沿着流体速度矢量的瞬间切线方向的一组曲线。它们显示了流体质点在任何时间点上的运动方向。
      - 迹线（ pathline ）是一个流体颗粒的运动轨迹。它们可以被理解为流体质子在一定时间内运动路线的“记录”。路线的方向取决于时间内的每一个时刻上流体的流线。
      - 烟线（也称脉线，streakline ）是经过某个特定的空间点上所有流体颗粒的点的轨迹。染料逐渐通过一个固定的点注入流体，就延伸为一条烟线。
      - 时线（ timeline ）是由一组在时间内同一个瞬间被标记的一组流体颗粒形成的线，所创建的直线或曲线由于颗粒随时间推移运动而发生位移。
- 基于纹理的方法
  - 点噪音：随机排列一些圆点，按照局部流场方向对圆点变形，将变形后的圆点用各向异性滤波器扩散到纹理中（形象地说就是将圆点按流场方向拉伸）
  - 线积分卷积：将矢量场与白噪声进行卷积
  - 纹理法的优点：
    - 致密地表征整个流场
    - 特定的纹理特征
    - 适合表征动态矢量场
    - 无种子点问题
  - 纹理法的缺点
    - 计算强度大，一般需要特定的加速算法或利用图形硬件加速
    - 特征表达不是非常直观

张量数据可视化

张量概念是矢量概念和矩阵概念的推广，标量是零阶张量，矢量是一阶张量，矩阵（方阵）是二阶张量，而三阶张量则好比立体矩阵，更高阶的张量用图形无法表达
张量场可视化
- 基于标量场映射可视化
  - 标量指数法
- 基于几何的方法
  - 图标法，超流线
- 基于纹理的方法
  - 线积分卷积

层次数据可视化

层次关系(即树型结构)的有效刻画，采用不同的视觉符号来表示不同类型的关系：
- 节点-链接(Node-link)
  - 将单个个体绘制成一个节点，节点之间的连线表示个体之间的层次关系
  - 核心问题：如何在屏幕上放置节点；如何绘制节点及节点之间的链接关系
- 空间填充(Space-filling)
  - 用空间中的分块区域表示数据中的个体，并用外层区域对内层区域的包围表示彼此之间的层次关系
- 混合前两种方法的思路
  - 相邻层次图
  - 弹性层次图

网络数据可视化

网络关系数据

不具备层次结构的关系数据，可统称为网络数据

网络关系数据的可视化

图的显示
- 节点链接式显示
  - 分层显示
  - 力导向布局
  - 多维尺度分析布局
- 相邻矩阵
- 基于属性的显示

图的简化

拓扑简化
- 减少数据量
  - 减少点
    - 聚类
- 减少边
  - 最小生成树

交互

图可视化中的交互
- 基于视点的交互：基于视点的交互是指用交互手段来预测和帮助用户在图中切换视点。视点交互中比较常规的方法包括界面的平移、缩放、旋转等操作
- 基于图元的交互：基于图元的交互是指对于一个可视化映射元素的交互，如节点的选择、高亮、删除、移动、展开(获取细节)与收缩
- 基于图结构的交互：核心思想是“焦点+上下文”(Focus+Context)技术

文本数据可视化

文本信息分析基础

分词技术和词干提取
- 分词(Tokenization)，将一段文字划分为多个词项，剔除停词，从文字中提取出有意义的词项
- 词干提取(Stemming)，去除词缀得到词根，得到单词最一般写法
  - 词干提取避免了同一个词的不同表现形式对文本分析带来的干扰
语法分析树(或分析树，Parse Tree)，一种用于反映文本语句及其语法关系的有序树结构。

文本可视化

文本内容可视化
- 基于关键字的可视化：以关键词为单位可视地表达文本内容
- 时序文本可视化：对于具有时间和顺序属性的文本，文本内容具有有序演化的特点
- 文本特征的分布模式可视化
- 观点挖掘可视化：文本意见挖掘或情感分析，是对文本信息的主题、意见持有者、主客观性、情绪态度等情感信息的挖掘和分析，进而识别出主观性文本的情感趋向
- 查询可视化：了解搜索结果；发现结果中的分布模式
- 软件可视化：源代码可以看作是一种特殊类型的文本
文本关系可视化
- 文档集合中的关系
  - 参考文献
  - 超链接
  - 相似性和等级
- 方法
  - 图形布局
  - 树布局
多层次文档可视化
- 文档内容
- 文档时空信息
- 作者

跨媒体数据可视化

图像数据可视化

图像网格
基于时空采样的图像集可视化
基于相似性的图像集可视化
基于海塞图的社交图像可视化
基于故事线的社交图像可视化

可视化交互与分析

可视化交互

交互延时
- 操作延时
- 反馈延时
- 系统更新延时
交互成本
- 达成目的选择花费的决策成本
- 生成系统操作花费的系统资源成本
- 多重输入模式引发的交互流程阻滞
- 人体物理动作占据的流程执行时间
- 视觉混叠引起的感知阻碍
- 视图变换花费的解读时间
- 评估解释中的状态转换成本
基本交互方法
- 选择
- 导航
- 重配
- 视觉编码
- 抽象化/具体化
- 过滤
- 关联