《数据可视化》课程期末复习资料
《数据可视化》课程讲稿章节目录:
第一章 数据可视化简介
第一节 数据可视化释义
第二节 可视化简史
第三节 数据可视化详解
第二章 视觉感知与认知
第一节 视觉感知与认知的基本概念
第二节 格式塔理论
第三节 颜色与色彩空间
第四节 视觉编码与视觉通道
第三章 数据
第一节 数据分类与数据属性
第二节 数据获取与预处理
第三节 数据组织与管理
第四节 数据分析与挖掘
第四章 数据可视化基础
第一节 数据可视化基本框架
第二节 可视化的基本图表
第三节 可视化设计原则
第四节 可视化理论发展
第五章 空间标量场可视化
第一节 一维标量场可视化
第二节 二维标量场可视化
第三节 三维标量场数据可视化
第六章 大规模多变量空间数据场可视化
第一节 大规模空间标量场数据的实时可视化
第二节 时变异构空间数据场的特征追踪与可视化
第三节 空间向量场数据可视化
第四节 空间张量场数据可视化
第五节 多变量空间数据场可视化
第七章 时变数据可视化
第一节 时间属性的可视化
第二节 多变量时变型数据可视化
第三节 流数据可视化
第七章 时变数据可视化
第一节 时间属性的可视化
第二节 多变量时变型数据可视化
第三节 流数据可视化
第八章层次和网络数据可视化
第一节 层次数据及可视化
第二节 网络数据及可视化
第九章 文本和文档可视化
第一节 文本可视化释义
第二节 文本信息分析基础
第三节 文本内容可视化
第四节 文本关系可视化
第五节 文本情感分析可视化
第十章 跨媒体数据可视化
第一节 图像可视化
第二节 视频可视化
第三节 声乐可视化
第四节 社交媒体可视化
第五节 社交网络可视化
第十一章 复杂高维多元数据的可视化
第一节 高维多元数据可视化
第二节 非结构化数据可视化
第三节 异构数据可视化
第四节 大尺度数据可视化
第五节 数据不确定性的可视化
第十二章 可视化中的交互
第一节 交互准则
第二节 交互分类
第三节 交互方法
第四节 交互模式
第五节 交互环境
第六节 交互设备
第十三章 可视化效果评测
第一节 评测流程
第二节 评测方法
第十四章 面向领域的数据可视化
第一节 高性能科学可视化
第二节 生命科学可视化
第三节 网络与信息安全可视化
第四节 金融数据可视化
一、客观部分:(单项选择、多项选择)
(一)、选择部分
1、可视化的终极目的是( A )
A. 洞悉事物规律
B. 观察数据
C. 提高数据的呈现效果
D. 绘制事物
2、利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,称为( D )
A. 感知
B. 认知
C. 数据交互
D. 可视化
3. 下列描述中,不属于可视化作用的是( B )
A. 信息记录
B. 信息整理
C. 信息分析
D. 信息协同
★考核知识点: 可视化释义
参见讲稿章节:1-1
附1.1.1(考核知识点解释):
可视化对应两个英文单词: Visualize 和Visualization。 Visualize 是动词,意即”生成符合人类感知” 的图像;通过可视元素传递信息。Visualization 是名词,表达”使某物、某事可见的动作或事实” ; 对某个原本不可见的事物在人的大脑中形成一幅可感知的心理图片的过程或能力。Visualization 也可用于表达对某目标进行可视化的结果,即一帧图像或动画。在计算机学科的分类中, 利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术, 称为可视化。它将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、纹理等,增强数据识别效率,传递有效信息。
可视化与山岳一样古老。中世纪时期,人们就开始使用包含等值线的地磁图、表示海上主要风向的箭头图和天象图。可视化通常被理解为一个生成图形图像的过程。更深刻的认识是,可视化是认知的过程,即形成某个物体的感知图像,强化认知理解。因此,可视化的终极目的是对事物规律的洞悉,而非所绘制的可视化结果本身。
可视化的作用体现在多个方面, 如揭示想法和关系、形成论点或意见、观察事物演化的趋势、总结或积聚数据、存档和汇整、寻求真相和真理、传播知识和探索性数据分析等。从宏观的角度看,可视化包括三个功能。
(1)信息记录
将浩瀚烟云的信息记录成文、世代传播的有效方式之一是将信息成像或采用草图记载。
(2)支持对信息的推理和分析
数据分析的任务通常包括定位、识别、区分、分类、聚类、分布、排列、比较、内外连接比较、关联、关系等。通过将信息以可视的方式呈现给用户,将直接提升对信息认知的效率, 并引导用户从可视化结果分析和推理出有效信息。这种直观的信息感知机制,极大地降低了数据理解的复杂度, 突破了常规统计分析方法的局限性。可视化能显著提高分析信息的效率,其重要原因是扩充了人脑的记忆,帮助人脑形象地理解和分析所面临的任务。
(3)信息传播与协同
人的视觉感知是最主要的信息界面,它输入了人从外界获取的70% 信息。因此,俗语说”百闻不如一见”、” 一图胜千言”。面向公众用户,传播与发布复杂信息的最有效途径是将数据可视化,达到信息共享与论证、信息协作与修正、重要信息过滤等目的。
4、十六世纪的可视化方法是基于( A )
A. 图表
B. 图形符号
C. 物理测量
D. 数据图形
★考核知识点: 可视化简史,
参见讲稿章节:1-1
附1.1.2(考核知识点解释)
可视化发展史与测量、绘画、人类现代文明的启蒙和科技的发展一脉相承。在地图、科学与工程制图、统计图表中,可视化理念与技术已经应用和发展了数百年。
17 世纪之前: 图表萌芽
16 世纪时,人类已经掌握了精确的观测技术和设备,也采用手工方式制作可视化作品。可视化的萌芽出自几何图表和地图生成,其目的是展示一些重要的信息。
1600-1699年: 物理测量
17 世纪最重要的科学进展是对物理基本量(时间、距离和空间)的测量设备与理论的完善,它们被广泛用于航空、测绘、制图、浏览和国土勘探等。同时, 制图学理论与实践也随着分析几何、测量误差、概率论、人口统计和政治版图的发展而迅速成长。17 世纪末,甚至产生了基于真实测量数据的可视化方法。从这时起,人类开始了可视化思考的新模式。
1700-1799年: 图形符号
进入18 世纪,绘图师不再满足于在地图上展现几何信息,发明了新的图形化形式(等值线、轮廓线) 和其他物理信息的概念图(地理、经济、医学) ,随着统计理论、实验数据分析的发展,抽象图和函数图被广泛发明。
18 世纪是统计图形学的繁荣时期,其奠基人William Playfair发明了折线图、柱状图、显示局部与整体关系的饼状图和圆图等今天最常用的统计图表
1800-1900年:数据图形
随着工艺设计的完善, 19 世纪上半叶,统计图形、概念图等迅猛爆发,此时人们己经掌握了整套统计数据可视化工具,包括柱状图、饼图、直方图、折线图、时间线、轮廓线等。关于社会、地理、医学和经济的统计数据越来越多,将国家的统计数据和其可视表达放在地因上,产生了概念制图的新思维,其作用开始体现在政府规划和运营中。采用统计图表来辅助思考的诞生同时衍生了可视化思考的新方式: 图表用于表达数学证明和函数;列线图用于辅助计算: 各类可视化显示用于表达数据的趋势和分布,便于交流、获取和可视化观察。
19 世纪下半叶,系统地构建可视化方法的条件日渐成熟,进入了统计图形学的黄金时期。值得一提的是法国人Charles Joseph Minard ,他是将可视化应用于工程和统计的先驱者。其最著名的工作是1869 年发布的描绘1812-1813 年拿破仑进军莫斯科大败而归的历史事件的流图,这幅图如实地呈现了军队的位置和行军方向、军队汇聚、分散和重聚的地点与时间、军队减员的过程、撤退时低温造成的减员等信息。
5. DIKW层次模型中,信息的特性是( C )
A. 多源性
B. 异构性
C. 象征性
D. 时变性
6. 下列不属于可视化意义的是( B )
A. 真实性
B. 象征性
C. 倾向性
D. 艺术完美性
7. 张量场可视化属于( A )
A. 科学可视化
B. 信息可视化
C. 时变数据可视化
D. 体数据可视化
★考核知识点: 可视化详解,
参见讲稿章节:1-2
在信息管理、信息系统和知识管理学科中,最基本的模型是”数据、信息、知识、智慧( Data, Information, Knowledge, Wisdom, DlKW )” 层次模型。它以数据为基层架构,按照、信息流顺序依次完成数据到智慧的转换。四者之间的结构和功能方面的关系构成了信息科学的基础理论。在数据科学中,这种模型也作为一种数据处理流程,完成从原始数据的转化。
数据可视化体现出宽物善知的作用。
·真, 即真实性, 指是否正确地反映了数据的本质,以及对所反映的事物和规律有无正确的感受和认识。数据可视化之真是其基石。例如,在医学研究领域,数据可视化可以通过可视化不同形态的医学影像、化学检验、电生理信号、过往病史等,帮助医生了解病情发展、病灶区域,甚至拟定治疗方案。
·善,即倾向性,也就是可视化所表达的意象对于社会和生活具有什么意义和影响。加拿大可视化专家Tamara Munzner 认为,可视化的终极目标在于帮助公众理解人类社会发展和自然环境的现状,实现政府与职能部门运行的透明。
·美,即可视化的艺术完美性,指其形式与内容是否和谐统一,是否有艺术个性,是否有创新和发展
科学可视化( scientific visualization )
科学可视化是可视化领域最早、最成熟的一个跨学科研究与应用领域。面向的领域主要是自然科学, 如物理、化学、气象气候、航空航天、医学、生物学等各个学科,这些学科通常需要对数据和模型进行解释、操作与处理,旨在寻找其中的模式、特点、关系以及异常情况。
科学可视化的基础理论与方法己经相对成形。早期的关注点主要在于三维真实世界的物理化学现象,因此数据通常表达在三维或三维空间, 或包含时间维度。鉴于数据的类别可分为标量(密度、温度)、向量( 风向、力场)、张量(压力、弥散)等三类,科学可视化也可粗略地分为三类。
信息可视化(information visualization)
信息可视化处理的对象是抽象的、非结构化数据集合(如文本、图表、层次结构、地图、软件、复杂系统等)。传统的信息可视化起源于统计图形学,又与信息图形、视觉设计等现代技术相关。其表现形式通常在二维空间,因此关键问题是在有限的展现空间中以直观的方式传达大量的抽象信息。与科学可视化相比,信息可视化更关注抽象、高维数据。此类数据通常不具有空间中位置的属性,因此要根据特定数据分析的需求,决定数据元素在空间的布局。
8. 人们在观察事物的时候,会自然地根据事物的相似性进行感知分组,这是格式塔理论的( A )原则
A. 相似
B. 就近
C. 连续
D. 闭合
9. 人们在观察事物的时候,会自然地根据事物的相似性进行感知分组,这是格式塔理论的( A )原则
A. 相似
B. 就近
C. 连续
D. 闭合
10. 当视觉元素在空间距离上相距较近时,人们通常倾向于将它们归为一组,这是格式塔理论的( B )原则
A. 相似
B. 就近
C. 连续
D. 闭合
★考核知识点: 格式塔理论,
参见讲稿章节:2-1
格式塔( Gestalt ) 心理学诞生于1912 年, 是心理学中为数不多的理性主义理论之一。它强调经验和行为的整体性,反对当时流行的构造主义元素学说和行为主义”刺激-反应”公式。格式塔心理学认为,整体不等于部分之和, 意识不等于感觉元素的集合, 行为不等于反射弧的循环。如果一个人往窗外观望,他看到的是树木、天空、建筑,而构造主义元素学说认为他应该看到的是组成这些物体的各种感觉元素, 例如亮度、色调等。
在格式塔心理学家看来,感知的事物大于眼睛见到的事物: 任何一种经验的现象,其中每一成分都牵连到其他成分,每一成分之所以有其特性,是因为它与其他部分具有关系。由此构成的整体, 并不决定于其个别的元素, 而局部过程却取决于整体的内在特性。完整的现象具有完整特性, 它既不能分解为简单的元素, 其特性也不包含于元素之内。
格式塔心理学感知理论最基本的法则是简单精炼法则,认为人们在进行观察的时候,倾向于将视觉感知内容理解为常规的、简单的、相连的、对称的或有序的结构。同时, 人们在获取视觉感知的时候,会倾向于将事物理解为一个整体,而不是将事物理解为组成该事物所有部分的集合。格式塔法则又称为完图法则,主要包括:
贴近原则( proximity )
当视觉元素(即一些被人识别的视觉感知对象)在空间距离上相距较近时,人们通常倾向于将它们归为一组。
相似原则( similarity )
人们在观察事物的时候,会自然地根据事物的相似性进行感知分组,虽然实际上事物本身并不存在分组的意图。通常依据对形状、颜色、光照或其他性质的感知决定分组。
连续原则( continuity )
人们在观察事物的时候会很自然地沿着物体的边界, 将不连续的物体视为连续的整体。
闭合原则( closure )
在某些视觉映像中, 其中的物体可能是不完整的或者不是闭合的,然而格式塔心理学认为,只要物体的形状足以表征物体本身,人们就会很容易地感知整个物体而忽视未闭合的特征。
共势原则( common fate )
共势原则指如果一组物体沿着相似的光滑路径运动趋势或具有相似的排列模式,人眼会将它们识别为同一类物体。
好图原则( good figure )
好图原则指人眼通常会自动将-组物体按照简单、规则、有序的元素排列方式识别。这就是说,个体识别世界的时候通常会消除复杂性和不熟悉性,并采纳最简化的形式。这种复杂性的消除有助于产生对识别物体的理解,而且在人的意识中这种理解高于空间的关系。
对称性原则(symmetry )
对称性原则指人的意识倾向于将物体识别为沿某点或某轴对称的形状。因此, 将数据按照对称性原则分为偶数个对称的部分,对称的部分会被下意识地识别为相连的形状,从而增强认知的愉悦度。特别地,如果两个对称的形状彼此相似,它们更易被认为是一个整体。
经验原则(past experience)
经验原则指在某些情形下视觉感知与过去的经验有关。如果两个物体看上去距离相近,或者时间间隔小,那么它们通常被识别为同一类。
11. 数据的值到标记的视觉表现属性的映射,称为( D )
A. 可视化编码
B. 视觉编码
C. 视觉属性
D. 视觉通道
12. 视觉通道的性质是( ABD )
A. 定量性质
B. 有序性质
C. 关联性质
D. 分组性质
★考核知识点: 视觉编码原则,
参见讲稿章节:2-1
可视化将数据以一定的变换和视觉编码原则映射为可视化视图。用户对可视化的感知和理解通过人的视觉通道完成。在可视化设计中,对数据进行可视化(视觉)元素映射时,需要遵循符合人类视觉感知的基本编码原则,这些原则跟数据类型紧密相关。在通常情况下,如果违背了这些基本原则,将阻碍或误导用户对数据的理解。
(1)相对性和绝对性
人类感知系统的工作原理决定于对所观察事物的相对判断。例如,人们通常会选取一个参照物,而将另外一个物体的长度描述为其相对于参照物的长度的变化量。Weber 定律描述了这一现象:人类感知系统将可察觉的剌激强度的变化况表达为一个目标剌激强度的百分比K, 即K=δl/l。然而,精确地进行相对判断是有条件的,即如果物体使用相同的参照物或者相互对齐,则会有助于人们做出准确的相对判断。
另外, 一些实验表明,感知系统对于亮度和颜色的判断完全是基于周围环境的,即通过与周围亮度和颜色的对比获得对焦点处亮度和颜色的感知。
在信息可视化设计中,设计者需要充分考虑到人类感知系统的这种现象,以使得设计的可视化结果视图不会存在误导用户的可视化元素。
(2)标记和视觉通道
可视化编码( visual encoding ) 是信息可视化的核心内容,是将数据信息映射成可视化元素的技术, 其通常具有表达直观、易于理解和记忆等特性。数据通常包含了属性和值,因此,类似地,可视化编码由两方面组成: (图形元素)标记和用于控制标记的视觉特征的视觉通道。前者是数据属性到可视化元素的映射,用于直观地代表数据的性质分类: 后者是数据的值到标记的视觉表现属性的映射,用于展现数据属性的定量信息,两者的结合可以完整地对数据信息进行可视化表达。标记通常是一些几何图形元素,如点、线、面、体等。视觉通道用于控制标记的视觉特征,通常可用的视觉通道包括标记的位置、大小、形状、方向、色调、饱和度、亮度等
(3)视觉通道的概念
视觉感知系统是迄今为止人类所知的具有最高处理带宽的生物系统。人眼具有很强的模式识别能力,对可视化符号的信息获取能力远高于对文本和数字的直接识别。将数据信息以可视化视图进行呈现,其关键步骤是对数据信息进行编码,即将数据属性以标记呈现后,通过视觉通道控制标记的呈现方式。本节主要描述视觉通道的重要概念。
视觉通道的类型。数据通常以有序的和分类的两种形式存在,而视觉通道在表现上也存在两种不同的功能,例如,颜色的色调通常用于表现分类而无序的数据,而同一颜色的不同亮度却更多地用来表现顺序性。因此, 使用不同的通道展现数据所包含的信息,对于数据可视化而言是非常重要的基础。
视觉通道的表现力。视觉通道的表现力主要定义为视觉通道在编码数据信息时, 需要表达且仅表达数据的完整属性。一般而言,可以从视觉通道编码信息时的精确性、可辨性、可分离性和视觉突出等方面衡量不同视觉通道的表现力。
视觉通道的有效性。不同的视觉通道具有不同的表现力,而一个好的可视化设计需要根据每个数据属性的重要性,使用合适的视觉通道进行编码,即利用具有高表现力的视觉通道编码更重要的数据属性,从而使用户可以更容易地获取数据中相对重要的信息。
根据表现力和有效性对视觉通道的排序。由于视觉通道在编码数据信息时所表现的不同特性, 将视觉通道按照它们的表现力和有效性进行排序后,将有助于用户在设计息可视化时方便、快速地选择合适的视觉通道或它们的组合,完整地展现数据包含的信息。
(4)视觉通道的特性
在可视化设计中,相同的数据属性可以使用不同的视觉通道进行编码,然而, 由于各个视觉通道特性的差异,当可视化结果呈现给用户时,被用户的感知与认知系统处理并获取的信息不尽相同。合理地使用视觉通道是设计优秀的信息可视化的关键因素。
13. 基本的可视化图表按照所呈现的信息和视觉复杂程度可分为( ABC )
A. 原始数据绘图
B. 简单统计值标绘
C. 多视图协调关联
D. 思维导图
14. 标准的单变量数据呈现方法是( A )
A. 数据轨迹
B. 柱状图
C. 直方图
D. 饼图
★考核知识点: 可视化基本图表,
参见讲稿章节:4-2
统计图表是最早的数据可视化形式之一,作为基本的可视化元素仍然被非常广泛地使用。对于很多复杂的大型可视化系统来说,这类图表更是作为基本的组成元素而不可缺少。基本的可视化图表按照所呈现的信息和视觉复杂程度通常可以分为三类. 原始数据绘图、简单统计值标绘和多视图协调关联。
(1)原始数据绘图
原始数据绘图用于可视化原始数据的属性值,直观呈现数据特征,其代表性方法如下。
数据轨迹
数据轨迹是一种标准的单变量数据呈现方法:X 轴显示自变量;y 轴显示因变量。典型的例子有股票随时间的价格走势。数据轨迹可直观地呈现数据分布、离群值、均值的偏移等。
柱状图( bar chart)
柱状图采用长方形的形状和颜色编码数据的属性。柱状图的每根直柱内部也可用像素图( pixel chart ) 方式编码,也称为堆叠图C stackedgraph) ,详见多变量和高维数据可视化章节。
直方图( histogram )
直方图是对数据集的某个数据属性的频率统计。对于单变量数据,其取值范围映射到横轴,并分割为多个子区间。每个子区间用一个直立的长方块表示, 高度正比于属于该属性值子区间的数据点的个数。直方图可以呈现数据的分布、离群值和数据分布的模态。直方图的各个部分之和等于单位整体,而柱状图的各个部分之和没有限制,这是两者的主要区别。双直方图( 见图4. 11 )是一种便于比较两个数据集的方法,其做法是将两个数据集的频率统计信息(即直方图〉分别沿横轴对称呈现。直方图可以扩展到多维。
饼图( pie chart)
饼图采用了饼干的隐喻,用环状方式呈现各分量在整体中的比例。这种分块方式是环状树图等可视表达的基础。
等值线图( contour map)
等值线图使用相等数值的数据点连线来表示数据的连续分布和变化规律。等值线图中的曲线是空间中具有相同数值( 高度、深度等〉的数据点在平面上的投影。平面地图上的地形等高线、等温线、等湿线等都是等值线图在不同领域的应用
走势图( sparkline )
走势图是一种紧凑简洁的数据趋势表达方式,它通常以折线图为基础, 大小与文本相仿,往往直接嵌入在文本或表格中。走势图使用高度密集的折线图表达方式来展示数据随某一变量( 时间、空间)的变化趋势。由于尺寸限制,趋势图无法表达太多的细节信息。走势图常用于商业数据表达,如股票走势、市场行情等
散点图( scatter plot ) 和散点图矩阵( scatter plot matrix )
散点图是表示二维数据的标准方法。在散点图中,所有数据以点的形式出现在笛卡尔坐标系中,每个点所对应的横纵坐标即代表该数据在坐标轴所表示维度上的属性值大小。散点图矩阵是散点图的高维扩展,用来展现高维〈大于二维〉数据属性分布。可以通过来用尺寸、形状和颜色等来编码数据点的其他信息。对不同属性进行两两组合,生成一组散点图,来紧凑地表达属性对之间的关系
维恩图C Venn diagram )
维恩、图使用平面上的封闭图形来表示数据集合间的关系。每个封闭图形代表一个数据集合,图形之间的交叠部分代表集合间的交集,图形之外的部分代表不属于该集合的数据部分。维恩图在一张平面图表上表示集合间的所有逻辑关系,被广泛用于集合关系展示。
热力图C heat map)
热力图使用颜色来表达位置相关的二维数值数据大小。这些数据常以矩阵或方格形式整齐排列,或在地图上按一定的位置关系排列,每个数据点的颜色编码数值大小
(2)简单统计值标绘
盒须图是John Tukey 发明的通过标绘简单的统计值来呈现一维和二维数据分布的一种方法。它的基本形式是用一个长方形盒子表示数据的大致范围(数据值范围的25% ~ 75% ) ,并在盒子中用横线标明均值的位置。同时, 在盒子上部和下部分别用两根横线标注最大值和最小值。盒须图在实验数据的分析中非常有用。针对二维数据,标准的一维盒须图可扩充为二维盒须图
(3)多视图协调关联
多视图协调关联(multiple coordinated views ) 将不同种类的绘图组合起来,每个绘图单元可以展现数据某个方面的属性,并且通常允许用户进行交互分析,提升用户对数据的模式识别能力。在多视图协调关联应用中, 66 选择”操作作为一种探索方法,可以是对某个对象和属性进行”取消选择”的过程,也可以是选择属性的子集或对象的子集,以查看每个部分之间的关系的过程。
15. 一维空间标量场用( A )呈现数据分布规律
A. 线图
B. 饼图
C. 散点图
D. 热力图
16. 沿着空间中某条路径采样得到的标量场数据称为( A )
A. 一维空间标量场
B. 一维空间向量场
C. 一维空间张量场
D. 一维空间矢量场
★考核知识点: 一维标量场可视化,
参见讲稿章节:5-1
一维空间标量场指空间中沿着某一条路径采样得到的标量场数据。例如,对土层钻探时获取的土壤颗粒度数值、沿某个经度的气压数值、燃烧炉沿内壁的温度分布等。一维空间标量场数据通常可表达为一维函数,其定义域是空间路径位置或空间坐标的参数化变量,值域是不同的物理属性,如温度、湿度、气压、波长、亮度和电压漂移等。由于在数据采集时无法获取整个连续定义域内的数值,因此需要采用插值算法(如线性插值)重建相邻离散数据点之间的信号。
类似于数学上的一维函数,一维空间标量场可以用线图(Iine chart)的形式呈现数据分布规律。
当同一空间位置上包含多个物理属性时,可以采用不同的可视化方法表达多值域数据。如果值域变量具有相同的物理属性, 则可以采用不同颜色和线条加以区分,并展现在同一个图中对比:如果值域变量的物理属性不同,则可以采用多个子图的形式来可视化不同的属性。
17. 颜色映射法的核心是( C )
A. 灰度映射
B. 彩色映射
C. 颜色映射表
D. 配色方案
★考核知识点: 二维标量场可视化,
参见讲稿章节:5-1
二维空间标量场数据比一维数据更为常见,如用于医学诊断的x-光片、二维地形图等,基本的可视化方法有颜色映射、等值线和高度图三类。
(1)颜色映射
x-光片指将x-光机辐射后的物理数据映射到从黑到白不同深浅的灰度图像。穿透空气、结缔组织、肌肉组织的X 光较多,被映射为黑色: 穿透骨髓的X 光较少, 被映射为白色。除了灰度映射, 二维空间标量场数据还可以应用彩色映射,通过色彩差异传递数据的空间分布规律。这类简单的可视化方法己经被广泛应用于各个领域,不同领域也制定了通用的彩色映射表。
灰度映射和彩色映射统称为颜色映射(color mapping),它通过将每一标量值与一种颜色相对应,构建一张以标量值作为索引的颜色映射表。颜色映射表的选择非常重要,不合理的映射方案将会影响特征的感知,甚至产生错误的信息。当屏幕映射空间大于原始二维数据空间时,离散的二维空间标量场需要采用插值算法重建相邻数据点之间的信号(如双线性插值),再将插值得到的数值映射为颜色。
(2)等值线提取
等值线提取是可视化二维空间标量场的基本方法,如地图上的等高线、天气预报中的等压线和等温线等。假设f(x,y) 是在点(x,y) 处的数值,等值线是在二维数据场中满足f(x,y)=c的空间点集按一定顺序连接而成的线。值为c的等值线将二维空间标量场分为两部分:若f(x,y)<c,则该点在等值线内:若fCx,y)>c,则该点在等值线外。移动四边形法(marching squares) 的基本思想是逐个处理三维空间标量场的网格单元,插值计算等值线与该网格单元边的交点,根据网格单元上每个顶点与等值线的相对位置,按一定顺序连接这些交点,生成等值线。
(3)高度图
高度图(height plot ) 将三维空间标量场数据转换为三维空间的高度网格,其中数据值被映射为第三个维度:高度。高度图还可施加图形学中的真实绘制效果(如阴影),增强高度图的位置感知能力。
18. 将最邻近的体素数据值作为插值点的数据值的插值方法是( B )
A. 三线性插值
B. 最近领域插值
C. 高阶插值
D. 移动最小二乘法插值
★考核知识点: 三维标量场可视化,
参见讲稿章节:5-3
假设原始的三维连续信号是有限带宽信号(信号存在最高频率),根据Nyquist-Shannon采样理论,离散数据场的采样频率需要大于2倍的截止频率(信号最高频率),才能保证离散数据场可重构原始的连续数据场。这是数据来集获取时或计算机模拟离散时需要满足的来样条件,即网格采样密度要求。由于截止频率在三维空间上存在变化,自适应网格能够高效地采样连续数据场,这样既能保证采样得到的离散数据场能够重构出原始连续数据场,又不会大量增加三维数据场的数据量。
理想的重构函数是sinc函数,其在空间域上无限延伸。因此,任意点处信号的重构都需要将场内所有来样点的数值和sinc函数进行卷积,导致巨大的计算量。三维标量场可视化通常采用盒状滤波(boxfilter)和帐篷状滤波(tentfilter),它们都只需要采样点局部邻域的离散数据。最近邻域插值(nearest-neighborinterpolation)是一种盒状滤波,将最邻近的体素数据值作为插值点的数据值,计算效率高,但会造成相邻点的不连续和锯齿状噪声。在规则三维标量场可视化中,三线性插值(trilinearinterpolation)是一种帐篷状滤波,涉及插值点邻域周围的8个体素数据值,三线性插值较好地平衡了计算效率和信号重构精度,是最为常用的规则三维标量场重构方法。
19. 加速时变空间标量场数据可视化的基本思路是( C )
A. 时变特征抽取
B. 多变量处理
C. 时空连贯性
D. 时变等值面提取
★考核知识点: 大规模空间标量场数据的实时可视化,
参见讲稿章节:6-1
利用时空连贯性的特性,是加速时变空间数据场可视化的基本思路。
从时变空间标量场数据中提取时变等值面,是展示形状演化规律的基本方法。类似于单个时间步上的等值面提取加速,也可采用利用时空连贯性的加速方法,避免处理不必要的体素,提高时变等值面的提取效率。T-BON(Temporal Branch-on-Need )树将八叉树方法扩展到时变标量场。T-BON树为每个时间步上的标量场共享同一个八叉树结构,树的节点包含每个时间步上对应空间体素的最大值和最小值, 叶节点保存原始数据块在硬盘中的索引。采用外存计算技术可处理大规模时变数据的等值面提取。空间层次索引树(temporal hierarchical index tree)将单个标量场的值域空间或扫描空间加速算法扩展到时变数据场,通过构建基于值域空间和基于最大值、最小值的时变差异快速获得等值面所在的体素。另一方面,时变标量场数据可看成一个四维数据,对其可直接提取等值面,代表性方法有递归轮廓网格算法(recursive contour-meshing algorithm)和超立方体(hypercubes) 三角化方法等。
时变空间标量场具有连贯性强、规模大、多变量等特点,为直接体绘制的加速提供了不同的契机,如保特征的数据压缩、流水线绘制等。数据压缩一般分为分块、变换、量化和编码4个阶段,不同的数据划分方式将对应不同的压缩过程。一类方法是将数据按照时间维度进行划分,先对单帧数据进行压缩,再考虑时间相关性。小波基函数方法先对每一帧数据计算多分辨的小波系数,再通过检测相邻帧系数的关联性,发现数据中的奇异点与局部正则性。Guthe 等人引入了运动补偿策略匹配相邻时间帧数据,使得压缩比得以进一步提升。Jang 等人引入了视频压缩方法,通过计算相邻标量场数据的相关性提升绘制效率。Lum等人通过DCT变换对数据进行时间维度上的压缩并采用调色板映射加速解码过程,使得大规模时变数据得以实时绘制。时间划分树(time-space partitioning tree)利用时变数据的时间连续性压缩数据集,极大地提升了数据的绘制效率。空间划分时间树(space-partitioning time tree)采用时间维度上的二分树结合八叉树提高数据重用率,利用外存处理能够绘制25GB 规模的时变数据。
此外, Strengert等人根据视点等参数进行优化,以减少网络通信,加快图像的混合。Wang 等人提出了应用驱动的时变数据压缩方法,可结合领域知识提升压缩比。Mensmann等人采用CPU/GPU混合架构进行时变数据的无损压缩,结合时变预测模型能够充分利用时间相关性,进而提供快速、可变长度的块压缩与交互式的绘制。Cao等人引入了信息娟的计算,根据重要性进行数据压缩。流水线绘制一般应用于并行环境,如超级计算机、基于网络的分布式环境等,通常含数据加载、分发、汇集与传输4个阶段。Ma 等人通过将处理器进行分组并分配相适应的任务(如绘制某帧数据)提高绘制流水线的性能,同时采用图像压缩技术进行网络传输,使得终端用户能够通过网络实时查看绘制结果。Biddiscombe等人设计了处理时变数据的流水线机制,支持不同的绘制算法,具有很好的扩展性。
从时变标量场抽取的时变特征既可以通过融合多个时间步的可视化结果展示,也可以通过动画播放或并排放置多个时间步绘制结果以观察时变特征的差异和演化规律。对于相邻时间帧的特征信息,可采用表意性可视化方法叠加在当前时刻的可视化结果上。例如,采用速度线(speedline)和轮廓线(silhouette)表示特征之前所在的位置信息
20. 流面适用于( A )向量场
A. 稳定
B. 不稳定
C. 二维
D. 三维
★考核知识点: 空间向量场数据可视化,
参见讲稿章节:6-2
几何法指采用不同类型的几何元素,例如线(curve)、面(surface)和体(volume)模拟向量场的特征。不同类型的几何元素和方法适用于不同特征(稳定、时变)和维度(二维、三维)的向量场
(1)基于曲线的可视化
基于曲线的可视化方法包括两类:一类方法面向稳定向量场,如流线(stream line);另一类方法面向不稳定/时变向量场,如迹线(path line)和脉线(streak line)。
(2)基于曲面的可视化
基于曲面的几何法增加了种子点空间的维度,比基于曲线的方法提供了更好的用户体验和感知,并能显著降低视觉混淆,更为真实地揭示向量场的结构。
与曲线法类似,常见的基于曲面的向量场可视化方法可以分为两类:一类方法面向稳定向量场,包括流面(stream surface)、流球(stream ball)和流形箭头(strearn-arrow);另一类方法面向不稳定/时变向量场,例如脉面(streak surface)等。
以流结为基础,研究人员设计了一系列扩展的方法,例如流管(stream tube)和流带(stream ribbon)等。
流面的可视化方法以流线为基础,在三维空间的特定位置(如曲线、曲面和四面体网格等)播撒种子点并生成流线簇,以此揭示向量场特征。
流球的可视化方法借用元球(metaball)的概念,将连续的流线离散化为流线上的一组点,用一个流球表示每个点。这种方法的优点在于:通过减小流球间距以及控制流球使其融合,使之呈现流线的连续特征;可采用流球的半径、颜色等属性编码展现向量场的局部特征。
作为流面的扩展形式,流形箭头将箭头的纹理图案镶嵌于原来的流面上,不同曲率的流面应用不同分辨率的纹理图案,以最大限度地消除图案的扭曲。此方法的优点在于箭头的纹理代替复杂的流面结构,可展现内部的向量场信息,同时在一定程度上降低了视觉混淆
脉面的可视化以脉线为基础,适用于不稳定时变向量场。由于向量场的高度复杂性(四维数据)和人眼对时变数据的不易感知性,脉面方法面临的技术挑战是降低计算复杂度、保持数据精确性和降低视觉混淆。
(3)基于体的可视化
基于曲线或者曲面的可视化方法通常难以展示三维向量场完整的整体性特征,如流的聚合和分散、旋涡、剪切和断裂等拓扑信息。基于体的可视化方法能有效地弥补这一缺陷,帮助用户探索向量场的拓扑结构。这一类的可视化方法主要包括流体(flow volume)等。流体可视化方法的主要思路是:将追踪粒子撒入流场,捕获粒子的运动轨迹,形成三维空间内的一个流体,继而将该流体通过特定算法转化为一个四面体的集合,并利用体绘制技术进行可视化。相对于流线和流面,流体技术可揭示更多的全局或周部信息。
以流体技术为基础,研究人员设计了更多的相关算法,如隐式流体法(implicit flow volume)、面向时变向量场的可视化方法和借助脉线的不稳定流体方法(unsteady flow volume)
21. 流状分支时间主线可视化方法,主要包括( A )
A. 河流隐喻
B. 折线图
C. 径向布局图
D. 体绘制
★考核知识点: 时间属性可视化,
参见讲稿章节:7-1
如果将时间属性或顺序性当成时间轴变量,那么每个数据实例是轴上某个变量值对应的单个事件。对时间属性的刻画有三种方式。
线性时间和周期时间: 线性时间假定一个出发点并定义从过去到将来数据元素的线性时域。许多自然界的过程具有循环规律,如季节的循环。为了表示这样的现象,可以采用循环的时间域。在一个严格的循环时间域中,不同点之间的顺序相对于一个周期是毫无意义的,例如,冬天在夏天之前来临,但冬天之后也有夏天。
时间点和时间间隔:离散时间点将时间描述为可与离散的空间欧拉点相对等的抽象概念。单个时间点没有持续的概念。与此不同的是,间隔时间表示小规模的线性时间域,例如几天、几个月或几年。在这种情况下,数据元素被定义为一个持续段, 由两个时间点分隔。时间点和时间间隔都被称为时间基元。
顺序时间、分支时间和多角度时间: 顺序时间域考虑那些按先后发生的事情。对于分支时间、多股时间分支展开,这有利于描述和比较有选择性的方案(如项目规划) 。这种类型的时间支持做出只有一个选择发生的决策过程。多角度时间可以描述多于一个关于被观察事实的观点。
线性和周期时间可视化
不同类别的时变型数据需采用不同的可视方法来表达。标准的显示方法将时间数据作为二维的线图显示, x 轴表示时间, y 轴表示其他的变量。
曰历时间可视化
时间属性可以和人类日历对应,并分为年、月、周、日、小时等多个等级。因此, 采用日历表达时间属性, 和我们识别时间的习惯符合。将日期和时间看成两个独立的维度, 可用第三个维度编码与时间相关的属性。
分支和多角度时间可视化
类似于叙事型小说,时变型数据中蕴涵的信息存在分支结构,对同一个事件也可能存在多个角度的刻画。按照时间组织结构, 这类可视化可分为线性、流状、树状、图状等类型。
(1)线性多角度时间可视化
为了呈现一个完整的事件历程和社会行为(如个人健康记录、历史事件),可采用类似于甘特图(用条形图表进度的可视化标志方法〉的方式,使用多个条形图线程表现事件的不同属性随时间变化的过程,线条的颜色和厚度都可以编码不同的变量。观察者既可以交互地点击某个线程获取详细的细节,也可以直观地得到按时间排列的事件的概括。
(2)流状分支时间主线可视化
基于河流的可视隐喻可展现时序型事件随时间产生流动、合井、分叉和消失的效果,这种效果类似于小说和电影中的叙事主线。例如,软件开发中协作关系的演变类似于电影中的人物关系。每个开发人员在开发过程中用一条线表示,当两个程序员同时开发同一个模块的时候,他们的线条合并。
22. 输入数据不存储在可随机访问的设备中,而是以一个或多个连续流的形式采集,这类数据称为( C )
A. 静态数据
B. 文件数据
C. 流数据
D. 大数据
★考核知识点: 流数据可视化,
参见讲稿章节:7-3
流数据是一类特殊的时变型数据,输入数据(全部或部分)并不存储在可随机访问的磁盘或内存中,而是以一个或多个”连续数据流”的形式到达。常见的流数据有移动通信日志、网络数据(日志、传输数据包、警报等) 、高性能集群平台日志、传感器网络记录、金融数据(如股票市场)、社交数据等。
处理流数据与传统的数据池处理方法相比,有以下特点:
· 数据流的潜在大小也许是无限的。
· 数据元素在线到达,需要实时处理,否则数据的价值随时间的流逝可能降低。
· 无法控制数据元素的到达顺序和数量, 每次流入的数据顺序可能不一致, 数量时多时少。
· 某个元素被处理后, 要么被丢弃, 要么被归档存储。
· 对于流数据的查询异常情况和相似类型比较耗时, 人工检测日志相当乏味且易出错。
实时数据流计算在科研领域己有多年的研究。近年来,流数据在移动互联网领域被广泛产生, 研究和使用流数据的可视化和分析成为研究热点
23. 根节点位于圆心,不同层次的节点放置在半径不同的同心圆上的布局方式为( B )
A. 正交布局
B. 径向布局
C. 环形布局
D. 层次布局
24. 节点在放置的时候都按照水平或垂直对齐的布局,称为( A )
A. 正交布局
B. 径向布局
C. 环形布局
D. 层次布局
8-1
★考核知识点: 层次数据可视化,
参见讲稿章节:8-2
节点-链接法的核心问题是如何在屏幕上放置和绘制节点及节点之间的链接关系。节点的放置方式取决于具体应用的需求,选择什么样的形状或图示表示节点则通常取决于节点所要表现的内容。另外,边可以用两点之间的直线,也可以用一系列正交的折线,甚至曲线进行表达。通常,清晰有效地实现节点- 链接法需要考虑如下需求。
· 节点位置的空间顺序和层次关系一致。例如, 考虑从上往下的顺序,父节点总是在子节点上面,相同深度的节点处在同一个水平线上。层次关系其实是一种有向的关系,如果采用常识意义上的空间顺序,则可避免使用箭头来标识方向。
·减少连线之间的交叉。过多的连线交叉会干扰用户对关系的解读。
·减少连线的总长度。连线越长越容易造成解读错误, 这意味着具有链接关系的节点应尽可能靠近。
·可视化应该有一个合适的长宽比,以便优化空间的利用。正如Edward Tufte所倡导的”数据-墨水比”原则,用最少的空间展示尽量多的信息。
这些要求有时互相冲突,一个好的节点- 链接布局算法要满足尽量多的要求,且不同的应用侧重于不同的布局要求。纵横轴布局算法的最简单方法是在二维平面上,沿某个轴扩充或缩进子节点,同一层次的节点则沿另一个轴展开或收拢。这种方法称为缩进法。它快速并易于实现,而且可以使用纯文本(或HTML 标记) ; 缺点是在数据量大时需要很多滚动操作,且用户容易失去上下文。操作系统中的文件目录通常采用缩进法进行可视化。
(1)正交布局
节点在放置的时候都按照水平或垂直对齐,这样的布局通常被称为正交布局。这种与坐标轴一致的、比较规则的布局与人们的视觉识别习惯吻合,即使对一般的用户也非常直观。但是对于大型的层次结构,特别是广度比较大的层次结构,这样的布局会导致不合理的长宽比。
(2)径向布局
人们通常采用径向布局克服上述空间浪费的问题。根节点位于圆心,不同层次的节点被放置在半径不同的同心圆上,节点到圆心的距离对应于它的深度。越外层的同心圆越大,因此能容纳更多的节点,符合节点数量随着层次而增加的特点。在对每一层的节点进行布局时,对应的同心圆被划分为不同区间,分别对应于该层的不同节点。另外,整个可视化布局呈圆形,合理地利用了空间。径向树方法也存在各类扩展。例如,将每一棵子树递归地采用径向布局, 形成环状结构,使得子树的结构更加直观。这种环状径向树方法的特点是,随着层次的深入,子节点的空间占位逐渐变小。
圆锥树(Cone Tree)是一种在三维空间可视化层次数据的技术,它结合了径向布局和正交布局两种思想。在每一层上,属于同一个父节点的子节点沿着以父节点为圆心的圆呈放射状排列,不同层次被放置在空间中不同的高度, 因此形成了以父节点为顶点,子节点放置在底部的圆锥。随着层次的深入,圆锥的底面积变小。从树的顶部往底部平面垂直技影,形成类似环状径向分布的可视化。而从侧面观察,它又是一个从上到下正交分布的树。
25. ( A )是根据图像的原始信息将其按二维阵列形式排列,生成可视化
A. 图像网格
B. 图像阵列
C. 图像叠加
D. 图相排列
10-1
★考核知识点: 图像可视化,
参见讲稿章节:10-1
在计算机出现之前,艺术领域最常见的教学方法是将两帧图像通过两台幻灯机投影进行比较。在数字设备上,运行软件可支持以网格的形式显示上千或数万张图像。图像网格(image grid ) 指根据图像的原信息对图像按二维数组形式排列,形成一张更大的图像。图像处理软件如Picassa,Adobe Photoshop和Apple Aperture等都提供了此项功能。这种技术又称为混合画( montage ) 。例如,Cinema Radux将一整部电影表达成一幅混合画: 每行表示电影中的一分钟,由60帧构成。
26.( C )将数据值用水平横条或者点表示,并且以表格的形式排列
A. 散点图
B. 表格
C. 表格透镜
D. 列表
27. ( B )将多元数据的属性按照一定的顺序沿直角坐标轴排列,实现多元到二维空间的映射
A. 散点图
B. 散点图矩阵
C. 折线图
D. 邻接矩阵
★考核知识点: 高维多元数据可视化,
参见讲稿章节:11-1
散点图的本质是将抽象的数据对象映射到二维的直角坐标系表示的空间。数据对象在坐标系的位置反映了其分布特征,直观、有效地揭示两个属性之间的关系。面向多元数据,散点图的思想可泛化为: 采用不同的空间映射方法将多元数据对象布局在二维平面空间中, 数据对象在空间中的位置反映了其属性及相互之间的关联,而整个数据集在空间中的分布则反映了各个维度之间的关系及数据集的整体特性。
(1)散点图及散点图矩阵
散点图矩阵是散点图的扩展。对于N 维的数据,采用M 个散点图逐一表示N 个属性之间的两两关系,这些散点图根据它们所表示的属性,沿横轴和纵轴按一定的顺序排列,从而组成一个NxN 的矩阵。位于第i 行第j 列的散点图表现了第i 维属性与第j 维属性之间的关系,位于对角线上的散点图的X 轴和Y 轴为同一个属性,可用于揭示数据在特定属性上的分布。
散点图矩阵将多元数据的属性按照一定的顺序沿直角坐标轴排列,从而完成多元到二维空间的映射, 这种方法符合人们长期使用直角坐标系的习惯。同时,由于散点图的直观性和广泛应用,散点图矩阵能较为容易地被用户接受,并能非常有效地揭示属性之间的关联。然而,随着数据维度的不断增加,所需的散点图数量将呈几何级数增长,在有限的屏幕空间中显示过多散点图将会大大降低可视化的可读性。交互式选取感兴趣属性进行可视化和分析是一种常用的解决方案。通过计算散点图特征,优先显示重要性较高的散点图也可以在一定程度上缓解空间的局限。
(2)表格透镜
表格透镜( Table Lens ) 方法是对传统使用表格呈现多元数据(如Excel 等软件)方法的扩展。它采用与传统方法类似的映射方法:每个数据对象由一行表示,每列表示一个属性。与传统方法不同的是,表格透镜方法并不直接列出数据在每个维度上的值,而是将这些数值用水平横条或者点表示。由于点或横条占用的空间较少,可以在有限的屏幕空间中表示大量的数据和属性,同时方便用户对数据对象和各个属性进行快速的比较。表格透镜允许用户对行(数据对象)和列(属性)进行排序,用户也可以选择显示某一个数据对象的实际数值。
(3)平行坐标
平行坐标( Parallel Coordinates) 是展示多元数据的另一种有效方法,被广泛使用于多元数据的可视化及分析领域。在传统的数据可视化方法中,坐标轴相互垂直,每个数据对象对应于坐标系中的一个点。而平行坐标方法采用相互平行的坐标轴,每个坐标轴代表数据的一个属性, 因此每个数据对象对应一条穿过所有坐标轴的折线。
(4)降维
当数据维度非常高时(例如,超过50 维),各类可视呈现方法都无法清晰地表示所有数据细节。通过线性或非线性变换将多元数据投影(project ) 或嵌入(embed ) 至低维空间(通常为二维或三维) , 并保持数据在多元空间中的特征,即在低维空间中尽量保持数据在多元空间中的关系或特征。这种策略称为降维(Dimension Reduction )
28.( D )指对计算过程中产生的数据不经过存储而直接在计算模拟的同一节点上进行实时可视化分析的过程
A. 实时可视化
B. 原点可视化
C. 延迟可视化
D. 原位可视化
★考核知识点: 高性能科学可视化,
参见讲稿章节:14-1
传统的可视化基本上以”后处理”( post-processing )的模式出现,也就是科学模拟计算输出海量数据结果,保存在磁盘中。计算结束后,读取磁盘中的数据进行可视化。随着近年来计算速度的提高,I/O速度与计算速度之间的差距越来越大, 在模拟计算过程中,有的数据生成后, 来不及保存到存储器中。另一方面,计算规模也越来越大,现有的存储系统无法保存所有的计算数据。数据传输和1/0 瓶颈的阻塞问题增加了数据分析和可视化的难度,降低了整个科学模拟研究的效率。解决这两方面问题的常见方法是,采用空间或者时间上的来样方法,最后只保存部分数据。但是,这个方法违背了我们需要高精度数值模拟的初衷,造成结果数据的丢失,无法充分利用高效能计算机的优势,造成资源浪费。
原位(in-situ)可视化指对计算过程中产生的数据不经过存储而直接在计算模拟的同一节点上进行实时可视化分析的过程,它将模拟计算和可视化处理紧密结合,计算出来的数据在原位被缩减和处理(如绘制成图片或抽取特征进行数据过滤),结果数据量将大幅度减少, 需要保存和传输的数据也将大幅度减少,从而提高了可视化效率。原位可视化允许科学家交互地控制计算过程,让科学家即时直观地看到不同的计算参数对计算结果的影响,同时在计算过程中实时完成传统模式中对数据的预处理与组织。
原位可视化的本质是将可视化计算代码嵌入模拟计算程序中,绕开I/O瓶颈,与其共享内存数据。这些共享数据除了待可视化处理的变量外,还包括基于计算程序,计算的大量其他相关变量值(如梯度、几何信息、无结构网格关联信息等)。原位可视化被认为是解决千万亿次规模计算数据分析的最有效途径。
实现原位可视化需要克服三个难题。第一, 可视化程序需要直接与科学模拟程序集成。为了减少数据的冗余, 可视化程序与科学模拟程序需要共享数据结构。第二, 由于数据的分割和分配基本上优先满足科学模拟的需求, 可视化程序的工作量在各个计算节点上有可能不平衡, 需要重新设计可视化的工作分配算法, 减少数据传输。第三, 可视化程序的开销不能太高, 其可扩展性必须与科学模拟一致, 适用于数十万或更多的计算节点。
原位可视化允许科学家对模拟数据进行最高精度的处理,从而有可能捕捉到快速闪现的物理或化学现象。嵌入计算程序的原位可视化主要包括数据组织与压缩、特征数据提取与跟踪和可视化给制三部分内容。前两个方法的目的是减少数据量,以备后续的可视化处理使用: 后者则充分利用计算过程中的数据信息, 展示传统可视化中不可能保存的数据信息。三者可单独使用, 也可结合使用。
·原位数据组织与压缩将数据表达为更紧凑的形式, 使得后续分析和可视化工作更为高效。根据存储空间的制约情况、网络带宽、可视化中可接受的精度误差,甚至特定模拟中的并行域分解情况,选择合适的数据压缩算法,例如时空维上的采样、标量/向量量化和基于变换的压缩等。
·原位特征数据提取与跟踪指从原始数据中分离特定的物理结构、模式或感兴趣事件的特征。通常采用值域截断法、数据分割、拓扑分析、特征值及特征向量’计算等方法提取特征, 而Predication-Correction 方法常用来跟踪特征。
·原位可视化给制将可视化绘制过程和科学模拟计算过程有机结合, 两部分逻辑上独立但又需要协调运行。
29. 四面体结构标量场的直接体可视化方法是( AB )
A. 光线投射法
B. 投影四面体法
C. 滚雪球法
D. 点绘制法
[答案]:AB
★考核知识点: 不规则体数据的体可视化,
参见讲稿章节:5-4
不规则标量数据场(irregular scalar data)指上述曲面体数据场和非结构化数据场。大部分空间物理模拟计算(如计算流体力学或有限元分析)的结果都是不规则数据场。出于计算优化的考虑,数据单元在空间上的分布非常不均匀,即在特征区域或局部变化剧烈区域采用更多的数据单元提高表示精度。因此,不规则数据场是自适应计算的天然产物,它的存储空间远小于相同精度的规则数据场,支持更大的表示空间范围。
4种不规则标量数据场的可视化方法。
·规则化方法先将不规则数据场转换为规则或半规则数据场,再应用规则体数据场可视化方法。此方法简单、高效, 缺点是数据场的转换和重采样将损失精度。
·光线投射法的实现与面向规则数据场的光线投射法类似,原理简单。由于需要存储邻接关系等额外信息,增加了存储压力,并且大量的求交运算对绘制效率有一定的影响。
·投影法按照顺序依次将数据单元投影到成像平面上,累积每个数据单元的光学贡献。此方法利于存储和并行,但是数据单元的排序效率对绘制效率的影响较大。
·粒子法将数据单元的集合看成一组具有发射和吸收属性的粒子,将粒子依次技影到成像平面上,累积其光学贡献。这类方法本质上是一种基于点的模拟方法,绘制质量较低。在处理大规模粒子数据场时,甚至可假定单个粒子是不透明的,整体的不透明度等信息、由粒子密度决定,避免了耗时的排序操作,效率较高。
30. 文本信息提取的层级包括( ABC )
A. 词汇级
B. 语法级
C. 语义级
D. 文档级
[答案]:ABC
★考核知识点: 文本可视化释义,
参见讲稿章节:9-1
文本信息涉及的数据类型多种多样,如邮件、新闻、文本档案、微博等。文本是语言和沟通的载体,文本的含义以及读者对文本的理解需求均纷繁复杂。例如,对于同一段文字,不同的人的解读不一样, 有人希望了解文章的关键字、主题是什么,有人希望了解文章中所涉及的人物等。这种对文本信息需求的多样性, 要求从不同层级提取与呈现文本信息。文本信息的提取由浅入深可总结为三个层级。
( 1 )词汇级
词汇级(Lexical Level)信息指从一连串的文本文字中提取的语义单元信息。语义单元(Token) 是由一个或多个字符组成的词元,它是文本信息的最小单元。词汇级可提取的信息包括文本涉及的字、词、短语,以及它们在文章内的分布统计、词根词位等相关信息,常见的文本关键字即属于词汇级别。语义单元通常通过基于规则分割文本的分词技术(Tokenization) 提取,最常用的方法是正则表达式定义的有限状态机。
(2) 语法级
语法级(Syntactic Level) 信息指基于文本的语言结构对词汇级的语义单元进一步分析和解释而提取的信息。语义单元的语法属性属于语法级信息,例如词性、单复数、词与词之间的相似性,以及地点、时间、日期、人名等实体信息,这些属性可以通过语法分析器识别。语法级信息的提取过程被称作命名实体识别方法(Named Entity Recognition) 。
(3)语义级
语义级(Semantic Level) 信息是研究文本整体所表达的语义内容信息和语义关系,是文本的最高层信息。它不仅包括深入分析词汇级和语法级所提取的知识在文本中的含义,如文本的字词、短语等在文本中的含义和彼此间的关系,还包括作者通过文本所传达的信息,如文挡的主题等。
31. 社交网络可视化方法主要包括( BC )
A. 图标法
B. 节点链接图
C. 邻接矩阵法
D. 几何法
★考核知识点: 社交网络可视化,
参见讲稿章节:10-5
(1)节点- 链接图
社交网络可视化的首要方法是节点-链接图,其中节点代表社交网络中的人,用边表示人与人之间的社交关系,如朋友(Facebook) 、关注和转发(Twitter、微博)、支持与反对(YouTube 、Digg、Slashdot) 等。通过对节点位置的合理布局,节点-链接图往往可以很好地展示社交网络的聚类、连通性等特征,因此,选择合理的布局算法是采用节点-链接图方式需要解决的一个关键问题。
在常见的图布局算法里,力引导布局方法是展现社交网络特征的最好方式之一。它将社交网络模拟成一个虚拟的物理系统,每个节点是系统中的一个带电粒子,两两之间存在着库仑斥力而倾向于互相排斥:同时,如果两个节点之间存在边, 则在它们之间模拟一条弹簧,利用胡克引力将其拉拢到一起。在这两种力场的共同作用下,节点从一个随机的起始位置开始运动,每发生一次微小的位移,便重新模拟一次力场,直到整个物理系统达到动态平衡状态,这样形成的布局被称为力引导布局。
(2)邻接矩阵
对于类似具有图结构特征的数据, 也可采用矩阵的表示方式对其进行描述。在这种被称作邻接矩阵(Adjacency Matrix )的方法中,矩阵A的元素Aij代表从第i个节点到第j个节点是否有边,对于无向图而言,对应的邻接矩阵应该是一个对称矩阵。利用矩阵重排来展示社交网络关系的代表性工作是邻接矩阵与节点- 链接图相结合的混合可视化模型: NodeTrix。该模型假设社交网络己经被算法分割成多个具有语义性的社区(具体的分割算法请参考复杂网络的社区发现领域的研究综述, 在此基础之上,该模型采用邻接矩阵的方式展示社区内部的连接,而对于社区和社区之间的联系则采用节点-链接图的方式,使用边进行连接。这种方法充分利用了社区的概念,即内部连接(Intra Connection) 紧密,相互连接(Inter Connection) 稀疏,对这两类连接分别采用矩阵和节点.链接图的可视化语言进行描述。它既解决了节点-链接图的边交叉问题,又很好地利用了矩阵方式来展示社区内部连接的特征。
32. 向量场可视化的主要目标是( ABD )
A. 展示场的导向趋势信息
B. 表达场中的模式
C. 模拟向量场数据
D. 识别关键特征区域
★考核知识点: 空间向量场数据可视化,
参见讲稿章节:6-2
向量场数据在科学计算和工程应用中占有非常重要的地位,如飞机设计、气象预报、桥梁设计、海洋大气建模、计算流体动力学模拟和电磁场分析等。向量场的每个采样点处的数据是一个向量(一维数组) ,表达的方向性催生了与标量场完全不同的可视化方法。向量场可视化的主要目标是: 展示场的导向趋势信息:表达场中的模式: 识别关键特征区域。通常,向量场数据来源于数值模拟,如计算流体动力学(CFD ) 产生的数据,也有部分来源于测量设备,如实际风向、水流方向与速度。二维或三维流场(flow field ) 记录了水流、空气等流动过程中的方向信息, 是应用最广泛、研究最深入的向量场。因此,流场可视化(flow visualization) 是向量场可视化中最重要的组成部分。
大多数的流体,无论是气体还是液体, 也无论是稳定流(流场不随时间变化)还是非稳定流(流场随时间变化,即时变流场) ,都是透明介质,它们的运动无法用人眼直接观测。
流场可视化将物理过程产生的或与之相关的现象通过可视化以人眼能感知的图像形式显示,可使这个过程的洞察清晰许多。在本节后续介绍中,流场和向量场表示同一个含义。流场可视化的核心目标是设计感知有效的流表示方式描绘其流动信息。相关的重要问题包括效率(计算速度和存储成本)、数据尺寸和复杂需求、随时间变化的非定常流、复杂网格以及多种变量(如速度、温度、压力、密度和粘度)的可视化、流场特征提取和跟踪等。
33. 用户对于不同类别交互操作的延时期望包括( ABC )
A. 感知处理
B. 立即反应
C. 基本任务
D. 延时忍耐度
★考核知识点: 交互延时,
参见讲稿章节:12-1
交互延时指从用户操作的发生到系统返回结果所经过的时间,是决定交互有效性最重要的因素之一。延时的长短在很大程度上决定了一个可视化系统的可用性及用户体验。例如,一个简单的交互操作的延时过长可能会使用户误以为交互操作失败而对系统功能产生错误的理解,或者失去耐心等待而放弃使用系统。延时是否过长是一个相对主观的判断,但是相关的研究依然为我们提供了一些可以遵循的依据。用户对延时的忍耐度随着时间变长而降低,但是这个降低的过程不是连续渐变的。当延时超过某一个阀值时,用户的忍耐度会突然降低,系统的用户体验也就突然变差。对于不同类型的交互操作,这个阈值是不同的。Card 在[Card1991] 中总结了用户对于三种不同类别交互操作的延时期望。
·感知处理C perceptua1 processing) ,指用户感知交互效果的过程。例如,当用户旋转三维可视化中的物体时,其所看到的可视化就需要随之不断地更新。这类交互操作需要在0.1 秒内完成。在旋转三维物体例子中,如果可视化更新延时超过了0.1秒,用户在交互中就会感觉到明显的滞后。
·立即反应( immediate response) ,指用户和可视化系统之间类似对话的交互。例如,通过鼠标点击选中可视化一个对象,或者是可视化不同视图之间的转换。对于这样的交互操作,用户对于延时的忍耐度是1秒。
·基本任务(unit task) ,指用户在交互中指令系统完成一个相对复杂的任务。例如,在数据中搜索相关的信息,此时用户对于延时的忍耐度大大增加,一般的期望是10秒,在某些情况下甚至是30 秒。在设计交互的可视化系统时,需要把那些大的任务尽可能地分解为若干可以在10 秒内完成的基本任务,这样可以增加系统的互动性,优化用户体验。
34. 按照网格形态可将采样空间网格分为( ABCD )
A. 均匀网格
B. 矩形网格
C. 曲线网格
D. 不规则网格
★考核知识点: 三维标量场数据可视化,
参见讲稿章节:5-2
按照三维数据场的来样组织方式划分,各类三维数据场可分为有网格和无网格两类。前一类采用拓扑几何网格(即空间网格)刻画数据场来样的方式、采样点的位置、采样间距、采样精度和采样粒度,井在各采样点或采样区间上记录数据场的值; 后一类只记录数据场的采样点的数值和空间位置,称为无网格数据场。
按照网格形态划分,采样空间网格可分为均匀网格(cubic)、矩形(rectilinear)网格、曲线(curvilinear)网格、不规则(unstructured/irregular )网格等若干类
均匀网格指沿三个正交轴按固定的问隔对三维空间进行各向同性或各向异性来样所生成的网格。若各个轴上的采样间隔固定且相同,则称为各向同性均匀网格,即笛卡尔网格:若单个轴上的采样间隔固定,但在不同轴上的采样间隔不等,则称为各向异性均匀网格,常见于医学断层扫描设备获取的三维医学影像数据。
矩形网格的采样方向沿三个正交轴进行,各个轴上的采样间隔自适应分布,即重要的区域对应在轴上的区间,具有高采样密度。
曲线网格的拓扑结构等价于矩形网格,但网格的边是曲线,可由矩形网格自由变形得到。
不规则网格的采样单元可以是任意形状,例如四面体、六面体、八面体,支持空间的自适应剖分,主要用于有限元仿真、计算流体力学模拟等,体现了分而治之、好钢用在刀刃上的思想。在不规则网格中, 有一类特殊的嵌套不同精度的平行六面体网格结构的方式,称为自适应网格
35. 异构数据特征融合涉及( AC )
A. 多维度的融合
B. 多视角的融合
C. 多模态的融合
D. 多方向的融合
★考核知识点: 异构数据的特征融合,
参见讲稿章节:6-2
异构数据的特征融合涉及多维度的融合与多模态的融合两个方面。实现多维度融合可以采用信息可视化的相关方法,如平行坐标、散点图、时间直方图、纹理、影线、图标(glyph)等。事实上,这类方法可以与人机交互、科学可视化紧密地结合。Seo等人提出了一种可根据用户指定的特征进行交互式探索的方法。Love 等人针对多维数据设计了三种绘制方法: 基于统计特征分布、依赖于形状描述和使用系列代数操作,并在此基础上融合了轮廓线、等值面、流线以及迹线( path line ) 等多种绘制方法。Guo等人使用自组织块射(SOM)、平行坐标(PCP)、制图颜色等显示手段, 结合三种层次的交互技术帮助用户发现多变量数据的时空特性。将维度投影与平行坐标结合起来也可帮助用户交互地分析多维数据间的关联。
多模态融合的挑战在于数据的融合方式难以定义, 空间分布也可能差异很大。因此,这类数据一般需先经过配准,并转化为相同格式后才能进行融合可视化。Cai等人提出了三种不同层次的多体混合方法,并对比了不同类型数据在光照、累积以及图像阶段混合的差异。Kreeger等人将半透明的网格数据与体数据进行融合,可同时可视化血管造影重建的几何网格和医学MRI影像。Noordmans等人提出了光谱体绘制,即对不同数据场(或结构)采用不同的光学模型, 真实反映数据场中的结构特征。
Beyer等人为外科手术搭建了一个手术设计和多模态数据融合的平台,支持数据的虚拟漫游、微观或内窥镜视图、切片视图等多种交互方式。Burns等人提出了一种重要性驱动的能够突出特征同时生成上下文相关的剖视图的方法。Muigg等人利用FDL树融合具有不同兴趣度的特征,结合多视图协作、焦点和上下文、图像后处理辅助用户分析时变特征。
36. 经典的光学模型中,与所在体素标量值相关的光线模型包括( ABCD )
A. 吸收模型
B. 发射模型
C. 散射光照阴影模型
D. 多次散射模型
★考核知识点: 三维标量场数据的直接体绘制,
参见讲稿章节:5-3
直接体绘制的光线模式假设采样值具有物理含义,可建立与数据值相关的光学模型以定义其光学属性。经典的光学模型建立了与所在体素的标量值相关的发射、反射、散射、吸收和遮挡五类光线模型:吸收光学模型(absorption only) 、发射光学模型(emission only) 、发射-吸收光学模型(absorption plus emission) 、散射光照阴影光学模型(scattering and shading/shadowing) 和多次散射光学模型(multiple scattering) 。
·吸收光学模型认为体素不发射和散射光,仅吸收所有的入射光:发射光学模型正好相反,认为体素仅发射光,但不吸收任何入射光。
·发射-吸收光学模型是吸收模型和发射模型的结合,认为体素不仅自身发射光,而且还吸收入射光,但不产生光的散射效果。
·散射光照、阴影光学模型是体素和外部光源的全局光照模型,三维标量场之外的光源对体素产生光照效果,前面体素可能吸收或遮挡外部光,从而对后面体素产生阴影效果。
·多次散射光学模型考虑光在不同体素之间的多次散射过程。
37. 下列基于力引导布局的物理模型是( AD )
A. 弹簧模型
B. 树模型
C. 图模型
D. 能量模型
★考核知识点: 网络数据可视化,
参见讲稿章节:8-3
力引导布局方法最早由 Peter Eades在1984年的”启发式画图算法”一文中提出。目的是减少布局中边的交叉,尽量保持边的长度一致。此方法借用弹簧模型模拟布局过程:用弹簧模拟两个点之间的关系,受到弹力的作用后,过近的点会被弹开而过远的点被拉近:通过不断的迭代,整个布局达到动态平衡,趋于稳定。其后,”力引导”的概念被提出,演化成力引导布局算法,丰富了两个点之间的物理模型,加入点之间的静电力,通过计算系统的总能量并使得能量最小化,从而达到布局的目的。这种改进的模型称为能量模型,可看成弹簧模型的一般化。无论是弹簧模型还是能量模型,其算法的本质都是要解一个能量优化问题,区别在于优化函数的组成不同。优化对象包括引力和斥力部分,不同算法对引力和斥力的表达方式不同。
38. 高维多元数据的可视化方法主要包括( BCD )
A. 几何法
B. 图标法
C. 空间映射法
D. 像素法
[答案]:BCD
★考核知识点: 高维多元数据可视化,
参见讲稿章节:11-1
高维多元数据(Multidimensional Multivariate Data)指每个数据对象有两个或两个以上独立或者相关属性的数据。高维(Multidimensional)指数据具有多个独立属性,而多元(Multivariate)指数据具有多个相关属性。当数据同时具有独立和相关属性时,高维多元数据是较为科学、准确的描述。Wong 等人在中对这些概念做了详细的定义和阐述。由于研究者在很多情况下不确定数据的属性是否独立,因此通常简单地称之为多元数据。本节使用多元数据指代所有的高维多元数据,用维度指代数据属性的数量。此类数据在现实生活中随处可见并且非常重要。例如,选购笔记本电脑时需要评估不同型号电脑的配置,如CPU、内存、硬盘、屏幕和重量等参数。每个参数是描述电脑的一个属性,所有参数组成的配置是一个多元数据。通常,可以选择比较重要的参数进行对比,衡量不同型号的优劣,选择最适合的型号。当可供选择的电脑型号有数十甚至上百种,并且需要考虑数十个不同的配置参数时,这个选择过程变得相当困难。因此,通常会向专业人士寻求帮助,他们根据其个人的知识和经验给出一些宝贵的建议,实际上是对数据对象在各个属性上的数值进行综合评估。这是一个典型的基于多元数据决策的例子。当数据量不大、维度不高时,个人可以独立完成这样的评估。当数据维度更高或数据量更大时,需要辅助工具的帮助。由于在数据理解、分析和决策等方面的突出作用,可视化技术在各类多元数据分析工具中得到广泛使用。
二维和三维数据可以采用一种常规的可视化方法表示:将各个属性的值映射到不同的坐标轴,并确定各数据点在坐标系中的位置。这样的可视化通常被称为散点图。
当维度超过三维时,可通过各种视觉编码来表示额外的属性,例如颜色、大小、形状等。但是,这种方法并不适合于维度更高的多元数据。首先,视觉编码的种类有限:其次,过多或者过于复杂的视觉编码会降低可视化的可读性。因此需要更有效的多元数据可视化方法,其目标是在低维度的空间(通常是二维空间)内显示多元数据。多元数据可视化的三类基本方法:空间映射法、图标法和基于像素的可视化方法。
二、主观部分:
(一)、简答
简述信息管理、信息系统和知识管理学科中的DIKW模型
★考核知识点:数据可视化详解,
参见讲稿章节:1-2
在信息管理、信息系统和知识管理学科中,最基本的模型是”数据、信息、知识、智慧( Data,Information, Knowledge, Wisdom, DlKW )” 层次模型。它以数据为基层架构,按照、信息流顺序依次完成数据到智慧的转换。四者之间的结构和功能方面的关系构成了信息科学的基础理论。在数据科学中,这种模型也作为一种数据处理流程,完成从原始数据的转化。
数据
从信号获取的角度看,数据是对目标观察和记录的结果,是关于现实世界中的时间、地点、事件、其他对象或概念的描述。在表达为有用的形式之前,数据本身没有用途。关于数据,不同的学者给出了不同的定义,大致分为以下几类。
. 数据即事实: 数据是未经组织和处理的离散的、客观的观察。由于缺乏上下文和解释,所以数据本身没有含义和价值。如果将事实定义为真实的、正确的观察,那么并不是所有的数据都是事实,错误的、无意义的和非感知的数据不属于事实。
· 数据即信号: 从获取的角度理解,数据是基于感知的信号刺激或信号输入,包括视觉、听觉、嗅觉、味觉和触觉。由于每种感官对应某个信号通道,所以数据也被定义为某个器官能接收到的一种或多种能量波或能量粒子(光、热、声、力和电磁等)。
· 数据即符号: 无论数据是否有意义,数据都可定义为表达感官刺激或感知的符号集合,即某个对象、事件或所处环境的属性。代表性符号,如单词、数字、图表和图像视频等,都是人类社会中用于沟通的基本手段。因此, 数据’就是记录或保存的事件或情境的符号。
信息
信息是被赋予了意义和目标的数据。信息和数据的区别在于信息是有用的、有意义的,可以回答诸如谁、什么、哪里、多少、什么时候等问题,因此可以赋予数据生命力,辅助用户决策或行动。进一步讲,信息可以采用描述的方式定义知识。关于信息的两类特性如下。
· 结构性与功能性: 信息是组织好的结构化数据,与某个特定目标和上下文有关联,因此是有意义的、有价值的、有关联的。从这个意义上说,信息和数据的差别在于结构,而不是两者的功能。
. 象征性或主体性:信息是通用的、以符号和信号形式存在的数据。另一个观点则认为, 信息具有主体性,符合所依附的对象。
知识
知识是一个隐晦的、意会的、难以描述和定义的概念,是被处理、组织过、应用或付诸行动的信息。知识又是框架化的经验、价值、情境信息、专家观察和基本直觉的流动的混合,它提供了一个环境和框架,用于评估和融入新的经验和信息。知识是原语,应用于知识者的意识之中。知识通常体现于文档和资料的描述中,也流转于组织机构的流程、处理和实践中。
· 知识即处理: 与信息是组织化或结构化数据的定义相似,知识既是多个信息源在时间上的合成,也是情境信息、价值、经验和规则的混合,也可看成互联的信息。
. 知识即过程:知识是一个通过实践经验了解如何做、是谁、什么时候等”Know-How”的过程。知识从经验背景中引申出一个连贯和自我一致的协调性行为。如果信息是描述性的,那么知识并不是对行动的描述,而是意味着行动。也有人将知识定义为数据和信息的应用。
· 知识即命题: 知识有时候被认为是信念的构建、与认知框架有关的外部化。知识的另一个定义是,主观的关于世界和所在环境的感知;关于对象(整体、联合)的独特性观察。
智慧
智慧是启示性的,本意是知道为什么,知道如何去做。智慧与信息的区别等价于为什么做和为什么是。在知识和智慧之间存在一种状态:理解,它是一种对为什么的欣赏,而智慧则是被评估过的理解。智慧可增加有效性和价值,它蕴涵的伦理和美学的价值与主体一脉相承,并且是独特和个性化的。
简述二维标量场的基本可视化方法
★考核知识点:数据可视化详解,
参见讲稿章节:5-1
二维空间标量场数据比一维数据更为常见,如用于医学诊断的x-光片、二维地形图等,基本的可视化方法有颜色映射、等值线和高度图三类。
(1)颜色映射
x-光片指将x-光机辐射后的物理数据映射到从黑到白不同深浅的灰度图像。穿透空气、结缔组织、肌肉组织的X 光较多,被映射为黑色: 穿透骨髓的X 光较少, 被映射为白色。除了灰度映射, 二维空间标量场数据还可以应用彩色映射,通过色彩差异传递数据的空间分布规律。这类简单的可视化方法己经被广泛应用于各个领域,不同领域也制定了通用的彩色映射表。
灰度映射和彩色映射统称为颜色映射(color mapping),它通过将每一标量值与一种颜色相对应,构建一张以标量值作为索引的颜色映射表。颜色映射表的选择非常重要,不合理的映射方案将会影响特征的感知,甚至产生错误的信息。当屏幕映射空间大于原始二维数据空间时,离散的二维空间标量场需要采用插值算法重建相邻数据点之间的信号(如双线性插值),再将插值得到的数值映射为颜色。
(2)等值线提取
等值线提取是可视化二维空间标量场的基本方法,如地图上的等高线、天气预报中的等压线和等温线等。假设f(x,y) 是在点(x,y) 处的数值,等值线是在二维数据场中满足f(x,y)=c的空间点集按一定顺序连接而成的线。值为c的等值线将二维空间标量场分为两部分:若f(x,y)<c,则该点在等值线内:若fCx,y)>c,则该点在等值线外。移动四边形法(marching squares) 的基本思想是逐个处理三维空间标量场的网格单元,插值计算等值线与该网格单元边的交点,根据网格单元上每个顶点与等值线的相对位置,按一定顺序连接这些交点,生成等值线。
(3)高度图
高度图(height plot ) 将三维空间标量场数据转换为三维空间的高度网格,其中数据值被映射为第三个维度:高度。高度图还可施加图形学中的真实绘制效果(如阴影),增强高度图的位置感知能力。
简述可视化中的数据类型有哪些?
★考核知识点:可视化中的数据,
参见讲稿章节:4-1
根据数据分析要求,不同的应用可以采用不同的数据分类方法。例如,根据数据模型,可以分为浮点数、整数、字符等:根据概念模型,可以定义数据所对应的实际意义或者对象,例如汽车、摩托车、自行车等分类数据。在科学计算中,通常根据测量标度,将数据分为四类:类别型数据、有序型数据、区间型数据和比值型数据。
·类别型数据:用于区分物体。例如,根据性别可以将人分为男性或者女性;水果可以分为苹果、香蕉等。这些类别可以用于区分一组对象,但是无法提供对象的定量数据。例如,根据性别无法得到对象间的其他信息和联系,如年龄、男女比例等。
·有序型数据:用来表示对象间的顺序关系。例如,根据成绩定义运动员的排名,跑得越快的运动员名次数越小一一排名为”1″ 的运动员比排名为”2″ 的运动员跑得要快,依此类推。但是根据对象的顺序,并不一定能得到准确的定量比较。
·区间型数据:用于得到对象间的定量比较。相对于有序型数据,区间型数据提供了详细的定量信息。例如,使用摄氏度来衡量温度,1O℃和20℃的差别,与50℃和40℃的差别是一致的。但是,因为区间型数据基于任意的起始点,所以只能得到对象间的相对差别,并不能定义对象的绝对值。例如,温度计显示O℃,并不表明没有任何温度。
·比值型数据:用于比较数值间的比例关系。比值型数据基于真正意义上的0点,可以用来精确地定义比例——4厘米的物体比2厘米的物体长2倍。
简述空间张量场数据可视化的纤维追踪法
★考核知识点:空间张量场数据可视化,
参见讲稿章节:6-3
张量图标与向量图标存在一定的相似性。一种自然的思路是将张量场转化、简化为向量场, 进而借鉴向量场的可视化方法,如流线法等, 呈现张量场数据的某方面特征。
如前所述, 二阶对称张量可分解为三个特征向量, 其主特征向量与纤维的走向基本保持一致。由于主特征向量场所包含的各向异性信息相当明显, 对主特征向量场进行曲线跟踪便可大致计算出纤维性结构信息。纤维追踪(也称纤维示踪, fiber tracking ) 算法的步骤如下。
· 在主特征向量场中布局种子点。通常,选择将种子点布局于用户感兴趣区域,如各向异性较强的区域(大脑中的脑白质)。
· 以种子点为起始追踪位置,沿主特征向量向前向后追踪, 直至满足给定的终止条件。在实际使用中, 终止条件是众多约束的一个综合,这些约束决定了最终的纤维特征。常用的约束条件包括: 最小各向异性、最大纤维长度、是否进入或退出一个用户指定的感兴趣区域、纤维束之间的最大距离等。
简述基于拓扑法的空间向量场数据可视化方法
★考核知识点:空间向量场数据可视化,
参见讲稿章节:6-2
向量场可视化中的拓扑方法主要基于临界点理论: 任意向量场的拓扑结构由临界点和链接临界点的曲线或曲面组成。其中,临界点是指向量场中各个分量均为零的点。该方法是一种对向量场抽象描述的方法,让用户抓住主要信息,忽略其他次要信息,并且能够在此基础上对向量场进行区域分割。基于拓扑的向量场可视化方法能够有效地从向量场中抽取主要的结构信息。由于具备丰富的数学理论基础,该方法适用于任意维度、离散或者连续的向量场。传统的向量场拓扑可视化方法主要由两步组成: 临界点位置的计算与分类:链接临界点的积分曲线或曲面,即向量场区域边界的计算。
简述什么是圆锥树
★考核知识点:层次数据可视化,
参见讲稿章节:8-2
圆锥树(Cone Tree)是一种在三维空间可视化层次数据的技术,它结合了径向布局和正交布局两种思想。在每一层上,属于同一个父节点的子节点沿着以父节点为圆心的圆呈放射状排列,不同层次被放置在空间中不同的高度, 因此形成了以父节点为顶点,子节点放置在底部的圆锥。随着层次的深入,圆锥的底面积变小。从树的顶部往底部平面垂直技影,形成类似环状径向分布的可视化。而从侧面观察,它又是一个从上到下正交分布的树。
(二)、论述
简单论述大规模空间标量场数据的可视化方法。
★考核知识点:大规模空间标量场数据的实时可视化,
参见讲稿章节:6-1
大规模标量场数据的快速可视化方法可以分为三个层次: 硬件加速、信号处理与特征表达。其中,硬件加速包括使用图形硬件的加速功能、采用并行计算、引入绘制流水线,以及构建分布式多GPU 架构; 信号处理涉及绘制算法优化、多分辨率显示与数据压缩;特征表达则包括保特征压缩、图示与聚类等。
(1)大规模空间标量场数据的单机绘制
大规模数据的单机绘制方法可以分为三类: 硬件加速、数据压缩(含多分辨率显示)和外存计算。硬件加速是指基于图形硬件的快速绘制算法。
数据压缩是解决大规模空间数据处理的主要思路。针对标量场数据的多分辨率绘制框架将标量场数据投影到小波基函数张成的空间(即计算小波系数) ,可获得不同分辨率下的绘制结果。细节层次的方法和基于视点的数据压缩优化可用于数据的自适应存取。将LBG算法应用于标量场数据压缩,并分析原数据的多分辨相关性,进行层次化的矢量化,可大幅度减小显存的占用。Lindstrom 等人提出了一种对浮点格式数据进行快速压缩的算法,该方法能够与应用程序的I/O环节无缝连接且适用于可变精度的浮点或整型数据。压缩后的可视化质量可采用合适的图像质量度量标准。对于无法存储于内存和显存的数据集,可采用外存计算(out of core)处理大规模数据。细节层次技术是适用于不规则标量场数据可视化的外存计算方法。
(2)大规模空间标量场数据的并行绘制
对于大规模数据的分布式绘制,综合考虑通信延迟与负载平衡(即将绘制任务进行平衡、分摊到多个操作单元执行)对提升分布式系统的绘制性能至关重要,因而如何提高算法的并发性、设计负载均衡都是研究人员首要关注的问题。
大规模空间数据的并行绘制研究可以分为CPU 与GPU 集群并行计算两个阶段。早期的并行绘制利用多个CPU 进行绘制。1992 年,Nieh等人首次在共享内存的MIMD(Multiple Instruction Multiple Data) 架构上进行了绘制任务的划分, 并对算法进行了诸如光线提前终止、自适应采样等方面的优化,使算法能在48 个节点的集群上实时地可视化标量场数据。Ma 等人针对不规则数据实现了单元投影算法的并行化,通过空间划分树(space partitioning tree)减少内存使用,同时优化图像合成,使得百万级单元采用128个处理器能够达到每秒2帧的绘制性能。Lippert 等人将大规模的数据存放在服务器端,通过小波基函数、游程编码(Run-Length Coding) 与霍夫曼编码对数据进行压缩, 支持远程客户端浏览与渐进式浏览。
利用GPU 构建分布式的计算与可视化平台是显卡工业发展的必然。Kniss等人利用GPU 集群以及改良的110 设备进行并行处理,实现了TB 级时变数据的实时(5-10 帧)绘制。面向流体仿真计算和可视化的新架构设计双层的体系结构(粗粒度下操作全局纹理,细粒度下进行单节点运算), 有机地结合MPI(Message Passing Interface)与分布式共享内存(DSM) , 大幅度提升计算和绘制的效率。
简单论述文本可视化的流程以及文本内容可视化的主要方法。
★考核知识点:文本可视化与文本内容可视化,
参见讲稿章节:9-1,9-2
文本可视化的工作流程涉及三个部分:文本信息挖掘、视图绘制和人机交互。文本可视化是基于任务需求的,因而挖掘信息的计算模型受到文本可视分析任务的引导。可视和交互的设计必须在理解所使用的信息提取模型的原理基础上进行。
在文本信息挖掘层次,需要依据文本可视化的任务需求,分析原始文本数据,从文本中提取相应层级(词汇级、语法级或语义级)的信息,例如文章的关键词等。通常,文本信息挖掘包括以下三个方面。
(1)文本数据的预处理
文本信息的提取通常基于文本内容进行,然而, 原始文本存在着无用甚至干扰的信息。以英文单词为例, 单词的单复数变化、词性变化等都会影响文本的信息度量。此外,原始文本数据的格式亦是多种多样的。因此, 采用文本数据的预处理方法可有效过滤文本中的冗余和无用信息,提取重要的文本素材。
(2)文本特征的抽取
文本分析任务需要相关的文本特征来度量,可采用文本挖掘技术提取任务所需要的特征信息,比如,词汇级的关键词、词频分布,语法级的实体信息, 语义级的主题等。
(3)文本特征的度量
在有些应用环境中,用户可能会对在多种环境下或从多个数据源所抽取的文本特征的深层分析感兴趣,比如,文本主题的相似性、文本分类等。基于度量特征的相似性算法、聚类算法等可应用于本阶段来进一步度量文本的信息。其中,向量空间模型是最常用的方法。
视图绘制阶段,将文本挖掘所提炼的信息变换为直观的可视视图。在直观的可视图元的辅助下,用户可以快速地获取信息。视图绘制常常涉及两个方面: 图元设计和图元布局方法。优秀的图元设计需要准确无误地承载文本的信息特征,如雷达图、Chemoff Faces等。图元布局算法则要求有效而不失美感地布局图元,使得可视表达符合人类的感知。常用的布局算法包括力引导布局算法、树图算法等。
人机交互是关于用户如何生成视图和满足分析需求而操作视图的技术。
关键词是从文本的文字描述中提取的语义单元,可反映文本内容的侧重点。关键词可视化指以关键词为单位可视地表达文本内容。关键词的提取原则多种多样,常见的方法是词频,即越是重要的单词,其在文档中出现的频率越高。
(1)标签云
标签云(Tag Cloud,又名Text Cloud 、Word Cloud) 是最简单、最常用的关键词可视化技术,它直接抽取文本中的关键词并将其按照一定顺序、规律和约束整齐美观地排列在屏幕上。关键词在文本中具有分布的差异,有的重要性高,有的重要性低。标签云利用颜色和字体大小反映关键词在文本中分布的差异,比如, 用颜色或字体大小,或者它们的组合来表示重要性,越是重要的词汇,其字体越大,颜色越显著,反之亦然。标签云可视化将经过颜色(或字体大小〉映射后的字词按照其在文本中原有的位置或某种布局算法放置。
Wordle则是另一种广泛应用的标签云衍化技术。和标签云方法一样, Wordle利用颜色和字体映射关键词的重要性,但Wordle 在空间利用和美学欣赏方面有所提升。用户可自定义画布填充区,比如正方形、圆形或花瓶形状等。为了既满足画布的约束又提高空间利用率, Wordle 改进了关键词的布局算法。首先,Wordle 定义空间填充的路径,并初始化每个单词的初始位置为路径的起点。此外,降序查找每个单词的位置。路径定义的多样性,使Wordle 可以实现各种美观的布局效果图。
(2)文档散( DocuBurst)
文档散(DocuBurst)不仅采用关键词可视化文本的内容,还借鉴这些关键词汇在人类词汇中的关系来布局关键词。在人类词汇中,单词间存在语义层级关系,即有些词是其他词元的下义词,而在一篇文章中,单词和其下义词往往是并存的。为了从词汇间的语义层次角度可视总结文档的内容, DocuBurst 采用径向布局,外圈的词汇是里圈词汇的下义词,圆心处的关键词是文章所涉及内容的最上层概述。每一个词的辐射范围覆盖其所有的下义词。
(3)文档卡片( Document Cards )
文档卡片法采用文章的关键图片和关键词信息表达文本的内容。为了达到可视化文档集合的目的,文档卡片法将每个文档的关键词和关键图片紧凑地布局在一张卡片中,将其可视化为一张”扑克牌”,这样便于用户在不同尺寸的设备中查看和对比每个文挡的信息。其中, 关键图片指采用智能算法抽取图片并根据颜色直方图进行分类后,从每一类图片中选取的代表性图片。