`

数据结构(清华大学)各章重点

阅读更多

 

0 概述

本章主要起到总领作用,为读者进行数据结构的学习进行了一些先期铺垫。大家主要注意以下几点:数据结构的基本概念,时间和空间复杂度的概念及度量方法,算法设计时的注意事项。本章考点不多,只要稍加注意理解即可。

 

第一章 线性表

作为线性结构的开篇章节,线性表一章在线性结构的学习乃至整个数据结构学科的学习中,其作用都是不可低估的。在这一章,第一次系统性地引入链式存储的概念,链式存储概念将是整个数据结构学科的重中之重,无论哪一章都涉及到了这个概念。

总体来说,线性表一章可供考查的重要考点有以下几个方面:

1.线性表的相关基本概念,如:前驱、后继、表长、空表、首元结点,头结点,头指针等概念。

2.线性表的结构特点,主要是指:除第一及最后一个元素外,每个结点都只有一个前趋和只有一个后继。

3.线性表的顺序存储方式及其在具体语言环境下的两种不同实现:表空间的静态分配和动态分配。静态链表与顺序表的相似及不同之处。

4.线性表的链式存储方式及以下几种常用链表的特点和运算:单链表、循环链表,双向链表,双向循环链表。其中,单链表的归并算法、循环链表的归并算法、双向链表及双向循环链表的插入和删除算法等都是较为常见的考查方式。此外,近年来在不少学校中还多次出现要求用递归算法实现单链表输出(可能是顺序也可能是倒序)的问题。

在链表的小题型中,经常考到一些诸如:判表空的题。在不同的链表中,其判表空的方式是不一样的,请大家注意。

5.线性表的顺序存储及链式存储情况下,其不同的优缺点比较,即其各自适用的场合。单链表中设置头指针、循环链表中设置尾指针而不设置头指针以及索引存储结构的各自好处。

 

第二章 栈与队列

栈与队列,是很多学习DS的同学遇到第一只拦路虎,很多人从这一章开始坐晕车,一直晕到现在。所以,理解栈与队列,是走向DS高手的一条必由之路,。

学习此章前,你可以问一下自己是不是已经知道了以下几点:

1.栈、队列的定义及其相关数据结构的概念,包括:顺序栈,链栈,共享栈,循环队列,链队等。栈与队列存取数据(请注意包括:存和取两部分)的特点。

2.递归算法。栈与递归的关系,以及借助栈将递归转向于非递归的经典算法:n!阶乘问题,fib数列问题,hanoi问题,背包问题,二叉树的递归和非递归遍历问题,图的深度遍历与栈的关系等。其中,涉及到树与图的问题,多半会在树与图的相关章节中进行考查。

3.栈的应用:数值表达式的求解,括号的配对等的原理,只作原理性了解,具体要求考查此为题目的算法设计题不多。

4.循环队列中判队空、队满条件,循环队列中入队与出队算法。

如果你已经对上面的几点了如指掌,栈与队列一章可以不看书了。注意,我说的是可以不看书,并不是可以不作题哦。

 

第三章

经历了栈一章的痛苦煎熬后,终于迎来了串一章的柳暗花明。

串,在概念上是比较少的一个章节,也是最容易自学的章节之一,但正如每个过来人所了解的,KMP算法是这一章的重要关隘,突破此关隘后,走过去又是一马平川的大好DS山河了,呵呵。

串一章需要攻破的主要堡垒有:

1.串的基本概念,串与线性表的关系(串是其元素均为字符型数据的特殊线性表),空串与空格串的区别,串相等的条件

2.串的基本操作,以及这些基本函数的使用,包括:取子串,串连接,串替换,求串长等等。运用串的基本操作去完成特定的算法是很多学校在基本操作上的考查重点。

3.顺序串与链串及块链串的区别和联系,实现方式。

4.KMP算法思想。KMPnext数组以及nextval数组的求法。明确传统模式匹配算法的不足,明确next数组需要改进之外。其中,理解算法是核心,会求数组是得分点。不用我多说,这一节内容是本章的重中之重。可能进行的考查方式是:nextnextval数组值,根据求得的nextnextval数组值给出运用KMP算法进行匹配的匹配过程。

 

第四章 数组与广义表

学过程序语言的朋友,数组的概念我们已经不是第一次见到了,应该已经“一回生,二回熟”了,所以,在概念上,不会存在太大障碍。但作为考研课程来说,本章的考查重点可能与大学里的程序语言所关注的不太一样,下面会作介绍。

广义表的概念,是数据结构里第一次出现的。它是线性表或表元素的有限序列,构成该结构的每个子表或元素也是线性结构的,所以,这一章也归入线性结构中。

本章的考查重点有:

1.多维数组中某数组元素的position求解。一般是给出数组元素的首元素地址和每个元素占用的地址空间并组给出多维数组的维数,然后要求你求出该数组中的某个元素所在的位置。

2.明确按行存储和按列存储的区别和联系,并能够按照这两种不同的存储方式求解1中类型的题。

3.将特殊矩阵中的元素按相应的换算方式存入数组中。这些矩阵包括:对称矩阵,三角矩阵,具有某种特点的稀疏矩阵等。熟悉稀疏矩阵的三种不同存储方式:三元组,带辅助行向量的二元组,十字链表存储。掌握将稀疏矩阵的三元组或二元组向十字链表进行转换的算法。

4.广义表的概念,特别应该明确表头与表尾的定义。这一点,是理解整个广义表一节算法的基础。近来,在一些学校中,出现了这样一种题目类型:给出对某个广义表L若干个求了若干次的取头和取尾操作后的串值,要求求出原广义表L。大家要留意。

5.与广义表有关的递归算法。由于广义表的定义就是递归的,所以,与广义表有关的算法也常是递归形式的。比如:求表深度,复制广义表等。这种题目,可以根据不同角度广义表的表现形式运用两种不同的方式解答:一是把一个广义表看作是表头和表尾两部分,分别对表头和表尾进行操作;二是把一个广义表看作是若干个子表,分别对每个子表进行操作。

 

第五章 树与二叉树

从对线性结构的研究过度到对树形结构的研究,是数据结构课程学习的一次跃变,此次跃变完成的好坏,将直接关系到你到实际的考试中是否可以拿到高分,而这所有的一切,将最终影响你的专业课总分。所以,树这一章的重要性,已经不说自明了。

总体来说,树一章的知识点包括:

二叉树的概念、性质和存储结构,二叉树遍历的三种算法(递归与非递归),在三种基本遍历算法的基础上实现二叉树的其它算法,线索二叉树的概念和线索化算法以及线索化后的查找算法,最优二叉树的概念、构成和应用,树的概念和存储形式,树与森林的遍历算法及其与二叉树遍历算法的联系,树与森林和二叉树的转换。

下面我们来看考试中对以上知识的主要考查方法:

1.二叉树的概念、性质和存储结构

考查方法可有:直接考查二叉树的定义,让你说明二叉树与普通双分支树的区别;考查满二叉树和完全二叉树的性质,普通二叉树的五个性质:i层的最多结点数,深度为k的二叉树的最多结点数,n0=n2+1的性质,n个结点的完全二叉树的深度,顺序存储二叉树时孩子结点与父结点之间的换算关系(左为:2*i,右为:2*i+1)。

二叉树的顺序存储和二叉链表存储的各自优缺点及适用场合,二叉树的三叉链表表示方法。

2.二叉树的三种遍历算法

这一知识点掌握的好坏,将直接关系到树一章的算法能否理解,进而关系到树一章的算法设计题能否顺利完成。二叉树的遍历算法有三种:先序,中序和后序。其划分的依据是视其每个算法中对根结点数据的访问顺序而定。不仅要熟练掌握三种遍历的递归算法,理解其执行的实际步骤,并且应该熟练掌握三种遍历的非递归算法。由于二叉树一章的很多算法,可以直接根据三种递归算法改造而来(比如:求叶子个数),所以,掌握了三种遍历的非递归算法后,对付诸如:“利用非递归算法求二叉树叶子个数”这样的题目就下笔如有神了。我会在另一篇系列文章(http://bbs.kaoyan.com/ibbs.dll?b ... 3&bp=2&bt=0)里给出三种遍历的递归和非递归算法的背记版,到时请大家一定熟记。

3.可在三种遍历算法的基础上改造完成的其它二叉树算法:

求叶子个数,求二叉树结点总数,求度为1或度为2的结点总数,复制二叉树,建立二叉树,交换左右子树,查找值为n的某个指定结点,删除值为n的某个指定结点,诸如此类等等等等。如果你可以熟练掌握二叉树的递归和非递归遍历算法,那么解决以上问题就是小菜一碟了。

4.线索二叉树:

线索二叉树的引出,是为避免如二叉树遍历时的递归求解。众所周知,递归虽然形式上比较好理解,但是消耗了大量的内存资源,如果递归层次一多,势必带来资源耗尽的危险,为了避免此类情况,线索二叉树便堂而皇之地出现了。对于线索二叉树,应该掌握:线索化的实质,三种线索化的算法,线索化后二叉树的遍历算法,基本线索二叉树的其它算法问题(如:查找某一类线索二叉树中指定结点的前驱或后继结点就是一类常考题)。

5.最优二叉树(哈夫曼树):

最优二叉树是为了解决特定问题引出的特殊二叉树结构,它的前提是给二叉树的每条边赋予了权值,这样形成的二叉树按权相加之和是最小的。最优二叉树一节,直接考查算法源码的很少,一般是给你一组数据,要求你建立基于这组数据的最优二叉树,并求出其最小权值之和,此类题目不难,属送分题。

6.树与森林:

二叉树是一种特殊的树,这种特殊不仅仅在于其分支最多为2以及其它特征,一个最重要的特殊之处是在于:二叉树是有序的!即:二叉树的左右孩子是不可交换的,如果交换了就成了另外一棵二叉树,这样交换之后的二叉树与原二叉树我们认为是不相同的两棵二叉树。但是,对于普通的双分支树而言,不具有这种性质。

树与森林的遍历,不像二叉树那样丰富,他们只有两种遍历算法:先根与后根(对于森林而言称作:先序与后序遍历)。在难度比较大的考试中,也有基于此二种算法的基础上再进行扩展要求你利用这两种算法设计其它算法的,但一般院校很少有这种考法,最多只是要求你根据先根或后根写出他们的遍历序列。此二者的先根与后根遍历与二叉树中的遍历算法是有对应关系的:先根遍历对应二叉树的先序遍历,而后根遍历对应二叉树的中序遍历。这一点成为很多学校的考点,考查的方式不一而足,有的直接考此句话,有的是先让你求解遍历序列然后回答这个问题。二叉树、树与森林之所以能有以上的对应关系,全拜二叉链表所赐。二叉树使用二叉链表分别存放他的左右孩子,树利用二叉链表存储孩子及兄弟(称孩子兄弟链表),而森林也是利用二叉链表存储孩子及兄弟。

树一章,处处是重点,道道是考题,大家务必个个过关。

 

第六章

如果说,从线性结构向树形结构研究的转变,是数据结构学科对数据组织形式研究的一次升华,那么从树形结构的研究转到图形结构的研究,则进一步让我们看到了数据结构对于解决实际问题的重大推动作用。

图这一章的特点是:概念繁多,与离散数学中图的概念联系紧密,算法复杂,极易被考到,且容易出大题,尤其是名校,作为考研课程,如果不考查树与图两章的知识,几乎是不可想像的。

下面我们看一下图这一章的主要考点以及这些考点的考查方式:

1.考查有关图的基本概念问题:

这些概念是进行图一章学习的基础,这一章的概念包括:图的定义和特点,无向图,有向图,入度,出度,完全图,生成子图,路径长度,回路,(强)连通图,(强)连通分量等概念。与这些概念相联系的相关计算题也应该掌握。

2.考查图的几种存储形式:

图的存储形式包括:邻接矩阵,(逆)邻接表,十字链表及邻接多重表。在考查时,有的学校是给出一种存储形式,要求考生用算法或手写出与给定的结构相对应的该图的另一种存储形式。

3.考查图的两种遍历算法:深度遍历和广度遍历

深度遍历和广度遍历是图的两种基本的遍历算法,这两个算法对图一章的重要性等同于“先序、中序、后序遍历”对于二叉树一章的重要性。在考查时,图一章的算法设计题常常是基于这两种基本的遍历算法而设计的,比如:“求最长的最短路径问题”和“判断两顶点间是否存在长为K的简单路径问题”,就分别用到了广度遍历和深度遍历算法。

4.生成树、最小生成树的概念以及最小生成树的构造RIM算法和KRUSKAL算法。

考查时,一般不要求写出算法源码,而是要求根据这两种最小生成树的算法思想写出其构造过程及最终生成的最小生成树。

5.拓扑排序问题:

拓扑排序有两种方法,一是无前趋的顶点优先算法,二是无后继的顶点优先算法。换句话说,一种是“从前向后”的排序,一种是“从后向前”排。当然,后一种排序出来的结果是“逆拓扑有序”的。

6.关键路径问题:

这个问题是图一章的难点问题。理解关键路径的关键有三个方面:一是何谓关键路径,二是最早时间是什么意思、如何求,三是最晚时间是什么意思、如何求。简单地说,最早时间是通过“从前向后”的方法求的,而最晚时间是通过“从后向前”的方法求解的,并且,要想求最晚时间必须是在所有的最早时间都已经求出来之后才能进行。这个问题拿来直接考算法源码的不多,一般是要求按照书上的算法描述求解的过程和步骤。

在实际设计关键路径的算法时,还应该注意以下这一点:采用邻接表的存储结构,求最早时间和最晚时间要采用不同的处理方法,即:在算法初始时,应该首先将所有顶点的最早时间全部置为0。关键路径问题是工程进度控制的重要方法,具有很强的实用性。

7.最短路径问题:

与关键路径问题并称为图一章的两只拦路虎。概念理解是比较容易的,关键是算法的理解。最短路径问题分为两种:一是求从某一点出发到其余各点的最短路径;二是求图中每一对顶点之间的最短路径。这个问题也具有非常实用的背景特色,一个典型的应该就是旅游景点及旅游路线的选择问题。解决第一个问题用DIJSKTRA算法,解决第二个问题用FLOYD算法。注意区分。

 

第七章 查找

在不少数据结构的教材中,是把查找与排序放入高级数据结构中的。应该说,查找和排序两章是前面我们所学的知识的综合运用,用到了树、也用到了链表等知识,对这些数据结构某一方面的运用就构成了查找和排序。

现实生活中,search几乎无处不在,特别是现在的网络时代,万事离不开search,小到文档内文字的搜索,大到INTERNET上的搜索,search占据了我们上网的大部分时间。

在复习这一章的知识时,你需要先弄清楚以下几个概念:

关键字、主关键字、次关键字的含义;静态查找与动态查找的含义及区别;平均查找长度ASL的概念及在各种查找算法中的计算方法和计算结果,特别是一些典型结构的ASL值,应该记住。

DS的教材中,一般将search分为三类:1st,在顺序表上的查找;2nd,在树表上的查找;3rd,在哈希表上的查找。下面详细介绍其考查知识点及考查方式:

1.线性表上的查找:

主要分为三种线性结构:顺序表,有序顺序表,索引顺序表。对于第一种,我们采用传统查找方法,逐个比较。对于及有序顺序表我们采用二分查找法。对于第三种索引结构,我们采用索引查找算法。考生需要注意这三种表下的ASL值以及三种算法的实现。其中,二分查找还要特别注意适用条件以及其递归实现方法。

2.树表上的查找:

这是本章的重点和难点。由于这一节介绍的内容是使用树表进行的查找,所以很容易与树一间的某些概念相混淆。本节内容与树一章的内容有联系,但也有很多不同,应注意规纳。树表主要分为以下几种:二叉排序树,平衡二叉树,B树,键树。其中,尤以前两种结构为重,也有部分名校偏爱考B树的。由于二叉排序树与平衡二叉树是一种特殊的二叉树,所以与二叉树的联系就更为紧密,二叉树一章学好了,这里也就不难了。

二叉排序树,简言之,就是“左小右大”,它的中序遍历结果是一个递增的有序序列。平衡二叉树是二叉排序树的优化,其本质也是一种二叉排序树,只不过,平衡二叉树对左右子树的深度有了限定:深度之差的绝对值不得大于1。对于二叉排序树,“判断某棵二叉树是否二叉排序树”这一算法经常被考到,可用递归,也可以用非递归。平衡二叉树的建立也是一个常考点,但该知识点归根结底还是关注的平衡二叉树的四种调整算法,所以应该掌握平衡二叉树的四种调整算法,调整的一个参照是:调整前后的中序遍历结果相同。

B树是二叉排序树的进一步改进,也可以把B树理解为三叉、四叉....排序树。除B树的查找算法外,应该特别注意一下B树的插入和删除算法。因为这两种算法涉及到B树结点的分裂和合并,是一个难点。B树是报考名校的同学应该关注的焦点之一。

键树也称字符树,特别适用于查找英文单词的场合。一般不要求能完整描述算法源码,多是根据算法思想建立键树及描述其大致查找过程。

3.基本哈希表的查找算法:

哈希一词,是外来词,译自“hash”一词,意为:散列或杂凑的意思。哈希表查找的基本思想是:根据当前待查找数据的特征,以记录关键字为自变量,设计一个function,该函数对关键字进行转换后,其解释结果为待查的地址。基于哈希表的考查点有:哈希函数的设计,冲突解决方法的选择及冲突处理过程的描述。

 

第八章 内部排序

内排是DS课程中最后一个重要的章节,建立在此章之上的考题可以有多种类型:填空,选择,判断乃至大型算法题。但是,归结到一点,就是考查你对书本上的各种排序算法及其思想以及其优缺点和性能指标(时间复杂度)能否了如指掌。

这一章,我们对重点的规纳将跟以上各章不同。我们将从以下几个侧面来对排序一章进行不同的规纳,以期能更全面的理解排序一章的总体结构及各种算法。

从排序算法的种类来分,本章主要阐述了以下几种排序方法:插入、选择、交换、归并、计数等五种排序方法。

其中,在插入排序中又可分为:直接插入、折半插入、2路插入、希尔排序。这几种插入排序算法的最根本的不同点,说到底就是根据什么规则寻找新元素的插入点。直接插入是依次寻找,折半插入是折半寻找。希尔排序,是通过控制每次参与排序的数的总范围“由小到大”的增量来实现排序效率提高的目的。

交换排序,又称冒泡排序,在交换排序的基础上改进又可以得到快速排序。快速排序的思想,一语以敝之:用中间数将待排数据组一分为二。快速排序,在处理的“问题规模”这个概念上,与希尔有点相反,快速排序,是先处理一个较大规模,然后逐渐把处理的规模降低,最终达到排序的目的。

选择排序,相对于前面几种排序算法来说,难度大一点。具体来说,它可以分为:简单选择、树选择、堆排。这三种方法的不同点是,根据什么规则选取最小的数。简单选择,是通过简单的数组遍历方案确定最小数;树选择,是通过“锦标赛”类似的思想,让两数相比,不断淘汰较大(小)者,最终选出最小(大)数;而堆排序,是利用堆这种数据结构的性质,通过堆元素的删除、调整等一系列操作将最小数选出放在堆顶。堆排序中的堆建立、堆调整是重要考点。树选择排序,也曾经在一些学校中的大型算法题中出现,请大家注意。

归并排序,故名思义,是通过“归并”这种操作完成排序的目的,既然是归并就必须是两者以上的数据集合才可能实现归并。所以,在归并排序中,关注最多的就是2路归并。算法思想比较简单,有一点,要铭记在心:归并排序是稳定排序。

基数排序,是一种很特别的排序方法,也正是由于它的特殊,所以,基数排序就比较适合于一些特别的场合,比如扑克牌排序问题等。基数排序,又分为两种:多关键字的排序(扑克牌排序),链式排序(整数排序)。基数排序的核心思想也是利用“基数空间”这个概念将问题规模规范、变小,并且,在排序的过程中,只要按照基排的思想,是不用进行关键字比较的,这样得出的最终序列就是一个有序序列。

本章各种排序算法的思想以及伪代码实现,及其时间复杂度都是必须掌握的,学习时要多注意规纳、总结、对比。此外,对于教材中的10.7节,要求必须熟记,在理解的基础上记忆,这一节几乎成为很多学校每年的必考点。

 

分享到:
评论

相关推荐

    清华大学C语言数据结构PPT

    清华大学的C语言数据结构PPT是一套全面且深入的学习资料,适合初学者和进阶者使用。这个压缩包包含了多个章节的PPT课件,涵盖了数据结构的主要内容。 第一章通常会介绍数据结构的基础概念,包括数据、数据类型、...

    清华大学-邓俊辉-数据结构c++及习题解析

    《数据结构习题解析C++版》第三版则针对每一章的重点和难点提供详尽的解题思路和解答,是检验和提升理解的好助手。 在算法方面,数据结构是算法的载体,两者密不可分。书中的算法设计和分析部分将教给读者如何通过...

    清华大学C语言版《数据结构》作业答案

    在本压缩包中,重点涉及的是使用C语言实现的数据结构相关作业答案,特别是针对清华大学课程中的内容。C语言作为一种底层编程语言,特别适合用于实现数据结构,因为它允许直接操作内存,提供了高效的性能。 首先,...

    清华大学严蔚敏数据结构题集答案c语言

    《清华大学严蔚敏数据结构题集答案C语言详解》 数据结构是计算机科学中的核心课程之一,它研究如何在计算机中有效地组织和管理数据。严蔚敏教授编写的《数据结构》教材,以其深入浅出的讲解和丰富的习题,深受广大...

    数据结构复习重点归纳(适于清华严蔚敏)_格式修改_适合打印

    本复习重点归纳适用于清华大学严蔚敏教授编著的数据结构教材,特别针对C语言版本,适合考研计算机复习。 首先,我们要理解数据结构的章节划分。主要包括:概论、线性表、栈和队列、串、多维数组和广义表、树和...

    清华版数据结构习题答案

    数据结构是计算机科学中的核心课程,它探讨了如何在计算机中高效地组织和管理...通过学习以上各章的习题答案,读者不仅能巩固数据结构的基础知识,还能提高解决实际问题的能力,为后续的编程和算法设计打下坚实基础。

    清华大学数据结构第一章课件

    清华大学的这章课件主要涵盖了数据结构的基本概念、术语、数据类型、抽象数据类型,以及算法的时间和空间复杂度。 1. **数据结构的定义**: 数据结构是指按照特定逻辑关系组织起来的数据集合,它包括逻辑结构、...

    数据结构(清华版教材)

    清华大学出版社出版的这本教材,采用了C语言作为编程语言,由谭浩强教授编写,旨在帮助学习者深入理解数据结构的概念并掌握其实现技巧。 1. **C语言基础**:C语言是一种强大的、低级的编程语言,被广泛用于系统编程...

    清华大学-数据结构1

    清华大学-数据结构1 本书是根据严蔚敏、吴伟民编著的《数据结构》(C语言版)而编写的辅助教材。 全书共分两部分,第1部分按原教材章节顺序,分为12章,每章按知识脉络图解、重点和难点解读、课程考试和考研要点、...

    数据结构复习重点归纳(清华严蔚敏教材).

    在复习数据结构时,尤其依据清华大学严蔚敏教授的教材,掌握正确的复习重点至关重要。以下是对该教材中数据结构各章节的重点归纳: ### 一、章节结构与重点 数据结构的章节大致分为以下几部分: 1. **概论**:...

    殷人昆C++数据结构课后习题答案

    《殷人昆C++数据结构课后习题答案》是一份详尽的教育资源,主要针对清华大学殷人昆教授编写的C++数据结构课程的习题解答。这份资料旨在帮助学生深入理解和掌握数据结构的核心概念,通过解答各章节的习题,巩固理论...

    清华邓俊辉数据结构

    根据提供的文件信息,本课程是由清华大学的邓俊辉教授所编写的关于数据结构与算法的教材,该教材采用C++语言实现。从目录来看,本书涵盖了数据结构与算法的基础知识到高级应用的多个方面。 在绪论部分,邓俊辉教授...

    数据结构考研题库(清华,严蔚敏版)

    清华大学严蔚敏版的数据结构教材因其深入浅出的讲解和丰富的实例,成为了众多考研学子的重要参考资料。这份考研题库,由资深教师精心整理,包含了多个大学的历年考试题目,为备考者提供了宝贵的复习材料。 1. **...

    清华大学严蔚敏教授数据结构集答案

    清华大学严蔚敏教授的数据结构集答案提供了对这门课程经典教材问题的解答,对于计算机专业本科学生和考研者来说,是一份宝贵的参考资料。以下是根据文件名称解析出的相关知识点: 1. **第1章 绪论**:本章通常介绍...

    数据仓库与数据挖掘课后答案(陈志泊著)清华大学出版社[归类].pdf

    2. 元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3. 数据处理通常分成两大类:联机事务...

    清华大学严蔚敏数据结构题集与答案

    1. **线性表**(第2章):线性表是最基本的数据结构,由相同类型的元素组成,顺序存储或链式存储。学习重点包括顺序表和链表的操作,如插入、删除、查找等,以及这两种存储方式的优缺点。 2. **栈与队列**(第3章)...

    清华大学精品大数据全套课程PPT课件含习题(31页)第3章 数据挖掘算法(上).rar

    这些算法各有特点,适用于不同的数据结构和预测问题。 5. 聚类算法:聚类是无监督学习的一种,旨在将数据分为不同的组或簇。K-means、层次聚类和DBSCAN是聚类算法的代表,它们在未标记数据中寻找结构和模式。 6. ...

    清华大学精品大数据之数据清洗课程PPT课件(34页)含习题 第7章 采集Web数据实例 网页结构 网络爬虫 行为日志采集.pptx

    清华大学的这门大数据数据清洗课程,不仅介绍了数据清洗的基本概念和技术,还强调了Web数据采集的实际应用。通过深入学习,学习者将具备处理大数据项目中数据预处理环节的扎实技能,这对于数据分析和挖掘工作至关...

Global site tag (gtag.js) - Google Analytics