`
blueyanghualong
  • 浏览: 230893 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

最基础的数据结构(转自程序员杂志)(选一)

阅读更多

任何一个受过专业训练的程序员,对数据结构这门课程中涉及到的各种数据结构都不会感到陌生。但是,在实际的编程工作中,大部分的数据结构都不会用到,而且也许永远都不会用到。造成这种现象的原因有二:一是根据80/20法则,常用的数据结构只会占到少部分;二是计算机语言往往已经对常用的数据结构进行了良好的封装,程序员不需要关心内部的实现。 
   虽然如此,深入地理解基本数据结构的概念和实现细节,仍然是每一个程序员的任务。这不仅是因为,掌握这些知识,将有利于更加正确和灵活地应用它们,而且也是因为,对于语言背后的实现细节的求知欲,是一个优秀的程序员的素质。 
   本文将讨论实际编程最经常使用的三种数据结构:字符串、数组和Hash表,比较它们在不同语言中的实现思路,并涉及它们的使用技巧。 
   
  字符串 
   严格地说,字符串(string)甚至不能算作一种单独的数据结构,至少在C语言中,它仅仅是某种特定类型的数组而已。但是,字符串在实际使用中是如此重要,在不同语言中的实现又差异颇大,因此,它值得被作为一种抽象数据类型单独进行讨论,并且在我们讨论的三种结构中排名第一。 
   最经典的字符串实现,应该是C语言中的零终结(null-terminated)字符串。如上所述,C风格的字符串实质上是一个字符数组,它依次存放字符串中的每个字符,最后以零字符(’\0’,表示为常量null)作为结束。因此,字符串占据的空间比它实际的长度要多1个单元。在实际应用中,它常以数组或字符指针的形式被定义,如下例: 
   
  char[] message = “this is a message”; 
  char* pmessage = “an other message”; 
   
   C语言中,字符串并不是一种独立的数据类型,也没有提供将字符串作为一个整体进行处理的运算符。对字符串的所有操作,实际上都是通过对字符数组的操作来完成。 
   试想一个函数,功能是求C风格字符串的长度。实现的思路是:设置一个计数器,然后用一个指针遍历整个字符数组,同时对计数器进行累加,直到字符串结束(指针指向了null)。实际上,C语言中的strlen函数也是这么实现的。这种方式看上去非常合理,但是在处理一个非常大的字符数组时,会遭遇到严重的性能问题。如果一个字符串长达数M甚至更大,那么求其长度的操作,需要执行数百万次甚至更长的循环。更糟糕的是,由于这个结果没有被缓存,所以每次求长度的操作都会重复执行这些循环。 
   C风格字符串的另一个缺陷是,它不会自动管理内存。这意味着,如果字符串的长度超出了数组能够容纳的范围,程序员必须手动申请新的内存空间,并将原来的内容复制过去。这种方式不但产生了大量无谓的工作,而且是无数臭名昭著的溢出漏洞的原因。一个最简单的例子是,当一个程序要求用户输入一个字符串时,如果用户输入的字符串的长度大于程序设定的缓冲区的长度,将会导致溢出,最终程序会崩溃。 
   针对C风格字符串的这些缺陷,新的语言进行了相应的改进。作为C的直接继承者,C++语言在标准库中提供了一个基础字符串的实现:std :: basic_string。它封装了大量常见的操作,例如取长度、比较、插入、拼接、查找、替换等等,并且能够自动管理内存。例如,由于C++支持运算符重载,因此C++字符串可以使用运算符直接进行运算,而不需要调用strcpy函数。另外,C++字符串也提供了与C风格字符串进行转换的功能。基于强大的模板机制,C++字符串将字符串的实现和具体的字符类型分离开来了。下面是两种最常见的字符串类型: 
   
  typedef basic_string<char> string; // 定义了ansi类型的字符串 
  typedef basic_string<wchar_t> wstring; // 定义了宽字符类型的字符串 
   
   不幸的是,由于复杂的历史原因,许多C++方言(例如Visual C++Borland C++Builder)都提供了与标准字符串不同的字符串实现。这些字符串实现各有长处,但是将它们和C++标准字符串以及C风格字符串进行转换,又成为了一项令人头疼的工作。 
   Delphi对字符串的改进基于另外一种思路。在Delphi中,字符串仍然是一种基本类型,而不是类。它的实现方式也是字符数组,不同于C风格字符串的是,在数组的头部增加了两个32位整数存储空间,分别用于存放字符串的长度和引用计数。通过前者可以方便地获得字符串的长度,而不需要进行无谓的遍历操作。后者实现了COWCopy on Write)技术,这种技术的效果是:当字符串被复制时,并不会复制其内容,而只是建立一个新的指针,指向原有的字符串,并在引用计数上加一。当字符串被删除时,引用计数减一,当引用计数为0时,字符串的内存将被释放。只有当对字符串进行写入操作时,才会建立一个新的字符串并复制内容。这些工作是由编译器自动完成的,程序员完全可以象使用C风格字符串一样使用Delphi风格的字符串,只是效率大大地提高了。 
   JavaC#中的字符串,是一个封装了常见操作的类,这一点和C++类似。一个特殊之处(往往导致经典的性能问题)是,无论是在Java还是在C#中,String类都是不变(immutable)的。也就是说,String的内容不能够被改变,如果代码试图改变一个String对象的内容,实际的结果是建立了一个新的String对象,并抛弃旧的对象。如下例: 
   
  String s = ""; 
  for (int i = 0;i < 10000;i++) { 
   s += i + ", "; 
  
   
   结果是建立并抛弃了10000String对象,这在性能上的开销是惊人的。为了避免这种情况,应该使用StringBuilder对象,它可以改变其内容。(C#一直使用StringBuilderJava1.5开始引入StringBuilder以部分替代StringBuffer,它们的主要区别在于线程安全性。)如下例: 
   
  StringBuilder sb = new StringBuilder(); 
  for (int i = 0; i < 10000; i++) { 
  sb.append(i + ","); 
  
   
  数组 
   从抽象数据类型的意义上来说,一维数组(array)的定义是:具有相同数据类型的若干个元素的有限序列。 
   C语言中,数组意味着一块连续的内存空间,按顺序存放着若干个相同数据类型的元素。可以通过下标来访问数组中的元素。如下例: 
   
  int a[10]; // 定义一个int型的数组 
  for (int i = 0;i < 10;i++) { 
   a[i] = i; // 赋值 
  
   
   C语言中,数组名事实上是一个指针(指向该数组的第一个元素),因此所有通过数组下标完成的操作,都可以通过指针来完成。通过指针来访问数组,效率上比数组下标要高,而且更加灵活,例如,指针可以进行偏移量的运算,甚至可以进行绝对地址的存取。 
   C语言中的数组没有越界检查,这意味着,程序员可以访问数组最后一个元素以后的地址,或者第一个元素之前的地址(例如,a[-1]a[-2]这种形式是合法的)。在某些情况下,这是一种有用的技巧,但大多数情况下是一场灾难。C语言的数组也不支持自动增长,如果数组的长度发生了变化,程序员必须手动处理所有关于申请和释放内存的工作。 
   C++提供了C风格的数组,同样不支持越界检查和自动增长。但是,C++(至少是Stroustrup博士本人)建议,应该尽量使用STL中的容器作为替代品,一般是vectorVector基于面向对象和模板技术,构建了一个强大而复杂的类,实现了如下特性:高效率的自动内存管理;按任何顺序访问、插入和删除元素;越界检查,但同时也提供了不进行检查的访问方式,以照顾性能上的考虑;基于运算符重载技术的运算符支持;基于迭代器的漫游机制;与数据类型无关的算法支持;等等。相对于C风格的数组,vector是一种更高抽象层次上的序列概念。它对大量常用的功能进行了封装(例如,对内存的直接操作),同时又尽可能地照顾了效率和可移植性(例如,在自动扩充时通过缓存机制来提高效率)。这也正是C++语言对C语言进行改进时的指导思想。 
   Delphi也支持C风格的数组,但提供了越界检查。另外,Delphi还提供了一种动态数组(Dynamic Array),可以在运行时通过SetLength函数动态地改变它的大小。事实上,SetLength函数就是对内存管理操作的一种封装。类似于C++中的vectorDelphi也提供了两个可以自动增长的容器:TListTObjectList,前者用于存放无类型的指针,后者用于存放对象。由于Delphi不支持模板机制,所以TList不会自动释放指针所指向的内存,它只会维护指针自身占用的内存(TObjectList能够在销毁时自动释放元素所占用的空间,如果它的OwnsObjects属性被设置为True的话)。一种常用的解决方法是,编写一个针对具体类型的包裹类,使用一个作为私有数据成员的TList对象来管理指针,并手动编写申请和释放内存的那部分代码。这样总比C语言中的情况要好得多。 
   Java也支持加上了越界检查的C风格数组,但它提供的类似容器更为引人注目。Java将序列(List)作为一个单独的接口提取出来,并提供了两个实现:ArrayListLinkedList。从名字就可以看出来,前者是通过数组来实现的,后者则通过链表。由于都实现了List接口,二者可以支持同样的基本操作方式,不同的是,ArrayList在频繁进行随机访问时有效率上的优势,而LinkedList在频繁进行插入和删除操作时效率较优。实现了List接口的类还有VectorStack,但是它们在Java 1.1以后就被废弃了。由于LinkedList可以在序列的头尾插入和删除元素,它可以很好地实现StackQueue的功能。 
   Java1.5以前的版本中也不支持模板,因此List(以及其他的容器)接受Object类型作为元素。由于在Java中所有的类都派生自Object,所以这些容器能够支持任何对象。对于不是对象的基本类型,Java提供了一种包裹类(wrapped class),它能够将基本类型转换成常规的类,从而获得容器的支持。这和Delphi的解决思路异曲同工。 

分享到:
评论

相关推荐

    C#4.0完全参考手册(英)

    1. **C#4.0基础知识**:介绍C#的基本语法、数据类型、变量、运算符等基础概念。 2. **面向对象编程**:深入探讨类、接口、继承、多态等面向对象编程的核心概念。 3. **高级主题**:涵盖委托、事件、属性、索引器等...

    Windows 程序设计(第5版)(上、下册)--详细书签版

     其中采用的大多是具有代表性的示例,这本Petzold著作为使用 Windows 95、Windows 98或 Windows NT的各级windows程序员提供了最基本的参考和指导。没有经验的开发人员也可以从中获取大量的新知识。     作译者 ...

    MATLAB实现基于LSTM-AdaBoost长短期记忆网络结合AdaBoost时间序列预测(含模型描述及示例代码)

    内容概要:本文档详细介绍了基于 MATLAB 实现的 LSTM-AdaBoost 时间序列预测模型,涵盖项目背景、目标、挑战、特点、应用领域以及模型架构和代码示例。随着大数据和AI的发展,时间序列预测变得至关重要。传统方法如 ARIMA 在复杂非线性序列中表现欠佳,因此引入了 LSTM 来捕捉长期依赖性。但 LSTM 存在易陷局部最优、对噪声鲁棒性差的问题,故加入 AdaBoost 提高模型准确性和鲁棒性。两者结合能更好应对非线性和长期依赖的数据,提供更稳定的预测。项目还展示了如何在 MATLAB 中具体实现模型的各个环节。 适用人群:对时间序列预测感兴趣的开发者、研究人员及学生,特别是有一定 MATLAB 编程经验和熟悉深度学习或机器学习基础知识的人群。 使用场景及目标:①适用于金融市场价格预测、气象预报、工业生产故障检测等多种需要时间序列分析的场合;②帮助使用者理解并掌握将LSTM与AdaBoost结合的实现细节及其在提高预测精度和抗噪方面的优势。 其他说明:尽管该模型有诸多优点,但仍存在训练时间长、计算成本高等挑战。文中提及通过优化数据预处理、调整超参数等方式改进性能。同时给出了完整的MATLAB代码实现,便于学习与复现。

    palkert_3ck_01_0918.pdf

    palkert_3ck_01_0918

    pepeljugoski_01_1106.pdf

    pepeljugoski_01_1106

    tatah_01_1107.pdf

    tatah_01_1107

    [AB PLC例程源码][MMS_046393]Motor Speed Reference.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    基于51的步进电机控制系统20250302

    题目:基于单片机的步进电机控制系统 模块: 主控:AT89C52RC 步进电机(ULN2003驱动) 按键(3个) 蓝牙(虚拟终端模拟) 功能: 1、可以通过蓝牙远程控制步进电机转动 2、可以通过按键实现手动与自动控制模式切换。 3、自动模式下,步进电机正转一圈,反转一圈,循环 4、手动模式下可以通过按键控制步进电机转动(顺时针和逆时针)

    [AB PLC例程源码][MMS_041234]Logix Fault Handler.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    [AB PLC例程源码][MMS_042348]Using an Ultra3000 as an Indexer on DeviceNet with a CompactLogix.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    智慧校园平台建设全流程详解:从需求到持续优化

    内容概要:本文详细介绍了建设智慧校园平台所需的六个关键步骤。首先通过需求分析深入了解并确定校方和使用者的具体需求;其次是规划设计阶段,依据所得需求制定全面的建设方案。再者是对现有系统的整合——系统集成,确保新旧平台之间的互操作性和数据一致性。培训支持帮助全校教职工和学生快速熟悉新平台,提高效率。实施试点确保系统逐步稳定部署。最后,强调持续改进的重要性,以适应技术和环境变化。通过这一系列有序的工作,可以使智慧校园建设更为科学高效,减少失败风险。 适用人群:教育领域的决策者和技术人员,包括负责信息化建设和运维的团队成员。 使用场景及目标:用于指导高校和其他各级各类学校规划和发展自身的数字校园生态链;目的是建立更加便捷高效的现代化管理模式和服务机制。 其他说明:智慧校园不仅仅是简单的IT设施升级或软件安装,它涉及到全校范围内的流程再造和创新改革。

    AI淘金实战手册:100+高收益变现案例解析

    该文档系统梳理了人工智能技术在商业场景中的落地路径,聚焦内容生产、电商运营、智能客服、数据分析等12个高潜力领域,提炼出100个可操作性变现模型。内容涵盖AI工具开发、API服务收费、垂直场景解决方案、数据增值服务等多元商业模式,每个思路均配备应用场景拆解、技术实现路径及收益测算框架。重点呈现低代码工具应用、现有平台流量复用、细分领域自动化改造三类轻量化启动方案,为创业者提供从技术选型到盈利闭环的全流程参考。

    palkert_3ck_02_0719.pdf

    palkert_3ck_02_0719

    2006-2023年 地级市-克鲁格曼专业化指数.zip

    克鲁格曼专业化指数,最初是由Krugman于1991年提出,用于反映地区间产业结构的差异,也被用来衡量两个地区间的专业化水平,因而又称地区间专业化指数。该指数的计算公式及其含义可以因应用背景和具体需求的不同而有所调整,但核心都是衡量地区间的产业结构差异或专业化程度。 指标 年份、城市、第一产业人数(first_industry1)、第二产业人数(second_industry1)、第三产业人数(third_industry1)、专业化指数(ksi)。

    [AB PLC例程源码][MMS_046305]R2FX.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    精品推荐-通信技术LTE干货资料合集(19份).zip

    精品推荐,通信技术LTE干货资料合集,19份。 LTE PCI网络规划工具.xlsx LTE-S1切换占比专题优化分析报告.docx LTE_TDD问题定位指导书-吞吐量篇.docx LTE三大常见指标优化指导书.xlsx LTE互操作邻区配置核查原则.docx LTE信令流程详解指导书.docx LTE切换问题定位指导一(定位思路和问题现象).docx LTE劣化小区优化指导手册.docx LTE容量优化高负荷小区优化指导书.docx LTE小区搜索过程学习.docx LTE小区级与邻区级切换参数说明.docx LTE差小区处理思路和步骤.docx LTE干扰日常分析介绍.docx LTE异频同频切换.docx LTE弱覆盖问题分析与优化.docx LTE网优电话面试问题-应答技巧.docx LTE网络切换优化.docx LTE高负荷小区容量优化指导书.docx LTE高铁优化之多频组网优化提升“用户感知,网络价值”.docx

    matlab程序代码项目案例:matlab程序代码项目案例matlab中Toolbox中带有的模型预测工具箱.zip

    matlab程序代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    pepeljugoski_01_0508.pdf

    pepeljugoski_01_0508

    szczepanek_01_0308.pdf

    szczepanek_01_0308

    oif2007.384.01_IEEE.pdf

    oif2007.384.01_IEEE

Global site tag (gtag.js) - Google Analytics