`
javatoyou
  • 浏览: 1084229 次
  • 性别: Icon_minigender_2
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

C/C++字符串处理盘点:Char*/String/StringBuilder/TextPool/Rope

阅读更多

C/C++字符串处理盘点:Char*/String/StringBuilder/TextPool/Rope


许式伟
2008-3-20

概要

介绍StdExt的时候,我曾经提到,STL设计精良,但是以下几块仍然设计不足(或缺失):

关于内存管理,我们已经说得很多了。这里我们重点谈的是字符串处理/文本处理相关的问题。本篇是《字符串处理完整参考》这个系列的第一篇。

历史

字符串处理/文本处理是一个历史悠久,并且相当复杂的一个话题。从简单到字符串的比较(compare)连接(concat),到复杂的文本编辑、正则表达式、HTML文本内容的解析,都属于相关的范畴。

在C语言时代,C库提供了基于char*数据类型的字符串处理函数,典型代表如strlen,strcpy,strcat等。原始、容易出错,是这类字符串处理方法的典型特征。另外,strcat的效率并不高(Borland引入了strecpy来解决这个问题。其实这个strecpy的泛化版本,就是后来STL中的std::copy),而字符串查找(strstr)也是用了最原始的方式。

STL的string(basic_string)的出现,一定程度上改善了这种情况。至少C++程序员有一个使用界面“友善”的string(字符串)类了。然而,string类可以说是STL中最受争议的类(下文我们详细解释)。这些争议至少证明,STL的string类存在设计缺陷。

在SGI STL中,引入了rope类。这是一个重量级的字符串类。rope英文本意是绳子。string英文本意是线。所以rope是重量级的string,这个名字取得很形象,非常到位。

在StdExt库开始考虑字符串处理支持的时候,我引入了以下四个类:std::String / std::StringBuilder / std::TextPool / std::Rope。其中,std::String/std::StringBuilder其实是STL string类的功能分拆。std::String是一个常字符串,而std::StringBuilder负责字符串的修改操作。大家很清楚,String/StringBuilder的概念从Java中引入,我一直认为Java的字符串处理类的设计比C++这样把两者揉在一起的string实现要合理很多。std::TextPool / std::Rope则是字符串类的重量级实现,用来处理巨型的字符串。

STL的string(basic_string)的缺陷

归纳起来,STL的string类主要有以下这些争议点:

  • 接口过多且规格和其他STL容器没有达成很好的一致性。例如,string::find使用下标,而不是以iterator作为迭代位置,这和其他容器不太一样。
  • 内存碎片。由于过于频繁的字符串构造、析构,导致系统的内存碎片现象严重。
  • Copy-On-Write与多线程安全。string(basic_string)基于Copy-On-Write技术的原因,是因为 string的赋值被设计成为低开销的。但是一旦考虑到多线程安全问题,Copy-On-Write会把大量的时间花在锁的开销上。一些新的STL实现 (如SGI STL)放弃了基于Copy-On-Write的string实现。

盘点StdExt的字符串类:String/StringBuilder/TextPool/Rope

为什么我们需要这么多的字符串类?一个原因:字符串处理的应用环境很复杂,需要因地制宜,指望一个string类行遍天下是不可能的。

从支持的串的规模来讲,String/StringBuilder重点解决小字符串的问题(特别是StringBuilder,在大字符串情形下,一定会有性能瓶颈)。而TextPool, Rope重点解决巨型字符串的问题。

从实现上来讲,String/StringBuilder是线性内存的。而TextPool, Rope的字符串并不物理连续,它们是逻辑字符串。

从支持的操作来讲,String是常字符串;StringBuilder/TextPool主要支持改写(set)、添加(append)操作,但不推荐插入(insert)操作,从伸缩性来讲,TextPool好要好于StringBuilder;而Rope的操作侧重点在于优化字符串级的复杂操作,如取子字符串、插入、删除等,但是单个字符的修改和获取代价略高(相比于String/StringBuilder/TextPool)。

后文我们将展开来介绍这些组件。

分享到:
评论

相关推荐

    c# 与C++ 类之间的转化

    - 当 C++ 使用 `LPSTR` 指向一个字符串时,在 C# 中可以将其视为 `string` 类型。 - **C++:** `LPWSTR (wchar_t*)` **-> C#:** `System.String` - 对于宽字符字符串,同样可以将其转换为 C# 中的 `string`。 - *...

    Windows API 获取路径

    StringBuilder sbPath = new StringBuilder(); SHGetFolderPath(IntPtr.Zero, 25, IntPtr.Zero, 0, sbPath); string path = sbPath.ToString(); nFolder 的取值可以是以下一些值: * 0:桌面 * 2:“开始”菜单/...

    03 C#与C++dll互相传递字符串.rar

    C#中的字符串类型为`string`,但在P/Invoke中,它需要映射为`StringBuilder`类型,因为C#会处理字符串的内存管理。C#代码如下: ```csharp [DllImport("MyCppDll.dll", CallingConvention = CallingConvention....

    java三种字符串处理差别

    根据不同的应用场景和需求,Java提供了多种处理字符串的方式,其中最为常见且重要的三种方式分别为:`String`(字符串常量)、`StringBuffer`(线程安全的字符串变量)以及`StringBuilder`(非线程安全的字符串变量...

    Java 20160120练习

    ### Java 20160120练习知识点解析 #### 选择题解析 ...匹配的是:** - **答案:** A 和 B。...以上解析涵盖了练习题中的所有知识点,包括正则表达式的使用、字符串的处理、对象比较、垃圾回收机制等。

    JAVA面试题大全

    5. **字符串处理:** - **String类:** 不可变的字符序列,适用于大量字符串操作但不需要改变的情况下使用。 - **StringBuilder/StringBuffer:** 可变的字符序列,适合频繁修改字符串内容的场景。 - **区别:** ...

    汇总c#.net常用函数和方法集.txt

    根据提供的文件信息,我们可以整理出一系列关于C# ...无论是处理日期时间、进行类型转换还是字符串操作,这些知识点都是不可或缺的基础知识。在实际项目中灵活运用这些方法可以大大提升开发效率,并减少不必要的错误。

    C#字符串处理的所有函数

    C#提供了丰富的字符串处理函数,使得开发者可以方便地操作和处理字符串。本篇笔记将详细介绍C#中涉及字符串的各种函数,帮助你全面掌握字符串处理的技巧。 1. **字符串创建与初始化** 在C#中,字符串是不可变的...

    关于字符串相等的比较

    ### 关于字符串相等的比较 #### 概述 在计算机编程中,字符串是比较常见的数据类型之一,用于处理文本信息。对于字符串的比较是编程语言中最基础也是最常用的操作之一。本文将详细介绍如何进行字符串比较,并探讨...

    java面试题(较全面)

    - **String:** 不可变字符串,适合频繁修改的情况使用`StringBuilder`或`StringBuffer`。 - **StringBuilder vs StringBuffer:** - **StringBuilder:** 非线程安全,效率较高。 - **StringBuffer:** 线程安全,...

    Visual C#常用函数和方法集汇总

    以上总结了 Visual C# 中常用的函数和方法,包括日期时间处理、类型转换、字符串操作、网络编程、Session 管理以及 XML 文档操作等方面。这些方法和技术对于开发基于 C# 的应用程序非常有用,能够帮助开发者更高效地...

    c#调用VC编写的DLL 涉及到字符串 字符串数组用法

    首先,我们需要了解C#和C++之间处理字符串和数组的不同。C#中的字符串是基于.NET Framework的`System.String`类,它是不可变的,而C++中字符串通常是以字符数组(char*或wchar_t*)的形式存在。在传递字符串时,我们...

    字符串的逆序:输入为字符串,输出为字符串的逆序

    3. **调试与测试**:在开发过程中,逆序操作可以用于快速检查字符串处理函数的正确性。 4. **算法设计**:在某些算法(如回文判断)中,逆序字符串的比较是核心步骤。 总结,字符串逆序是一个基础但重要的编程技巧...

    OCA Java SE 7 Programmer I Certification Guide

    - 字符串处理(String 和 StringBuilder 类) - 数组操作 - 集合框架(List、Set、Map 等) #### 三、Java 数据类型及操作 - **原始数据类型:** - 整型(byte、short、int、long) - 浮点型(float、double)...

    String、StringBuffer、StringBuilder的使用方法

    在Java编程语言中,`String`、`StringBuffer`和`StringBuilder`是处理字符串的三个重要类,它们各自有特定的使用场景和优缺点。理解它们的差异对于编写高效的代码至关重要。 **String类** `String`是不可变的类,...

    c#.net常用函数和方法集

    - `string replaced = str.Replace("旧字符串", "新字符串");` - 使用`Replace()`方法可以在字符串中替换指定的子串。 以上就是从标题和描述中提取出的一些C# .NET中的常用函数和方法的详细知识点。这些函数和...

    java 面试题 答案

    题目考察了Java中字符串处理的相关概念。 **选项分析:** - **A. StringBuffer 和 StringBuilder** 正确。`StringBuffer`是线程安全的,而`StringBuilder`不是。 - **B. String 和 StringBuffer** 正确。`String`...

    2016年最新java面试题及答案,使用于初级java程序员的面试

    可以通过调用 `String` 对象的 `toCharArray()` 方法将字符串转换为字符数组。 **示例代码:** ```java String str = "Hello"; char[] chars = str.toCharArray(); ``` #### 七、线程安全的概念 **知识点解析:**...

    第05讲 字符串.ppt

    这些是Java中处理字符串的基本知识,理解和熟练运用这些概念对于编写高效的代码至关重要。在实际编程中,字符串操作是常见的任务,因此对字符串的理解和应用能力是每个程序员都需要掌握的基础技能。

Global site tag (gtag.js) - Google Analytics