`

深入下Ruby中的String

阅读更多
    Ruby语言中的String是mutable的,不像java、C#中的String是immutable的。比如
       str1="abc"
       str2="abc"
在java中,对于字面量的字符串,jvm内部维持一张表,因此如果在java中,str1和str2是同一个String对象。而在Ruby中, str1和str2是完全不同的对象。同样,在java中对于String对象的操作都将产生一个新的对象,而Ruby则是操纵同一个对象,比如:
       str="abc"
       str.concat("cdf")
此时str就是"abccdf"。Ruby对String是怎么处理的呢?我们只谈谈c ruby中的实现,有兴趣的先看看这篇文章《管窥Ruby——对象基础》。在ruby.h中我们可以看到String对象的结构,Ruby中的对象(包括类也是对象)都是一个一个的struct,String也不能例外:
struct RString {
    struct RBasic basic;
    long len;
    char *ptr;
    union {
      long capa;
      VALUE shared;
    } aux;
};
//ruby.h

    显然,len是String的长度;ptr是一个char类型的指针,指向实际的字符串;然后是一个联合,这个稍后再说。如果你看看ruby.h可以发 现,几乎所有定义的对象结构都有一个struct RBasic。显然,struct RBasic包含由所有对象结构体共享的一些重要信息的。看看RBasic:

struct RBasic {
 unsigned long flags;
 VALUE klass;
};
其中的flags是一个多用途的标记,大多数情况下用于记录结构体的类型,ruby.h中预定义了一些列的宏,比如T_STRING(表示struct RString),T_ARRAY(表示struct RArray)等。Klass是一个VALUE类型,VALUE也是unsigned long,可以地将它当成指针(一个指针4字节,绰绰有余了),它指向的是一个Ruby对象,这里以后再深入。
    那么联合aux中的capa和shared是干什么用的呢?因为Ruby的String是可变的,可变意味着len可以改变,我们需要每次都根据len的 变换来增减内存(使用c中的realloc()函数),这显然是一个很大的开销,解决办法就是预留一定的空间,ptr指向的内存大小略大于len,这样就 不需要频繁调用realloc了,aux.capa就是一个长度,包含额外的内存大小。那么aux.shared是干什么的呢?这是一个VALUE类型, 说明它是指向某个对象。aux.shared其实是用于加快字符串的创建速度,在一个循环中:
ruby 代码
 
  1. while true do  # 无限重复  
  2.   a = "str"        # 以“str”为内容创建字符串,赋值给a  
  3.   a.concat("ing")  # 为a所指向的对象添加“ing”  
  4.   p(a)             # 显示“string”  
  5. end  

每次都重新创建一个"str"对象,内部就是重复创建一个char[],这是相当奢侈,aux.shared就是用于共享char[],
以字面量创建的字符串会共享一个char[],当要发生变化时,将字符串复制到一个非共享的内存中,变化针对这
个新拷贝进行,这就是所谓的“copy-on-write"技术。解释了String的内部构造,貌似还没有介绍String是怎么
实现mutable,我们写一个Ruby扩展测试下,我们想写这样一个Ruby类:
ruby 代码
 
  1. class Test  
  2.   def test  
  3.     str="str"  
  4.     str.concat("ing")  
  5.    end  
  6. end  


对应的c语言代码就是:
cpp 代码
 
  1. #include<stdio.h>  
  2. #include "ruby.h"  
  3.   
  4. static VALUE t_test(VALUE self)  
  5. {  
  6.   VALUE str;  
  7.   str=rb_str_new2("str");  
  8.   printf("before concat: str:%p, str.aux.shared:%p, str.ptr:%s"n",str, 
  9.        (RSTRING(str)->aux).shared,RSTRING(str)->ptr); 
  10.   rb_str_cat2(str,"ing"); 
  11.   printf("after concat: str:%p, str.aux.shared:%p, str.ptr:%s"n",  
  12.        str,(RSTRING(str)->aux).shared,RSTRING(str)->ptr);  
  13.   return self;  
  14. }  
  15. VALUE cTest;  
  16. void Init_string_hack(){  
  17.   cTest=rb_define_class("Test",rb_cObject);  
  18.   rb_define_method(cTest,"test",t_test,0);  
  19.   
  20. }  
  21. //string_hack.c  

rb_define_class函数定义了一个类Test,rb_define_method将t_test方法以test的名称添加到Test类。在
t_test中,通过rb_str_new2每次生成一个RString结构,然后通过rb_str_cat2将str与"ing"连接起来,添加
了一些打印用于跟踪。利用mkmf产生Makefile,写一个extconf.rb
ruby 代码
 
  1. require 'mkmf'  
  2. create_makefile("string_hack");  

执行ruby extconf.rb,将产生一个Makefile,执行make,生成一个string_hack.so的链接库。扩展写完了,通过
ruby调用:
ruby 代码
 
  1. require 'string_hack"  
  2. t=Test.new  
  3. (1..3).each{|i| t.test}  

输出:
before concat: str:0x40098a40, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a40, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a2c, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a2c, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a18, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a18, str.aux.shared:0x8, str.ptr:string

从结果可以看出,在str concat之前之后,str指向的位置没有改变,改变的仅仅是str中ptr指向的字符串的值

,看看rb_str_cat2函数的实现就一目了然了:
cpp 代码
 
  1. VALUE rb_str_cat(str, ptr, len)  
  2.     VALUE str;  
  3.     const char *ptr;  
  4.     long len;  
  5. {  
  6.     if (len < 0) {  
  7.         rb_raise(rb_eArgError, "negative string size (or size too big)");  
  8.     }  
  9.     if (FL_TEST(str, STR_ASSOC)) {  
  10.         rb_str_modify(str);  
  11.         REALLOC_N(RSTRING(str)->ptr, char, RSTRING(str)->len+len);  
  12.         memcpy(RSTRING(str)->ptr + RSTRING(str)->len, ptr, len);  
  13.         RSTRING(str)->len += len;  
  14.         RSTRING(str)->ptr[RSTRING(str)->len] = '"0'; /* sentinel */  
  15.         return str;  
  16.     }  
  17.     return rb_str_buf_cat(str, ptr, len);  
  18. }  
  19. VALUE rb_str_cat2(str, ptr)  
  20.     VALUE str;  
  21.     const char *ptr;  
  22. {  
  23.     return rb_str_cat(str, ptr, strlen(ptr));  
  24. }  
  25. //string.c  

分享到:
评论

相关推荐

    深入体会Ruby的String类型有哪些强项

    Ruby 语言中的 String 类型是其的一大亮点,与 Java 和 C# 相比,具有显著的差异和优势。Ruby 的 String 是 mutable,这意味着它可以在创建后进行修改,而不像 Java 和 C# 中的 String,一旦创建就是 immutable,...

    符号的优雅:深入探索Ruby中的Symbol

    ### 符号的优雅:深入探索 Ruby 中的 Symbol #### 引言 在 Ruby 这门优雅且功能强大的编程语言中,符号(Symbol)占据着举足轻重的地位。符号不仅是 Ruby 性能优化的关键组成部分,也是理解 Ruby 核心特性的窗口之...

    Ruby语言中的String深入理解

    Ruby语言中的String是mutable的,不像java、C#中的String是immutable的。比如 代码如下: str1=”abc” str2=”abc” 在java中,对于字面量的字符串,jvm内部维持一张表,因此如果在java中,str1和str2是同一个String...

    ruby中文手册 chm

    这部分通常是对Ruby内置类库、方法、语法的详细参考,涵盖了标准库的所有模块和类,比如Array、Hash、String等。它提供了每个方法的用法、参数和返回值,是开发者在编写代码时查找特定功能或方法的重要资源。 3. *...

    Ruby入门教程中文PDF 附实例

    本教程针对初学者,旨在帮助读者快速掌握Ruby的基础知识,并通过实例深入理解其用法。 首先,Ruby的基本语法是它的一大亮点。Ruby允许开发者以更自然的方式编写代码,这得益于它的语法接近于英语。例如,变量的声明...

    ruby中文教程(源代码)

    通过深入学习这个Ruby中文教程,你将能够掌握这门语言的基本概念和核心机制,为进一步学习Ruby on Rails或其他Ruby相关的技术打下坚实的基础。同时,实践源代码将使理论知识更加生动和实用,助你在编程世界中...

    ruby语法基础教程及Ruby教程中文版和安装文件

    本教程将深入探讨Ruby的基础语法,并介绍如何下载、安装Ruby,以及使用Ruby教程中文版进行学习。 首先,让我们从Ruby的基础语法开始。Ruby支持多种数据类型,包括整数(Integer)、浮点数(Float)、字符串(String...

    Ruby-Stringex一些实用的Ruby字符串扩展类

    如果你在项目中使用了Ruby,那么添加Stringex作为依赖可以极大地提升你的字符串处理能力。通过阅读源码,你可以更深入地理解其实现原理,甚至可以根据自己的需求扩展它的功能。 总之,Stringex是Ruby开发者的一个...

    Ruby-一个Ruby的例子

    例如,当你在Ruby中写下"hello",它实际上是一个String对象,你可以调用方法在它上面操作,如`"hello".upcase`会返回"HELLO"。 其次,Ruby的动态性允许你在运行时改变程序的行为。这意味着你可以自由地添加方法到类...

    ruby-2.6.3源码压缩包

    2. **安全的字符串连接操作**:Ruby 2.6引入了`String#%w[]`和`String#%W[]`的升级版,`String#%和`String#%&gt;`, 这使得字符串连接更加安全,减少了潜在的代码注入风险。 3. **改进的模块混合(Mixins)行为**:Ruby...

    ruby官方chm文档

    Ruby标准库提供了大量预先定义的模块和类,方便开发者在各种场景下快速开发。其中包括文件操作、网络通信、XML解析、日期和时间处理、数学运算等功能。例如,`File`类用于处理文件和目录,`Net::HTTP`用于HTTP通信,...

    Ruby编程Ruby Programming

    根据提供的文件信息,我们将深入探讨与“Ruby编程Ruby Programming”这一主题相关的几个核心知识点。这本面向初学者和高级读者的指南旨在全面介绍Ruby编程语言的基础及其高级特性,因此我们将从多个角度来解析这些...

    Ruby语言中文教程

    通过这个"Ruby语言中文教程",你将深入理解Ruby的基本概念和高级特性,并能逐步掌握编写Ruby程序的技能。无论你是新手还是有一定经验的开发者,都可以从中受益,进一步提升你的编程能力。这个教程包含源代码,让你有...

    Ruby-Ruby库和CLI命令可视化终端中的各种Unicode和ASCII编码

    本篇文章将深入探讨如何利用Ruby库和CLI命令在可视化终端中有效地显示和操作这些编码。 Ruby库如`charlock_holmes`和`jcode`为处理多语言字符集提供了强大的支持。`charlock_holmes`是一个混合字符编码检测器,它...

    learning-ruby.

    1. **变量和数据类型**:Ruby支持多种数据类型,包括整型(Integer)、浮点型(Float)、字符串(String)、布尔型(Boolean)以及符号(Symbol)。此外,Ruby还有数组(Array)和哈希(Hash)等复合数据类型。 2. ...

    Ruby - Ruby for Rails

    - **对象概念**:深入理解 Ruby 中的对象概念,包括对象的身份、状态和行为。 - **变量类型**:介绍 Ruby 中不同类型的变量,如局部变量、实例变量、类变量等。 - **变量作用域**:讲解变量的作用域规则,包括局部...

    ruby使用json库

    默认情况下,Ruby的JSON库不会自动处理Date或Time对象,它们会被转换为字符串。如果你想保持日期和时间的原始类型,可以自定义JSON生成器,或者使用`as_json`方法来定义如何转换这些对象。 4. **安全解析**: ...

    ruby实用函数和实例

    在这个主题下,我们将深入探讨Ruby的一些关键函数和实例,以及如何在实际编程中应用它们。 首先,我们关注的是"使用Ruby语言实现自动测试与数据采集.pdf"这个文件。自动测试是软件开发过程中的重要环节,它确保代码...

Global site tag (gtag.js) - Google Analytics