`

【转】动静态语言的语义思考

阅读更多
动静态语言的语义思考     作者:    bigpanda

在参与这个讨论http://www.iteye.com/topic/33971 后,这段时间对这个话题有了一些新的思考,写下来和大家分享分享。

重点探讨一下动静态编程语言的语义,兼带些DSL及通用语言,以及新手上手难易问题。

编程语言的语义,在论坛里讨论不多。在这里先分析一下几门主流静态语言,C,C++,Java,C#的语义。这些语言从编程风格角度讲,都称之为”imperative programming language”,(命令式的编程语言)。究其原因,这些语言都是对计算机的核心部件,CPU及内存,施发号令的。

 

代码
  1. int  a =  4  ;   
  2. int  b =  4  + a;   
  3. int  c =  5.2345 ;   
<script>render_code();</script>

 

第一句,具体语义是,在内存里分配一块内存,大小为4 bytes,在这块内存里,写入4。第二句,具体语义是,在内存里分配一块内存,大小为4 bytes,从a中取值,和4进行加法运算,结果写入b指向的4 bytes内存。第三句就是个潜在的错误,等号右边是个8 bytes的double,把8 bytes的数据写到4 bytes的内存块里去,数据会损失的。

要把这些静态语言内存分配的经验照搬来理解动态语言,完全是搞错了方向。看看下面一段javascript代码:

代码
  1. var a =  5 ;   
  2. alert(a);   
  3. var a =  "foobar" ;   
  4. alert(a);   
<script>render_code();</script>

 

这是一段完全合法可以正确运行的javascript程序,然而对于只编过静态语言而且对静态语言的语义很了解的人,却很难理解。变量a,明显不是指向根据类型分配出来一块大小固定的内存块。

如何理解这一段代码的语义?

Revised Report on the Algorithmic Language Scheme一文里有这么一段:

 

引用

Scheme has latent as opposed to manifest types. Types are associated with values also (also call objects) rather than with variables. (Some authors refer to languages with latent types as weakly typed or dynamically typed languages. Other languages with latent types are APL, Snobol, and other dialects of Lisp. Languages with manifest types (sometimes referred to as strongly typed or statically typed language) include Algol 60, Pascal, and C.

 

Paul Graham在其“What Made Lisp Different”一文中这么说:

 

引用

A new concept of variables. In Lisp, all variables are effectively pointers. Values are what have types, not variables, and assigning or binding variables means copying pointers, not what they point to.

 

这两段合在一起,可以正确理解动态语言的语义。

静态,变量实际是分配的内存块,大小固定。

动态,变量实际是个指针,可指向内存任何一块。

(当然是运行的不同时期指向不同的内存块)

看看下面几句:

 

代码
  1. JavaScript:   var a =  5 ;     
  2. ML: val a =  5 ;   
  3. Scheme: (define a  5 )   
<script>render_code();</script>

 

这些语句应该理解为, (等号右边)表达式evaluate出来一个值,这个值绑定到变量a里面去。用来描述上述代码语义的正确的词是binding。

看看下面ML语言解释器对ML代码的解释:

代码
  1. Moscow ML version  2.01  (January  2004 )   
  2. Enter `quit();' to quit.   
  3. - a;   
  4. ! Toplevel input:   
  5. ! a;   
  6. ! ^   
  7. ! Unbound value identifier: a   
  8. - val a =  5 ;   
  9. > val a =  5  :  int   
  10. - a;   
  11. > val it =  5  :  int   
  12. - val a =  "foobar" ;   
  13. > val a =  "foobar"  : string   
  14. - a;   
  15. > val it =  "foobar"  : string   
<script>render_code();</script>
注意第七行的提示。

 

第十行,第十四行光打入a,也是个表达式,evaluate出来的值,绑定给省缺变量it。

看看下面Scheme语言解释器对Scheme代码的解释:

 

代码
  1. > a   
  2. ; Unbound variable: a   
  3.   
  4. > (define a  5 )   
  5. ; Value: a   
  6.   
  7. > a   
  8. ; Value:  5   
<script>render_code();</script>
注意第二行的提示。

 

一定要分清动态语言的变量绑定和静态语言的变量赋值的区别。变量是一个数学上的概念,在静态语言中,叫变量其实不合适,还不如直接叫a memory box,更能清楚地说明其本质。

对于静态语言,弱类型是致命伤,因为在声明变量的时候,内存块已经分配好了,往这个内存块里写一块内存块存储不下的数据,带来的伤害是致命的。对于动态语言,强弱类型未必重要。

在C/C++/Java/C#里面,内存是可以分配到Stack里面,也可以分配到Heap里面, 程序员一定要搞清楚区别, 像在C里:

 

代码
  1. int  a =  5 ;   
  2. int  b[] = {  1 2 3 4 }   
  3. int * ptr = ( int *)malloc( 10 *sizeof( int ));   
<script>render_code();</script>

 

a 和 b 所分配的内存都在stack里,c 指向heap里的一块,退出前不把c 给free掉,就会遗漏内存。给function传值的时候,更要小心,传a是把5这个值给传过去,传b是传b这个array第一个元素的地址。

到了C++,更加繁琐,因为C++的 Object是可以分配在stack上的,随便写几句代码,都会用到assignment operator = , address-of operator &, copy constructor.

 

代码
  1. const  ClassFoo e1;     // default constructor, destructor later   
  2. ClassFoo e2(e1);           // copy constructor   
  3. e2 = e1;                      // assignment operator   
  4. ClassFoo *pe2 = &e2;    // address-of operator (non-const)   
  5. const  ClassFoo *pe1 = &e1;    // address-of operator (const)   
<script>render_code();</script>

 

C++编译器自动生成这些函数,有时不符合需要就要自己手写。

Java里面所有的object allocation, 都是分配在Heap里的,光这一点,就大大减轻了编程的繁琐度。从Java转向C++的朋友,一定要记住这一点。C++的 Object是可以分配在stack上的。

Java里面的primitive变量是分配在Stack上的,其实如果废除这八个primitive types,全部用Object reference,动静态语言的差别已经不那么大了。Type inference在C# 3里面,已经开始实现了:

 

代码
  1. var str =  "Hello world!" ;   
  2. var num =  42 ;   
  3. var v =  new  TypeWithLongName<andwithtypeparameter></andwithtypeparameter>();   
<script>render_code();</script>

 

欧美计算机专业的第一门语言,一般是ML或Scheme。这些语言,做到了程序员不用思考内存是分配在stack上还是heap上,内存回收由GC管,因而可以集中精力,学习算法,递归等等。

用编程来解决问题,需要三方面的技能:1. 对编程语言,语义及运行环境的掌握,2. 对解决问题的算法的掌握,3. 拥有写出结构清晰,简洁易懂的代码的能力。

第一点和第二点经常交汇在一起,因为语言,经常是为了解决某个领域的问题而设计的,解决算法,递归之类的问题,用functional programming language,操作系统,应该用C,web领域之PHP,科学计算之Matlab,试验仪器控制之labview,关系数据库之SQL,莫不如此。

那么什么算是通用语言,什么算是DSL?通用不通用是相对的。C是一门通用语言,但也可以说是操作系统的DSL。从某种角度来说,能够全面控制计算机的,才叫通用语言,那么只有汇编才符合这个条件,C和C++勉强算得上。

新手上路,该学什么?应该从某个领域学起,学习解决那个领域问题需要的方法,而且学习那个领域的DSL。这样成效出的最快,而且不受干扰。

现在学校里教学静态语言占主流,有历史原因。以前计算机不够快,用C编程是唯一的选择。现在对运行效率要求很高的领域,还得用C,C++。但是在很多领域,这已经不是个问题了。由于历史的惯性,静态语言还在继续教。学校老师学新知识的动力,可不大。这些老师教出的学生,只会静态语言,那么公司为了保证人手充足,也会倾向静态语言。这种状况,慢慢会打破。

 

静态类型定义语言
一种在编译期间数据类型固定的语言。大多数静态类型定义语言是通过要求在使用所有变量之前声明它们的数据类型来保证这一点的。 Java 和 C 是静态类型定义语言。

动态类型定义语言
一种在运行期间才去确定数据类型的语言, 与静态类型定义相反。 VBScript 和 Python 是动态类型定义的, 因为它们确定一个变量的类型是在您第一次给它赋值的时候。

强类型定义语言
一种总是强制类型定义的语言。 Java 和 Python 是强制类型定义的。您有一个整数, 如果不明确地进行转换 , 不能将把它当成一个字符串。

弱类型定义语言
一种类型可以被忽略的语言, 与强类型定义相反。 VBScript 是弱类型定义的。在 VBScript 中, 您可以将字符串 '12' 和整数 3 进行连接得到字符串'123', 然后可以把它看成整数 123 , 所有这些都不需要任何的显示转换。

分享到:
评论

相关推荐

    南京理工大学程序设计与形式语义学课件

    形式语义学则是研究程序语言意义的数学理论,它为程序的正确性和验证提供严谨的框架。在这一部分,你可能将学习到: 1. **语义模型**:如直译模型、操作语义、逻辑语义等,它们提供了表达程序行为的不同方式。 2. ...

    无限的循环往复

    【无限的循环往复】这一主题探讨的是动态海报设计中运用无限循环的视觉设计语言,以增强作品的辨识度和视觉冲击力。动态海报设计是信息时代设计产业的重要组成部分,它结合了图像运动原理、计算机程序计算以及艺术...

    迎接自然语言处理新时代-来源_中国计算机学会通讯.pdf

    再者,语言的比喻性表明我们的思考和表达往往依赖于比喻。乔治·雷可夫的研究指出,我们的概念系统很大程度上建立在比喻基础上,这增加了自然语言处理的复杂性,因为计算机需要理解隐喻和象征性的表达。 此外,语言...

    AI科技大本营知识图谱公开课-达观桂洪冠.pdf

    知识图谱的一个典型应用是消除自然语言和深度学习之间的语义鸿沟,通过知识图谱中的概念可以帮助理解自然语言。例如,问题“上海有多少人口?”和“上海的人口是多少?”实质上是在询问同一个问题,知识图谱能够帮助...

    程序设计语言原理与实践第二版 原书课件

    学习静态类型语言和动态类型语言之间的差异,以及类型检查的过程,是编程实践中的重要部分。数据结构和算法在很大程度上与类型系统息息相关,理解类型系统有助于我们更好地运用这些基础构建块。 控制结构和流程控制...

    C#编程多年的学习思考

    1. **编译原理**:包括语法、词法和语义分析等步骤,最终生成中间语言(IL)代码。 2. **链接**:链接阶段涉及将编译好的代码与其他库或代码连接起来,形成最终可执行文件。 3. **运行**:运行阶段涉及加载和执行已...

    编程语言的类型系统Type Systems for Programming Languages

    模块化机制的批评和模块语言的设计反映了编程语言设计者对于模块化的思考和实现方式。 通过这些类型系统的概念和机制,程序员可以编写出更加可靠、易于维护和扩展的代码。类型系统的研究不仅对理论计算机科学有重要...

    1110-全国-语言学概论.docx

    2. 汉语的语序典范:汉语通常被认为是SVO(主-动-宾)型语言,但描述中提到的是SOV(主-宾-动)型语言,这是某些语言如日语、韩语的典型语序,而不是汉语。 3. 英语句子的语法意义:“John has written the book.”...

    龙书(编译原理)

    这些概念和方法不仅用于编译器的开发,还在解释器、静态代码分析工具、自动代码生成等领域有着广泛的应用。 在《龙书》中,作者们详细讲解了以下知识点: 1. **词法分析**:这是编译过程的第一步,也称为扫描。...

    web2.0时代的发展与思考[整理].pdf

    Web 2.0时代的发展与思考 随着互联网技术的飞速进步,Web 2.0的概念逐渐深入人心,它标志着互联网从信息传递向用户交互的转变。Web 2.0的核心理念是以人为本,强调用户的参与和创造,将互联网从单一的信息获取平台...

    《编译原理》清华第二版习题答案

    对于不同的目标平台,可能会使用不同的代码生成策略,例如静态单赋值形式(SSA)或三地址码。 在学习《编译原理》时,理解这些基本概念是关键。习题解答可以帮助我们巩固这些知识,通过解决实际问题来应用理论。...

    编译原理重点总结整理

    语义分析涉及检查源代码的语义正确性,而中间代码生成则是将高级语言转换为一种更接近机器码的形式。重点在于掌握类型检查、作用域分析、中间代码表示等技术。 ##### 第8章 符号表 尽管被视为非重点章节,但符号表...

    智能讨论系统中适应性认知多样性对讨论效果的影响.pdf

    与传统认知多样性不同,ACD不是静态的、预先设定的,而是随着讨论的进行,根据不同语义领域实时变化的差异。这种动态适应性有助于促进信息的多元化,激发更广泛的思考,从而可能提高讨论质量和知识建构。 在智能...

    MAC0316:来自IME-USP的MAC0316(编程语言概念)课程的课堂笔记

    通过MAC0316的课程,学生不仅可以掌握编程语言的基本原理,还能学会批判性思考和评估不同的编程工具和技术,这对于成为一名优秀的软件开发者至关重要。MAC0316-master这个文件名可能表示笔记的主干部分,包含了课程...

    h5小游戏,白鹭小游戏

    5. **白鹭引擎语法**:Egret使用TypeScript作为主要开发语言,TypeScript是JavaScript的超集,提供了静态类型检查和面向对象的编程特性。你需要学习如何使用TypeScript编写白鹭小游戏。 6. **游戏编程基础**:了解...

    电子游戏的叙事语法.docx

    电子游戏的叙事语法不仅吸收了语言学、语义学、语用学等领域的理论,还结合了电影、动画、戏剧等多种艺术形式的元素。游戏中的叙事往往通过视觉、听觉和交互性的结合来呈现,比如通过CG动画展现剧情关键时刻,通过...

    罗瑶光_DNA元基催化与肽计算第四版_第十章V005101

    具体重要功能展示中,可能会列举出德塔自然语言图灵系统的核心特性,比如自然语言理解、语义分析、机器翻译等。适用范围则指出了该系统可以在哪些领域或者应用场景下发挥作用,可能是科研、教育、智能助手或者大数据...

Global site tag (gtag.js) - Google Analytics