论坛首页 综合技术论坛

对动静态语言的语义思考,再兼谈点其它的

浏览 20493 次
该帖已经被评为良好帖
作者 正文
   发表时间:2006-11-24  
在参与这个讨论http://www.iteye.com/topic/33971后,这段时间对这个话题有了一些新的思考,写下来和大家分享分享。

重点探讨一下动静态编程语言的语义,兼带些DSL及通用语言,以及新手上手难易问题。

编程语言的语义,在论坛里讨论不多。在这里先分析一下几门主流静态语言,C,C++,Java,C#的语义。这些语言从编程风格角度讲,都称之为”imperative programming language”,(命令式的编程语言)。究其原因,这些语言都是对计算机的核心部件,CPU及内存,施发号令的。

int a = 4 ;
int b = 4 + a;
int c = 5.2345;


第一句,具体语义是,在内存里分配一块内存,大小为4 bytes,在这块内存里,写入4。第二句,具体语义是,在内存里分配一块内存,大小为4 bytes,从a中取值,和4进行加法运算,结果写入b指向的4 bytes内存。第三句就是个潜在的错误,等号右边是个8 bytes的double,把8 bytes的数据写到4 bytes的内存块里去,数据会损失的。

要把这些静态语言内存分配的经验照搬来理解动态语言,完全是搞错了方向。看看下面一段javascript代码:
var a = 5;
alert(a);
var a = "foobar";
alert(a);


这是一段完全合法可以正确运行的javascript程序,然而对于只编过静态语言而且对静态语言的语义很了解的人,却很难理解。变量a,明显不是指向根据类型分配出来一块大小固定的内存块。

如何理解这一段代码的语义?

Revised Report on the Algorithmic Language Scheme一文里有这么一段:

引用

Scheme has latent as opposed to manifest types. Types are associated with values also (also call objects) rather than with variables. (Some authors refer to languages with latent types as weakly typed or dynamically typed languages. Other languages with latent types are APL, Snobol, and other dialects of Lisp. Languages with manifest types (sometimes referred to as strongly typed or statically typed language) include Algol 60, Pascal, and C.


Paul Graham在其“What Made Lisp Different”一文中这么说:

引用

A new concept of variables. In Lisp, all variables are effectively pointers. Values are what have types, not variables, and assigning or binding variables means copying pointers, not what they point to.


这两段合在一起,可以正确理解动态语言的语义。

静态,变量实际是分配的内存块,大小固定。



动态,变量实际是个指针,可指向内存任何一块。
[img]http://bigpanda.iteye.com/upload/picture/pic/1194/d5f5ae66-8f87-4872-be13-9542a7c5ab8a.jpg [/img]

(当然是运行的不同时期指向不同的内存块)

看看下面几句:

JavaScript:   var a = 5;  
ML: val a = 5;
Scheme: (define a 5)


这些语句应该理解为, (等号右边)表达式evaluate出来一个值,这个值绑定到变量a里面去。用来描述上述代码语义的正确的词是binding。

看看下面ML语言解释器对ML代码的解释:
Moscow ML version 2.01 (January 2004)
Enter `quit();' to quit.
- a;
! Toplevel input:
! a;
! ^
! Unbound value identifier: a
- val a = 5;
> val a = 5 : int
- a;
> val it = 5 : int
- val a = "foobar";
> val a = "foobar" : string
- a;
> val it = "foobar" : string

注意第七行的提示。

第十行,第十四行光打入a,也是个表达式,evaluate出来的值,绑定给省缺变量it。

看看下面Scheme语言解释器对Scheme代码的解释:

> a
; Unbound variable: a

> (define a 5)
; Value: a

> a
; Value: 5

注意第二行的提示。

一定要分清动态语言的变量绑定和静态语言的变量赋值的区别。变量是一个数学上的概念,在静态语言中,叫变量其实不合适,还不如直接叫a memory box,更能清楚地说明其本质。

对于静态语言,弱类型是致命伤,因为在声明变量的时候,内存块已经分配好了,往这个内存块里写一块内存块存储不下的数据,带来的伤害是致命的。对于动态语言,强弱类型未必重要。

在C/C++/Java/C#里面,内存是可以分配到Stack里面,也可以分配到Heap里面, 程序员一定要搞清楚区别, 像在C里:

  int a = 5;
  int b[] = { 1, 2, 3, 4}
  int* ptr = (int*)malloc(10*sizeof(int));


a 和 b 所分配的内存都在stack里,c 指向heap里的一块,退出前不把c 给free掉,就会遗漏内存。给function传值的时候,更要小心,传a是把5这个值给传过去,传b是传b这个array第一个元素的地址。

到了C++,更加繁琐,因为C++的 Object是可以分配在stack上的,随便写几句代码,都会用到assignment operator = , address-of operator &, copy constructor.

const ClassFoo e1;    // default constructor, destructor later
ClassFoo e2(e1);          // copy constructor
e2 = e1;                     // assignment operator
ClassFoo *pe2 = &e2;   // address-of operator (non-const)
const ClassFoo *pe1 = &e1;   // address-of operator (const)


C++编译器自动生成这些函数,有时不符合需要就要自己手写。

Java里面所有的object allocation, 都是分配在Heap里的,光这一点,就大大减轻了编程的繁琐度。从Java转向C++的朋友,一定要记住这一点。C++的 Object是可以分配在stack上的。

Java里面的primitive变量是分配在Stack上的,其实如果废除这八个primitive types,全部用Object reference,动静态语言的差别已经不那么大了。Type inference在C# 3里面,已经开始实现了:

var str = "Hello world!";
var num = 42;
var v = new TypeWithLongName<AndWithTypeParameter>();


欧美计算机专业的第一门语言,一般是ML或Scheme。这些语言,做到了程序员不用思考内存是分配在stack上还是heap上,内存回收由GC管,因而可以集中精力,学习算法,递归等等。

用编程来解决问题,需要三方面的技能:1. 对编程语言,语义及运行环境的掌握,2.  对解决问题的算法的掌握,3. 拥有写出结构清晰,简洁易懂的代码的能力。

第一点和第二点经常交汇在一起,因为语言,经常是为了解决某个领域的问题而设计的,解决算法,递归之类的问题,用functional programming language,操作系统,应该用C,web领域之PHP,科学计算之Matlab,试验仪器控制之labview,关系数据库之SQL,莫不如此。

那么什么算是通用语言,什么算是DSL?通用不通用是相对的。C是一门通用语言,但也可以说是操作系统的DSL。从某种角度来说,能够全面控制计算机的,才叫通用语言,那么只有汇编才符合这个条件,C和C++勉强算得上。

新手上路,该学什么?应该从某个领域学起,学习解决那个领域问题需要的方法,而且学习那个领域的DSL。这样成效出的最快,而且不受干扰。

现在学校里教学静态语言占主流,有历史原因。以前计算机不够快,用C编程是唯一的选择。现在对运行效率要求很高的领域,还得用C,C++。但是在很多领域,这已经不是个问题了。由于历史的惯性,静态语言还在继续教。学校老师学新知识的动力,可不大。这些老师教出的学生,只会静态语言,那么公司为了保证人手充足,也会倾向静态语言。这种状况,慢慢会打破。

Reference:

[1] Revised Report on the Algorithmic Language Scheme 可以在这里找到:http://www.schemers.org/Documents/Standards/R5RS/r5rs.pdf
[2] Paul Graham的文章,What Made Lisp Different,http://www.paulgraham.com/diff.html

[3] 一篇介绍C# 3的很好的文章 http://www.codeproject.com/useritems/csharp3-concepts.asp

   发表时间:2006-11-24  
ML那个例子有点不妥。ML是静态类型语言,val a = 5 这样的不是引用而是值,ML限制side effect,所以在代码里一次赋值以后不能再更改了。但是在交互模式(toplevel)下为了调试方便允许重复声明。mutable的变量得声明成这样:val a = ref 5 这时a才是个引用。
0 请登录后投票
   发表时间:2006-11-24  
从这个角度理解动态语言角度挺特别,看后感觉很清晰。
0 请登录后投票
   发表时间:2006-11-24  
hurricane1026 写道

学校教育在计算机业面临全新的挑战,更确切的说是中国队 学校教育。老师们知识结构大幅度落伍,很少有人有心思好好教学生,都忙着混日子,养孩子,挣票子。大学生编程入门就是应该从lisp之类的开始。

大学生编程入门就是应该从lisp之类的开始?只是一家之言吧.
对我而言,当初大一第二学期的C语言的学习给了我很大的帮助,用C语言写了一些最简单的程序,这对后来学java或其他语言起很大的作用.
0 请登录后投票
   发表时间:2006-11-24  
是不是说静态类型语言由于是静态类型的,所以可以做到更好的效率优化。动态语言由于是动态的,使用者无需关心静态语言背后的内存分配之流的计算机机器语意,所以可以更关注要解决的问题本身?
0 请登录后投票
   发表时间:2006-11-24  
关于静态动态,强类型和弱类型,推荐看看:Dave Into Python一书:
摘要如下:

静态类型定义语言
一种在编译期间数据类型固定的语言。大多数静态类型定义语言是通过要求在使用所有变量之前声明它们的数据类型来保证这一点的。 Java 和 C 是静态类型定义语言。

动态类型定义语言
一种在运行期间才去确定数据类型的语言, 与静态类型定义相反。 VBScript 和 Python 是动态类型定义的, 因为它们确定一个变量的类型是在您第一次给它赋值的时候。

强类型定义语言
一种总是强制类型定义的语言。 Java 和 Python 是强制类型定义的。您有一个整数, 如果不明确地进行转换 , 不能将把它当成一个字符串。

弱类型定义语言
一种类型可以被忽略的语言, 与强类型定义相反。 VBScript 是弱类型定义的。在 VBScript 中, 您可以将字符串 '12' 和整数 3 进行连接得到字符串'123', 然后可以把它看成整数 123 , 所有这些都不需要任何的显示转换。

0 请登录后投票
   发表时间:2006-11-24  
另外,关于楼主所说的,其实在Learning Pyton,第4.6节:The Dynamic Typing Interlude一节讲的就是这个。不过楼主的解释非常清楚。
0 请登录后投票
   发表时间:2006-11-24  
lighter 写道
hurricane1026 写道

学校教育在计算机业面临全新的挑战,更确切的说是中国队 学校教育。老师们知识结构大幅度落伍,很少有人有心思好好教学生,都忙着混日子,养孩子,挣票子。大学生编程入门就是应该从lisp之类的开始。

大学生编程入门就是应该从lisp之类的开始?只是一家之言吧.
对我而言,当初大一第二学期的C语言的学习给了我很大的帮助,用C语言写了一些最简单的程序,这对后来学java或其他语言起很大的作用.



所以说我们都在写java,而不是别的什么。
0 请登录后投票
   发表时间:2006-11-24  
moniker 写道
关于静态动态,强类型和弱类型,推荐看看:Dave Into Python一书:
摘要如下:

静态类型定义语言
一种在编译期间数据类型固定的语言。大多数静态类型定义语言是通过要求在使用所有变量之前声明它们的数据类型来保证这一点的。 Java 和 C 是静态类型定义语言。

动态类型定义语言
一种在运行期间才去确定数据类型的语言, 与静态类型定义相反。 VBScript 和 Python 是动态类型定义的, 因为它们确定一个变量的类型是在您第一次给它赋值的时候。

强类型定义语言
一种总是强制类型定义的语言。 Java 和 Python 是强制类型定义的。您有一个整数, 如果不明确地进行转换 , 不能将把它当成一个字符串。

弱类型定义语言
一种类型可以被忽略的语言, 与强类型定义相反。 VBScript 是弱类型定义的。在 VBScript 中, 您可以将字符串 '12' 和整数 3 进行连接得到字符串'123', 然后可以把它看成整数 123 , 所有这些都不需要任何的显示转换。




终于揭掉了我头顶的薄纱。那么就是静态类型语言为了保证能够在编译期间知道数据类型,就的采用强类型了。至于动态类型语言,强弱类型都无所谓。对否?非科班出身,见笑见笑..
0 请登录后投票
   发表时间:2006-11-25  
看到buaawhl写的,自问自答了.

如果类型是必须声明的,可读性倒是有一点优势,因为一眼可以看到这个变量的类型。
不过有些静态语言采用type inference,不需要声明。和动态类型语言一样,使用富有含义的名字,表示变量的意义。
0 请登录后投票
论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics