把 D 语言的语法规则改写成 ANTLR 的语法脚本后,大概有30多K,编译的时候,出了很多的错误,最后内存溢出了。想一想,也是,一来我对 ANTLR 还不熟,二来,Digit Mars 上的 D 语言语法介绍,很多左递归,有几个没有定义的过程,两个拼写错误,一个同名不同义的过程等等。在这种情况下,30多K的语法脚本想要很快的就编译通过,是很困难的。
所以,还是决定用 ANTLR 实现一下 Z 编译器。这一次,把 Z 作为 D 的一个子集,语法定义大部分直接从 D 的语法脚本中复制,一来可以熟悉 ANTLR,二来,完成的语法文件,对于 D 来说也是有用的。
作为 D 的子集,现在 Z 也支持一些 D 的风格的语法,比如三种注释方式:
// 行注释
/* 注释 */
/+ 嵌套注释 +/
另外,也支持 D 中的带有“_”的数字格式:
int a = 123_456_789;
这个版本中增加支持了 bool 类型:
bool b = true;
b = 30 > 10;
也支持 D 语言中的自动类型推导:
auto a = 1;
auto b = true;
if(b) write(a);
其它的一般都是 C 和 D 公有的,比如十六进制数字、八进制数字:
int a = 0x83_af; // 十六进制数字
int b = 067; // 八进制数字
连等赋值:
a = b = c = 2;
++、--、+=、-=、*=、/= (++、--只支持左操作符方式):
int n = 10;
int a *= ++n;
也增加了 for、while、do-while 循环:
// 1 到 100 的和
// for 循环
int n = 0;
for(int i=1; i<=100; ++i)
n += i;
write(n);
// while 循环
i = 0; n = 0;
while( i < 100 )
n += ++i;
write(n);
// do-while 循环
i = 0; n = 0;
do
n += ++i;
while( i < 100 )
write(n);
另外,因为语法文件大部分从 D 复制,所以,运算符优先级也和 C/D 一样了(就是上次说的“&&”的优先级高于“||”之类的问题)。负号现在也遵照这种方式放入表达式中,所以,不只没有上一版中必须加空格的问题,而且支持对变量求负:
int a = 10;
int b=5-3; // 5 - 3
b=5--3; // 5 - (-3);
b=7*-a; // 7 * (-a);
虽然可以在定义变量的时候使用逗号,但是普通表达式还不支持逗号方式。另外,Z 还是有一个和 D 比较大的不同,就是 bool 类型和 int 类型之间不允许互相转换,否则会引发编译时错误,而 if for while do-while 的条件表达式也必须最终为 bool 类型才可以:
int n = 1;
bool a = n == 0;
a = a && n > 10 || n != 3;
bool b = n; // error
if(b) write(1);
if(n) write(2); // error
ANTLR 确实对于语法的细节控制能力更强,而且,生成 AST 的能力也很突出。ANTLRWorks 虽然有时候不工作,有时候和实际代码效果有出入,总体来说还是帮助很大。从 AST 生成代码也比上一版中更方便。不过,在我的实现代码里很多异常都是直接用断言实现的,没有打印行号。另外,因为 ANTLR 有很强的错误恢复能力,目前还不知道怎么判断代码分析中是否出现错误……
下面是可执行程序和源代码:
- ZLan4a.zip (190.1 KB)
- 描述: 可执行程序、源代码和几个例子。需要.net fx 2.0
- 下载次数: 42
分享到:
相关推荐
编译原理的核心是理解编译器是如何将源代码转换为机器代码的。在学习编译原理的过程中,练习课后习题是加深理解的重要环节,因此,编译原理及实践课后习题的答案自然就成了学习者的重要参考资料。 在本文件提供的...
一 上机实习目的:理解编译程序的构造原理,掌握编译程序的构造方法与技术。通过实习,使学生既加深对编译原理基础...<字母>::=a|b|c|d|e|f|g|h|i|j|k|l|m|n|o|p|q|r|s|t|u|v|w|x|y|z <数字>::=0|1|2|3|4|5|6|7|8|9
- d. 所有表示偶数的数字字符串:`(0|[2468]|1[02468]|[13579]0)`。通过列举所有以偶数结尾的情况,形成偶数数字序列。 - e. 所有数字字符串,其中所有的2出现在所有的9之前:`([0-8]|[***][0-9]|9)*[0-8](9|10)`...
例如,`[a-zA-Z]`表示任何小写字母或大写字母,而`\d+`表示一个或多个数字。在词法分析中,我们用正则表达式定义语言的各个部分,如标识符、关键字、运算符等。 接下来,我们将正则表达式转化为非确定性有限自动机...
- **源语言**:源语言指的是程序员使用的编程语言,也就是编译器或解释器的输入。例如C++、Java等高级编程语言。 **4. 简述LR(0)项目中“·”在LR分析中的含义?** 在LR分析中,“·”被称为点或标记。在LR(0)项目...
- **程序设计语言中的数据类型**: 由编程语言预先定义好的类型,如整型(int)、浮点型(float)等,这些类型由编译器支持,并直接提供给程序员使用。 - **抽象数据类型与数据类型的区别**: 抽象数据类型不仅包括数据,...
- **程序设计语言中的数据类型**:通常是语言内置的数据类型,如int、float等,这些类型直接由编译器支持,并且可以直接用于编写程序。它们的特点是定义简单、使用方便,但功能有限,不能满足复杂数据处理的需求。 ...