`
jackyhongvip
  • 浏览: 158209 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

ANTLR笔记4 - AST构造,tree grammar,tree walker

 
阅读更多

目前为止使用的例子中,都是直接在语法文件中嵌入求值处理代码,这种方式ANTLR称为嵌入式动作(embeded action)。
复杂情况下,需要基于语法树遍历(walking the tree)生成目标代码。embeded action将处理代码跟语法描述混合起来,语法复杂时使语法文件臃肿。另外语法可能经常需要修改,但语法的主要表达式不会变动,将语法识别与转换、生成(目标代码)等处理分离是有好处的。
所以产生以下概念:
识别(recognize): 前面讲的由语法描述文件生成的词法分析器、语法分析器代码,就是语法识别器(recognizer)。它接受原始输入字符流(类似源代码),进行分析,得到抽象语法树AST。
转换(translate): 我们可以编写一个转换器(translator, tree walker),使用AST作为输入,进行计算处理,或生成目标代码等操作。这个步骤同样可以使用ANTLR来完成。

1. AST构造(AST construct)
1.1 说明
使用全局option设置output=AST,ANTLR生成的识别器中每个方法都返回一个AST节点或节点集合,起始规则返回的是所有匹配到的AST节点的集合。AST节点集合都是一个链表结构。为了使识别器返回AST树,需要在语法文件中使用AST构造,告诉ANTLR在语法识别时如何构造树结构。
基于堆栈的递归算法一般采用的一种文本表达方式:
3+4: (+ 3 4)
3+4*5: (+3 (* 4 5))
即把操作符(operator)放在最前面,后面按顺序出现操作数,图形表示为
   
ANTLR在语法规则表达式后面添加后缀实现这种表达方式
后缀^表示它前面的表达式为操作符
后缀!表示它前面的表达式不需要生成AST节点
->为AST构造规则,左边是规则表达式(产生式),右边是AST树的构造规则。例如
ID '=' expr NEWLINE -> ^('=' ID expr);
^(...)属于构造规则的一部分,括号里面第一个元素是操作符,将作为树的根节点,其它元素为操作数,作为树的子节点。如果->右边为空,表示不构造AST节点;右边只有一个表达式,表示只构造一个AST节点,而不是AST树,例如expr NEWLINE -> expr; 。

1.2 示例
1.2.1 语法文件ExprTree.g

<!--<br /> <br /> Code highlighting produced by Actipro CodeHighlighter (freeware)<br /> http://www.CodeHighlighter.com/<br /> <br /> -->grammar ExprTree;
options{
    output
=AST;
    ASTLabelType
=CommonTree;
    language
=CSharp;
}

prog: ( stat {Console.WriteLine($stat.tree.ToStringTree());} )
+ ;
stat: expr NEWLINE 
-> expr
    
| ID '=' expr NEWLINE -> ^('=' ID expr)
    
| NEWLINE ->
    ;

expr: multExpr ((
'+' ^|'-' ^) multExpr)* ;
multExpr: atom (
'*' ^ atom)* ;
atom: INT
    
| ID
    
| '(' ! expr ')' !
    ;

ID  :   (
'a'..'z'|'A'..'Z')+ ;
INT :   
'0'..'9'+ ;
NEWLINE: ((
'"r'? '"n')|';')+ ;
WS  :   (
' '|'"t')+ { $channel = HIDDEN; } ;


1.2.2 简单说明:
ASTLabelType=CommonTree; 指示AST节点的类型
$stat.tree.ToStringTree(): output指定为AST时,使用$stat.tree属性访问识别过程中构造出来的AST节点,ToStringTree()方法将AST树序列化成字符串方式。
+, -, *这几个标记使用^后缀指明为操作符。
atom中的左右括号这两个符号是输入字符流中用于表达计算优先级关系的,语法识别之后,通过AST语法树上面已经体现了这个优先级,它们本身并不需要成为语法树上的节点。

1.2.3 测试代码:

<!--<br /> <br /> Code highlighting produced by Actipro CodeHighlighter (freeware)<br /> http://www.CodeHighlighter.com/<br /> <br /> -->static void Main(string[] args)
{
    ExprTreeLexer lex 
= new ExprTreeLexer(new ANTLRFileStream(@"input.txt"));
    CommonTokenStream tokens 
= new CommonTokenStream(lex);
    ExprTreeParser parser 
= new ExprTreeParser(tokens);
    
try
    {
        parser.prog();
    }
    
catch (RecognitionException e)
    {
        Console.Error.WriteLine(e.StackTrace);
    }
    Console.ReadLine();
}

需要引用命名空间: Antlr.Runtime

1.2.4 生成识别器,运行测试
java org.antlr.Tool ExprTree.g生成识别器
建立C# Console工程,添加ANTLR Runtime的引用,把识别器文件和测试文件添加到工程中
在工程中添加一个input.txt,设置Copy to Output Directory为Copy always,文件内容为
a=3;
b=4;
(2+a)*b+5;
编译运行,可以看到结果为
    
图形表示的AST语法树为
   

2. AST树语法(tree grammar),树的遍历(tree walking)

上面已经得到了AST树,例子中我们只需要简单求值,其它情况下可能要进行转换生成目标代码/输出。使用ANTLR的tree grammar来实现,遍历语法树,完成需要的运算。

2.1 建立一个tree grammar语法文件ExprEval.g

<!--<br /> <br /> Code highlighting produced by Actipro CodeHighlighter (freeware)<br /> http://www.CodeHighlighter.com/<br /> <br /> -->tree grammar ExprEval;
options {
    tokenVocab
=ExprTree;
    ASTLabelType
=CommonTree;
    language
=CSharp;
}

@header {using System
.Collections.Generic;}

@members { IDictionary
<string, int> _variables = new Dictionary<string, int>(); }

prog: stat
+ ;

stat: expr {Console
.WriteLine($expr.value);}
    | ^
('=' ID expr) {_variables.Add($ID.text, $expr.value);}
    
;

expr returns [int value]
    : ^
('+' a=expr b=expr) {$value = a+b;}
    | ^
('-' a=expr b=expr) {$value = a-b;}
    | ^
('*' a=expr b=expr) {$value = a*b;}
    | ID
    {
        
$value = 0;
        _variables
.TryGetValue($ID.text, out $value);
    }
    | INT {
$value = int.Parse($INT.text);}
    
;


2.2 简单说明
1.2的示例中,使用ANTLR生成识别器的同时会产生一个符号表文件ExprTree.tokens,这里需要用到这个文件。一方面在tree grammar中不再需要定义符号,而通过符号表文件引用,另外生成的识别器在构造语法树时,每种匹配到的符号标记都将成为语法树的一个节点,符号表文件中记录了这些节点的类型(1,2,3这样的整数表示),tree grammar生成的tree walker代码在遍历AST过程中需要使用这些类型信息。
tokenVocab=ExprTree;就是指定符号表文件为ExprTree.tokens。
@header和@members中,定义了一个Dictionary,遍历过程中遇到变量声明的表达式时,用<key, value>将变量名和值保存起来。
^(...),这个操作在前面示例的语法文件中已经用过,它表示AST树上某种类型的节点,这里的意义就是当匹配到这种类型的AST树节点时,运用后面{...}中的操作。

2.3 生成tree walker代码
跟生成识别器方法一样,不过注意目录中必须有ExprTree.tokens这个文件
生成的文件名为ExprEval.cs

2.4 测试代码

<!--<br /> <br /> Code highlighting produced by Actipro CodeHighlighter (freeware)<br /> http://www.CodeHighlighter.com/<br /> <br /> -->static void Main(string[] args)
{
    ExprTreeLexer lex 
= new ExprTreeLexer(new ANTLRFileStream(@"input.txt"));
    CommonTokenStream tokens 
= new CommonTokenStream(lex);
    ExprTreeParser parser 
= new ExprTreeParser(tokens);
    ExprTreeParser.prog_return r 
= parser.prog();
    CommonTree tree 
= r.tree;
    CommonTreeNodeStream treeStream 
= new CommonTreeNodeStream(tree);
    ExprEval walker 
= new ExprEval(treeStream);
    
try
    {
        walker.prog();
    }
    
catch (RecognitionException e)
    {
        Console.Error.WriteLine(e.StackTrace);
    }
    Console.ReadLine();
}

需要引用命名空间: Antlr.Runtime, Antlr.Runtime.Tree

2.5 编译,运行测试
把ExprEval.cs添加到工程中,测试代码改成上面,还是使用上面的input.txt作为输入。编译运行结果如下
   

2.6 AST构造递归描述,backtrack
将ExprEval.g中的expr规则改成下面这样:

<!--<br /> <br /> Code highlighting produced by Actipro CodeHighlighter (freeware)<br /> http://www.CodeHighlighter.com/<br /> <br /> -->expr returns [int value]
    : 
^('+' expr ^('*' expr expr)) {$value = 99;} 
    
| ^('+' a=expr b=expr) {$value = a+b;}
    
| ^('-' a=expr b=expr) {$value = a-b;}
    
| ^('*' a=expr b=expr) {$value = a*b;}
    
| ID 
    {
        $value 
= 0;
        _variables.TryGetValue($ID.text, 
out $value);
    }
    
| INT {$value = int.Parse($INT.text);}
    ;

这个语法不再属于LL(*)范畴,为了避免ANTLR报错,必须打开backtrack(options {backtrack=true;} )选项,让ANTLR能够完成^('+' expr ^('*' expr expr))的匹配。
用修改后的tree grammar重新生成ExprEval.cs文件,编译运行,这一次只要input.txt文件中给出的输入被
^('+' expr ^('*' expr expr))匹配,即x+y*z这样的表达式,结果都为99。
上面只是演示两个功能: 1. ^(.. ^(..))这样AST表述;2. backtrack功能。这样做不符合AST的设计原则,但个别特殊的情况下可以用来解决特定的问题。

跟embeded action的方式对比,我们把结合在一起的操作分成了2个步骤,中间结合点是抽象语法树AST。这样对语法的描述、识别,与语法树的遍历、运算形式上独立开来,对语法树的运算处理也变得更灵活。

分享到:
评论

相关推荐

    antlr4-runtime-4.2-API文档-中文版.zip

    赠送jar包:antlr4-runtime-4.2.jar; 赠送原API文档:antlr4-runtime-4.2-javadoc.jar; 赠送源代码:antlr4-runtime-4.2-sources.jar; 赠送Maven依赖信息文件:antlr4-runtime-4.2.pom; 包含翻译后的API文档:...

    antlr4-runtime-4.7-API文档-中文版.zip

    赠送jar包:antlr4-runtime-4.7.jar; 赠送原API文档:antlr4-runtime-4.7-javadoc.jar; 赠送源代码:antlr4-runtime-4.7-sources.jar; 赠送Maven依赖信息文件:antlr4-runtime-4.7.pom; 包含翻译后的API文档:...

    antlr-runtime-3.4-API文档-中文版.zip

    赠送jar包:antlr-runtime-3.4.jar; 赠送原API文档:antlr-runtime-3.4-javadoc.jar; 赠送源代码:antlr-runtime-3.4-sources.jar; 赠送Maven依赖信息文件:antlr-runtime-3.4.pom; 包含翻译后的API文档:antlr-...

    antlr-intellij-plugin-v4-1.14.zip

    对于下载的"antlr-intellij-plugin-v4-1.14.zip"文件,它是2020年版本的ANTLR Intellij Plugin v4.14的备份。这意味着它可以安装到IntelliJ IDEA中,为用户提供ANTLR 4的支持。安装步骤通常包括解压缩文件,将解压后...

    antlr-runtime-3.5-API文档-中文版.zip

    赠送jar包:antlr-runtime-3.5.jar; 赠送原API文档:antlr-runtime-3.5-javadoc.jar; 赠送源代码:antlr-runtime-3.5-sources.jar; 赠送Maven依赖信息文件:antlr-runtime-3.5.pom; 包含翻译后的API文档:antlr-...

    antlr-runtime-3.5.2-API文档-中英对照版.zip

    赠送jar包:antlr-runtime-3.5.2.jar; 赠送原API文档:antlr-runtime-3.5.2-javadoc.jar; 赠送源代码:antlr-runtime-3.5.2-sources.jar; 赠送Maven依赖信息文件:antlr-runtime-3.5.2.pom; 包含翻译后的API文档...

    antlr4-runtime-4.7-API文档-中英对照版.zip

    赠送jar包:antlr4-runtime-4.7.jar; 赠送原API文档:antlr4-runtime-4.7-javadoc.jar; 赠送源代码:antlr4-runtime-4.7-sources.jar; 赠送Maven依赖信息文件:antlr4-runtime-4.7.pom; 包含翻译后的API文档:...

    antlr-3.5.2-complete.jar

    antlr-3.5.2-complete.jar

    antlr-runtime-3.2.jar

    antlr-runtime-3.2.jar

    antlr-4.8-complete.jar

    antlr-4.8-complete.jar

    antlr-runtime-3.0.1

    antlr-runtime-3.0.1开发需要的jar包

    antlr-runtime-3.1.1.jar.zip

    在本案例中,我们关注的是`antlr-runtime-3.1.1.jar.zip`文件,它是一个包含ANTLR运行时库的压缩包,版本为3.1.1。 ANTLR的主要功能是生成解析器和词法分析器,这些生成器能够解析符合特定语法规则的输入。ANTLR...

    antlr-runtime-3.4.jar.zip

    `antlr-runtime-3.4.jar.zip` 是ANTLR的一个运行时库的压缩文件,其中包含了ANTLR 3.4版本的运行时组件。这个库主要用于支持由ANTLR生成的解析器在实际应用中的运行。`antlr-runtime` 包含了各种类和接口,这些是...

    antlr-4.6-complete.jar

    antlr-4.6-complete.jar

    antlr-4.7-complete.jar

    antlr-4.7-complete.jar运行环境库(java版)

    antlr-runtime-3.1.jar.zip

    在使用`antlr-runtime-3.1.jar.zip` 进行开发时,首先需要解压缩文件,然后将`antlr-runtime-3.1.jar` 添加到项目的类路径中。如果使用Maven或Gradle等构建工具,可以在`pom.xml`或`build.gradle`文件中配置依赖,...

    antlr-3.4-complete-no-antlrv2.jar

    antlr-3.4-complete-no-antlrv2.jar

    antlr-python-runtime-3.1.3.zip

    标题“antlr-python-runtime-3.1.3.zip”表明这是一个包含ANTLR Python运行时库的压缩文件,版本为3.1.3。这个版本可能相对较旧,但仍然对理解ANTLR如何与Python集成具有参考价值。 描述中的“antlr-python-runtime...

    antlr-runtime-3.5-API文档-中英对照版.zip

    赠送jar包:antlr-runtime-3.5.jar; 赠送原API文档:antlr-runtime-3.5-javadoc.jar; 赠送源代码:antlr-runtime-3.5-sources.jar; 赠送Maven依赖信息文件:antlr-runtime-3.5.pom; 包含翻译后的API文档:antlr-...

    antlr-runtime-3.0.jar.zip

    在Java项目中,如果你需要使用ANTLR的运行时库,通常会将`antlr-runtime-3.0.jar` 添加到项目的类路径(classpath)中,或者通过Maven、Gradle等构建工具管理依赖,确保在编译和运行时能够正确地找到和加载ANTLR的...

Global site tag (gtag.js) - Google Analytics