`
RednaxelaFX
  • 浏览: 3052796 次
  • 性别: Icon_minigender_1
  • 来自: 海外
社区版块
存档分类
最新评论

[无内容] lexeme与token的对应关系……

阅读更多
在ANTLR里一个lexeme真的只能对应一种token?我是没把说明看仔细还是怎样,但是这等号字符(“=”)该如何对应到多个token上呢?我只是想让它既对应“EQ”又对应“AssignementOperator”而已……yacc里可以的嘛

lcc的lexer里,lexer.c的那个static unsigned char map[256]的定义有点意思。看到像是第77行的:
/* 101 A   */    LETTER|HEX,

我便湿了啊……

顺带,lexer.c的开头还有这个定义:
enum { BLANK=01,  NEWLINE=02, LETTER=04,
       DIGIT=010, HEX=020,    OTHER=040 };
分享到:
评论
4 楼 dohkoos 2008-04-28  
不好意思,贴的代码有问题,下面的是正确的
expression
: assignment_expression
| range_expression
;

assignment_expression
: lvalue '=' boolean_expression
| boolean_expression
;

你说的lexeme是指什么?token和token type又是指什么?

引用
/* 101 A   */    LETTER|HEX


这行代码并不能说明lexeme能对应多种token?

引用
我想达到的效果是,'='要与其它的assignment operator在某些时候分隔开,而在某些时候又属于同一类。在帖里说的"EQ"并不是“相等性运算符”


我上面贴的代码就可以解决你的问题

引用
等号字符(“=”)该如何对应到多个token


看着你说的我觉得你是想有这样的一种表达形式

EQ|ASSIGN: '='

但我想这时不可能的,在词法分析阶段词法分析器怎么可能分辨出对应多个token的lexeme到底属于那个token呢

引用
EQ : '=' 
AssignOp : '=' | '+=' | '-=' | '*='


把顺序反过来'='还是可以解释成EQ的,我上面贴的代码就解释了这一点

BTW:你在写什么语言的分析程序啊
3 楼 RednaxelaFX 2008-04-28  
但是您给出的例子并没显示一个lexeme对应多种token type,而是显示了'='作为一种token在多条语法中使用而已。
如果照这个例子写的话,'='等literal terminals恐怕都会被ANTLR生成为Txx的token type吧……

我想达到的效果是,'='要与其它的assignment operator在某些时候分隔开,而在某些时候又属于同一类。在帖里说的"EQ"并不是“相等性运算符”,而只是对一个字母给的一个名字(就像对'&&'叫ANDAND)。在很多语法里都会看到类似AndAnd、OrOr、EqEq之类的古怪名称……大概也是偷懒或者顺手就这样写了吧。

主要是在变量声明的地方希望能把'='与复合赋值运算符('+='、'-='……)分隔开:
varDecl : 'var' Id ( ':' type )? ( '=' expr )?
        ;

当然更好的习惯是给那些literals名字,所以会有VAR : 'var'; COLON : ':';之类。
假如在ANTLR里写
EQ : '='
   ;
AssignOp : '=' | '+=' | '-=' | '*=' //...
         ;

那么生成出来的lexer就始终会认为'='是EQ而不是AssignOp。如果把顺序反过来,AssignOp写前面EQ写后面的话,则'='始终不会是EQ。
ANTLR的手册上也写了,一个lexer在对一个lexeme扫描的时候是不会返回多个token的。但一个token只能对应一种token type,所以我囧了……

帖里提到lcc就是因为它那种写法能在返回一个token的时候允许拥有多个token type,例如字符'A'就同时对应LETTER和HEX。

P.S. 对了,刚才忘了说:多谢dohkoos的指点 ^ ^
到您的blog转了圈,看到也有ANTLR相关的帖子,深感欣慰。以后也请多多指教~
2 楼 dohkoos 2008-04-27  
当然可以对应多种token

expression
    :   assignment_expression
    |   boolean_expression
    |   range_expression
    ;

assignment_expression
    :   lvalue '=' boolean_expression
    ;

boolean_expression
    :   logical_or_expression
    ;

range_expression
    :   initialValue 'to'^ finalValue
    ;

logical_or_expression
    :   logical_and_expression ('or'^ logical_and_expression)*
    ;

logical_and_expression
    :   equality_expression ('and'^ equality_expression)*
    ;

equality_expression
    :   relational_expression (('='|'<>')^ relational_expression)*
    ;

http://www.dohkoos.name
1 楼 lwwin 2008-03-31  
这东西很晦涩-v-+??

相关推荐

    lexeme, 在 ruby 中,编写了一个简单的词法分析器.zip

    lexeme, 在 ruby 中,编写了一个简单的词法分析器 位名称 一种用于编程和人类语言的简单词汇分析器。安装有两种方法可以以在你的框中获取 lexeme 。 你可以下载源代码,也可以安装 ruby gem 。gem install lexeme...

    山东大学软件学院大三上编译原理课程笔记

    而词素(Lexeme)作为Token的实体,代表了源代码中连续的一串字符,当它们符合预设的模式后,即可被识别成相应的Token。这些属性信息,在后续的语义分析以及代码生成中扮演着重要角色,比如,标识符的值、类型、作用...

    编译原理词法及语法分析器

    return new Token(TokenType.IDENTIFIER, lexeme); } } else if (ch == '+') { position++; return new Token(TokenType.PLUS, "+"); } else if (ch == '-') { position++; return new Token(TokenType....

    编译原理-词法分析器-C++

    首先,词法分析器的工作原理基于正则表达式,它会将源代码字符串分解成一系列的词素(lexeme),这些词素对应于编程语言的关键词、标识符、常量、运算符等。在C++中,我们可以通过自定义类来表示Token,并设计一个...

    词法分析程序实验指导手册1

    `Scan.h`定义了两个关键部分:`MAXTOKENLEN`常量,用于限制标记的最大长度,以及`tokenString`数组,用于存储每个标记的词素(lexeme)。`getToken`函数是对外的接口,它负责返回源文件中的下一个标记。 `Scan.c`...

    词法分析,正规表达式

    在编程语言中,每个单词都有其对应的词素(lexeme),即源程序中实际出现的字符序列,而Token是词法分析程序产生的抽象符号,它包含了词素的信息并可能附带额外的属性,比如类型、位置等。例如,"pi"在"Const pi=3....

    mediawiki-extensions-WikibaseLexeme:MediaMediaWiki扩展名WikibaseLexeme的Github镜像-我们的实际代码由Gerrit托管(请参阅https

    注意:当前,此扩展仅与Wikibase的当前开发版本兼容,即,如果您使用旧的Wikibase版本,则可能无法正常工作。 通过运行composer install安装依赖项。 添加wfLoadExtension( 'WikibaseLexeme' ); 到LocalSettings....

    编译原理概念总结[收集].pdf

    1. 词法分析(lexical analysis):词法分析器读入组成源程序的字符流,并且将它们组成有意义的词素(lexeme)的序列。 2. 语法分析(syntax analysis):语法分析器使用由词法分析器生成的各个词法单元的第一个分量...

    编译原理教学课件:Chapter 3 - Lexical Analysis.ppt

    “lexeme”指的是源程序中生成一个标记的原始文本片段,而“token”则是词法分析器抽象出来的一个逻辑实体,可以理解为枚举类型,代表从源代码中读取到的特定编程元素。例如,"(137 )" 在词法分析后可能会被识别为一...

    java源码:WordNet的Java包 JWordNet.zip

    WordNet是著名的英语词汇数据库,它将单词组织成网络,其中每个单词(称为"词元"或"lexeme")都是一个网络中的节点,通过语义关系与其他词元相连。JWordNet是一个Java实现的库,它为Java开发者提供了与WordNet交互的...

    词法器生成工具flex.pdf

    DOS用户则可在特定渠道找到对应版本。 - **其他平台支持**:除了在Linux中作为标准工具外,Flex还支持多种操作系统,包括Windows、DOS等。此外,Flex还有类似的工具,例如JLex,专为Java设计。 #### 基本概念 - **...

    词法分析器

    词法分析器的主要任务是对源代码进行预处理,它将源代码按照编程语言的语法规则切分成一个个有意义的单元——词素(lexeme),每个词素由一个标记类型和对应的值组成。例如,"int"是关键字,"main"是标识符,"="是...

    IKAnalyazer3.2 分词技术

    Lexeme类则通常代表词元对象,用于存储分词结果中的每个词汇信息,包括词元的文本内容、词性等。 在IKAnalyzer的实现中,用户可以通过IKSegmentation进行自定义配置,如选择分词模式(精确模式、全模式、快速模式等...

    学习电脑信息哪个顺序描述了一个编译器

    首先,编译器从源代码开始,通过词法分析器(lexical analyzer)对输入的字符流进行扫描,将字符组合成有意义的词素(lexeme),生成词法单元(token)。这些词法单元包含了识别符(token-name)和相关属性...

    编译原理复习(期末不挂科)

    模式(pattern)是产生和识别元素的规则,记号(token)是按照某个模式识别出的元素,单词(lexeme)是被识别出的元素自身的值。 正规式 正规式是描述语言的规则,可以用来描述语言的语法结构。正规式的定义、字符...

    PostgreSQL中文全文索引技术研究

    - **文档划分**:在建立全文索引之前,需要将文档内容划分为一系列的单词。这一过程中会进行词干抽取以及提取每个词在整个字段中出现的位置信息,即“词位”(lexeme)。然后将这些lexeme存储在一个新的列中,该列...

    编译原理常用术语英汉对照表

    为了更好地学习这些内容,本篇文章将详细介绍一些编译原理中的核心术语及其含义。 #### 1. 编译器与解释器 - **Compiler(编译器)**:编译器是一种将源代码(通常为高级语言)翻译成目标代码(通常是机器语言或较...

    Simple C语言词法分析器的探讨与实践.pdf

    词法分析器的基本要素主要包括记号(Token)、模式(Pattern)和词素(Lexeme)。记号是源代码中具有特定含义的最小语法单元,例如C语言中的关键字、标识符、常量、操作符等。模式是与特定记号相关联的规则,用于...

    编译原理知识点汇总.pdf

    - **单词(Lexeme)**:被识别出的元素的值(字符串本身),也称为词值。 - **词法分析器的作用与工作方式** - **作用** - 识别记号并交给语法分析器(根据模式识别记号)。 - 滤掉源程序中的无用成分,如注释、...

    spacy-lookups-data:spa用于spaCy的其他查找表和数据资源

    该存储库包含要与 v2.2 +一起使用的其他数据文件。 与spaCy安装在同一环境中时,此软件包会将每种语言的资源用作入口点,spaCy会在设置Vocab和Lookups时对其进行检查。 随时提交拉取请求以更新数据。 对于与数据,...

Global site tag (gtag.js) - Google Analytics