- 浏览: 147161 次
- 性别:
- 来自: 北京
文章分类
最新评论
CSV文件格式解析器的实现:从字符串Split到FSM
本文分为5小节,基本上就是我刚接触CSV文件到思考、实践做一个CSV解析器的过程的还原。希望我的思路也能带领你一步步从浅到深认识CSV文件格式。
1.简单的CSV解析器实现。
2.简单实现的CSV解析器的问题
3. CSV格式的定义
4.用FSM(有限状态机)来做CSV格式解析。
5.为什么使用CSV格式
1.简单的CSV解析器实现。
最近有一个需求,读取CSV格式的配置。CSV是CommaSeparated Value(逗号分隔值)的缩写,通常用文本表示数据。CSV格式数据的结构类似表格,不同的记录占用一行,一行中的字段用“,”(逗号)分隔,例如:
名字,职业,工作经验(年),
Siliphen Lee,软件工程师(码畜),5
Edison Chou,游戏服务器端主程,1
Deson,钢琴教师兼游戏策划,1
… …
咋一看,CSV格式比较简单。就是用行来分隔不同的记录,记录中用“,”逗号分隔不同的字段域。仅仅是这样考虑的话,那么编写CSV解析器也很简单了。就是字符串的分割而已。
好,下面来动手实现下这个思路。C#等语言的字符串都有Split函数,C++的标准库却连这个很常用的函数都没,C++的标准库简直是弱爆了!而就算用了boost,因为boost接近std的风格,类似Split功能的函数,使用起来也比较麻烦。
没办法,只好自己编写Split来实现CSV的解析了。对于CSV的解析功能,为了实现“组件化”,“复用”的理想,可以单独写一个Csv类,封装一些相关操作。以后在别的工程项目中,也可以直接把这个类拿过去用。
CSV类,三下五除二,就编写好了。代码如下:
头文件
- #pragmaonce
- #include<vector>
- #include<string>
- usingnamespacestd;
- classCsv
- {
- public:
- Csv();
- ~Csv();
- public:
- //载入一个CSV文件
- voidLoad(conststring&strFileName);
- //从字符串从解析
- voidParse(conststring&strText);
- public:
- /*
- 分割字符串
- str要分隔的字符串
- seperator分隔符
- Ret分割后的结果
- */
- staticvoidSplit(conststring&str,conststring&seperator,vector<string>&Ret);
- /*
- 读取整个文件的数据
- */
- staticvoidReadAll(conststring&strFileName,string&Data);
- public:
- vector<vector<string>>&GetGridData(){returnm_GridData;}
- private:
- //原始表格数据
- vector<vector<string>>m_GridData;
- };
实现文件:
- #include"Csv.h"
- #include<stdio.h>
- Csv::Csv()
- {
- }
- Csv::~Csv()
- {
- }
- voidCsv::ReadAll(conststring&strFileName,string&Data)
- {
- //读取文件数据
- FILE*pFile=fopen(strFileName.c_str(),"rb");
- if(pFile==0)
- {
- return;
- }
- fseek(pFile,0,SEEK_END);
- longlen=ftell(pFile);
- char*pBuffer=newchar[len+1];
- fseek(pFile,0,SEEK_SET);
- fread(pBuffer,1,len,pFile);
- fclose(pFile);
- pBuffer[len]=0;
- Data.assign(pBuffer,len);
- delete[]pBuffer;
- }
- voidCsv::Load(conststring&strFileName)
- {
- stringData;
- ReadAll(strFileName,Data);
- Parse(Data);
- }
- voidCsv::Parse(conststring&strText)
- {
- //清除之前的数据
- m_GridData.clear();
- //分出行,分出字段。
- vector<string>ret;
- Split(strText,"\r\n",ret);
- for(size_ti=0;i<ret.size();++i)
- {
- vector<string>Fields;
- Split(ret[i],",",Fields);
- m_GridData.push_back(Fields);
- }
- }
- voidCsv::Split(conststring&str,conststring&seperator,vector<string>&Ret)
- {
- Ret.clear();
- size_tnStartPosFound=str.find(seperator,0);
- size_tnFieldStart=0;
- for(;nStartPosFound!=-1;nStartPosFound=str.find(seperator,nStartPosFound))
- {
- stringstrSub=str.substr(nFieldStart,nStartPosFound-nFieldStart);
- nStartPosFound=nStartPosFound+seperator.size();
- nFieldStart=nStartPosFound;
- Ret.push_back(strSub);
- }
- //加入最后一个字段
- if(nFieldStart<str.size())
- {
- stringstrSub=str.substr(nFieldStart,str.size()-nFieldStart);
- Ret.push_back(strSub);
- }
- }
对代码做一些简要说明。设计Csv类首先考虑的就是“独立性”。Csv类不应该耦合(依赖)任何其他库,比如说:尽量避免使用Cocos2d-x,QT里面的函数。Cocos2d-x有跨平台的文件读取方法,QT有字符串的split函数。如果用了这些库的现成机制,会导致类的通用性下降。比如,在另一个非Cocos2d-x,非QT的项目中,就不能直接用了。
同样地,从可移植性考虑。用VS编写读取文件,也不应该使用CreateFile, ReadFile等Win32 Api。fopen虽然不太好用,但由于其是C语言标准库的,移植性好,故用之。
这里有一个问题需要注意下,用VS2013编辑和编译的话,可能会对fopen函数提示有错误。如下:
这句英文大概是说:“fopen函数或者变量可能是不安全的。考虑使用fopen_s替代。要屏蔽这个错误,请使用_CRT_SECURE_NO_WARNINGS。”
_CRT_SECURE_NO_WARNINGS怎样用呢?简单,在“项目属性 -> 配置属性 -> C/C++ -> 命令行 -> 其他选择”上,添加“/D _CRT_SECURE_NO_WARNING”。如下图:
添加完后,重新编译。这样,我们的简单的CSV解析器就写好了。运行调试一下,看看是否运行正确
OK,没问题。解析的结果,我们放在一个vector< vector< string > > 类型的数据结构中。这个数据结构比较灵活,可以模拟表示一个表格。实际上,vector< vector< string > > 也可以表示可动态调整大小的二维数组。
2.简单实现的CSV解析器的问题
之前用字符串处理方法split做的CSV解析器有问题吗?对于简单的数据,没问题。但仔细想下就会发现,字段之间用“,”英文逗号分隔,如果字段数据本身包含了逗号,怎么办?我们用Excel做下实验,看看Excel导出的CSV格式表格是怎样的。
实验结果如下:
从以上结果可以看到,对于包含了“,”字段分隔符的字段,是用“”””双引号把这个字段包围起来。但如果字段数据本身也包含了“””引号,又怎么办呢?继续做实验,如下图
实验发现,如果字段数据本身存在“””引号,那么引号的前面也会放一个引号,前置的引号相当于C语言的字符串的转义字符。
如果用一个字段表示一篇文章,有分段换行。那又是一个什么情况?做实验看看,实验结果如下:
复制一段文章或者是有段落的一段文本,然后粘贴到Excel的一个字段中,最后Excel另存为CSV格式文件。用记事本打开那个CSV格式文件。发现用记事本看不到换行,这是什么情况?用UltraEdit查看下二进制数据
发现,回车换行(/r/n),会被Excel替换成/n换行。而用记事本程序打开是看不到/n换行效果的。
如果用记事本程序编辑CSV文件,敲入回车换行(/r/n),然后用Excel打开,会怎样?如下图:
可以看到用记事本程序编辑CSV文件,人工按下回车键,会键入回车换行(/r/n)数据。用Excel打开的话,也显示了分行的效果。
做了一些实验得出的结论是:CSV一个字段的数据是可以表示存在“,”字段分隔符的。如果有逗号字段分隔符存在,那么整个字段就会用双引号包围起来。如果字段数据本身有引号,那么会在之前放一个前置的引号表示转义,并且该字段也会用双引号包围起来。用双引号包围起来的字段数据里面,也可以有回车换行数据。
这样,问题来了。我们用回车换行来分割出行,再用逗号分割出一行中不同的字段。这种简单的方法无法区分一个逗号是字段本身的数据,还是用来作为字段分隔符的。也无法区分一个回车换行,是字段里面的数据,还是用来分隔行的。
3. CSV格式的定义
上面是用Excel另存为CSV文件格式做实验来摸索CSV格式和一些显示特性。其实CSV是有格式规范的。
关于CSV格式的定义,可以参考这里: 一篇百度文档的CSV格式定义,IETF上的CSV格式定义的文档
4.用FSM(有限状态机)来做CSV格式解析。
了解CSV格式的定义后,我们知道,要写一个完善的CSV解析器,不能简单地用字符串的Split方法了。
我们的目标是:写一个CSV类,能正确解析Excel导出的任何CSV文件!也许有人会认为,用正则表达式可以搞定。用正则有几个问题,第一,C++的正则表达式通常都依赖于一些第三方库,QT,Boost等,C++11的正则也不是在所有的编译器上都实现了,这很大地影响了我们的CSV类通用性。第二,对于语法格式分析,正则不是万能的,至少文章作者本人是很难写出能解析CSV的正则。
这里介绍一个很强大的方法:FSM(Finite State Machine,有限状态机)。我第一次接触FSM是在罗森(KennethH.Rosen)著的《离散数学及其应用》。关于FSM的概念,可以百度下,看看百度百科的解释。也可以看看维基百科的解释:http://zh.wikipedia.org/wiki/%E6%9C%89%E9%99%90%E7%8A%B6%E6%80%81%E6%9C%BA
FSM的应用很广,电路、游戏开发和编译原理等都会涉及。这里,我们就使用FSM来做CSV的解析。使用FSM一般是先画状态图,然后编码实现,调试,修改,反复这个过程。我画的CSV解析FSM状态图如下:
从上图,可以看到FSM还可以做语法检查。实际上《编译原理》中的词法分析的扫描器,通常就是基于FSM。这个FSM要解析Excel导出的任何CSV格式文件应该是足够了。为了简化实现,不考虑一些语法容错。
由于代码较多。我就不贴完整实现代码了。用我们之前实现的简单Csv类来改,就是砍掉Split函数,然后,重写Parse函数。
大概步骤是:
先定义状态
- //定义状态
- enumStateType
- {
- //新字段开始
- NewFieldStart,
- //非引号字段
- NonQuotesField,
- //引号字段
- QuotesField,
- //字段分隔
- FieldSeparator,
- //引号字段中的引号
- QuoteInQuotesField,
- //行分隔符字符1,回车
- RowSeparator,
- //语法错误
- Error,
- };
然后,写一个for循环,从头到尾遍历CSV文件数据,把遍历到的字符“喂给”FSM。FSM用一个Switch-Case语句实现。遍历结束后,再判断下状态,做一些相应处理。算法截图如下:
做下测试,读取效果如何。先用Excel构造一个复杂的表格,字段里面包含“, 半角逗号”,““ 引号”,“\r\n 回车换行符”。如下所示:
导出CSV文件。用Csv类读一下。结果如下图:
OK。大功告成!一个相对完善的Csv类完成了!我们可是用编译原理涉及的技术搞定的哦,赞!
我的Csv类完整实现(包括整个VS工程和测试CSV文件)可以在这里下载到:http://download.csdn.net/detail/stevenkylelee/7697315
如果发现我的类读取Excel导出的CSV文件有什么bug。请联系我。我改!:)
5.为什么使用CSV格式
我思考一段时间,总结的理由有如下几点:
1.CSV文件格式占用空间比较小,是文本文件。
2.CSV文件可以用记事本打开,编辑修改方便。同时也可以用Excel打开。
3.游戏项目中,策划通常喜欢用Excel做数值和配置。Excel可以直接另存为CSV文件。
4.配置也可以用xml。Excel同样可以导出xml文件格式。xml不错,但C++的标准库没有xml的读取方法。通常C++项目读xml需要依赖第三方库。例如:TinyXml之类的。
2016.01.06 更新:
在把游戏做iOS移植的时候发现,在 Mac OS X 系统下,原先在 windows 创建的 csv 文件会被 mac 系统的某些工具修改:把一行结尾的“\r\n”改成“\n”。因为之前都是针对windows excel 创建的 csv 文件格式进行解析,没有预料到这种情况。所以第一版的 csv 解析器会对仅以“\n”结尾的 csv 格式解析出错。
初步修改。v2 版本可以解析行结尾是“\n”或“\r\n”的 csv 格式数据。
下载地址:http://download.csdn.net/detail/stevenkylelee/9393397
本文分为5小节,基本上就是我刚接触CSV文件到思考、实践做一个CSV解析器的过程的还原。希望我的思路也能带领你一步步从浅到深认识CSV文件格式。
1.简单的CSV解析器实现。
2.简单实现的CSV解析器的问题
3. CSV格式的定义
4.用FSM(有限状态机)来做CSV格式解析。
5.为什么使用CSV格式
1.简单的CSV解析器实现。
最近有一个需求,读取CSV格式的配置。CSV是CommaSeparated Value(逗号分隔值)的缩写,通常用文本表示数据。CSV格式数据的结构类似表格,不同的记录占用一行,一行中的字段用“,”(逗号)分隔,例如:
名字,职业,工作经验(年),
Siliphen Lee,软件工程师(码畜),5
Edison Chou,游戏服务器端主程,1
Deson,钢琴教师兼游戏策划,1
… …
咋一看,CSV格式比较简单。就是用行来分隔不同的记录,记录中用“,”逗号分隔不同的字段域。仅仅是这样考虑的话,那么编写CSV解析器也很简单了。就是字符串的分割而已。
好,下面来动手实现下这个思路。C#等语言的字符串都有Split函数,C++的标准库却连这个很常用的函数都没,C++的标准库简直是弱爆了!而就算用了boost,因为boost接近std的风格,类似Split功能的函数,使用起来也比较麻烦。
没办法,只好自己编写Split来实现CSV的解析了。对于CSV的解析功能,为了实现“组件化”,“复用”的理想,可以单独写一个Csv类,封装一些相关操作。以后在别的工程项目中,也可以直接把这个类拿过去用。
CSV类,三下五除二,就编写好了。代码如下:
头文件
- #pragmaonce
- #include<vector>
- #include<string>
- usingnamespacestd;
- classCsv
- {
- public:
- Csv();
- ~Csv();
- public:
- //载入一个CSV文件
- voidLoad(conststring&strFileName);
- //从字符串从解析
- voidParse(conststring&strText);
- public:
- /*
- 分割字符串
- str要分隔的字符串
- seperator分隔符
- Ret分割后的结果
- */
- staticvoidSplit(conststring&str,conststring&seperator,vector<string>&Ret);
- /*
- 读取整个文件的数据
- */
- staticvoidReadAll(conststring&strFileName,string&Data);
- public:
- vector<vector<string>>&GetGridData(){returnm_GridData;}
- private:
- //原始表格数据
- vector<vector<string>>m_GridData;
- };
- #include"Csv.h"
- #include<stdio.h>
- Csv::Csv()
- {
- }
- Csv::~Csv()
- {
- }
- voidCsv::ReadAll(conststring&strFileName,string&Data)
- {
- //读取文件数据
- FILE*pFile=fopen(strFileName.c_str(),"rb");
- if(pFile==0)
- {
- return;
- }
- fseek(pFile,0,SEEK_END);
- longlen=ftell(pFile);
- char*pBuffer=newchar[len+1];
- fseek(pFile,0,SEEK_SET);
- fread(pBuffer,1,len,pFile);
- fclose(pFile);
- pBuffer[len]=0;
- Data.assign(pBuffer,len);
- delete[]pBuffer;
- }
- voidCsv::Load(conststring&strFileName)
- {
- stringData;
- ReadAll(strFileName,Data);
- Parse(Data);
- }
- voidCsv::Parse(conststring&strText)
- {
- //清除之前的数据
- m_GridData.clear();
- //分出行,分出字段。
- vector<string>ret;
- Split(strText,"\r\n",ret);
- for(size_ti=0;i<ret.size();++i)
- {
- vector<string>Fields;
- Split(ret[i],",",Fields);
- m_GridData.push_back(Fields);
- }
- }
- voidCsv::Split(conststring&str,conststring&seperator,vector<string>&Ret)
- {
- Ret.clear();
- size_tnStartPosFound=str.find(seperator,0);
- size_tnFieldStart=0;
- for(;nStartPosFound!=-1;nStartPosFound=str.find(seperator,nStartPosFound))
- {
- stringstrSub=str.substr(nFieldStart,nStartPosFound-nFieldStart);
- nStartPosFound=nStartPosFound+seperator.size();
- nFieldStart=nStartPosFound;
- Ret.push_back(strSub);
- }
- //加入最后一个字段
- if(nFieldStart<str.size())
- {
- stringstrSub=str.substr(nFieldStart,str.size()-nFieldStart);
- Ret.push_back(strSub);
- }
- }
对代码做一些简要说明。设计Csv类首先考虑的就是“独立性”。Csv类不应该耦合(依赖)任何其他库,比如说:尽量避免使用Cocos2d-x,QT里面的函数。Cocos2d-x有跨平台的文件读取方法,QT有字符串的split函数。如果用了这些库的现成机制,会导致类的通用性下降。比如,在另一个非Cocos2d-x,非QT的项目中,就不能直接用了。
同样地,从可移植性考虑。用VS编写读取文件,也不应该使用CreateFile, ReadFile等Win32 Api。fopen虽然不太好用,但由于其是C语言标准库的,移植性好,故用之。
这里有一个问题需要注意下,用VS2013编辑和编译的话,可能会对fopen函数提示有错误。如下:
这句英文大概是说:“fopen函数或者变量可能是不安全的。考虑使用fopen_s替代。要屏蔽这个错误,请使用_CRT_SECURE_NO_WARNINGS。”
_CRT_SECURE_NO_WARNINGS怎样用呢?简单,在“项目属性 -> 配置属性 -> C/C++ -> 命令行 -> 其他选择”上,添加“/D _CRT_SECURE_NO_WARNING”。如下图:
添加完后,重新编译。这样,我们的简单的CSV解析器就写好了。运行调试一下,看看是否运行正确
OK,没问题。解析的结果,我们放在一个vector< vector< string > > 类型的数据结构中。这个数据结构比较灵活,可以模拟表示一个表格。实际上,vector< vector< string > > 也可以表示可动态调整大小的二维数组。
2.简单实现的CSV解析器的问题
之前用字符串处理方法split做的CSV解析器有问题吗?对于简单的数据,没问题。但仔细想下就会发现,字段之间用“,”英文逗号分隔,如果字段数据本身包含了逗号,怎么办?我们用Excel做下实验,看看Excel导出的CSV格式表格是怎样的。
实验结果如下:
从以上结果可以看到,对于包含了“,”字段分隔符的字段,是用“”””双引号把这个字段包围起来。但如果字段数据本身也包含了“””引号,又怎么办呢?继续做实验,如下图
实验发现,如果字段数据本身存在“””引号,那么引号的前面也会放一个引号,前置的引号相当于C语言的字符串的转义字符。
如果用一个字段表示一篇文章,有分段换行。那又是一个什么情况?做实验看看,实验结果如下:
复制一段文章或者是有段落的一段文本,然后粘贴到Excel的一个字段中,最后Excel另存为CSV格式文件。用记事本打开那个CSV格式文件。发现用记事本看不到换行,这是什么情况?用UltraEdit查看下二进制数据
发现,回车换行(/r/n),会被Excel替换成/n换行。而用记事本程序打开是看不到/n换行效果的。
如果用记事本程序编辑CSV文件,敲入回车换行(/r/n),然后用Excel打开,会怎样?如下图:
可以看到用记事本程序编辑CSV文件,人工按下回车键,会键入回车换行(/r/n)数据。用Excel打开的话,也显示了分行的效果。
做了一些实验得出的结论是:CSV一个字段的数据是可以表示存在“,”字段分隔符的。如果有逗号字段分隔符存在,那么整个字段就会用双引号包围起来。如果字段数据本身有引号,那么会在之前放一个前置的引号表示转义,并且该字段也会用双引号包围起来。用双引号包围起来的字段数据里面,也可以有回车换行数据。
这样,问题来了。我们用回车换行来分割出行,再用逗号分割出一行中不同的字段。这种简单的方法无法区分一个逗号是字段本身的数据,还是用来作为字段分隔符的。也无法区分一个回车换行,是字段里面的数据,还是用来分隔行的。
3. CSV格式的定义
上面是用Excel另存为CSV文件格式做实验来摸索CSV格式和一些显示特性。其实CSV是有格式规范的。
关于CSV格式的定义,可以参考这里: 一篇百度文档的CSV格式定义,IETF上的CSV格式定义的文档
4.用FSM(有限状态机)来做CSV格式解析。
了解CSV格式的定义后,我们知道,要写一个完善的CSV解析器,不能简单地用字符串的Split方法了。
我们的目标是:写一个CSV类,能正确解析Excel导出的任何CSV文件!也许有人会认为,用正则表达式可以搞定。用正则有几个问题,第一,C++的正则表达式通常都依赖于一些第三方库,QT,Boost等,C++11的正则也不是在所有的编译器上都实现了,这很大地影响了我们的CSV类通用性。第二,对于语法格式分析,正则不是万能的,至少文章作者本人是很难写出能解析CSV的正则。
这里介绍一个很强大的方法:FSM(Finite State Machine,有限状态机)。我第一次接触FSM是在罗森(KennethH.Rosen)著的《离散数学及其应用》。关于FSM的概念,可以百度下,看看百度百科的解释。也可以看看维基百科的解释:http://zh.wikipedia.org/wiki/%E6%9C%89%E9%99%90%E7%8A%B6%E6%80%81%E6%9C%BA
FSM的应用很广,电路、游戏开发和编译原理等都会涉及。这里,我们就使用FSM来做CSV的解析。使用FSM一般是先画状态图,然后编码实现,调试,修改,反复这个过程。我画的CSV解析FSM状态图如下:
从上图,可以看到FSM还可以做语法检查。实际上《编译原理》中的词法分析的扫描器,通常就是基于FSM。这个FSM要解析Excel导出的任何CSV格式文件应该是足够了。为了简化实现,不考虑一些语法容错。
由于代码较多。我就不贴完整实现代码了。用我们之前实现的简单Csv类来改,就是砍掉Split函数,然后,重写Parse函数。
大概步骤是:
先定义状态
- //定义状态
- enumStateType
- {
- //新字段开始
- NewFieldStart,
- //非引号字段
- NonQuotesField,
- //引号字段
- QuotesField,
- //字段分隔
- FieldSeparator,
- //引号字段中的引号
- QuoteInQuotesField,
- //行分隔符字符1,回车
- RowSeparator,
- //语法错误
- Error,
- };
然后,写一个for循环,从头到尾遍历CSV文件数据,把遍历到的字符“喂给”FSM。FSM用一个Switch-Case语句实现。遍历结束后,再判断下状态,做一些相应处理。算法截图如下:
做下测试,读取效果如何。先用Excel构造一个复杂的表格,字段里面包含“, 半角逗号”,““ 引号”,“\r\n 回车换行符”。如下所示:
导出CSV文件。用Csv类读一下。结果如下图:
OK。大功告成!一个相对完善的Csv类完成了!我们可是用编译原理涉及的技术搞定的哦,赞!
我的Csv类完整实现(包括整个VS工程和测试CSV文件)可以在这里下载到:http://download.csdn.net/detail/stevenkylelee/7697315
如果发现我的类读取Excel导出的CSV文件有什么bug。请联系我。我改!:)
5.为什么使用CSV格式
我思考一段时间,总结的理由有如下几点:
1.CSV文件格式占用空间比较小,是文本文件。
2.CSV文件可以用记事本打开,编辑修改方便。同时也可以用Excel打开。
3.游戏项目中,策划通常喜欢用Excel做数值和配置。Excel可以直接另存为CSV文件。
4.配置也可以用xml。Excel同样可以导出xml文件格式。xml不错,但C++的标准库没有xml的读取方法。通常C++项目读xml需要依赖第三方库。例如:TinyXml之类的。
2016.01.06 更新:
在把游戏做iOS移植的时候发现,在 Mac OS X 系统下,原先在 windows 创建的 csv 文件会被 mac 系统的某些工具修改:把一行结尾的“\r\n”改成“\n”。因为之前都是针对windows excel 创建的 csv 文件格式进行解析,没有预料到这种情况。所以第一版的 csv 解析器会对仅以“\n”结尾的 csv 格式解析出错。
初步修改。v2 版本可以解析行结尾是“\n”或“\r\n”的 csv 格式数据。
相关推荐
CSV(Comma Separated Values)文件格式是一种广泛用于数据交换的简单文本格式。它以逗号作为字段分隔符,每一行代表一个记录,而每个记录由一个或多个字段组成。CSV文件通常用于导入和导出数据库、电子表格程序,如...
有限状态机(FSM)实现字符串分解 VC++2008下写的,因此用到了CString,同时Potlet是我自己写了一个容器,真的使用的时候可以换成STL容器例如vector。 改程序读取一个source字符串,里面包含若干逗号分隔符,希望自动...
使用状态机实现的csv文件解析器。 特性 简单轻量 使用状态机实现 提供两种模式取csv数据:回调函数和行列模式 使用接口方式实现API 支持Excel方式的csv格式 单元格支持多行 单元格内容可以使用引号,也可以不用引号...
`csv-parser`是一个简单的CSV格式解析器,它专注于将CSV文件内容拆分成由逗号分隔的标记或字段。这个解析器基于有限状态机(Finite State Machine, FSM)的概念设计,这是一种计算模型,特别适合处理有明确规则和...
要构建 jar 文件,您可以运行gradlew jar (它将出现在 build/libs 文件夹中),并使用gradlew distZip构建 zip 文件(它将出现在 build/distributions 文件夹中),其中将包含jar 文件,其中包含您的程序和运行...
标题中的“一个简单的用C语言编写的INI文件解析器”是指一种特定的程序,用于读取和处理INI配置文件。INI文件是一种常见的轻量级数据存储格式,常用于保存应用程序的设置和配置信息。在C语言中实现这样的解析器,...
本篇文章将深入探讨实时流数据中的字符串分割技术,包括技术概述、基于正则表达式的字符串分割、基于分词器的字符串分割、流式字符串分割算法以及字符串分割的性能优化等方面。 ### 实时流数据字符串分割技术概述 ...
综上所述,MFC实现C语言词法分析涉及到C语言的词法规则、MFC的基本组件、状态机模型以及文件读取和字符串处理技术。通过这一实践,不仅可以深入理解词法分析的过程,还能提升对C++和MFC的应用能力。
FSM dsl编译为: JavaJava +Python项目架构:程序示例 :CSV语言规范 :CSV Eclipse特定规范 :CSV语言测试 :CSV语言用户界面特定规范 :CSV UI特定测试 :FSM语言规范 :FSM Eclipse特定规范 :FSM语言测试...
这些文件可以帮助我们理解如何具体实现这个检测“1011”序列的FSM。通过分析和研究这些内容,我们可以学习到如何根据需求设计FSM,以及如何在实际应用中使用它们。 总的来说,有限状态机是理解和解决复杂逻辑问题的...
例如,以下是一个简单的C++代码示例来表示FSM: ```cpp enum State { IDLE, INPUTTING, SAVED }; State currentState = IDLE; void processInput(char input) { switch (currentState) { case IDLE: if (input ...
下面我们将逐步解析如何使用Verilog来实现FSM。 ##### 1. 状态定义 首先,我们需要定义FSM中的所有可能状态。这些状态通常使用枚举类型来表示,这样可以使代码更易于理解和维护。例如: ```verilog typedef enum ...
Lexer.cpp:这是词法分析器的主要实现文件,通常包含了对源代码字符流的遍历和解析逻辑,通过有限状态机来识别不同的标记。它会处理如以下情况: 1. 注释:通常从`/*`开始到`*/`结束,或从`//`开始到行尾。 2. ...
5. 使用FSM: 最后,我们可以创建一个FSM实例并开始处理事件。 ```java public static void main(String[] args) { FiniteStateMachine fsm = new FiniteStateMachine(State.OFF); fsm.processEvent("toggle");...
标题中的"fsm_hello_fsm_hello_FSM_"似乎是一个与有限状态机(Finite State Machine,FSM)相关的项目或文件命名约定,其中"hello"可能代表一个示例或特定的模块,而"FSM"是有限状态机的缩写。在描述中,我们只有一...
`FSM.zip` 文件可能包含了关于如何实现和应用有限状态机的相关资料。这可能包括: 1. **理论介绍**:阐述FSM的基本概念、类型(如确定型FSM和非确定型FSM)、转换规则等。 2. **实例分析**:通过具体的案例,如...
在给定的"词法分析器 从文件读入源程序,以字符流形式输出"项目中,我们可以推测这个程序的主要功能是读取源程序文件,逐个处理其中的字符,识别出符合特定语言规范的词汇结构,并将其输出到控制台。这个过程通常...
词法分析器的实现通常采用正则表达式或有限状态自动机(FSM)来匹配和识别这些元素。例如,可以使用正则表达式来定义标识符的模式,然后通过遍历源代码并应用这些模式来找到所有匹配的实例。保留字则通过与已知保留...
1. **准备输入数据**:创建一个描述FSM的数据文件,格式应与`fsm.awk` 脚本匹配。 2. **运行awk脚本**:在命令行中,使用awk命令运行`fsm.awk`,并将输入数据文件作为参数。 3. **编译生成的C代码**:将生成的C代码...
5. **语言**:所有能够使FSM从初始状态到达接受状态的输入字符串组成的集合称为该FSM识别的语言。例如,一个简单的FSM可能只接受形如"1*010*"的字符串,其中"*"表示零个或多个前一个字符。 6. **文法与机器的关系**...