Text Processing热门博客列表 - ITeye博客频道

博客专栏推荐

本月博客排行

年度博客排行

构建自己的DSL之三抓取文件管理

转载请标明出处：http://fuliang.iteye.com/blog/1127437 我们抓取的网页抽取的结果是带有日期的文件，经常需要操作某个日期范围的文件，来进行统计，抽样，入库，所有需要一个方便的DSL来处理这件事情。我们希望制定几个条件就可以得到符合条件的文件，比如： data_set = CrawlerDataSet.with_cond do |cond| con ...

Ruby Text Processing 文本处理

fuliang 评论(0) 有1779人浏览 2011-07-18 23:26

转载请标明出处：http://fuliang.iteye.com/blog/1122051 公司的蜘蛛抓取的内容一个记录是以TAB分割的各个字段的值，并且随着各种分类得分、正文静态得分策略的添加，版本不断的演变。每次做抽样、分析、分类语料等文本处理都需要写一些样板式的代码，并且得到wiki查找指定版本每个字段的位置。构建一个好的DSL来自动处理这件事情能够省去很多重复的操作，只需要关注要处理的事情 ...

Ruby DSL Text Processing 文本处理文本记录

fuliang 评论(0) 有2325人浏览 2011-07-11 23:18

最近博客热门TAG

Java(141741) C(73643) C++(68602) SQL(64557) C#(59604) XML(59131) HTML(59042) JavaScript(54916) .net(54782) Web(54511) 工作(54116) Linux(50906) Oracle(49861) 应用服务器(43285) Spring(40811) 编程(39452) Windows(39380) JSP(37540) MySQL(37266) 数据结构(36420)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载

博客专栏推荐

本月博客排行

年度博客排行

最新文章列表

构建自己的DSL之三抓取文件管理

构建自己的DSL之二抓取文本处理

最近博客热门TAG

博客人气排行榜

博客电子书下载排行

相关资讯

相关讨论

博客专栏推荐

本月博客排行

年度博客排行

最新文章列表

构建自己的DSL之三 抓取文件管理

构建自己的DSL之二 抓取文本处理

最近博客热门TAG

博客人气排行榜

博客电子书下载排行

相关资讯

相关讨论

构建自己的DSL之三抓取文件管理

构建自己的DSL之二抓取文本处理