文章列表
宋词分析改编版(ruby)
- 博客分类:
- ruby
上一次我写的宋词分析,是在Windows环境下的,缺省编码是GBK(936),所以在处理UTF-8的时候,需要转换为GBK,再进行处理分析。
不过现在已经是ruby1.9版了,那么就改一下,在uft-8下处理程序,主要就是把原宋词文件内容从gbk编码为utf-8,再进行相应的处理,dos下需要chcp 65001转换为utf-8编码,再执行才可以看到正确结果,否则就是乱码。
我用的SciTE,在Options->Open Global Options File中,code.page=65001,output.code.page=65001去除前面的#,就可以正确处理 ...
在今年3月份的,就看到这个帖子《东风何处是人间》了,对宋词进行分词计数,当时就保存了这个帖子,想以后有时间写个ruby版的。后来就忘记了
近期这个帖子大火啊,也终于抽出时间写ruby版的了。
个人水平有限,程序写的很糟糕,至少比原文的看着复杂多了,不知道是否能有ruby高手给大家写个示例。
数据:《全宋词》文本
#coding: utf-8
require "iconv"
s1 = Iconv.conv 'gbk','utf-8',","
s2 = Iconv.conv 'gbk','utf-8',"。"
s3 = ...
一个烂大街的题,前两天刚好看到别人解这个题,用c++实现的,网上还有很多的java版的等等,我就改成了ruby版的,ruby版的程序算是比较短的了吧,还是有些函数式的影子,而不是纯粹的ruby化面向对象。
小明和小强都是张老师的学生,张老师的生日是M月N日,2人都知道张老师的生日
是下列10组中的一天,张老师把M值告诉了小明,把N值告诉了小强,张老师问他们知道他的生日是那一天吗?
3月4日 3月5日 3月8日
6月4日 6月7日
9月1日 9月5日
12月1日 12月2日 12月8日
小明说:如果我不知道的话,小强肯定也不知道
小强说:本来我也不知道,但是现在我知道 ...
呵呵,如果大家都在起点看过200本以上的小说,就能知道小明好在哪里了。
不种马,不YY,写实的现在在起点已经很难很难找了。支持小明的很多都是起点5、6甚至7级的用户和VIP,这样的人都觉得起点在逐步的堕落,看看首页的类门户小说介绍,还有强推的垃圾作品,小明只是一个导火索,让大家发泄一下而已。
写小明的是个16岁的高中生,其实也未必能写的这样象小学生的作品,只是适逢其会吧。
而且小明的一些语言也是有亮点存在的。大家可以自己体会一下。
- 2006-09-21 10:57
- 浏览 1698
- 评论(1)