上一次我写的
宋词分析,是在Windows环境下的,缺省编码是GBK(936),所以在处理UTF-8的时候,需要转换为GBK,再进行处理分析。
不过现在已经是ruby1.9版了,那么就改一下,在uft-8下处理程序,主要就是把原宋词文件内容从gbk编码为utf-8,再进行相应的处理,dos下需要chcp 65001转换为utf-8编码,再执行才可以看到正确结果,否则就是乱码。
我用的SciTE,在Options->Open Global Options File中,code.page=65001,output.code.page=65001去除前面的#,就可以正确处理utf-8文字了。
嗯,Windows就是麻烦,Linux和mac一直想玩玩,但是单位无法上网,需要联网的东西太费事了。
还有就是改写为utf-8版后,计数和gbk版的不同了,gbk版的,和原文的计数一致,utf-8版的,一是计数多了,二是很多后面的也提到了前面,不知道为什么,也许是gbk->utf-8转换的时候,一些文字出现问题了吧。
#coding: utf-8
require "iconv"
NUM1 = 2 #分词长度
NUM2 =500 #显示大于多少的记录
def splitword(s,l) #分词,s是字符串,l是字符分词长度
lt = s.length
k = Array.new
0.upto(lt-l) do |i|
k<<s[i..i+l-1]
end
return k
end
t = Time.now
x = Array.new #记录分词结果的数组
File.open("ci.txt", "r") do |file|
file.each do |line|
line = Iconv.conv("UTF-8//IGNORE","GBK", line)
line.chomp!
column = line.split(/,|。|!|?|、/) #使用标点分割
column.delete_if {|i| i.length >10 } #去除大于10个字的语句
column.each do |col|
splitword(col,NUM1).each{|i| x<<i} if col.length>NUM1 # 分词
end
end
end
h = Hash.new
h = x.inject(Hash.new(0)){|hash,x| hash[x] += 1; hash} #把数组内容进行计数为hash
h.delete_if {|key, value| value <NUM2} #去除hash中小于指定数值的部分
y = Array.new
y = h.sort {|a,b| b[1]<=>a[1]} # 从大到小排序
y.each_index {|i| puts "#{i+1} #{y[i][0]} = #{y[i][1]}" }
puts "运行时间是:"<<(Time.now-t).to_s<<"秒"
分享到:
相关推荐
在本项目中,“Python文本挖掘方法辅助宋词自然景观意象分析”是一个研究主题,它结合了计算机科学与文学研究,特别是运用了Python编程语言的文本挖掘技术来探索宋词中的自然景观意象。文本挖掘是一种从大量文本数据...
这本书以苏教版完整版的形式呈现,旨在让学生深入理解和欣赏这两个朝代的文化瑰宝。唐诗和宋词是中国古代文学的高峰,它们以独特的艺术表现力和深刻的思想内涵,反映了当时的社会风貌和个人情感。 《滕王阁诗》是...
“词频统计_宋词词频_宋词词频统计”这一主题表明,我们的目标是对宋词中的词汇出现频率进行量化分析。通过词频统计,我们可以发现哪些词汇在宋词中最为常见,这有助于揭示宋词的风格特点和常用表达,同时也可以为古...
《唐诗宋词 电子版200901》是一个包含了丰富文学宝藏的资源,主要聚焦于中国古代文学中的两大瑰宝——唐诗与宋词。这个电子版本为读者提供了三百首精选的唐诗和宋词,使得这些流传千年的经典作品得以在现代科技的...
宋词,作为中华传统文化的瑰宝,以其独特的韵律美和深邃的情感表达,一直深受人们的喜爱。在当代,借助先进的计算机技术,我们能够实现宋词的自动生成,这得益于机器学习和自然语言处理(NLP)的进步。本文将详细...
唐诗宋词选读(苏教版完整版)是苏教版出版的一本选读教材,收录了唐代诗人王勃、陈子昂等人的诗歌作品,并附有注释、译文和赏析。 《滕王阁诗》是王勃的代表作之一,描绘了滕王阁的景象和滕王的豪华宴会。诗歌以...
(poem)数据库 【数据库中的宋词知识点】 宋词是中国古典文学形式之一,兴起于唐代,发展于宋代,成为中国古典...本文选取了60句宋词,展示了宋词的语言特色、艺术效果和内容广泛性,为读者提供了一个了解宋词的机会。
《5万唐诗26万宋词SQL数据库》是一个压缩包,包含了大量的唐诗和宋词数据,解压后的文件大小约为140MB。这个数据库对于研究、学习和爱好者来说是一个宝贵的资源,它整合了丰富的中国古代文学精华,涵盖了唐诗和宋词...
在相关工作中,尽管情感分析是近年来的研究热点,但专门针对宋词风格的机器学习分类研究并不多见,特别是使用大规模语料库和多种机器学习方法的尝试。重庆大学易勇的研究采用了朴素贝叶斯方法结合信息增益和遗传算法...
《宋词研究》是陕西师范大学专升本课程中的一门重要学科,主要涉及宋代词作的理论探讨和实际分析。该课程的考评作业涵盖了名词解释、作品分析和论述题等多个方面,旨在帮助学生深入理解宋词的艺术特色和历史地位。 ...
唐诗宋词300首, 包含作者的姓名,题目, 内容, 简介等各种信息
python获取的宋词三百首数据库
1.唐诗宋词是一种艺术,艺术具有审美价值,欣赏唐诗宋词产生的共鸣和联想,能够起到陶冶情操、净化心灵、启迪人生等各种作用; 2.唐诗宋词描写涉及的内容广泛,囊括到唐宋时期人们生活的方方面面,对于很多方面的研究都有...
【唐诗宋词】是中国古代文学的璀璨明珠,它们以其深邃的思想内涵、优美的艺术形式,流传千年,深受人们喜爱。唐诗是唐代文化的瑰宝,宋词则是宋代文学的巅峰,两者均展现了中华文化的博大精深。 1. 张九龄的《感遇...
《宋词查询管理系统-DELPHI源代码》是一款基于DELPHI编程语言开发的应用程序,主要功能是提供宋词的查询服务。此系统为用户提供了便捷的途径来探索丰富的宋词文化,通过输入关键词,用户可以快速找到相关诗词,极大...
开发者可能需要先对大量宋词样本进行分析,提取出特征,然后通过遗传算法来尝试生成符合这些特征的新词句。 在压缩包中提到的数据文件可能包含了宋词的原始文本,用于训练和测试算法。结果文件则可能是算法运行后的...
【标题】"基于Web的唐诗宋词网页设计"是一个以HTML为主的前端课程设计项目,旨在利用网页技术呈现丰富的唐诗宋词内容,为用户提供一个交互式的诗词学习平台。这个项目不仅涵盖了基本的HTML结构和样式设计,还可能...
宋词是中国古代文学的一种重要体裁,特别是在宋代达到了巅峰,其中词牌格律是宋词创作的基本框架。词牌,即填词时所依据的音乐曲调的名称,每个词牌都有其特定的格律,包括字数、句式、韵脚等要求,决定了词的结构和...
根据给定的信息,我们可以深入分析网友制作的宋词高频词汇及其与数字代码之间的关系,并从中提炼出相关的IT知识点。以下是对这些高频词汇及其代码的详细解读: ### 高频词汇与数字代码的意义 #### 1. 知识点:数据...
唐诗宋词,作为中国古代文学的瑰宝,承载着中华文化的深厚底蕴,是美的艺术表现形式,具有极高的鉴赏价值。这篇论文旨在探讨唐诗宋词中的艺术魅力,特别是色彩之美及其对时空表现的超越。 色彩在诗词中起到了至关...