本文为原创,如需转载,请注明作者和出处,谢谢!
面对浩瀚的信息海洋,找到想要的资源有时真的是不容易。在大量文字中搜索高频词汇是信息搜索和数据压缩的共通课题。
这次智慧擂台请大家在一个比较庞大的英文文本中找出M个数量最多的短语(由N个单词组成)。统一处理相同的文本文件,该文本只包含英文单词、空格和回行符,比较谁的程序效率最高。
程序输入:M,N,文本文件路径(M不超过20,N不超过8)
程序输出:高频短语及其数量清单
擂台规则:提交符合以上要求的可执行程序,语言招式不限,点到为止;
我们将在统一的环境下对每位选手的作品进行公平的测试,
比较出综合用时最少的程序。
源程序
<!--<br />
<br />
Code highlighting produced by Actipro CodeHighlighter (freeware)<br />
http://www.CodeHighlighter.com/<br />
<br />
-->importjava.io.*;
importjava.util.*;
classtt
{
publicStringphrase;
publicintcount;
}
publicclasssearchphrase
{
privatestaticLinkedHashMapphrase=newLinkedHashMap();
statictt[]max_phrase;
privatestaticVectorSeparateString(Strings)
{
Vectorv=newVector();
Stringtemp="";
for(inti=0;i<s.length();i++)
{
if(s.charAt(i)!='')
{
temp+=s.charAt(i);
}
else
{
if(temp!="")
v.add(temp);
temp="";
}
}
if(temp!="")
v.add(temp);
returnv;
}
privatestaticvoidswap(intpos,intcount,Stringphrase)
{
inti;
if(max_phrase[pos-1].count<count)
{
for(i=pos-1;i>0;i--)
{
if(max_phrase[i-1].count>max_phrase[i].count)
break;
}
max_phrase[pos].count=max_phrase[i].count;
max_phrase[pos].phrase=max_phrase[i].phrase;
max_phrase[i].count=count;
max_phrase[i].phrase=phrase;
}
}
privatestaticvoidadjust_max(intcount,Stringphrase)
{
inti,j;
if(count<=max_phrase[max_phrase.length-1].count)
return;
for(i=max_phrase.length-1;i>=0;i--)
{
if(max_phrase[i].phrase.equals(phrase))
{
max_phrase[i].count=count;
if(i>0)
{
swap(i,count,phrase);
}
return;
}
}
max_phrase[max_phrase.length-1].count=count;
max_phrase[max_phrase.length-1].phrase=phrase;
if(i>0)
{
swap(max_phrase.length-1,count,phrase);
}
}
privatestaticvoidjs(Vectorv,intn)
{
Strings;
for(inti=0;i<v.size()-n+1;i++)
{
s="";
for(intj=i;j<i+n;j++)
{
s+=v.get(j)+"";
}
intcount=1;
if(phrase.containsKey(s.hashCode()))
{
count=Integer.parseInt(phrase.get(s.hashCode()).toString());
count++;
}
phrase.put(s.hashCode(),count);
adjust_max(count,s);
}
}
publicstaticvoidmain(String[]args)
{
try
{
longt;
intm,n;
Stringpath;
m=Integer.parseInt(args[0]);
n=Integer.parseInt(args[1]);
path=args[2];
max_phrase=newtt[m];
for(inti=0;i<m;i++)
{
max_phrase[i]=newtt();
max_phrase[i].count=0;
max_phrase[i].phrase="";
}
t=(newjava.util.Date()).getTime();
java.io.FileReaderfr=newjava.io.FileReader(path);
java.io.BufferedReaderbr=newBufferedReader(fr);
Strings;
Vectorv=null;
while((s=br.readLine())!=null)
{
v=SeparateString(s);
js(v,n);
}
for(inti=0;i<m;i++)
{
System.out.println(max_phrase[i].phrase);
System.out.println(max_phrase[i].count);
System.out.println();
}
t=(newjava.util.Date()).getTime()-t;
System.out.print(t);
System.out.println("ms");
}
catch(Exceptione)
{
System.out.println(e.getMessage());
}
}
}
测试结果1:m = 20 n = 8
under games played won drawn lost goals for
71
tabulated under games played won drawn lost goals
70
games played won drawn lost goals for against
70
May Xinhua Following are the results from the
69
played won drawn lost goals for against and
59
won drawn lost goals for against and points
59
Jan Xinhua Following are the results from the
48
Chinas economic efficiency indicators of the sector of
39
The industrial statistics include all stateowned enterprises and
39
industrial statistics include all stateowned enterprises and the
39
statistics include all stateowned enterprises and the nonstateowned
39
include all stateowned enterprises and the nonstateowned ones
39
all stateowned enterprises and the nonstateowned ones with
39
stateowned enterprises and the nonstateowned ones with annual
39
enterprises and the nonstateowned ones with annual sales
39
and the nonstateowned ones with annual sales income
39
Xinhua Chinas economic efficiency indicators of the sector
39
the nonstateowned ones with annual sales income over
39
nonstateowned ones with annual sales income over million
39
up percent over the same period last year
35
13594 ms
测试结果2 m = 10 n = 5
Xinhua Following are the results
295
May Xinhua Following are the
209
Following are the results from
183
are the results from the
176
April Xinhua Following are the
141
Jan Xinhua Following are the
122
billion yuan billion US dollars
120
won drawn lost goals for
88
played won drawn lost goals
88
Dec Xinhua Following are the
87
12437 ms
以上源程序是采用的是最简单的方法,谁有更好,效率更高的方法,请跟贴!!
国内最棒的Google Android技术社区(eoeandroid),欢迎访问!《银河系列原创教程》发布《Java Web开发速学宝典》出版,欢迎定购
分享到:
相关推荐
第9期的智慧擂台题目文件,无疑是为程序员们提供了一个提升技能、检验自身技术水平的平台。这次的主题聚焦在了技术文档的编写、程序员的基本素养以及通过实际题目来锻炼和展示程序员的解决问题能力。 技术文档是...
我的成长记1:手把手教你如何画出令人称赞的图(程序员必读)(csdn)————程序
程序员开发高频词汇 本资源摘要信息涵盖了程序员开发高频词汇,包括抽象、抽象基类、访问级别、激活、活动的、实际参数、适配器、添加、地址空间、ActiveX数据对象、高级的、聚合、算法、别名、排列、对准、分配、...
程序员——必看的文档 程序员——必看的文档 程序员——必看的文档 程序员——必看的文档
2006程序员第九期
黑马程序员——Android移动开发源码
当我们编写完成一个java类后,运行结果会得到一个class文件,这种二进制文件如果用普通记事本打开,就会出现各种乱码现象,令人十分头疼,当我们要查看.class文件的...因此gui工具也是每一个Java开发程序员的必备工具。
程序员晋升.doc————电子版_doc版
9. IT行业的相关知识:尽管从程序员转型为项目经理不需要直接编写代码,但仍然需要对当前IT行业技术趋势有基本了解,以便更好地理解技术团队的工作,并能和客户及干系人进行有效对话。 10. 适应性与学习能力:项目...
该单词为程序员常用的词汇,包含了程序出现的异常单词和API文档中出现的高频词汇,是程序员提高自身词汇量的好方法。直接导入有道词典,每日背诵提高自身的英语水平
在“程序员如何从小白到大神——免费程序课程培训宣传ppt模板.rar”这份压缩包中,您会发现一个精致的PPT模板,这个模板不仅为初学者描绘了一条清晰的成长路线图,同时,它也能够帮助程序课程培训机构更好地展示其...
【程序员开发高频英语词汇】是针对IT行业,特别是程序员日常工作中常见英语术语的汇总,旨在帮助程序员提升在英文环境中阅读、编写代码和沟通的能力。以下是一些关键的词汇及其详细解释: 1. **Abstract**: 在编程...
在计算机专业中,有很多专业词汇需要程序员掌握。下面,我们将从提供的文件中提炼出一些重要的知识点,并对它们进行详细的解释。 1. Abstract和Abstraction 抽象(Abstract)是一种设计模式,指的是定义一个对象的...
本课程“程序员如何应用数学提高编程能力——直播回放”深入探讨了数学在编程中的作用及其对AI时代的影响力,旨在帮助程序员通过实例学习如何将数学知识转化为实际的编程技巧。 首先,数学为编程提供了逻辑基础。...
程序员的角度看web安全——兼谈php代码审计.pdf
总之,"易语言程序——EXE图标提取器开源"是一个实用的编程实践案例,不仅提供了一种方便的图标提取工具,同时也为学习易语言和Windows资源处理的开发者提供了丰富的学习素材。通过阅读和分析源代码,我们可以学习到...
600个程序员常用的单词和词汇600个程序员常用的单词和词汇600个程序员常用的单词和词汇600个程序员常用的单词和词汇600个程序员常用的单词和词汇600个程序员常用的单词和词汇600个程序员常用的单词和词汇600个程序员...
程序员如何从小白到大神——免费程序课程培训宣传PPT模板.pptx
标题中的“程序员的结构化思维方法——一个思维脑图模板”揭示了本主题的核心,即如何运用结构化思维来提升编程能力。结构化思维是指通过系统性、逻辑性的思考方式来解决问题,它对于程序员来说至关重要,因为编程...
程序员2006年第9期PDF.rar