`
lveyo
  • 浏览: 915427 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

初试MG4J

    博客分类:
  • MG4J
阅读更多
按照网站提供的manual中的A Quick Tour of MG4J完成。

在mg4j的官方网站下载binary tarballdependencies tarball,解压在本地硬盘。

以搜索mg4j的javadoc文档为例,
首先为要搜索的文件建立一个collection

java it.unimi.dsi.mg4j.document.FileSetDocumentCollection -f HtmlDocumentFactory
 -p encoding=UTF-8 javadoc.collection D:\MG4J\mg4j-2.1.1-bin\mg4j-2.1.1\docs\*.html


因为搜索的是html文档,所以这里指定了HtmlDocumentFactory,并且直接写factory的名字不用加包名;指定的编码类型为utf-8;生成的collection文件名为javadoc.collection;D:\MG4J\mg4j-2.1.1-bin\mg4j-2.1.1\docs\*.html为要搜索的文件,如果还有可以直接在后面添加文件名。

运行后将生成javadoc.collection文件,这个文件就是一个包含要搜索的文件名的类型java实例序列化后的文件。

第二步,为要搜索的文件生成索引。

java -Xmx256M it.unimi.dsi.mg4j.tool.IndexBuilder --keep-batches
 --downcase -s 10000 -S javadoc.collection javadoc


如果collection很大有数百万的文档,就要调整java的内存,以满足索引快速生成索引。
--keep-batches是为了查看生成索引时产出的临时文件,可以去掉。
--downcase是忽略大小写,搜索的时候STRING和string是一样的。
-s 10000设置了批量生成索引的大小。
-S javadoc.collection指定了collection文件为javadoc.collection。
javadoc为索引文件的文件名前缀。

生成的索引文件为javadoc-title.*和javadoc-text.*

第三步,启动查询器进行搜索

java it.unimi.dsi.mg4j.query.Query -h -i FileSystemItem 
-c javadoc.collection javadoc-text javadoc-title


可以打开浏览器输入http://localhost:4242/Query进行搜索,Query类中内置了jetty可以提供web服务。也可以在命令行输入要搜索的词。

在运行上面的命令之前,一定要把dependencies tarball中的jar包加入到classpath中,才能正常运行。

我也试了在要搜索的html文档中加入了一些中文html文档,在搜索中文的时候还是有问题,搜索无法进行。

刚刚接触MG4J,还在阅读manual.....
分享到:
评论
2 楼 sunasheng 2012-12-27  
请问你上面的代码是在什么环境下运行的,Linux吗?能不能对以上文章再进行较为详细的描述MG4J到底如何使用?谢谢!
1 楼 orzzzzz 2008-12-01  
中文搜索应该是可以的。只是没有分词。(跟英文类似,以标点/完格等分割了)

--
比如说刚才那句话,就是[中文搜索应该是可以的]是一个词,可以检索到。

稍为改了一下,按字索引。不过,想简单的两两切词就不行了。

不知道你研究的怎样?呵呵。

相关推荐

    csp - j初试模拟卷.docx

    csp - j初试模拟卷.docx csp - j初试模拟卷.docx csp - j初试模拟卷.docx csp - j初试模拟卷.docx csp - j初试模拟卷.docx csp - j初试模拟卷.docx csp - j初试模拟卷.docx csp - j初试模拟卷.docx csp - j初试模拟...

    研究生初试录取 c++课程设计

    4. 输入通过初试的考生的复试成绩,并将这些信息保存到文件"data3"。 5. 根据复试成绩,输出录取结果,并标记未被录取的考生。 选做部分引入了复试环节,通过定义`Reexam`类来处理复试成绩,这个类可能包含复试成绩...

    基于c++的研究生初试录取管理系统全文件

    【标题】基于C++的研究生初试录取管理系统全文件 本系统是针对研究生初试录取流程而设计的一个管理软件,采用C++编程语言在Visual Studio环境下实现。C++是一种广泛应用的面向对象编程语言,以其高效、灵活性和强大...

    软件工程初试.zip

    《软件工程初试》资料集合是为准备武汉科技大学计算机专业考研初试的考生精心整理的一份宝贵资源。这个压缩包涵盖了三个主要部分:期末考试试卷、历年真题以及模拟预测题,旨在帮助考生全面深入地理解和掌握软件工程...

    西南交大初试相关

    在“西南交大初试相关”的压缩包文件中,包含了丰富的学习资料,如PPT和期末考试试卷,这些都是备考的重要资源。 首先,我们来详细探讨电力电子这一主题。电力电子是研究电能转换和控制的科学,它涵盖了电力半导体...

    武汉理工初试复试汇总

    【武汉理工初试复试汇总】是一份针对武汉理工大学研究生入学考试的数据结构复习资源包,包含了丰富的学习材料和考试经验分享,旨在帮助考生更好地准备852数据结构这门科目,从而顺利通过初试和复试。 在数据结构的...

    大连大学2023年初试科目大纲汇总.rar

    4. **参考书目**:大纲中推荐的参考书目是考生复习的重要资料,通常包括教材、教辅书籍和学术论文等。考生应仔细研读这些书籍,以获取全面的知识。 5. **复习策略**:了解大纲后,考生可以制定科学的复习计划,优先...

    应聘人员初试测评表.doc

    4. **诚实度**:衡量应聘者是否诚实地提供个人信息和经历,是否有欺骗行为。 5. **时间观念与纪律观念**:考察应聘者是否重视时间,能否按时完成任务,遵守公司规章制度。 6. **人格成熟程度**:包括情绪稳定性、...

    研究生初试C++源代码

    研究生初试cpp文件,可以完成文件操作功能,统计研究生录取结果

    浙大电气初试复试经验

    从给定的文件中,我们可以了解到浙江大学电气考研的初试和复试的一些具体经验和建议。以下是从标题、描述和部分内容中提取的关键知识点。 首先,关于初试经验,文档的作者是来自一所普通985高校电气学院的学生,...

    研究生初试录取系统 c 课程设计报告

    研究生初试录取系统 C 课程设计报告 本课程设计报告的主要目的是设计一个研究生初试录取系统,旨在统计初试合格的人数,并按总分由高到低的顺序输出合格考生的信息。本系统需要输入考生姓名、准考证号、报考专业、...

    09多校考研初试成绩排名

    4. **地区差异**:地域因素也会影响考研的竞争状况,如一线城市和著名高校的报考人数通常更多,竞争更为激烈。 5. **趋势分析**:对比历年排名数据,可以发现考研难度、报考人数、录取政策等方面的变化趋势,为备考...

    最新人教版小学四年级语文下册《交流平台初试身手》精品课件-.pdf

    最新人教版小学四年级语文下册《交流平台初试身手》精品课件-.pdf

    09高校初试排名 09年高校初试排名

    09年高校初试排名09年高校初试排名09年高校初试排名

    研究生初试录取管理系统

    ### 知识点一:研究生初试录取管理系统的架构与实现 #### 1.1 系统概述 研究生初试录取管理系统是一款基于C++语言开发的应用程序,旨在帮助教育机构高效地管理和处理研究生入学考试的相关数据。该系统通过定义结构...

    西安电子科技大学计算机初试复试汇总

    4. 网络技术:深入理解TCP/IP协议栈,包括OSI七层模型,熟悉HTTP、FTP、DNS等常用协议的工作原理,了解网络安全与加密技术。 5. 操作系统:学习进程管理、内存管理、文件系统、设备管理等核心概念,理解多任务并行...

Global site tag (gtag.js) - Google Analytics