在Nutch中使用庖丁解牛中文分词

梦秋雨

浏览: 87857 次
性别:

最近访客更多访客>>

wq611403

铁皮烈酒

China2010pan

woodding2008

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

搜索引擎互联网 Apache

一年多前曾经关注过一阵子nutch，那时候还是0.7，后来出了0.8版本，前面再看，已经是0.9。正好有点时间想把之前搁下来的校内搜索引擎的事情再拿起来，于是就下载来重新折腾了几天。现在终于“小有成就”，在校内跑起来了，现在来记录一下使用过程中遇到的一些问题，以及解决方法，或有用于同道。

1.加入中文分词

这是天朝人物做搜索要解决的第一件事情。我的办法也偷懒，改了一个类，重新构建一下就ok了。

首先当然是要下载nutch-0.9的压缩包。之后打开org.apache.nutch.analysis.NutchDocumentAnalyzer，按下面的方式修改：

//加入庖丁解牛分词器属性
private static Analyzer PAODING_ANALYZER;

//修改初始化方法，初始化庖丁解牛分词器
public NutchDocumentAnalyzer(Configuration conf) {
//

，加下面的一句
  PAODING_ANALYZER = new PaodingAnalyzer();
}

//修改tokenStream方法，使用庖丁解牛分词器
//比较简单，就是不管三七二十一用庖丁就结了
  public TokenStream tokenStream(String fieldName, Reader reader) {
    Analyzer analyzer;
    /*
    if ("anchor".equals(fieldName))
      analyzer = ANCHOR_ANALYZER;
    else
      analyzer = CONTENT_ANALYZER;
    */
    analyzer = PAODING_ANALYZER;

    return analyzer.tokenStream(fieldName, reader);
  }

上面是索引的时候用的，下面对查询部分作修改：打开

分享到：

看中国男排比赛 | 在测试过程中使用HSQL数据库

2008-07-23 15:00
浏览 3673
评论(5)
查看更多

5 楼 952222 2009-07-30

我有个奇怪的问题想问一下，就是搜索的时候如果搜索类似“互联网”“成立于”这类三个字是两个词语的词语，就会出现搜索页面显示空白。按常理来说应该要么显示结果要么显示没有结果，可是它却显示一个空白页面，什么都没有，请问是什么原因呢？

4 楼 952222 2009-07-28

下面还有半边哪去啦？

3 楼 952222 2009-07-28

真简单。

2 楼 diddyrock 2008-12-30

日是我搞错了

1 楼 diddyrock 2008-12-30

lz好像应该是
if ("anchor".equals(fieldName))
      analyzer = ANCHOR_ANALYZER;
    else
      analyzer = PAODING_ANALYZER;吧

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

paoding(庖丁解牛): 本节将详细介绍如何在Nutch1.1版本上配置Paoding庖丁解牛3.0.1版本，以便实现中文分词功能。 ##### 版本环境： - **Ubuntu**: 10.04 - **Nutch**: 1.1 - **Lucene**: 3.0.1 - **Paoding庖丁解牛**: 3.0.1 - **JDK*...

bigdata-2:大数据二: bigdata-2大数据二跑在hadoop平台上的测试代码，和实际运行在平台上的代码有些不同核心功能部分代码的数据准备是利用Nutch 爬取网易门户网站中各个分类的内容，根据内容进行分词（利用Lucene，配置庖丁解牛包的...

natsort-3.5.3.tar.gz: 该资源为natsort-3.5.3.tar.gz，欢迎下载使用哦！

C++个人备考复习资料: 蓝桥杯c 蓝桥杯c C++个人备考复习资料

基于FPGA的无刷电机旋变控制技术详解及应用: 内容概要：本文详细介绍了如何使用FPGA进行无刷电机的旋变控制。首先讨论了旋变解码模块的设计，通过Verilog代码实现角度解算，并采用反正切查表法提高解算速度。接着探讨了PWM生成机制，展示了如何通过状态机实现高效的PWM波形生成，并强调了死区时间控制的重要性。然后深入讲解了闭环控制中的PID算法实现，特别是针对时钟对齐和防溢出处理进行了优化。此外，文章还涉及了旋变信号的硬核处理、CORDIC算法的应用以及速度观测器的设计。最后，通过对实际测试数据的分析，证明了FPGA方案相比传统DSP方案的优势，特别是在响应速度和角度解码精度方面。适合人群：从事嵌入式系统开发、电机控制研究的技术人员，尤其是对FPGA感兴趣的工程师。使用场景及目标：适用于需要高精度、快速响应的无刷电机控制系统设计。主要目标是通过FPGA的强大并行处理能力，实现更高效的旋变解码、PWM生成和闭环控制，从而提升系统的整体性能。其他说明：文中提到多个具体的Verilog代码片段，帮助读者更好地理解和实现相关功能。同时，作者分享了许多实践经验，如调试过程中遇到的问题及其解决方案，有助于初学者少走弯路。

基于粒子群优化算法的PID控制器参数自动整定及其在自动控制领域的应用: 内容概要：本文详细介绍了利用粒子群优化(Particle Swarm Optimization, PSO)算法进行PID控制器参数整定的方法。首先阐述了传统PID参数整定方法如试凑法和Ziegler-Nichols法的局限性，然后重点讲解了PSO算法的基本原理及其在PID参数优化中的具体实现步骤。文中提供了多个实例，包括四旋翼无人机电机转速控制、直流电机转速控制以及一般工业控制系统的PID参数优化。通过与传统方法对比，展示了PSO算法在减少超调量、缩短响应时间和消除稳态误差方面的优越性能。此外，还讨论了适应度函数的选择、参数边界处理、惯性权重调整等关键技术细节，并给出了具体的Python和Matlab代码示例。适合人群：自动化专业学生、从事自动控制相关工作的工程师和技术人员。使用场景及目标：适用于各种需要精确控制的场合，特别是那些难以建立精确数学模型的复杂非线性系统。目标是提高控制系统的稳定性、快速性和准确性，降低人工调参难度。其他说明：尽管PSO算法在大多数情况下表现出色，但在某些特殊应用场景（如嵌入式系统）中需要注意计算资源消耗问题。同时，在面对时变系统时，可能需要进一步研究改进算法以满足实时性要求。

西门子CPU224XP三合一单板整合方案：PCB设计与固件优化: 内容概要：本文详细介绍了将西门子CPU224XP的三块功能板整合为单一PCB的设计过程和技术要点。首先，文章展示了如何利用FR4材料构建三明治结构的PCB，并通过KiCad进行精细的层叠配置。接着，讨论了BIN文件的生成方法，通过OpenOCD脚本实现固件的烧录。此外，文章还涉及了元件清单的自动化处理、电源模块的优化设计以及通信协议栈的重写。为了确保信号完整性和电磁兼容性，文中提供了具体的布线策略和热仿真脚本。最后，强调了生产过程中需要注意的事项，如贴片机设置、电源层铺铜和BIN文件的CRC校验。适合人群：具备一定硬件设计和嵌入式开发经验的工程师，尤其是从事工业控制系统开发的技术人员。使用场景及目标：适用于希望将多块功能板整合为单一高效PCB的设计项目，旨在提高系统的集成度、降低成本并增强性能。主要目标是掌握从PCB设计到固件烧录的全流程技术，确保最终产品能够满足严格的工业标准。其他说明：文中提供的代码片段和设计思路不仅有助于理解和实施具体的技术细节，还可以作为类似项目的参考案例。

恒压供水系统中ABB ACS510变频器的应用与优化配置: 内容概要：本文详细介绍了ABB ACS510变频器在恒压供水系统中的应用及其优化配置方法。主要内容涵盖多泵轮换功能、固定变频泵模式、PID参数调整、触摸屏集成以及独立运行模式等方面的技术细节。文中不仅提供了具体的参数设置指导，还分享了许多实际调试经验和常见问题解决方案，如电流冲击减少、压力波动控制、通信协议配置等。适合人群：从事自动化控制系统设计、安装和维护的技术人员，尤其是对恒压供水系统感兴趣的工程师。使用场景及目标：适用于需要构建高效稳定的恒压供水系统的工程项目，旨在提高系统的稳定性和节能效果，降低维护成本。其他说明：文章强调了实际操作中的注意事项和技术要点，对于理解和掌握ABB ACS510变频器的实际应用非常有帮助。此外，还提到了一些创新性的配置方法和优化技巧，有助于提升系统的性能表现。

基于28035芯片的同步机无传感滑膜观测器模型代码解析及应用: 内容概要：本文详细介绍了基于TMS320F28035芯片实现的同步机无传感滑膜观测器（SMO）和锁相环（PLL）模型的代码实现及其实际应用场景。首先，文章概述了SMO+PLL方案的工作原理，即通过滑膜观测器估计电机的反电动势，再由锁相环优化转速和位置的估计精度。接着展示了关键代码片段，包括电流采样与Clark变换、滑膜观测器核心算法、PLL算法以及坐标变换的细节。文中还特别强调了一些实用技巧，如Q格式运算提高效率、符号函数的实现方式、角度过零补偿等。此外，文章提到该代码已在实际项目中成功应用，具有较高的稳定性。适合人群：从事电机控制领域的工程师和技术人员，尤其是对同步机无传感控制感兴趣的开发者。使用场景及目标：适用于需要实现同步机无传感控制的工程项目，如伺服驱动、压缩机控制等。主要目标是帮助读者理解和掌握SMO+PLL方案的具体实现方法，从而应用于实际产品开发中。其他说明：文中提及的一些细节，如Q格式运算、符号函数实现、角度过零补偿等，对于提高系统的性能至关重要。同时，作者提供了许多实践经验，有助于解决实际应用中的常见问题。

基于MotorCAD的32极36槽永磁同步电机设计：高功率密度与过载能力优化: 内容概要：本文详细介绍了利用MotorCAD进行32极36槽内转子永磁同步电机的设计过程，重点探讨了极槽配合选择、绕组设计、电磁场计算、磁钢布局以及散热系统的优化。通过合理的极槽配置（如32极配36槽），采用双层短距绕组和优化后的磁钢布局（如V型磁钢夹角92度），使得电机的功率密度达到5kW/kg，过载能力达2.5倍。同时，高效的冷却系统确保了电机在高负荷下的稳定运行，实测效率高达96.2%，过载至140%时仍能保持93.5%的效率。适合人群：从事电机设计、电磁场分析及相关领域的工程师和技术人员。使用场景及目标：适用于需要高功率密度和强过载能力的电动工程机械等领域，旨在帮助工程师理解和应用先进的电机设计理念和技术手段，提升产品性能。其他说明：文中提供了详细的参数配置代码片段，便于读者复现设计过程。此外，还讨论了一些常见的设计挑战及其解决方案，如磁钢涡流损耗控制、绕组因数优化等。

企业管理基于复盘的企业学习与知识管理体系构建：从经验中学习提升组织能力: 内容概要：本文详细介绍了复盘的概念、操作手法、应用场景及其对企业及个人成长的重要性。复盘源自围棋术语，指对过去的经验进行回顾和反思，以从中学习和改进。文章阐述了复盘的五大核心要素：回顾目标、评估结果、分析原因、总结经验教训和提出改进建议。复盘不仅适用于个人成长，还广泛应用于企业管理和项目管理中，能够帮助企业提升执行力、改善决策流程、优化运营效率，并最终推动组织学习和发展。文中特别强调了复盘在军队、联想集团和英国石油公司（BP）中的成功实践。适合人群：企业管理者、项目经理、团队领导者及希望提升自我反思和学习能力的职场人士。使用场景及目标：①帮助个人和团队从过去的经历中吸取教训，避免重复错误；②通过系统的反思和总结，提升团队的协作效率和创新能力；③促进企业内部的知识共享和文化传播，构建学习型组织；④为企业战略调整提供数据支持，确保战略目标的有效落地。其他说明：为了使复盘成为一种常态化的工作方法和习惯，组织应加强培训，培养专业的引导者，并将复盘融入日常管理流程中。此外，复盘的成功实施还需要营造开放、坦诚的文化氛围，鼓励全员积极参与。复盘不仅仅是回顾过去，更是面向未来的持续改进工具。

遗传算法优化BP神经网络在短期电力负荷预测中的应用及高精度预测: 内容概要：本文详细介绍了将遗传算法与BP神经网络相结合用于短期电力负荷预测的方法及其优势。传统BP神经网络由于易陷入局部最优，预测误差较大，尤其是在节假日等特殊时段表现不佳。遗传算法通过引入全局搜索能力，优化了神经网络的权重初始化，显著提高了预测精度。文中展示了具体的编码、适应度计算、交叉变异等遗传算法步骤，并提供了Python代码实例。此外，作者分享了多个实战经验，如种群规模、迭代次数、变异概率等参数的设置技巧，以及如何避免过拟合等问题。适合人群：从事电力系统相关工作的工程师和技术人员，尤其是对机器学习和优化算法有一定了解的人士。使用场景及目标：适用于需要进行短期电力负荷预测的场合，如电网调度、工业用电管理等。主要目标是提高预测精度，减少因预测不准确带来的经济损失和调度困难。其他说明：文中提到的技术不仅限于电力负荷预测，还可以应用于其他具有周期性和波动性的时序数据分析任务。同时，作者强调了在实际应用中需要注意的各种细节和潜在问题，如过拟合、过早收敛等。

一款精致的雷电战机游戏，本地可直接play: # 雷电战机 (Raiden Space Shooter) A beautiful web-based space shooter game inspired by the classic Raiden series. ## Features - Smooth gameplay with keyboard controls - Multiple enemy types with different behaviors - Power-up system to enhance your ship - Beautiful visual effects - Score tracking and lives system ## How to Play ### Controls - Move: Arrow keys or WASD - Shoot: Space bar ### Power-ups - Green: Increases ship speed - Cyan: Increases fire rate - Red: Increases bullet damage - Yellow: Adds additional bullets ## Running the Game 1. Make sure you have Node.js installed 2. Navigate to the game directory 3. Run the server: ``` node server.js ``` 4. Open your browser and go to `http://localhost:3000` ## Development This game is built using vanilla JavaScript and HTML5

基于深度学习Pytorch框架的文本分类.zip: 基于深度学习的系统

土木工程仿真中ABAQUS分层填筑沉降模拟的技术解析与应用: 内容概要：本文详细介绍了如何使用ABAQUS进行路基及大坝分层填筑沉降模拟。首先讲解了材料定义，如使用Drucker-Prager模型模拟粘土，并强调了正确设置材料参数的重要性。接着讨论了分层施工的关键步骤，包括单元激活策略、接触面处理以及地应力平衡。文中还提供了多个Python脚本示例，用于自动化生成施工步、设置接触属性、提取沉降结果等。此外，文章分享了一些实用技巧，如避免常见错误、优化模型性能的方法，并通过实际案例展示了如何通过调整材料参数来更好地反映真实施工状况。适合人群：从事土木工程仿真的工程师和技术人员，尤其是那些希望深入了解ABAQUS分层填筑模拟方法的人群。使用场景及目标：适用于需要精确模拟路基和大坝分层填筑过程及其沉降行为的工程项目。主要目标是帮助用户掌握ABAQUS的具体操作流程，确保模拟结果的准确性，并提供解决常见问题的有效方法。其他说明：文章不仅涵盖了理论知识，还包括大量实践经验，有助于读者将所学应用于实际工作中。同时提醒读者注意一些容易忽视的细节，如材料参数单位的一致性和接触面设置合理性等。

西门子S7-200PLC与MM420变频器三种控制方式详解及应用: 内容概要：本文详细介绍了西门子S7-200PLC（224XP型号）与MM420变频器之间的三种控制方式：数字量控制、模拟量控制以及USS通讯控制。首先，数字量控制通过PLC的开关量输出控制变频器的不同预设速度，涉及参数设置如P0701和P0702。其次，模拟量控制利用PLC自带的模拟量输出模块进行频率调节，需注意量程转换和参数P0756的设置。最后，USS通讯采用西门子专用协议实现复杂控制，强调了初始化参数、轮询机制和状态互锁的重要性。此外，文中还提供了关于MCGS触摸屏的应用技巧，如变量绑定和实时数据显示方法。适合人群：从事工业自动化领域的工程师和技术人员，尤其是熟悉西门子PLC和变频器产品的使用者。使用场景及目标：适用于希望深入了解PLC与变频器联合控制系统的设计与实现的技术人员。主要目标是在实际工程项目中灵活运用这三种控制方式，提高系统的可靠性和效率。其他说明：文中附带了详细的代码片段和调试建议，帮助读者更好地理解和实践相关技术。同时提醒读者关注参数设置的一致性和安全性，以避免潜在的风险。

RHCE认证考试指南: 本学习指南专为准备RH300考试，即红帽认证工程师（RHCE）考试的考生设计。书中详细介绍了考试内容，包括硬件和安装、配置和管理、内核服务、网络服务、X窗口系统、安全、路由器、防火墙、集群和故障排除。考试分为三个部分：调试、多项选择题和服务器安装及网络服务设置。书中还提供了硬件信息收集、系统配置、X窗口系统、Linux命令和工具、网络、系统管理和安全等方面的详细信息。

基于MobileSensingSystem的电子硬件设计与实现-毕业设计资源整合: "基于MobileSensingSystem的电子硬件毕业设计资源整合，提供完整的硬件设计方案与实现方法。涵盖传感器选型、电路设计、嵌入式开发等关键技术，助力快速搭建移动传感系统。包含原理图、PCB设计、源码等实用资源，适合电子信息类专业学生参考使用。"（99字）

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论