使用zend Framework的lucene进行全文检索——中文分词

ythzjk

浏览: 75993 次
性别:
来自: 上海

最近访客更多访客>>

zmmandcl

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

zend framework

全文检索 Zend lucene 算法 PHP

[2007/06/16 21:52 | 分类: PHP高级技术 » PHP面对对象 | by feifengxlq ]

前言：去年系统的研究了下lucene和weblucene等相关的全文检索技术。后来也稍微的看了下zend Framework的lucene。之后就没有继续研究了。这次打算给研学吧(http://www.yanxue8.com)添加全文检索的功能，再次重新研究下zend Framework的lucene模块。

接下来的几篇文章会系统讲述如何使用zend Framework搭建一个简单实用的站内全文检索。主要是增对数据库里面的数据进行检索。关于全文检索的基本知识，和zend framework环境的搭建使用，我这里不细说（呵呵，其实我自己也不是是zend framework，而是用自己的phpbean。zend framework我只当作库类用）。

ZF本身没有提供中文分词算法，具体应用中要自己写。我这里使用简单的二元分词算法（只在utf-8下工作正常，对于其他字符集，请修改程序）。

第一步、如何测试分词算法的输出。
在zf 的手册中没有提到，我这里简单给个例子：

复制内容到剪贴板

代码:

<?php 
$analyzer = Zend_Search_Lucene_Analysis_Analyzer::getDefault(); 
$value = 'this is a test!'; 
        $analyzer->setInput($value, 'utf-8'); 
         
    $position     = 0; 
        $tokenCounter = 0; 
        while (($token = $analyzer->nextToken()) !== null) { 
            $tokenCounter++; 
            $tokens[] = $token; 
        } 
        print_r($tokens); 
?>

这里使用是zf默认的分词算法Zend_Search_Lucene_Analysis_Analyzer_Common_Text。另外你可以加上一个过滤方法。比如说过滤一些单词，比如“is”,"a "之类的。

第二步、自定义自己的分词算法，可以参考手册，或者自己看Zend_Search_Lucene_Analysis_Analyzer_Common_Text类的实现。
其中要注意的是过滤这点。由于我们的分词是二元分词，如果要过滤一些比如“的”、“啊”之类的单词，是无法使用内置的Tokens Filtering。我们需要是分词前先过滤调。这个可以在reset()里面实现
例子。

复制内容到剪贴板

代码:

<? 
require_once 'Zend/Search/Lucene/Analysis/Analyzer.php'; 
class Phpbean_Lucene_Analyzer extends Zend_Search_Lucene_Analysis_Analyzer_Common { 
     
    private $_position; 
     
    private $_cnStopWords = array(); 
     
    public function setCnStopWords($cnStopWords){ 
        $this->_cnStopWords = $cnStopWords; 
    } 

    /** 
     * Reset token stream 
     */ 
    public function reset() 
    { 
        $this->_position = 0; 
        $search = array(",", "/", "\", ".", ";", ":", """, "!", "~", "`", "^", "(", ")", "?", "-", "t", "n", "'", "<", ">", "r", "rn", "$", "&", "%", "#", "@", "+", "=", "{", "}", "[", "]", "：", "）", "（", "．", "。", "，", "！", "；", "“", "”", "‘", "’", "［", "］", "、", "—", "　", "《", "》", "－", "…", "【", "】",); 
        $this->_input = str_replace($search,' ',$this->_input); 
        $this->_input = str_replace($this->_cnStopWords,' ',$this->_input); 
    } 

    /** 
     * Tokenization stream API 
     * Get next token 
     * Returns null at the end of stream 
     * 
     * @return Zend_Search_Lucene_Analysis_Token|null 
     */ 
    public function nextToken() 
    { 
        if ($this->_input === null) { 
            return null; 
        } 
        while ($this->_position < strlen($this->_input)) { 
            while ($this->_position < strlen($this->_input) && 
                    $this->_input[$this->_position]==' ' ) { 
                $this->_position++; 
            } 
            $termStartPosition = $this->_position;       
            $temp_char = $this->_input[$this->_position]; 
            $isCnWord = false; 
            if(ord($temp_char)>127){   
                $i = 0;        
                while ($this->_position < strlen($this->_input) && 
                ord( $this->_input[$this->_position] )>127) { 
                    $this->_position = $this->_position + 3; 
                    $i ++; 
                    if($i==2){ 
                        $isCnWord = true; 
                        break; 
                    } 
                } 
                if($i==1)continue; 
            }else{ 
                while ($this->_position < strlen($this->_input) && 
                ctype_alnum( $this->_input[$this->_position] )) { 
                    $this->_position++; 
                } 
            } 
            if ($this->_position == $termStartPosition) { 
                return null; 
            } 

            $token = new Zend_Search_Lucene_Analysis_Token( 
                                      substr($this->_input, 
                                             $termStartPosition, 
                                             $this->_position - $termStartPosition), 
                                      $termStartPosition, 
                                      $this->_position); 
            $token = $this->normalize($token); 
            if($isCnWord)$this->_position = $this->_position - 3; 
            if ($token !== null) { 
                return $token; 
            } 
        } 
        return null; 
    } 
     
} 
?>

测试分词输出demo

复制内容到剪贴板

代码:

<? 
$stopWords = array('a', 'an', 'at', 'the', 'and', 'or', 'is', 'am'); 
        $stopWordsFilter = new Zend_Search_Lucene_Analysis_TokenFilter_StopWords($stopWords); 
        $analyzer = new Phpbean_Lucene_Analyzer(); 
        $cnStopWords = array('的'); 
        $analyzer->setCnStopWords($cnStopWords); 
        $analyzer->addFilter($stopWordsFilter); 
        $value = 'this is " a test【中文】的测试'; 
        $analyzer->setInput($value, 'utf-8'); 
         
        $position     = 0; 
        $tokenCounter = 0; 
        while (($token = $analyzer->nextToken()) !== null) { 
            $tokenCounter++; 
            $tokens[] = $token; 
        } 
        print_r($tokens); 
?>

比如上面的输出就是"this" "test" "中文" “测试”四个结果。符合我们的需要。

搜索更多相关主题的帖子: zend_framework lucene 分词

分享到：

zend studio for eclipse 中文乱码的问题 | Zend Framework实例教程2

2009-02-09 16:05
浏览 1978
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

php框架Phpbean说明: - **中文分词**：对于中文检索的支持，可以参考Zend Framework的Lucene实现。 #### 四、总结 Phpbean框架以其简洁的设计和高性能的特点，为开发者提供了一个高度灵活且透明的开发平台。通过以上核心组件和可选库...

19考试真题最近的t44.txt: 19考试真题最近的t44.txt

清华大学第三弹：普通人如何抓住DeepSeek红利.pdf: 清华大学第三弹：普通人如何抓住DeepSeek红利

Python环境下的滚动轴承故障诊断优化算法：基于改进WDCNN的一维卷积神经网络与LSTM融合的时序信号处理研究,Python环境中基于改进WDCNN与LSTM融合的滚动轴承故障诊断方法研究-优化: Python环境下的滚动轴承故障诊断优化算法：基于改进WDCNN的一维卷积神经网络与LSTM融合的时序信号处理研究,Python环境中基于改进WDCNN与LSTM融合的滚动轴承故障诊断方法研究——优化卷积核大小，提升诊断准确率并加速收敛速度的应用,Python环境下一种基于WDCNN的滚动轴承故障诊断方法算法采用pytorch深度学习模块，对WDCNN进行改进，搭建了卷积核大小逐层递减的一维卷积神经网络，并减少了卷积层数量，达到了98%以上的诊断准确率，同时有着较快的收敛速度。另外，针对时序信号的特点，将长短时记忆网络(LSTM)与搭建的一维卷积神经网络结合，提高分类准确率至99%以上，但收敛速度较单一的卷积神经网络较慢。算法可迁移至金融时间序列，地震信号，语音信号，声信号，生理信号（ECG,EEG,EMG）等一维时间序列信号。 ,基于WDCNN的故障诊断方法; 卷积神经网络; 算法改进; 高诊断准确率; 收敛速度快; LSTM结合; 一维时间序列信号; 金融、地震、语音、生理信号诊断,Python下改进WDCNN的滚动轴承故障诊断法：深度学习提升诊断准确率与收敛速度

基于遗传算法优化的机器学习模型分类预测与回归分析技术概览：SVM、LSTM等算法应用,遗传算法优化机器学习模型在分类、回归与时序预测中的应用（支持SVM、RF等）matlab代码实践,遗传算法优化用于: 基于遗传算法优化的机器学习模型分类预测与回归分析技术概览：SVM、LSTM等算法应用,遗传算法优化机器学习模型在分类、回归与时序预测中的应用（支持SVM、RF等）matlab代码实践,遗传算法优化用于分类回归时序预测遗传算法优化支持向量机SVM，最小二乘支持向量机LSSVM，随机森林RF，极限学习机ELM，核极限学习机KELM，深度极限学习机DELM，BP神经网络，长短时记忆网络 LSTM，Bilstm，GRU，深度置信网络 DBN，概率神经网络PNN，广义神经网络GRNN..... 以上有分类预测回归预测时序预测 matlab代码，可直接替数据使用，简单操作易上手。 ,遗传算法优化; 分类预测; 回归预测; 时序预测; 支持向量机SVM; 最小二乘支持向量机LSSVM; 随机森林RF; 极限学习机ELM; 深度极限学习机DELM; 神经网络操作; Matlab代码,遗传算法优化多种机器学习模型在分类、回归与时序预测中的应用

《多元系列污水处理及石油化工设备三维模型库：可编辑装配体与零部件模型集》,优质专业设备模型集萃：90套管道设备、石油化工与污水处理设备三维模型，可编辑修改尺寸，装配体模型与零部件一应俱全,共90套左右: 《多元系列污水处理及石油化工设备三维模型库：可编辑装配体与零部件模型集》,优质专业设备模型集萃：90套管道设备、石油化工与污水处理设备三维模型，可编辑修改尺寸，装配体模型与零部件一应俱全,共90套左右各类污水处理设备三维模型，管道设备三维模型，石油化工设备三维模型。 sw打开，大部分是可以编辑修改尺寸的。有装配体模型，有零部件模型。 ,污水处理设备模型; 管道设备模型; 石油化工设备模型; 可编辑修改尺寸; 装配体模型; 零部件模型。,90套污水处理与石油化工设备三维模型库：可编辑装配体与零部件模型大全

2023-04-06-项目笔记 - 第四百一十八阶段 - 4.4.2.416全局变量的作用域-416 -2025.02.23: 2023-04-06-项目笔记-第四百一十八阶段-课前小分享_小分享1.坚持提交gitee 小分享2.作业中提交代码小分享3.写代码注意代码风格 4.3.1变量的使用 4.4变量的作用域与生命周期 4.4.1局部变量的作用域 4.4.2全局变量的作用域 4.4.2.1全局变量的作用域_1 4.4.2.416局变量的作用域_416- 2025-02-23

**基于主从博弈算法的电热综合能源系统动态定价与能量管理：深度创新与高效求解的MATLAB代码实现**,MATLAB代码：基于主从博弈算法的电热综合能源系统智能动态定价与高效能量管理策略研究,MATL: **基于主从博弈算法的电热综合能源系统动态定价与能量管理：深度创新与高效求解的MATLAB代码实现**,MATLAB代码：基于主从博弈算法的电热综合能源系统智能动态定价与高效能量管理策略研究,MATLAB代码：基于主从博弈的电热综合能源系统动态定价与能量管理关键词：主从博弈电热综合能源动态定价能量管理参考文档：自编文档，完全复现仿真平台：MATLAB 平台优势：代码具有一定的深度和创新性，注释清晰，非烂大街的代码，非常精品主要内容：代码主要做的是电热综合能源系统的动态定价问题，采用是主从博弈方法，上领导者问题上，以综合能源系统整体的收益作为目标函数，考虑电价以及热价等相关约束，在下层跟随者模型上，以用户用能满意度最高为目标函数，构建了领导者-跟随者Stackelberg博弈模型，同时还考虑了系统的功率平衡条件以及热能平衡条件等约束，模型的上层求解采用粒子群算法，下层求解采用CPLEX求解器，考虑该代码具有一定的创新性，适合新手学习以及在此基础上进行拓展，代码质量非常高 ,主从博弈; 电热综合能源; 动态定价; 能量管理; Stackelberg博弈模型; 粒子群算

群辉引导7.2.2 最新 vmware workstation 已经帮忙转换好为vmdk文件直接使用就可以: 修复 "保存'/opt/rr'的修改" 后主菜单锁死问题. 修复 trivial 插件的语法错误. 修复 open-vm-tools 套件缺失的 SOCKETS 驱动. 添加 vmtools 插件, 包含 qemu-ga & open-vm-tools. 4.1. 该插件会自动判断环境并启用对应的功能, 物理机也不用刻意删除该插件. 4.2. 新安装用户会默认选中, 升级用户如需要请手动添加该插件. 4.3. 如启用该插件, 请不要再在系统中安装套件. 修复 wireless 插件. 5.1. 修复 RR 下无线网络 IP 显示和刷新问题. 5.2. 修复 RR 下设置 SSID&PSK 后 DSM 下不驱动的问题. 5.3. 同步 RR 下的 SSID&PSK 到 DSM 下. 5.4. 修复 junior 模式下无线网络的支持, 已支持无线网卡的 DSM 系统安装. (暂时不支持 intel 无线网卡) 5.5. wpa_supplicant.conf 文件位于引导盘第一个分区根目录, 纯无线环境可手动放置该文件后其启动引导.

培训课件 -我是如何教创新创业及职涯设计课.pptx: 培训课件 -我是如何教创新创业及职涯设计课.pptx

流量专网售前5G解决方案模板.docx: 流量专网售前5G解决方案模板.docx

Simulink仿真模型下的混合储能控制器设计：实现功率分配、SOC均衡与高精度电流控制及母线电压补偿策略,Simulink仿真模型下的混合储能控制器设计：实现功率分配、SOC均衡与高精度电流控制及母: Simulink仿真模型下的混合储能控制器设计：实现功率分配、SOC均衡与高精度电流控制及母线电压补偿策略,Simulink仿真模型下的混合储能控制器设计：实现功率分配、SOC均衡与高精度电流控制及母线电压补偿,储能控制器，simulink仿真模型。采用下垂控制实现蓄电池超级电容构成的混合储能功率分配、SOC均衡控制、考虑线路阻抗情况下提高电流分配精度控制、母线电压补控制。 ,核心关键词： 1. 储能控制器 2. 下垂控制 3. 混合储能功率分配 4. SOC均衡控制 5. 线路阻抗 6. 电流分配精度控制 7. 母线电压补控制用分号分隔的关键词结果为：储能控制器;下垂控制;混合储能功率分配;SOC均衡控制;线路阻抗;电流分配精度控制;母线电压补控制,基于Simulink仿真的混合储能系统：下垂控制与SOC均衡策略研究

19考试真题最近的t38.txt: 19考试真题最近的t38.txt

基于V2G技术的电动汽车实时调度策略：降低充电与网损成本，IEEE配电网验证,基于V2G技术的电动汽车实时调度策略：降低充电成本与网损的调度模型及算法实现,MATLAB代码：基于V2G技术的电动汽车实: 基于V2G技术的电动汽车实时调度策略：降低充电与网损成本，IEEE配电网验证,基于V2G技术的电动汽车实时调度策略：降低充电成本与网损的调度模型及算法实现,MATLAB代码：基于V2G技术的电动汽车实时调度策略关键词：电动汽车实时调度 V2G 网损仿真平台：MATLAB YALMIP+CVX 主要内容：代码主要做的是基于V2G技术的电动汽车实时调度策略，请注意是实时调度策略而非日前调度策略，首先以降低充电成本和网损成本为目标，建立电动汽车调度模型。然后通过构建网损灵敏度指标分析电网节点性能，基于电网负荷制定分时电价，通过潮流计算和凸优化算法实时求解得到电动汽车充放电策略。最后以 IEEE 33 节点配电网为例验证了所提策略可以有效降低充电成本与网损成本。基本实现文档中的算法，复现效果良好可靠 ,V2G技术; 实时调度策略; 网损; 充电成本; 优化算法; 潮流计算; 凸优化算法; IEEE 33节点配电网。,基于V2G技术的实时电动汽车调度策略：降低充电成本与网损的MATLAB仿真研究

三菱PLC焊接机智能控制参考方案：含触摸屏程序、PLC程序、伺服定位与通信控制等全套解决方案，专为精准内外径圆环物料处理设计 ,三菱PLC焊接机智能控制参考方案：集成触摸屏程序、PLC编程、伺服控制与: 三菱PLC焊接机智能控制参考方案：含触摸屏程序、PLC程序、伺服定位与通信控制等全套解决方案，专为精准内外径圆环物料处理设计。,三菱PLC焊接机智能控制参考方案：集成触摸屏程序、PLC编程、伺服控制与通讯技术，实现精准焊接与数据闭环管理。,三菱PLC焊接机控制参考程序。包含触摸屏程序，PLC程序，IO表，伺服参数，通讯协议参数。该设备由24个伺服电机、1套焊接机、2套CCD、4套扫码枪、6套位移传感器组成，plc程序有注释里面fb块也没加密，电气控制采用三菱Q系列Q06UDV型CPU，内置以太网通过TCP IP形式与上位机CCD及扫码枪通讯，两套QD77MS16定位模块控制伺服，外加QJ71C24N用于与位移传感器通过ModBus RTU协议进行串口通讯获取数据，另外运用三菱MX Conpnonet软件与上位机通讯完成与客户MES系统闭环控制，OEE数据采集并上传至客户工厂云服务器系统。该设备组装物料小件尺寸小，为内外径相差0.79mm（圆环宽度）的小圆环，料盘为8X10的矩阵料盘，吸取较难，因此PLC自写了一套算法，采用三点设定自动运算出80个点的XY坐标，吸取成功率达99%以

基于node、MySql、react、reactNative、antDesign完成的一套大型订票系统(毕设&课设&实训&大作业&竞赛&项目): 一个使用node、MySql、react、reactNative、antDesign完成的一套大型订票系统，其中服务端、数据库，网页订票端、手机订票端和网页管理台.zip项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用，资源为网络商品（电子资料类）基于网络商品和电子资料商品的性质和特征不支持退款

RexVision 1.6.1机器视觉框架源码发布：基于C#与Halcon混合编程，适用于视觉检测与机械手定位等应用，插件式开发省时高效,RexVision 1.6.1机器视觉框架源码发布：基于C#与: RexVision 1.6.1机器视觉框架源码发布：基于C#与Halcon混合编程，适用于视觉检测与机械手定位等应用，插件式开发省时高效,RexVision 1.6.1机器视觉框架源码发布：基于C#与Halcon混合编程，支持多种视觉应用与手眼标定，VS2019可直接编译使用,RexVision 1.6.1，C#+Halcon机器视觉框架源码，到手vs2019可以直接编译、视觉检测、AOI视觉检测、机械手定位、点胶机、插件机、激光切割机、视觉螺丝机、视觉贴合机、激光焊接机、视觉裁板机……， C#联合Halcon混合编程源码，插件式开发，带手眼标定，相机静止和运动，支持C#脚本…能让你站在巨人的肩膀上，节省重复造轮子的时间。 ,关键词：RexVision 1.6.1; Halcon机器视觉框架; C#联合Halcon混合编程; 视觉检测; AOI视觉检测; 机械手定位; 点胶机; 插件机; 激光切割机; 视觉螺丝机; 视觉贴合机; 激光焊接机; 视觉裁板机; 手眼标定; 相机静止和运动支持; C#脚本。,基于Halcon的C#机器视觉源码，插件式开发助力自动化设备升级

适用于 .NET 的音频工具库（ATL）: ATL .NET 是一个完全原生的、易于使用的 C# 库，用于 .NET 和 Mono，可以从各种数字音频格式、播放列表和 CUE 表中读取数据。.zip

基于Qt Widget + 3D模块开发的一款医学牙齿数据可视化软件.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用，资源为网络商品（电子资料类）基于网络商品和电子资料商品的性质和特征不支持退款，质量优质，放心下载使用

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论