`

scws中文分词组件

    博客分类:
  • php
 
阅读更多

1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库。

2. 将下载后的 php_scws.dll 放到 php 安装目录的
extensions/ 目录中去(通常为:X:/php/extensions/或 X:/php/ext/)。

3. 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc

4. 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中
词典系列:http://www.ftphp.com/scws/down/scws-dict-chs-gbk.tar.bz2
http://www.ftphp.com/scws/down/scws-dict-chs-utf8.tar.bz2
http://www.ftphp.com/scws/down/scws-dict-cht-utf8.tar.bz2

4. 修改 php.ini 通常位于 C:/windows/php.ini 或 C:/winnt/php.ini 之类的目录,
在 php.ini 的末尾加入以下几行:

[scws]
;
; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
; 再把 php_scws.dll 指定为绝对路径。
;
extension = php_scws.dll
scws.default.charset = gbk
scws.default.fpath = "c:/program files/scws/etc"

5. 重开 web 服务器即可完成。

Java代码收藏代码
  1. <?php
  2. //使用类方法分词 
  3. $so=scws_new();
  4.   
  5. $so->set_charset('gbk');
  6. //这里没有调用set_dict和set_rule系统会自动试调用ini中指定路径下的词典和规则文件
  7. $so->send_text("我是一个中国人,我会C++语言,我也有很多T恤衣服");
  8. while($tmp=$so->get_result()){
  9. print_r($tmp);
  10. }
  11. $so->close();
  12. //使用函数提取高频词
  13. $sh=scws_open();
  14.  
  15. scws_set_charset($sh,'gbk');
  16. scws_set_dict($sh,'/path/to/dict.xdb');
  17. scws_set_rule($sh,'/path/to/rules.ini');
  18. $text="我是一个中国人,我会C++语言,我也有很多T恤衣服";
  19. scws_send_text($sh,$text);
  20. $top=scws_get_tops($sh,5);
  21. print_r($top);
  22. ?>

更多参考hightman论坛

Java代码收藏代码
  1. <?php
  2. require("splitword.php");//包含分词类文件
  3. $SpWord=newSplitWord();//创建类对象
  4. $str="某某字符串";
  5. $words=$SpWord->SplitRMM($str);//调用类方法
  6. $SpWord=iconv("gbk","utf-8//ignore",$SpWord);
  7. $SplitWord->Clear();
分享到:
评论

相关推荐

    SCWS 中文分词

    SCWS中文分词系统是一种基于PHP的开源中文分词组件,其全称为Simple Chinese Word Segmentation。这个系统设计的目标是为了解决在处理中文文本时遇到的分词问题,因为中文句子不像英文那样以空格作为单词之间的边界...

    scws-1.1.7.rar_SCWS-1.1.7_scws_中文分词 C++_分词_开源

    中文分词是自然语言处理中的基础步骤,它将连续的汉字序列分割成具有语义的词汇单元,这对于后续的文本分析、信息检索、机器翻译等任务至关重要。 SCWS采用了一种机械分词法,也称为基于规则的分词方法。这种方法...

    基于PHP的SCWS开源免费的简易php中文分词系统源码.zip

    SCWS通过识别汉字的上下文关系来判断词语边界,从而实现中文文本的精准分词。 SCWS系统的核心算法基于HMM(Hidden Markov Model,隐马尔科夫模型)和词典匹配,结合了统计学和规则的方法。它内置了丰富的中文词汇库...

    中文分词搜索,商城搜索分词

    2. pscws4.class.php:PSCWS(普什中文分词系统)是一个开源的PHP分词组件,它支持多模式分词,包括精确模式、全模式、简明模式和搜索引擎模式,适应不同场景的需求。 3. xdb_r.class.php:这部分可能是用于读取扩展...

    开源免费的简易中文分词系统PHP分词的上乘之选

    在IT领域,中文分词是自然语言处理(NLP)的一个重要步骤,它涉及到将连续的汉字序列切分成具有独立语义的词汇单元,这对于信息检索、文本分析、机器翻译等多个应用领域至关重要。 这个系统可能是一个开源项目,这...

    php简单分词类库.zip

    另一方面,`phpanalysis`是由IT柏拉图创建的一个PHP中文分词组件。它不仅支持基本的分词功能,还具备词性标注等高级特性,适用于更复杂的文本分析任务。phpanalysis基于词典和正则表达式,通过动态调整分词策略来...

    PHP中文分词 自动获取关键词介绍

    PHP中文分词是一种在PHP编程环境中处理中文文本的技术,主要用于将连续的汉字序列拆分成有意义的词语,这个过程称为分词。在中文文本处理中,分词是基础步骤,对于搜索引擎、文本分析、关键词提取等应用至关重要。...

    php简单分词类库 不需要安装扩展,自带字典,使用方法简单

    "另一个是IT柏拉图做的phpanalysis",phpanalysis是由IT柏拉图开发的一个PHP中文分词组件,它同样不需要额外扩展,可以进行分词和词频统计等功能,适合对中文文本进行深度分析。 在压缩包`participle-master`中,...

    phpanalysis.zip

    在PHPAnalysis中,它采用的是SCWS(Simple Chinese Word Segmentation)分词系统,这是一款轻量级但功能强大的中文分词组件,由台湾的Hightman开发。SCWS支持多模式分词,包括精确模式、全模式、搜索引擎模式等,以...

    LocalSearch:全文检索引擎

    LocalSearch 本项目用于GIF库中,索引本地数据库并提供检索服务,性能稳定。 ... 60万条数据 压缩存储的索引总大小为150M 查询速度为0.05s--0.9s间(性能受到压缩影响较大) ...scws-1.2.2 分词组件 hiredis 提供Key值存储

    方维3.0商业版

    6. **SCWS说明.txt**:SCWS(Simple Chinese Word Segmentation)是中文分词组件,用于将连续的汉字序列切分成具有语义的词汇单元。在中文信息处理中,分词是基础步骤,对于搜索引擎、机器翻译、情感分析等应用非常...

    关于Sphinx创建全文检索的索引介绍

    2、将原文档传给分词组件(Tokenizer)。 3、将得到的词元(Token)传给语言处理组件(Linguistic Processor)。 4、将得到的词(Term)传给索引组件(Indexer)。 您可能感兴趣的文章:浅谈Coreseek、Sphinx-for-...

    lamp环境源码包包含配置文件

    12. **scws-dict-chs-gbk.tar.bz2**:这是SCWS的词典文件,包含了中文词汇和它们的编码,用于更准确地进行中文分词。 13. **memcache.php**:这可能是一个PHP扩展,用于与Memcached服务进行交互,帮助PHP应用程序...

    方维社会化电商购物分享系统安装包加密版本

    5. **SCWS说明.txt**:SCWS(Simple Chinese Word Segmentation)是一个中文分词库的说明文档,表明该系统可能使用了SCWS进行中文内容处理,如搜索优化或数据分析。阅读此文档可以帮助理解系统的分词机制和如何配置...

    PHP应用开发框架yaf-lib.zip

    :selection 选择排序::bubble 冒泡排序::merge 归并排序Search_SegmentSearch_Segment类 中文分词init 分词器初始化close 关闭query 获取原数据列表queryOne 获取单个原数据cutQuery 切分原数据cutString 切分字符串...

Global site tag (gtag.js) - Google Analytics