1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库。
2. 将下载后的 php_scws.dll 放到 php 安装目录的
extensions/ 目录中去(通常为:X:/php/extensions/或 X:/php/ext/)。
3. 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc
4. 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中
词典系列:http://www.ftphp.com/scws/down/scws-dict-chs-gbk.tar.bz2
http://www.ftphp.com/scws/down/scws-dict-chs-utf8.tar.bz2
http://www.ftphp.com/scws/down/scws-dict-cht-utf8.tar.bz2
4. 修改 php.ini 通常位于 C:/windows/php.ini 或 C:/winnt/php.ini 之类的目录,
在 php.ini 的末尾加入以下几行:
[scws]
;
; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
; 再把 php_scws.dll 指定为绝对路径。
;
extension = php_scws.dll
scws.default.charset = gbk
scws.default.fpath = "c:/program files/scws/etc"
5. 重开 web 服务器即可完成。
<?php
//使用类方法分词
$so = scws_new();
$so->set_charset('gbk');
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
$so->send_text("我是一个中国人,我会C++语言,我也有很多T恤衣服");
while ($tmp = $so->get_result()) {
print_r($tmp);
}
$so->close();
//使用函数提取高频词
$sh = scws_open();
scws_set_charset($sh, 'gbk');
scws_set_dict($sh, '/path/to/dict.xdb');
scws_set_rule($sh, '/path/to/rules.ini');
$text = "我是一个中国人,我会C++语言,我也有很多T恤衣服";
scws_send_text($sh, $text);
$top = scws_get_tops($sh, 5);
print_r($top);
?>
更多参考hightman论坛
<?php
require("splitword.php");//包含分词类文件
$SpWord =new SplitWord();//创建类对象
$str="某某字符串";
$words =$SpWord->SplitRMM($str);//调用类方法
$SpWord = iconv( "gbk", "utf-8//ignore", $SpWord );
$SplitWord->Clear( );
分享到:
相关推荐
SCWS中文分词系统是一种基于PHP的开源中文分词组件,其全称为Simple Chinese Word Segmentation。这个系统设计的目标是为了解决在处理中文文本时遇到的分词问题,因为中文句子不像英文那样以空格作为单词之间的边界...
中文分词是自然语言处理中的基础步骤,它将连续的汉字序列分割成具有语义的词汇单元,这对于后续的文本分析、信息检索、机器翻译等任务至关重要。 SCWS采用了一种机械分词法,也称为基于规则的分词方法。这种方法...
SCWS通过识别汉字的上下文关系来判断词语边界,从而实现中文文本的精准分词。 SCWS系统的核心算法基于HMM(Hidden Markov Model,隐马尔科夫模型)和词典匹配,结合了统计学和规则的方法。它内置了丰富的中文词汇库...
2. pscws4.class.php:PSCWS(普什中文分词系统)是一个开源的PHP分词组件,它支持多模式分词,包括精确模式、全模式、简明模式和搜索引擎模式,适应不同场景的需求。 3. xdb_r.class.php:这部分可能是用于读取扩展...
在IT领域,中文分词是自然语言处理(NLP)的一个重要步骤,它涉及到将连续的汉字序列切分成具有独立语义的词汇单元,这对于信息检索、文本分析、机器翻译等多个应用领域至关重要。 这个系统可能是一个开源项目,这...
另一方面,`phpanalysis`是由IT柏拉图创建的一个PHP中文分词组件。它不仅支持基本的分词功能,还具备词性标注等高级特性,适用于更复杂的文本分析任务。phpanalysis基于词典和正则表达式,通过动态调整分词策略来...
PHP中文分词是一种在PHP编程环境中处理中文文本的技术,主要用于将连续的汉字序列拆分成有意义的词语,这个过程称为分词。在中文文本处理中,分词是基础步骤,对于搜索引擎、文本分析、关键词提取等应用至关重要。...
"另一个是IT柏拉图做的phpanalysis",phpanalysis是由IT柏拉图开发的一个PHP中文分词组件,它同样不需要额外扩展,可以进行分词和词频统计等功能,适合对中文文本进行深度分析。 在压缩包`participle-master`中,...
在PHPAnalysis中,它采用的是SCWS(Simple Chinese Word Segmentation)分词系统,这是一款轻量级但功能强大的中文分词组件,由台湾的Hightman开发。SCWS支持多模式分词,包括精确模式、全模式、搜索引擎模式等,以...
LocalSearch 本项目用于GIF库中,索引本地数据库并提供检索服务,性能稳定。 ... 60万条数据 压缩存储的索引总大小为150M 查询速度为0.05s--0.9s间(性能受到压缩影响较大) ...scws-1.2.2 分词组件 hiredis 提供Key值存储
6. **SCWS说明.txt**:SCWS(Simple Chinese Word Segmentation)是中文分词组件,用于将连续的汉字序列切分成具有语义的词汇单元。在中文信息处理中,分词是基础步骤,对于搜索引擎、机器翻译、情感分析等应用非常...
2、将原文档传给分词组件(Tokenizer)。 3、将得到的词元(Token)传给语言处理组件(Linguistic Processor)。 4、将得到的词(Term)传给索引组件(Indexer)。 您可能感兴趣的文章:浅谈Coreseek、Sphinx-for-...
12. **scws-dict-chs-gbk.tar.bz2**:这是SCWS的词典文件,包含了中文词汇和它们的编码,用于更准确地进行中文分词。 13. **memcache.php**:这可能是一个PHP扩展,用于与Memcached服务进行交互,帮助PHP应用程序...
5. **SCWS说明.txt**:SCWS(Simple Chinese Word Segmentation)是一个中文分词库的说明文档,表明该系统可能使用了SCWS进行中文内容处理,如搜索优化或数据分析。阅读此文档可以帮助理解系统的分词机制和如何配置...
:selection 选择排序::bubble 冒泡排序::merge 归并排序Search_SegmentSearch_Segment类 中文分词init 分词器初始化close 关闭query 获取原数据列表queryOne 获取单个原数据cutQuery 切分原数据cutString 切分字符串...