`
deepfuture
  • 浏览: 4400299 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:80073
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:70039
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:103345
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:285779
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:15009
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:67553
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:32147
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:45986
社区版块
存档分类
最新评论

linux下的简单中文分词器-dpSegmentation

阅读更多

 

deepfuture简单中文分词器(deepfuture.iteye.com)\

1、请不要更改zwfcer目录下的任何文件和zwfcer目录本身,本分词器是对JE中文分词的一个封装,

运行本分词器,LINUX/UNIX系统必须安装和配置好JAVA环境。运行前,请确认你的LINUX/UNIX系统能在当前目录下运行helloworld类的JAVA程序。

2、调用方法:(注意:文件名必须使用绝对路径,源文件名为待分词文件,目标文件为分词的结果)

./zwfc.sh 源文件名 目标文件名

3、比如:

./zwfc.sh /home/deepufure/1.txt /home/deepufure/2.txt

附件可下载
1
0
分享到:
评论

相关推荐

    solr分词器-ik-analyzer.7.4.0.jar

    solr分词器,solr分词器-ik-analyzer.7.4.0.jar7.4.0版本

    刨丁解羊中文分词器-主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词

    刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词...

    Elasticsearch-6.3.2(Linux+Win)+中文分词ik-6.3.2.zip

    Elasticsearch的中文分词问题一直是中文环境下使用的一大挑战。Ik分词器,全称为“Intelligent Chinese Analyzer for Elasticsearch”,是为了解决这个问题而开发的,它专注于中文的分词处理。在本压缩包中,ik分词...

    elasticserach7.3.0-ik分词器-head-kibnan-serarch全部

    elasticserach7.3.0-ik分词器-head-kibnan-serarch全部包含了elasticsearc7.3.0、elasticsearch-ik分词器、kibnan和elasticsearch-head浏览器插件。全部将其放入到了elasticserach7.3.0-ik分词器-head-kibnan-...

    elasticsearch分词器 - 副本.md

    elasticsearch分词器 - 副本

    elasticsearch-analysis-ik分词器-6.6.0 亲测可用.zip

    Elasticsearch 分词器是搜索引擎优化的关键组成部分,特别是在中文环境下,因为中文句子的断词对信息检索至关重要。"elasticsearch-analysis-ik" 是一个专为 Elasticsearch 设计的强大中文分词插件,它提供了灵活且...

    中文分词器-IKAnalyzer2012FF_u1.jar

    IKAnalyzer是中国著名的开源中文分词器,主要用于处理中文文本的分词问题,广泛应用于搜索引擎、信息检索、自然语言处理等领域。这款工具的核心是IKAnalyzer2012FF_u1.jar文件,它包含了分词器的主要算法和实现。在...

    IK分词器-供分词使用

    IK分词器是一款专为中文文本处理设计的高效、灵活的分词工具,它由国人开发,旨在根据汉语的语言特点和使用习惯,提供更准确、更贴近实际的分词结果。在自然语言处理(NLP)领域,分词是基础且关键的一环,因为正确...

    IK分词器-lin.zip

    IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IK...在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

    elasticsearch-ik中文分词器7.6.2.zip

    **Elasticsearch 7.6.2 中文分词器详解** Elasticsearch 是一个流行的开源全文搜索引擎,它提供了一种高效、灵活的方式来存储、搜索和分析大量数据。在处理中文文档时,为了实现准确的搜索和匹配,我们需要使用特定...

    IK分词器-Lucene与Solr学习中使用

    IK分词器是Java开发的一款高效、灵活的中文分词工具,特别适用于Lucene和Solr等全文搜索引擎的中文处理。在对文本进行索引和搜索时,分词器的作用至关重要,它能将中文文本拆分成有意义的词汇,以便进行后续的分析和...

    感知器分词软件--python实现

    感知器分词软件是自然语言处理(NLP)领域中的一种常见技术,它主要用于中文文本的分词。在这个Python实现中,我们主要关注的是如何利用词的上下文特征来进行精确的分词工作。 感知器(Perceptron)是一种简单的...

    分词代码---绝对可以直接运行

    从压缩包中的文件名“fenci”来看,这可能是指“分词”(fenci是中文“分词”的拼音),可能是代码文件、数据文件或者结果文件。通常,分词代码会包括读取文本、预处理(如去除标点符号和停用词)、进行分词操作、后...

    linux 下solr7+tomcat8+IK中文分词器

    Linux环境下搭建Solr7与Tomcat8集成,并配合IK中文分词器的步骤涉及多个IT知识点,主要包括: 1. **Linux基础操作**:在Linux系统中进行文件管理、权限设置、服务启动和停止等基本操作是必要的。这包括对命令行的...

    分词--words.txt

    分词--words.txt

    linux下中文分词系统

    linux下的中文分词工具 源代码,支持繁体。分词精度很高。

    windows版本ES7.17.3中文分词器elasticsearch-analysis-ik-7.17.3 .zip

    用于elasticsearch7.17.3这个版本的ik中文分词器,考虑到官网有时网络不稳定下载不下来,这里特意上传,方便大家使用; 目录结构如下: config -- 文件夹 plugin-security.policy plugin-descriptor.properties ...

    solr6的中文分词器ik-analyzer-solr-6.0.jar

    solr6的中文分词器ik-analyzer-solr-6.0.jar,在solr上亲测可用

    7.17.1系列Elasticsearch的elasticsearch-analysis-ik分词器

    elasticsearch-analysis-ik 是一个常用的中文分词器,在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个主要特点: 中文分词:elasticsearch-analysis-ik 是基于...

Global site tag (gtag.js) - Google Analytics