相关推荐
-
国内外优秀开源项目创始人专访
这几年陆续采访了国内外一些优秀开源项目的zuozh
-
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词。大致分析步骤如下: 数据导入——选择分词字典——分词 但是下载...
-
中文分词工具Rwordseg
Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(Hidden Markov Model, HMM)。作者孙健重写了一个Java版本,并且全部开源,使得 Ansi 可用于人名识别、地名识别...
-
中文分词的应用 新浪和庖丁两种方式对比
中文分词相比于英文难度要大得多,涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一,百度也是因为中文分词相比于google更优秀,才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...
-
Lucene下分词工具的学习探讨
今天一天学习的东西不多,除了看《Lucene实战》第20页的程序,就是研究Java版本的开源分词器了! 在网上找到了两种分词器,ansj和imdict,本质上没有什么区别,都是用采用ICTCLAS的核心。个人觉得ansj要更好一些,...
-
NLP自然语言处理干货贴
摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:9. 代码共享(完) 文件说明: 1. image... 2.OCR技术浅探:8. 综合评估 摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:8. 综合...
-
基于java+springboot+mysql+微信小程序的流浪动物救助小程序 源码+数据库+论文(高分毕业设计).zip
项目已获导师指导并通过的高分毕业设计项目,可作为课程设计和期末大作业,下载即用无需修改,项目完整确保可以运行。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行!可以放心下载 技术组成 语言:java 开发环境:idea、微信开发者工具 数据库:MySql5.7以上 部署环境:maven 数据库工具:navicat
-
基于springboot的体质测试数据分析及可视化设计源码(java毕业设计完整源码+LW).zip
项目均经过测试,可正常运行! 环境说明: 开发语言:java JDK版本:jdk1.8 框架:springboot 数据库:mysql 5.7/8 数据库工具:navicat 开发软件:eclipse/idea
-
python 3.8.20 windows install 安装包
编译的 python 3.8.20 windows install 安装包
-
基于go-zero的用户管理系统全部资料+详细文档.zip
【资源说明】 基于go-zero的用户管理系统全部资料+详细文档.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
-
基于springboot的时间管理系统源码(java毕业设计完整源码+LW).zip
时间管理系统采用java技术,基于springboot框架,mysql数据库进行开发,实现了首页,个人中心,系统公告管理,用户管理,时间分类管理,事件数据管理,目标数据管理,用户日记管理等内容进行管理。 环境说明: 开发语言:java JDK版本:jdk1.8 框架:springboot 数据库:mysql 5.7/8 数据库工具:navicat 开发软件:eclipse/idea
-
基于springboot的火车订票管理系统源码(java毕业设计完整源码+LW).zip
项目均经过测试,可正常运行! 环境说明: 开发语言:java JDK版本:jdk1.8 框架:springboot 数据库:mysql 5.7/8 数据库工具:navicat 开发软件:eclipse/idea
-
收到防护服快快快啊啊啊啊啊
收到防护服快快快啊啊啊啊啊
-
葡萄城手册,快速上手,灵活报表
制作报表
-
simulink相位调制器PM
simulink相位调制器PM
-
2023-04-06-项目笔记 - 第三百六十阶段 - 4.4.2.358全局变量的作用域-358 -2025.12.27
2023-04-06-项目笔记-第三百六十阶段-课前小分享_小分享1.坚持提交gitee 小分享2.作业中提交代码 小分享3.写代码注意代码风格 4.3.1变量的使用 4.4变量的作用域与生命周期 4.4.1局部变量的作用域 4.4.2全局变量的作用域 4.4.2.1全局变量的作用域_1 4.4.2.358局变量的作用域_358- 2024-12-27
-
(59423620)指纹识别基于matlab GUI指纹识别【含Matlab源码 1353期】.zip
【指纹识别】基于matlab GUI指纹识别是一种生物特征识别技术,它利用了人类指纹的唯一性和稳定性进行身份验证。在本项目中,我们探讨的是如何使用MATLAB图形用户界面(GUI)来实现这一过程,包括图像采集、预处理、特征提取和匹配等多个步骤。 指纹图像的采集是整个系统的基础。这通常通过专用的指纹传感器完成,它们可以捕获高质量的指纹图像。在MATLAB中,我们可以使用摄像头或其他图像输入设备模拟这一过程,将捕获的图像导入到GUI中。 接下来是预处理阶段。指纹图像往往含有噪声和不清晰的部分,因此需要进行图像增强,以突出指纹的细节特征,如脊线和谷线。这可能包括二值化、直方图均衡化、滤波等操作。MATLAB的图像处理工具箱提供了丰富的函数支持这些预处理步骤。 特征提取是识别的核心环节。指纹的特征通常包括核心点、三角点、终结点以及脊线的方向和纹路模式。MATLAB中可以使用方向图像和细化算法来检测这些特征点,并生成特征描述符。例如,使用Gabor滤波器可以提取脊线方向信息,而细化算法可以帮助找到特征点。 GUI设计是用户交互的关键。在这里,用户可以上传指纹图像,系统会实时显示预处理和特征提取的
-
基于Go后端的外挂式评论系统全部资料+详细文档.zip
【资源说明】 基于Go后端的外挂式评论系统全部资料+详细文档.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
-
nosql分布式数据库期末考试题a.docx
### NoSQL分布式数据库知识点解析 #### 一、选择题知识点详解 **1. 关系数据库与非关系数据库** - **关系数据库**: MySQL、SQL Server 和 Oracle 均属于关系数据库,它们采用 SQL 作为标准查询语言,支持 ACID 特性(原子性、一致性、隔离性和持久性)。 - **非关系数据库**: 指的是不采用表格形式来组织数据的数据库类型,通常用于处理大量非结构化或半结构化数据。 **2. 数据库语言分类** - **数据定义语言 (DDL)**: 用于定义数据库结构的语言,如创建、修改和删除表等操作。 - **数据操纵语言 (DML)**: 用于添加、修改和删除数据的语言,如 INSERT、UPDATE 和 DELETE 等命令。 - **数据查询语言 (DQL)**: 用于查询数据的语言,主要是 SELECT 语句。 - **数据控制语言 (DCL)**: 用于管理权限和安全性的语言,如 GRANT 和 REVOKE 命令。 **3. 关系数据库优点** - **易于理解**: 使用表格形式组织数据,符合人类直观认知习惯。 - **易于维护**: 支持事务处理,确保数据一致性。 - **支持 SQL**: 使用标准查询语言,便于数据查询和处理。 **4. MongoDB 编程语言** - **JavaScript**: MongoDB 是用 C++ 开发的,但其 Shell 环境使用 JavaScript,使得数据查询和管理更加便捷。 **5. NoSQL 数据库特点** - **分布式**: 能够在多台计算机上分布存储数据,适用于大数据量的处理。 - **不基于 ACID**: 相对于传统的关系数据库,NoSQL 数据库往往牺牲了部分 ACID 特性以换取更高的性能和可扩展性。 **6. CAP 理论** - **一致性 (C)**: 所有节点在同一时间具有相同的数据。 - **可用性 (A)**: 每个请求都能得到一个合理的时间内非错误的响应,但不保证是最新的数据。 - **分区容错性 (P)**: 系统中任意信息丢失的子网故障都不会导致整个系统不可用。 - **CAP 定理**: 在一个分布式系统中,只能同时满足一致性、可用性和分区容错性中的两个。 **7. 知识图谱与 NoSQL 数据库** - **MongoDB**: 适合用于构建知识图谱,因为它支持灵活的数据模型和高效的查询能力。 - **Redis**: 一种键值存储数据库,适用于缓存和实时数据分析。 - **HBase**: 一种列族存储数据库,适合大规模随机读写访问。 **8. HBase 特点** - **容量巨大**: 可以存储非常大量的数据。 - **列存储**: 数据按列族存储,方便进行列级别的访问。 - **稀疏性**: 允许某些列未填充,即某些单元格为空。 **9. HBase 核心组件** - **HMaster**: 负责协调客户端请求、分配 Region 以及负载均衡等工作。 - **RegionServer**: 存储数据的实际服务器。 - **Zookeeper**: 用于协调分布式环境中的服务,例如选举 HMaster。 **10. MongoDB 集合命名规则** - **system.**: 系统保留前缀,用于系统集合。 - **保留字符 $**: 用于特殊目的,如聚合管道。 - **空字符串**: 不允许作为集合名称。 **11. MongoDB 主键** - **UUID**: 通用唯一识别码,常用于作为主键。 - **Sequence**: 序列,也可以作为主键生成方式之一。 - **Auto-increment**: 自动递增,MongoDB 默认为主键使用 BSON 类型的 ObjectId。 **12. MongoDB 逻辑结构** - **数据库 (db)**: MongoDB 中的最高层级,可以包含多个集合。 - **集合 (collection)**: 数据库内的数据容器,类似于关系数据库中的表。 - **文档 (document)**: 数据的基本单位,由键值对组成。 **13. 内存数据库** - **Redis**: 键值存储数据库,常作为内存数据库使用。 - **MongoDB**: 非内存数据库,但可以通过配置将常用数据驻留在内存中。 - **Bigtable**: 谷歌的分布式数据存储系统,并非专门设计为内存数据库。 **14. Neo4j 图形数据库应用场景** - **快递物流数据管理**: 适用于关系较为复杂的数据管理场景。 - **家庭用电数据管理**: 更偏向于使用时序数据库。 - **企业考勤数
226 楼 qq394829044 2017-02-20 18:09
at org.apache.solr.servlet.HttpSolrCall.sendError(HttpSolrCall.java:593)
at org.apache.solr.servlet.HttpSolrCall.call(HttpSolrCall.java:465)
at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:227)
at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:196)
at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:241)
at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:208)
at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:220)
at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:122)
at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:171)
at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102)
at org.apache.catalina.valves.AccessLogValve.invoke(AccessLogValve.java:950)
at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:116)
at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:408)
at org.apache.coyote.http11.AbstractHttp11Processor.process(AbstractHttp11Processor.java:1040)
at org.apache.coyote.AbstractProtocol$AbstractConnectionHandler.process(AbstractProtocol.java:607)
at org.apache.tomcat.util.net.JIoEndpoint$SocketProcessor.run(JIoEndpoint.java:316)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at org.apache.tomcat.util.threads.TaskThread$WrappingRunnable.run(TaskThread.java:61)
at java.lang.Thread.run(Thread.java:724)
Caused by: java.lang.NoSuchMethodError: org.ansj.lucene.util.AnsjTokenizer.<init>(Lorg/apache/lucene/util/AttributeFactory;Lorg/ansj/splitWord/Analysis;Ljava/lang/String;Z)V
at org.apache.lucene.analysis.ansj.AnsjTokenizerFactory.create(AnsjTokenizerFactory.java:31)
at org.apache.lucene.analysis.util.TokenizerFactory.create(TokenizerFactory.java:75)
at org.apache.solr.analysis.TokenizerChain.createComponents(TokenizerChain.java:64)
at org.apache.lucene.analysis.Analyzer.tokenStream(Analyzer.java:179)
at org.apache.solr.handler.AnalysisRequestHandlerBase.getQueryTokenSet(AnalysisRequestHandlerBase.java:148)
at org.apache.solr.handler.FieldAnalysisRequestHandler.analyzeValues(FieldAnalysisRequestHandler.java:214)
at org.apache.solr.handler.FieldAnalysisRequestHandler.handleAnalysisRequest(FieldAnalysisRequestHandler.java:182)
at org.apache.solr.handler.FieldAnalysisRequestHandler.doAnalysis(FieldAnalysisRequestHandler.java:102)
at org.apache.solr.handler.AnalysisRequestHandlerBase.handleRequestBody(AnalysisRequestHandlerBase.java:63)
at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:143)
at org.apache.solr.core.SolrCore.execute(SolrCore.java:2064)
at org.apache.solr.servlet.HttpSolrCall.execute(HttpSolrCall.java:654)
at org.apache.solr.servlet.HttpSolrCall.call(HttpSolrCall.java:450)
... 18 more
神,这个是什么问题呀,jar包冲突了么,希望神能给解答下?
225 楼 shiqinfu 2016-12-02 17:29
224 楼 shiqinfu 2016-12-02 17:25
223 楼 andyshar 2016-09-09 22:17
最近研究机器学习。觉得中文智能分析大有可为啊。
222 楼 huigaotang 2016-08-10 17:37
221 楼 huigaotang 2016-08-04 11:25
220 楼 lishujuncat 2016-07-11 16:32
219 楼 miaopeiwen 2015-12-28 10:35
218 楼 lliiqiang 2015-11-30 14:50
217 楼 fdgghghjfgh 2015-10-01 13:32
216 楼 BeMyself_wangl 2015-04-02 16:45
对内容: “甲午年十大文史图书盘点”
生成索引后
使用关键词 “甲午年” ,“甲午” 搜索
都搜索不出结果。
使用ansj 对 “甲午年十大文史图书盘点”
的分词结果:
[甲午年/b, 十/m, 大/a, 文史/n, 图书/n, 盘点/vn]
why?
215 楼 ansjsun 2014-11-17 14:17
补充问一句,加了停用词后,原本的为N的词性都变了,没在词性说明中找到nis,nnt对应的说明
[检察院/n,董事长/n,有限公司/n]
[检察院/nis,董事长/nnt,有限公司/nis]
你加的不是停用词词典。是用户自定义词典把。。你e可以参看我的文档
http://nlpchina.github.io/ansj_seg/
214 楼 ansjsun 2014-11-17 14:16
System.out.println(parse);
这个代码 eclispe提示 我的包错误
找到原因了 要导入nlp-lang的一个包 但我在官网没看到~
不报错了 但是运行出来 内存溢出! Java heap space
把jvm内存给大点
213 楼 dsx1013 2014-09-29 16:19
补充问一句,加了停用词后,原本的为N的词性都变了,没在词性说明中找到nis,nnt对应的说明
[检察院/n,董事长/n,有限公司/n]
[检察院/nis,董事长/nnt,有限公司/nis]
212 楼 dsx1013 2014-09-29 16:03
211 楼 wyyina 2014-09-25 17:50
System.out.println(parse);
这个代码 eclispe提示 我的包错误
找到原因了 要导入nlp-lang的一个包 但我在官网没看到~
不报错了 但是运行出来 内存溢出! Java heap space
210 楼 wyyina 2014-09-25 17:47
System.out.println(parse);
这个代码 eclispe提示 我的包错误
找到原因了 要导入nlp-lang的一个包 但我在官网没看到~
209 楼 wyyina 2014-09-25 17:40
System.out.println(parse);
这个代码 eclispe提示 我的包错误
208 楼 zcl243 2014-08-07 17:43
207 楼 ansjsun 2014-07-23 19:42
lucene插件支持 停用词表
206 楼 jenight 2014-07-18 11:46
205 楼 garfieldkai 2014-07-12 00:13
204 楼 ansjsun 2014-02-15 12:08
1.测试时内存是调整到1024m的
2.并且先测试一句话加载词库到内存
3.测试简单的一句话,然后累计测试是可以达到180w字/s,比如测试“我是中国人”,测试十万次,计算总时间为time,500000/time.
4.测试大文本进行反复测试,明显效率下降很多,一般在30w/s
5.我是抽取关键词使用,所以必须获取词性,大文本获取词性,内存瞬间上G
6.另外我只需要分词结果,不需要人名 新词 等发现策略,这个自己有单独的模块去实现了。
我qq 93618236 ,合适的话加我下,我把测试文本传给你。
明白了你加我吧..5144694
203 楼 louiswang 2014-02-15 10:06
1.测试时内存是调整到1024m的
2.并且先测试一句话加载词库到内存
3.测试简单的一句话,然后累计测试是可以达到180w字/s,比如测试“我是中国人”,测试十万次,计算总时间为time,500000/time.
4.测试大文本进行反复测试,明显效率下降很多,一般在30w/s
5.我是抽取关键词使用,所以必须获取词性,大文本获取词性,内存瞬间上G
6.另外我只需要分词结果,不需要人名 新词 等发现策略,这个自己有单独的模块去实现了。
我qq 93618236 ,合适的话加我下,我把测试文本传给你。
202 楼 ansjsun 2014-02-14 23:34
List<Term> terms = ToAnalysis.parse(lines[i]);
163ms
new NatureRecognition(terms).recognition();
214ms
说明文本过长建立到一个图里面对获取词性影响很大
还有一个慢的原因.如果内存不够.你把内存调整大点..应该速度会快..试试调整到 -xms1024m
201 楼 ansjsun 2014-02-14 22:47
多谢解答,
测试没算读取文本的时间,采用的就是ToAnaysis方法 ,测试一个8w字的文档:
List<Term> terms = ToAnalysis.parse(input);
占时间:143ms
new NatureRecognition(terms).recognition();
占时间:2473ms
另外有几个疑问:
1.为何不根据空格和标点分割建立多个有向图,这样计算最短路径时应该会提高效率。
2.标注词性时候占用时间过长,能否在分词的过程中去标注词性而非出来结果后再标注
3.有咩有考虑如果一个句子过长,假设一句话全是汉字且非常长的情况下,计算最短路径时会比较耗时。
请问你qq多少,我加你qq聊下。
1.空格和标点对分词结果也有影响的.比如 人名 顿号 人名 都是需要考虑进来的
2.词性标注如果分词的时候就标注.速度会慢更多.词性标注.不建议句子太长.太长的话对内存占用太多..
3.其实最短路径.和句子长短关系不大.短句反而时间长..
最后.我估计你时间长是把加载词典的时间也算进去了吧?否则不可能这么慢...你可以在分词前先分一句话.."孙健123好公司...."类似这样然后在开始算时间
200 楼 louiswang 2014-02-14 17:04
List<Term> terms = ToAnalysis.parse(lines[i]);
163ms
new NatureRecognition(terms).recognition();
214ms
说明文本过长建立到一个图里面对获取词性影响很大
199 楼 louiswang 2014-02-14 16:50
多谢解答,
测试没算读取文本的时间,采用的就是ToAnaysis方法 ,测试一个8w字的文档:
List<Term> terms = ToAnalysis.parse(input);
占时间:143ms
new NatureRecognition(terms).recognition();
占时间:2473ms
另外有几个疑问:
1.为何不根据空格和标点分割建立多个有向图,这样计算最短路径时应该会提高效率。
2.标注词性时候占用时间过长,能否在分词的过程中去标注词性而非出来结果后再标注
3.有咩有考虑如果一个句子过长,假设一句话全是汉字且非常长的情况下,计算最短路径时会比较耗时。
请问你qq多少,我加你qq聊下。
198 楼 ansjsun 2014-02-14 14:12
1.你不是在lucene中用的吧?
2.你用的NlpAnalysis吧?
你常识用下 ToAnalysis 。这个速度快。应该是200w/s左右。。。还有你读文本的方式。。最好能把代码发上来我看看
197 楼 louiswang 2014-02-14 12:33