相关推荐
-
国内外优秀开源项目创始人专访
这几年陆续采访了国内外一些优秀开源项目的zuozh
-
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词。大致分析步骤如下: 数据导入——选择分词字典——分词 但是下载...
-
中文分词工具Rwordseg
Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(Hidden Markov Model, HMM)。作者孙健重写了一个Java版本,并且全部开源,使得 Ansi 可用于人名识别、地名识别...
-
中文分词的应用 新浪和庖丁两种方式对比
中文分词相比于英文难度要大得多,涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一,百度也是因为中文分词相比于google更优秀,才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...
-
Lucene下分词工具的学习探讨
今天一天学习的东西不多,除了看《Lucene实战》第20页的程序,就是研究Java版本的开源分词器了! 在网上找到了两种分词器,ansj和imdict,本质上没有什么区别,都是用采用ICTCLAS的核心。个人觉得ansj要更好一些,...
-
NLP自然语言处理干货贴
摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:9. 代码共享(完) 文件说明: 1. image... 2.OCR技术浅探:8. 综合评估 摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:8. 综合...
-
vue.js v2.5.17
vue.js vue.min.js vue-router.js vue-router.min.js
-
DM8-SQL语言详解及其数据管理和查询操作指南
内容概要:本文档是关于DM8数据库系统的SQL语言使用手册,全面介绍了其SQL语言的基础特性、功能、语法规则及相关使用方法。手册首先概述了DM_SQL的特点和它支持的各种数据类型(例如:数值、字符串、日期时间类型等)及其对应的表达式。接下来深入探讨了一系列高级话题,涵盖数据定义语句-DDL、数据操纵语句-DML和数据控制语句,具体讲解了多种表类型(常规表、HUGE表、外部表)的创建与管理,以及索引机制(全文索引、位图连接索引等)。此外还提供了丰富的实例示范,确保读者能直观理解并应用于实际项目。同时,文档也阐述了各种系统级别的功能,如日志和检查点管理、MPP管理和统计信息生成等功能的使用方法。 适合人群:具有一定数据库基础知识并且有意深入了解DM8数据库系统特性的开发工程师、数据库管理人员或相关专业技术人员。 使用场景及目标:①指导开发人员掌握DM8中各类SQL命令的实际运用技巧;②帮助运维人员学会通过SQL来进行有效的数据维护与优化,从而提升数据库的整体性能。 其他说明:该手册不仅仅是SQL理论的讲述,而是通过大量的实例演示让使用者更加熟悉日常的工作任务。对于复杂的企业级应用场景尤其有
-
1108_ba_open_report.pdf
1108_ba_open_report
-
anslow_02_0109.pdf
anslow_02_0109
-
以下是OpenCV在不同操作系统下的下载与安装教程
opencv下载安装教程
-
aronson_01_0707.pdf
aronson_01_0707
-
Designing Deep Learning Systems. A software engineer's guide - 2023.pdf
Wang Chi, Szeto Donald - Designing Deep Learning Systems. A software engineer's guide
-
基于豆瓣图书网站的图书数据分析与可视化
使用Python语言对Django框架进行设计,选用豆瓣读书网站(https://book.douba n.com/)作为研究对象,基于用户的阅读行为数据,运用网络爬虫技术来抓取所需数据,随后对这些数据进行深度清理,存储到数据库中。借助ECharts的可视化工具,深入分析和直观展示,实现数据分析与可视化。
-
barbieri_01_0108.pdf
barbieri_01_0108
-
brown_3ck_01_0718.pdf
brown_3ck_01_0718
-
基于Python的Django-vue学生选课系统实现源码-说明文档-演示视频.zip
关键词:学生选课系统;Python语言;MySQL数据库 学生选课系统采用B/S架构,数据库是MySQL。网站的搭建与开发采用了先进的Python进行编写,使用了Django框架。该系统从三个对象:由管理员和学生、教师来对系统进行设计构建。主要功能包括:个人信息修改,对学生、教师信息、课程信息、课程分类、选择课程、班级、成绩通知、教室信息、系统管理等功能
-
ganga_02_0909.pdf
ganga_02_0909
-
毕设-springboot大学生竞赛管理系统(免费领取)
毕设-springboot大学生竞赛管理系统(免费领取)
46 楼 iDogDogDog 2012-11-06 11:00
成都市长长我两岁
还是不行,感觉可能还是训练样本太少.
45 楼 yuhe 2012-11-06 10:47
44 楼 TheMatrix 2012-11-06 09:57
43 楼 meifangzi 2012-11-06 09:47
真正有过自己成就的人才不会轻易说别人的东东不好
42 楼 truekbcl 2012-11-06 09:37
一般情况下..是让他换机器的...说实话..还没碰到几个..因为java慢必须要改成c的....不用swing..基本上都还可以...还有...营造一个好的论坛环境别吵了..多大点事啊....
我评论的是针对用JAVA写分词系统,而有人在评论中说“真的是眼高手低”,那就是针对个人了!
我以前在中科院的时候..c做的快速分词能达到20m每秒.我用java实现的也差不多.
.还有..我经常把一些研究生的作业改写成java的有的时候.效率会比c高不少.虚拟机内部对字符串有优化.在这个分词中将词典和词都加载到了内存中.所以.很少做了字符串拆分..创造对象尽量用引用.少写new..都是一些细节技巧..如果你看了我的源码.也许会发现..大量的引用..在分词加载完毕后.很少用new来实例化对象.这些都和语言无关...至于内存占用率..这个至少空闲内存100m..一般台式机我想应该能接受吧..你要非把他放手机里跑这个的确不合适..
还有.其实开发效率和可维护性.才是一个软件的关键.硬件发展太快.很多以前无法实现的技术现在都能做到了..任何人都不应该写天书一样的代码.
1.为什么没见过几个c语言做动态网页的.
2.为什么人们有了汇编还要创建其他语言.
需要考虑到业务节点的瓶颈.还需要考虑个个语言的通讯成本.总总因素.
首先支持楼主。
对于前面楼主说的,"C如果写得不好,还不如java",这个话没有意义。只能说是人的问题,还是不能说java比C快。
c/c++最大的问题还是在于二进制不友好。c/c++的开发效率并不比java这些低,麻烦的就是使用三方库,你得用很多时间去整合。如果c/c++库可以和后来的语言一样方便使用动态库,那么c/c++的网站必然会多起来。而且现在的编译器优化效果是相当好。基本上,可以免费获得很大的效率提升。
汇编确实很麻烦,不是难,而是繁琐。开发效率实在太低。
41 楼 ansjsun 2012-11-06 09:23
[八百/m, 标兵/n, 奔/v, 北坡/userDefine, ,/w, 炮兵/n, 并排/d, 北边/f, 跑/v, ,/w, 炮兵/n, 怕/v, 把/p, 标兵/n, 碰/v, ,/w, 标兵/n, 怕/v, 碰/v, 炮兵/n, 炮/n, ]
40 楼 zhengeili 2012-11-06 08:50
39 楼 jzl_root 2012-11-05 23:56
38 楼 raptor 2012-11-05 18:46
37 楼 半人马 2012-11-05 17:57
36 楼 ansjsun 2012-11-05 17:26
一般情况下..是让他换机器的...说实话..还没碰到几个..因为java慢必须要改成c的....不用swing..基本上都还可以...还有...营造一个好的论坛环境别吵了..多大点事啊....
我评论的是针对用JAVA写分词系统,而有人在评论中说“真的是眼高手低”,那就是针对个人了!
我以前在中科院的时候..c做的快速分词能达到20m每秒.我用java实现的也差不多.
.还有..我经常把一些研究生的作业改写成java的有的时候.效率会比c高不少.虚拟机内部对字符串有优化.在这个分词中将词典和词都加载到了内存中.所以.很少做了字符串拆分..创造对象尽量用引用.少写new..都是一些细节技巧..如果你看了我的源码.也许会发现..大量的引用..在分词加载完毕后.很少用new来实例化对象.这些都和语言无关...至于内存占用率..这个至少空闲内存100m..一般台式机我想应该能接受吧..你要非把他放手机里跑这个的确不合适..
还有.其实开发效率和可维护性.才是一个软件的关键.硬件发展太快.很多以前无法实现的技术现在都能做到了..任何人都不应该写天书一样的代码.
1.为什么没见过几个c语言做动态网页的.
2.为什么人们有了汇编还要创建其他语言.
需要考虑到业务节点的瓶颈.还需要考虑个个语言的通讯成本.总总因素.
35 楼 fyland 2012-11-05 17:00
JAVA干这种活速度实在太差了!
你用C或者CPP写个试试看,真的是眼高手低!
如果是客户提要求,你也是这么回答的?
比如客户提一个“我要这个功能……”、“这个功能模块使用太慢了”,你是不是也回一句:你用X或者XXX写个试试看!
一般情况下..是让他换机器的...说实话..还没碰到几个..因为java慢必须要改成c的....不用swing..基本上都还可以...还有...营造一个好的论坛环境别吵了..多大点事啊....
我评论的是针对用JAVA写分词系统,而有人在评论中说“真的是眼高手低”,那就是针对个人了!
34 楼 ansjsun 2012-11-05 16:35
JAVA干这种活速度实在太差了!
你用C或者CPP写个试试看,真的是眼高手低!
如果是客户提要求,你也是这么回答的?
比如客户提一个“我要这个功能……”、“这个功能模块使用太慢了”,你是不是也回一句:你用X或者XXX写个试试看!
一般情况下..是让他换机器的...说实话..还没碰到几个..因为java慢必须要改成c的....不用swing..基本上都还可以...还有...营造一个好的论坛环境别吵了..多大点事啊....
33 楼 fyland 2012-11-05 16:31
JAVA干这种活速度实在太差了!
你用C或者CPP写个试试看,真的是眼高手低!
如果是客户提要求,你也是这么回答的?
比如客户提一个“我要这个功能……”、“这个功能模块使用太慢了”,你是不是也回一句:你用X或者XXX写个试试看!
32 楼 fyland 2012-11-05 16:30
JAVA干这种活速度实在太差了!
眼高手低的人可真多,真打击这个圈子的创造激情。
要不要像我D那样天天给你唱赞歌?
31 楼 huanghe036 2012-11-05 16:09
30 楼 ansjsun 2012-11-05 15:08
支持吧..反正支持lucene....ps 没用过solr...
29 楼 huangyahui 2012-11-05 15:06
28 楼 orange.lpai 2012-11-05 14:31
JAVA干这种活速度实在太差了!
你用C或者CPP写个试试看,真的是眼高手低!
27 楼 mfkvfn 2012-11-05 14:26
JAVA干这种活速度实在太差了!
眼高手低的人可真多,真打击这个圈子的创造激情。
+1
26 楼 stoneage14 2012-11-05 14:08
JAVA干这种活速度实在太差了!
眼高手低的人可真多,真打击这个圈子的创造激情。
25 楼 aixuebo 2012-11-05 13:50
想问一下关于数据训练方面的知识……希望楼主介绍一下如何学习。
现在分词都是基于..统计 + 规则的..你之前提到的一些分词大都是基于规则的..基于统计的需要大规模的词频训练,训练好写.语料难搞到,这个模型还保持着itcclas 的语义模型..人名识别是自己写的...至于训练..如果不想写代码..你可以看看crf++ 很多工具可以 做的
是这样的,我就是想自己学习一下如何训练数据,如果会训练数据了,我不仅仅可以在这分词上应用,工作中很多地方都可以应用上,只是对如何训练数据一点都不了解,希望给出点学习指导,或者论文。
24 楼 ansjsun 2012-11-05 13:32
想问一下关于数据训练方面的知识……希望楼主介绍一下如何学习。
现在分词都是基于..统计 + 规则的..你之前提到的一些分词大都是基于规则的..基于统计的需要大规模的词频训练,训练好写.语料难搞到,这个模型还保持着itcclas 的语义模型..人名识别是自己写的...至于训练..如果不想写代码..你可以看看crf++ 很多工具可以 做的
23 楼 fyland 2012-11-05 13:26
JAVA干这种活速度实在太差了!
楼上相当无知,决定系统性能的是数据结构和算法,和语言没有关系,算法提升的性能是成倍的,代码写的好不好要看你的功力强不强,和兵器有毛关系。支持楼主
到底谁无知?
同一种算法,只能用JAVA实现,而不能用C实现?
我没有否认数据结构和算法在性能方面的重要性(事实上我提都没提),我语义的环境是假设在相同算法上,用C语言实现的中文分词会比用JAVA实现的在运行速度上要快得多!在占用CPU和内存使用上,C占的优势就更不用说了!硬件那是实实在在用银子堆起来的!
JAVA唯一的优势就是开发速度。
你能免费得到C写的分词吗? 不要说开源的C写的分词,效果很差~
开源C写的分词器效果很差?何以见得?
开源JAVA写的分词器效果就很好?
这个开源分词我一直在使,而且辅助做了分词测试,数据很显然,我还是建议楼主真心用一把试试看,就当学习了~
有跟其他C语言实现的开源分词器做对比测试吗?把分词速度和准确率做一个对比图,然后再把CPU占用率和内存使用也分别做一个对比图。
22 楼 aixuebo 2012-11-05 13:24
想问一下关于数据训练方面的知识……希望楼主介绍一下如何学习。
21 楼 erliang20088 2012-11-05 13:18
JAVA干这种活速度实在太差了!
楼上相当无知,决定系统性能的是数据结构和算法,和语言没有关系,算法提升的性能是成倍的,代码写的好不好要看你的功力强不强,和兵器有毛关系。支持楼主
到底谁无知?
同一种算法,只能用JAVA实现,而不能用C实现?
我没有否认数据结构和算法在性能方面的重要性(事实上我提都没提),我语义的环境是假设在相同算法上,用C语言实现的中文分词会比用JAVA实现的在运行速度上要快得多!在占用CPU和内存使用上,C占的优势就更不用说了!硬件那是实实在在用银子堆起来的!
JAVA唯一的优势就是开发速度。
你能免费得到C写的分词吗? 不要说开源的C写的分词,效果很差~
开源C写的分词器效果很差?何以见得?
开源JAVA写的分词器效果就很好?
这个开源分词我一直在使,而且辅助做了分词测试,数据很显然,我还是建议楼主真心用一把试试看,就当学习了~
20 楼 erliang20088 2012-11-05 13:14
JAVA干这种活速度实在太差了!
楼上相当无知,决定系统性能的是数据结构和算法,和语言没有关系,算法提升的性能是成倍的,代码写的好不好要看你的功力强不强,和兵器有毛关系。支持楼主
到底谁无知?
同一种算法,只能用JAVA实现,而不能用C实现?
我没有否认数据结构和算法在性能方面的重要性(事实上我提都没提),我语义的环境是假设在相同算法上,用C语言实现的中文分词会比用JAVA实现的在运行速度上要快得多!在占用CPU和内存使用上,C占的优势就更不用说了!硬件那是实实在在用银子堆起来的!
JAVA唯一的优势就是开发速度。
你能免费得到C写的分词吗? 不要说开源的C写的分词,效果很差~
开源C写的分词器效果很差?何以见得?
开源JAVA写的分词器效果就很好?
19 楼 ansjsun 2012-11-05 13:13
JAVA干这种活速度实在太差了!
楼上相当无知,决定系统性能的是数据结构和算法,和语言没有关系,算法提升的性能是成倍的,代码写的好不好要看你的功力强不强,和兵器有毛关系。支持楼主
到底谁无知?
同一种算法,只能用JAVA实现,而不能用C实现?
我没有否认数据结构和算法在性能方面的重要性(事实上我提都没提),我语义的环境是假设在相同算法上,用C语言实现的中文分词会比用JAVA实现的在运行速度上要快得多!在占用CPU和内存使用上,C占的优势就更不用说了!硬件那是实实在在用银子堆起来的!
JAVA唯一的优势就是开发速度。
怎么又吵起来了...你实际测测就知道了..
18 楼 fyland 2012-11-05 13:12
JAVA干这种活速度实在太差了!
楼上相当无知,决定系统性能的是数据结构和算法,和语言没有关系,算法提升的性能是成倍的,代码写的好不好要看你的功力强不强,和兵器有毛关系。支持楼主
到底谁无知?
同一种算法,只能用JAVA实现,而不能用C实现?
我没有否认数据结构和算法在性能方面的重要性(事实上我提都没提),我语义的环境是假设在相同算法上,用C语言实现的中文分词会比用JAVA实现的在运行速度上要快得多!在占用CPU和内存使用上,C占的优势就更不用说了!硬件那是实实在在用银子堆起来的!
JAVA唯一的优势就是开发速度。
你能免费得到C写的分词吗? 不要说开源的C写的分词,效果很差~
开源C写的分词器效果很差?何以见得?
开源JAVA写的分词器效果就很好?
17 楼 fastw 2012-11-05 13:11