- 浏览: 339994 次
- 性别:
- 来自: 北京
最新评论
-
奶油花生:
那如果我左侧菜单栏也是动态的呢,比如要读一个树形取出来的数据。 ...
使用Velocity吧2:Velocity的layout功能 -
fantaxy025025:
世隔近5年,我才看到了这么精彩的讨论。所谓,思想和眼光,相辅相 ...
是谁调用了它的静态方法? -
forrest_lv:
看了这个后,以此时刻提醒自己
说说我对编程的看法 -
bihujrj:
您好,我想在paoding上做一点改进。不知paoding有没 ...
Paoding Rest 0.2 Released -
fantaxy025025:
这个版主也不回答问题。。。呜呜
使用 庖丁分词(2.0.4-alpha)
文章列表
java的web框架
java的web框架众多的原因在于java的web框架只在servlet一层提供了标准,没有进而再往上作标准。因此,每个web框架都建立自己基于servlet之上的各种不同标准。
struts1使用Struts制订的Action接口
webwork,struts2使用Model和Action ...
Paoding Rest 0.2 释出。
经过在实际环境中的开发使用,以及编写了一个完整的从登录到增删查的示例应用,Paoding Rest可以释出0.2版本了。
该版本中包含了一个完整的可直接copy到webapps目录运行的webapp war(注),线上版本:http://demo.paod ...
Paoding-Rest is a java web rest framework based on spring.
HOME: http://code.google.com/p/paoding-rest/
示例应用: http://paoding.net/rest-demo
Paoding-Rest是Paoding中文分词作者的又一个开源项目。目前版本为0.2。
Paoding-Rest是什么
Paoding-Rest是使用Java编写的,基于Spring的,标准而又新颖的WEB REST框架。
作者之前多次利用了http method的特性修正传统web框架的使用,这和REST在 ...
.
周四给我家妞洗澡,可能是洗的时间有点长了,第二天早上就开始发烧了。温度在37.5~38.5范围反复。
她妈妈很紧张,多次几乎是坚持要去医院。
我看起来比较乐观,不是到关键时刻,咱们最好也不要摄入药(来自农村的思维惯势?)。
我的忍耐点是:小宝低烧较长一个时间没办法自己降下来,或温度升到脑袋热得受不了(小孩表现出烦躁迹象时).
现在我们只是给她贴退热贴,总体看来她的精神状态还比较好。
工作上,自己的工作任务也不少,“想问题”是需要时间的,最近自己给自己偷偷安排了一个比较有挑战性的任务。
小孩不舒服,爸爸这两天也没有自己独立的时间去想问题。
都几点了,妞和妈妈睡觉了,我终于有时间冲一杯cafe ...
不好给本贴取名,暂且看吧。
类A 和 类B 具有一对多的关系。A有子类 A1 和 A2,且A1和A2的字段个数和种类相差较大。
系统对A的检索/查找要求较低,对B的检索/查找功能较多也较重要。
表设计如下:
A采用TABLE_PER_CLASS的方式,即A1和A2各一张表TABLE_A1, TABLE_A2。
(系统不会有同时列出A1和A2的查询,也可以容忍A1和A2可重复一个ID)
类B映射为一个表TABLE_B,并设置了一个外键A_ID,关联对B的关系。
OK!现在如何让系统知道A_ID对应的是TABLE_A1,还是TABLE_A2?
习惯从数据库角度看问题的,可以这样解决:
在TA ...
昨天来广州出差,有雾气有湿气,很像家里的那种雾气和湿气,反正感觉不错。
还吃了沙县小吃,蓝与白--北京都没有这两样东西
以前无名子/蓝与白很经常吃,特想他们,没想到广州有!
出差前一直惦记着要去理个头发,但是时间总安排不过来给绕过去了,
今天刚好有时间,去了下面的理发店理发了
理发的MM说,我的普通话太好了,他听不懂。我很诧异。(我的普通话有福建口音的)
无聊随便照了几张,吓到请自负
[img]http://paoding.net/press/guangzhou/5.jpg [/img]
核心:
从应用的角度看中文分词算法,是用于搜索引擎,或者智能识别语义等?应用的不同影响着中文分词的策略选择。
正文:
建立索引或对用户输入的句子分词时,当遇到"XxYyvZz "(每个字母代表一个汉字)这样一个句子时,
如果Xx和Zz是已经收录在词库中的词汇,而Y,y,v,Yy,yv,Yyv均不是词库的词汇,
分词器应该如何处理Yyv这个非词汇组成的孤立串呢?可能的处理情况有:
1、二元分词:Yy/yv
2、单字分词:Y/y/v
3、混合分词:Y/Yy/yv/v
4、不分分词:Yyv
5、通过上下文进行词频统计进行判断
6、根据历史智能学习,根据学习结果判断
比如假设Y= ...
地址:http://paoding.net
这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2。
有关心庖丁中文分词的同学,可以通过访问http://paoding.net测试庖丁的搜索效果。
(2.0.4-alpha2发布时间是2007-10-22日)。
----------------------------------------------------------
索引范围:
新浪博客,2007-9-27日统计的点击率最前的1000名博客地址。
paoding建立了这1000个用户从其创建博客到2007-9-26日的所有文章,以及部分博客的9月27日的文章
...
vincent 写道用庖丁把这句话分词"北京精神文明建设",可分成"北京 精神 精神文明 精神文明建设 文明 建设"(用lukeall打开看,确实有)。ok,问题来了,我查询"精神文明"结果为零。真的不明白为什么??? ...
public class AnalyzerTest extends TestCase {
protected PaodingAnalyzer analyzer = new PaodingAnalyzer();
protected StringBuilder sb = new StringBuilder();
protected String dissect(String input) {
try {
TokenStream ts = analyzer.tokenStream(& ...
- 2007-09-25 16:13
- 浏览 6302
- 评论(6)
开始使用
庖丁中文分词需要一套词典,这些词典需要统一存储在某个目录下,这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录,它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。增加、删除、修改词典目录下的词典的过程称为自定制词典。
在linux下,我们可以考虑将词典安装在一个专门存储数据的分区下某目录,以笔者为例,笔者将/data作为系统的一个独立分区,笔者便是将词典保存在/data/paoding/dic下。
在windows下,我们可以考虑将词典安装在非系统盘的另外分区下的某个目录,以笔者为例,笔者可能将词典保存在E:/data/paoding/dic下。
使 ...
- 2007-09-25 16:11
- 浏览 14660
- 评论(15)
2.0.4是庖丁分词2.0版本的最后版本号。2.0.4-alpha是它的第一次发布使用号。
2.0.4有别于2.0的其他版本。在代码上有更好、更仔细的设计和注释;使用方式上都有简单的方式:配置好字典路径后,便可以直接new PaodingAnalyzer()使用它了(详细参考发布包中doc下的文档)
2.0.4-alpha发布一个月后,如无重大bug和不完善的部分,经修复小问题后将自动转为beta发布。
后续的如果beta发布后2个月没有发现任何bug和不完善部分,将最终发布2.0.4稳定版。
并锁定该版本不再发布新的2.0版本。
zip 下载地址:http://code.googl ...
- 2007-09-25 15:45
- 浏览 4198
- 评论(2)
这是我收到的邮件,可能有人有兴趣,贴之如下:
引用亲爱的MySQL使用者:
感谢您对MySQL的支持。对我们庞大的MySQL社区,MySQL公司充满感激。
对于我们来说,满足使用者的需求并支持其应用是非常重要的!
现在,我们非常高兴 ...
Paoding 2.0.2记录
paoding 现在在svn上的代码能够支持 自动动态装载词典,并检测词典是否发生了更新、删除。
也支持关闭自动监测(paoding.stopAutoDetecting),而提供一个方法paoding.forceDetecting手动执行一次检测。
现在这个版本为2.0.2,但是现在不打算打成jar包和zip包。
待之后2.0.3支持简繁体、提供GBK->UTF-8;Big5->utf-8转化功能后再发包。
-------------------------------
2007-9-19:
计划变更:简体繁体从2.0去除,推迟到2.1版;2.0 ...
- 2007-08-28 17:20
- 浏览 5022
- 评论(4)
这两天在弄一个系统迁移,以适应小平台的要求。数据库要从Oracle移植到Mysql。
比较了种种,包括数据类型、主键自增/序列、字符串函数之后,就剩下一个“层次递推查询”最难办。
具体是这样的:
Oracle的connect by语句能够很好的支持:
1、只根据id和parentId两个字段,便可以查找一个结点的所有子孙结点
2、只根据Id和parentId连个字段,便可以查找一个结点的根(表是一个森林,非树)
MYSQL对等的语句处理这样的功能。
示例的表结构(MySQL):
CREATE TABLE `node` (
`id` bigint(20) NOT NULL auto ...