- 浏览: 606334 次
- 性别:
- 来自: 北京
最新评论
-
w630636065:
楼主,期待后续!!!!!!!!
生成文本聚类java实现 (2) -
zilong513:
十分感谢楼主,期待后续。
生成文本聚类java实现 (2) -
qqgoodluck:
可否介绍一下您的选型依据,包括Petal ESB与MULE等E ...
Petals ESB 简介 -
jackiee_cn:
写的比较清楚,学习了
Petals ESB 集群实战 -
忙两夜:
你好,能发一下源代码吗
抓取口碑网店铺资料
文章列表
呵呵,只为自己玩,哈哈。
技术难度:
1)快速高效的抓取记录,并去重,和以后的增量抓取。
2)因为口碑网的联系方式是图片的,如何批量的完成OCR的转换
本文只是一个实验,不建议使用在项目当中,如下是部分代码。
涉及的开源代码:
crawler4j
AspriseOCR
资源包,把crawler4j所有jar包放在你的应用目录中。
Berkeley DB Java Edition 4.0.71 or higher
fastutil 5.1.5
DSI Utilities ...
本文章纯属个人学习笔记,持续不断的增加中...
本章主要的学习是中文分词
和两种统计词频(传统词频和TF-IDF算法
)
的方法.
学习目的:通过N多的新闻标题 or 新闻摘要 or 新闻标签,生成基本的文本聚类,以便统计当天新闻的热点内容.
扩展:可以运用到文本分类
,舆情分析
等.
基本的学习思路:(本思路由网友rowen指点)
1.准备文本
2.切词并统计词频
3.去掉极低频词和无意义词(如这个、那个、等等)
4.从剩余的词中提取文本特征,即最能代表文本的词
5.用空间向量表示文本,空间向量需标 ...
客户需求:客户有多个不同的分类,包括新闻,论坛,博客,微博,视频,报刊,来自同一个数据源。
客户想要的功能,完成一个portlet的开发,可以预先设置不同的分类项,而表现出不同的输出结果。
需求延伸:二维度的分类需求,比如针对张三的新闻,李四的论坛等等。如下所示:
监测项
新闻
论坛
博客
微博
视频
报刊
张三
√
√
√
√
√
√
李四
√
√
√
√
√
√
...
√
√
√
√
√
√
开发设计:在对应的数据库设计表:PortletMappi ...
本文使用spring集成hibernate完成一个liferay portlet的开发,做为plugin的方式部署到liferay容器当中。提供源代码下载。
版本约束:
Spring 3.0 及以上
Hiberante 3.5
Liferay 6.0及以上
构建基制:
Ant
Maven
知识点描述:
使用Hiberante+jndi的方式,否则使用Hiberante+jdbc的话,在liferay当中部署不成功,然后再集 ...
基于Maven管理的项目,在eclipse当中有两种调试方式,
第一种方式,
1)菜单RUN->External Tools->External Tools Configurations,如图所示:
2):Program->new launch configuration,如下图所示
说明:
其中Location是你本地maven所在的目录.
Working Directory是当前项目
Arauments, 其中jetty:run是必须项,其它的根据项目需求而加入
这样建立的远程调试方式是以默认配置为基础的,其端口为8000,
3),菜 ...
拜读了solr的部分源码,却急于弄明白solr的索引顺序和查询顺序,如下是探访结果.
所有的配置都在solr/example/solr/conf/schema.xml当中.
<!-- 如下是对text类型的处理 -->
<fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">
<!-- 索引顺序1空格2同义词3过滤 ...
对
solr1.4版本
准备
下载地址
:http://lucene.apache.org/solr
最新源码下载地址
:https://svn.apache.org/repos/asf/lucene/dev/trunk
源码使用说明
,使用
ant构建
,
命令
:ant
test 用于跑单元测试
ant
dist 用于
build,将会生成
jar和
war包
ant example
创建一个可运行的示例
.
...
首先,鄙视一下搜狐微博API,比起哪个新浪的日本人:Yusuke Yamamoto的还差一截呀!
没有完整的包装微博的API做为一个完整的SDK,真是让人费脑筋让人做一个测试.
话入正题:
import java.io.File;
import java.io.IOException;
import java.net.URLEncoder;
import javax.activation.MimetypesFileTypeMap;
import org.apache.commons.httpclient.HttpClient;
import org ...
前两年拜读过宋鸿兵的<<货币战争>>,了解了以后的战争形态,但是留下我太多的悬念让我觉得很沉闷。
货币战争让我了解了大量的经济和金融知识,也曾经拜读了“凯恩斯”主义,对经济有了基本的了解。
货币战争倡导“金本位”的基本交换方式,但我觉得这个太不可能了。所以说货币战争只是一个揭示或者一个警示:美元靠不住!但宋鸿兵最重要的意思是:这是一场战争,中国要准备好了!这是我的理解。
同时货币战争也揭示了“美联储”这个黑暗的控制机器,我对他的了解也是从这里开始的,于是拜读了“彼得伯格俱乐部”,貌似有点联系,主要是说家庭和优等人的。 ...
原文请参考:http://www.salientpoint.com/blog/?p=480
Google Appengine有一个Eclipse
插件,但它约束了一个特定的项目结构。由于有的时候我们不使用
Eclipse
,而使用
Maven
来管理项目,这样的好处多多,他的开发标准可以很容易的和各种IDE集成。
下载SDK
在此下载Google App for Java SDK
:
http://code.google.com/appengine/downloads.html
,下载
appengine-java-s ...
Sometimes, Custom have externalized the location of their property
files to a location outside of the WARs, so their settings are not
wiped out by code updates. The problem is that we have a number of
property files that share the same name.
So that would like to propose that we adopt ...
一年当中最后一天上班,其实,已经是第二个年头了.
我收拾起自己零乱的心情,做好回家过年的准备.一年了,太他妈的辛苦了.真他妈的累!
吃过午饭回到凌乱的办公桌边.啊,红包?啊,红包?我拿起的时候,感觉很轻.啊!!,不是钱,是公司老大对个人的祝福,还有一年的年终奖,过节费,祝福.........一共200 RMB!!!
为什么在工作的最后一天,还要这么捣乱呢?
说明:
YourKit Java Profiler :专业Java剖析工具:YourKit Java Profiler 发布。CPU和内存的剖析历来是很困难的,YourKit创造出了革命性的剖析工具,应用在研发和生产阶段,为专业的Java开发者带来了无比的好处。
YourKit Java Profiler是一个目前很受欢迎的Java Profiler(Java调优器).可以用来分析和监控你的应用程序的性能, 从而进行更好地调优.
下载
:http://www.cehx.com/html/52/n-12952.html,建议大家使用Rayfil ...
Hibernate
supports several third-party caching services.
After some research, the team has concluded that Ehcache would be
suitable for our requirements, namely the caching of frequently-accessed,
read-only tables.
Ehcache Evaluation
I spent the last couple
of days evaluatin ...
看了张开印与蓝桑坤的精彩表演.激发我的搏击精神.
这次的搏击我学习到了很多,尤其自己在生活和工作,或者是学习困境的时候,每一个中国人都应该学习的精神.
上图片吧.会表达我简单的激情.
遇到困难,我用 ...