- 浏览: 606334 次
- 性别:
- 来自: 北京
最新评论
-
w630636065:
楼主,期待后续!!!!!!!!
生成文本聚类java实现 (2) -
zilong513:
十分感谢楼主,期待后续。
生成文本聚类java实现 (2) -
qqgoodluck:
可否介绍一下您的选型依据,包括Petal ESB与MULE等E ...
Petals ESB 简介 -
jackiee_cn:
写的比较清楚,学习了
Petals ESB 集群实战 -
忙两夜:
你好,能发一下源代码吗
抓取口碑网店铺资料
文章列表
我们现在该如何看待黄金?黄金将走向哪里?我们需要对它有更理性的认识。
本文将黄金分成两大块来看:一大块是实物黄金,一大块是以实物黄金为基础的各种衍生品(黄金衍生品属于金融衍生品的一种)。黄金市场衍生工具分为标准化的场内交易品种和非标准化的场外交易品种。标准化场内交易产品,主要品种包括黄金期货、黄金期权、黄金ETF(交易所交易黄金基金)等。非标准化场外交易主要包括黄金借贷、黄金凭证、黄金投资基金、黄金远期类产品(包括黄金远期、黄金掉期、远期利率协议)等。
在国际黄金市场中,实物黄金的交易占比是比较小的,而黄金衍生品的占比近年来一直都在90%以上。
关于未来的趋势,《黄金的沉默与辉煌》一文中存在可能产生歧义之处,我需要再做一个详细的说明,不然有些朋友仍然会困惑:股市、大宗商品或资源的趋势到底会怎样?
关键一点是看中国的政策选择!
趋势形态 ...
入侵的方式有很多种,技术手段的运用将事半功倍。
做为正大光明,并且并不违法的做法就是要建立一批能打硬战的水军队伍,越多越好,话说sohu的服务多,有微博,博客等等,还将会有N多免费的服务在推出,所以我就就像<<搭车去柏林>>的谷岳一样,准备搭乘这种免费的班车。
注册成为sohu的会员是一切的基础,手动做没有问题。但是一天要申请N多帐号就是一个问题。好,我介绍一下我使用的工具。
htmlunit,导入这个相关包就可以
如下代码是测试成功的示例,因为注册时填写哪个验证码是一个很为难的工作,所以我也有对付的方法。只做为参考,代码很乱,大家姑且 ...
很多网友看到我的聚类的研究,到后来基本上都是到carrot2的研究上去了。但由于carrot2对中文的理解很不靠谱,所以参考了网络上的一些资料,现在贡献出来所有代码。
代码的思路就是找字或者词出现的频度,并进行打分,最后按照出现次数和重要性,找出重要的语汇。现在贴出来一些可用的代码。
ClusterBuilder.java
/**
*
* @author
* @version 创建时间:2011-3-8 下午02:02:36
* 聚类生成器
*/
public class ClusterBuilder {
private static fina ...
我在IBM MQ7和suse9的环境下做的开发。
我在发送一个大文件消息时,使用分段的方式进行操作,处理完成后放到远程队列当中,到达下一个目的地。
如果基于单独的mq的队列管理,如上的方法没有问题。但如果通过远程队列放到一个集群当中时,就会把一个完整的消息体四分五裂。在网上找N多资料,大都是要使用BIND_ON_OPEN做为打开的options。但每次都不管用。
说下具体情况。
QM_FIRST 表示要发送的队列管理器
QM_PROXY 表示集群的代理服务器,也是一个队列管理器,属于集群ANT
QM_EXE1 一个队列管理器,属于集群ANT,权重25%
...
在自动化抓取网站的时候,最讨厌的就是不同的网站有多种不同的编码,在解码时会发生错误,commons.httpclient比Httpclient要弱一些,于是自已动手写了一个对网页编码的自动识别,使用了htmlparser.
主函数 readWebHtml
private String readWebHtml(String url) {
String webHtml = "";
// 构造HttpClient的实例
HttpClient httpClient = new HttpClient();
// 创建GET方法的实例
Ge ...
周六,周日闲暇无事,但又想起了在外面野营时,不能上网时的尴尬.
我喜欢蜂鸟网的游记,但又没有网卡在野外冲浪,也是一种无奈!如果能把蜂鸟网站上的精品游记能够随时随地翻阅是一件多么牛B的事情呀.
于是说干就 ...
1,误删scratch下面的文件后,会造成通道不通。START CHL(XXXX)无效。绝望中你只能重新做下QM了,无奈,但是QM当中无数的对象,你能记得住吗?不行,使用ms03这个小软件,是IBM MQ小组的东东。下载地址:http://www-01.ibm.com/support/docview.wss?uid=swg24000673
ms03这个小东东,很容易使用,more read.me.如下是我的操作步骤:
a),解压:uncompress ms03_unix.tar.Z
tar -xvf ms03.tar
...
在公司演讲的maven实用操作教程,从网上合并了一些资料,看客不妨一看.没有谈及maven+svn,或者建立宿主机,profile等等.
一口气读完了老时的<<经济大棋局,我们怎么办>>,老时还是“杀手腾腾”的端上来一道排列有序的“生物进化论”,但是没有《中国怎么办》的逻辑紧凑,我想可能是老人家在预测领域知道了“时间节点”的重要 ...
“……他不回答,对柜里说,“温两碗酒,要一碟茴香豆。”便排出九文大钱。他们又故意的高声嚷道,“你一定又偷了人家的东西了!”孔乙己睁大眼睛说,“你怎么这样凭空污人清白……”“什么清白?我前天亲眼见你偷了何家的书,吊着打。”孔乙己便涨红了脸,额上的青筋条条绽出,争辩道,“窃书不能算偷……窃书!……读书人的事,能算偷么?”接连便是难懂的话,什么“君子固穷”,什么“者乎”之类,引得众人都哄笑起来;店内外充满了快活的空气。”
哈哈,在实际分词切词当中,庖丁解牛和MMSeg4j各有千秋,但MMSeg4j的思想更先进一些,提供两种类型的分词:Simple和Complex,都是基于正向最大匹 ...
呵呵,要想瞬间取得需要的数据,比如新闻信息,而且能够分门别类进行分析,我想是一件非常有意义的事情.而数据的来源只能来自于互联网,只有这样才有数据挖掘的研究基础.
而互联网上的数据一般为不规则的数据,但也有规则的数据;从目前我看到过的搜索引擎当中,基于内容的搜索引擎一般都采取定向收集的方式,然后分析后放入到数据库当中,其中不凡有数据清洗的工作.
规则的数据一般是以RSS为主的数据源,而不规则的数据采取定向收集的话,第一步就是抓取,然后通过模板,使用HtmlParse来进行分析,加入去重和数据清洗的功能,最后写入到数据库.当然,数据清洗也可能放到数据库后再做.
这里,我 ...
数据库表描述:
Table Name:NewsFromWeb
Column Name 1:_id
Column Name 2:url
Column Name 3:title
Other Columns ....
....
功能实现的前提:如果数据库表当中有 ...
我在使用activeMQ时,加入有权限的RMI时,发生如上的错误:
描述一下事故理由:
activeMQ 5.5
activemq.bat 其中76行:打开权限功能.
set SUNJMX=-Dcom.sun.management.jmxremote.port=1099
C:\apache-activemq-5.5.0\bin>cacls ../conf/jmx.password /P Administrators:R
是否确定(Y/N)?Y
处理的文件: C:\apache-activemq-5.5.0\conf\jmx.passwo ...
呵呵,继续。
本节的学习内容:
4.从剩余的词中提取文本特征,即最能代表文本的词
5.用空间向量表示文本,空间向量需标准化,即将数值映射到-1到1之间
6.利用所获取的空间向量进行聚类分析
7.交叉验证
第四步,提取文本特征
本文使用KNN算法和SVM算法学习提取文本特征的思想。
研究最终目的。
训练材料:
语料
分类
腐化 "生活作风" "女色" "情妇" "权色" "生活糜烂" "生活堕落&q ...