文本挖掘 -R

1<wbr></wbr>文本挖掘概要文本挖掘是从大量的文本数据中抽取隐含的，求和的，可能有用的信息。通过文本挖掘实现 •Associate：关联分析，根据同时出现的频率找出关联规则 •Cluster：将相似的文档（词条）进行聚类 •Categorize：将文本划分到预先定义的类别里

2015-12-16 10:12
浏览 272
评论(0)

简介： solr是基于Lucene Java搜索库的企业级全文搜索引擎，目前是apache的一个项目。它的官方网址在http://lucene.apache.org/solr/。solr需要运行在一个servlet容器里，例如tomcat。solr在lucene的上层提供了一个基于HTTP/XML的Web Services，我们的应用需要通过这个服务与solr进行交互。前提，下载tomcat。省略。

2015-12-16 09:59
浏览 143
评论(0)

Solr配置中文分词器mmseg4j详解

针对solr的分词器比较多，其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下，这两个分词器都挺好用。我搭建的solr环境（上一篇）是4.10.3的最新版本，以下将详细说下mmseg4j的配置。 1.首先下载对应的jar包。版本号一定要对应上否则可能会报错，下载地址为：http://code.google.com/p/mmseg4j/但是这个网址好像需要，所以大家可以到我的上传资源下载：http://download.csdn.net/download/tjcyjd/8394095。 2.将jar包拷贝到服务器solr的lib包 ...

2015-12-16 09:56
浏览 213
评论(0)

Lucene5学习之使用MMSeg4j分词器

MMSeg4j是一款中文分词器，详细介绍如下： 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 2、MMSeg 算法有 ...

2015-12-15 15:40
浏览 167
评论(0)

带宏函数等excel解析方法

不能正常解析的excel需转换，下面是我写的例子，直接贴代码 //输入和输入都是文件夹 public static void excelTo2003V(String excFilePath,String outFilePath,String endStr){File[] files=readFilePath(excFilePath);//获得所有输入文件for(int i=0;i<files.length;i++){if(files[i].isFile()&&files[i].getPath().endsWith(endStr)){//获得所有xlsm文件 // 1 ...

2015-12-15 13:52
浏览 237
评论(0)

WordCount程序详解

[html]view plaincopyprint?

2015-12-14 16:25
浏览 279
评论(0)

WordCount运行详解

1、MapReduce理论简介 1.1 MapReduce编程模型　　MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地 ...

2015-12-14 15:46
浏览 210
评论(0)

HBase入门基础教程

开发环境硬件环境：CentOS6.5 服务器4台（一台为Master节点，三台为Slave节点）软件环境：Java 1.7.0_45、Eclipse Juno Service Release 2、Hadoop-1.2.1、hbase-0.94.20。 1、输入与输出 1）输入文件 file0.txt（WordCountHbaseWriter\input\file0.txt） Hello World Bye World file1.txt（WordCountHbaseWriter\input\file1.txt） Hello Hadoop G ...

2015-12-14 14:36
浏览 187
评论(0)

MapReduce操作HBase

运行HBase时常会遇到个错误，我就有这样的经历。 ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times 检查日志：org.apache.hadoop.ipc.RPC$VersionMismatch: Protocol org.apache.hadoop.hdfs.protocol.ClientProtocol version mismatch.(client = 42, server = 41) 如果是这个错误，说明RPC协议不一致所造成的，解决方法：将hbase/lib目录 ...

2015-12-14 14:34
浏览 152
评论(0)

服务器负载均衡解决方案

一、需求分析随着互联网的高速发展，作为Web、Email、SQL、FTP、ERP、DNS、集群等等常见服务器的请求数据量越来越大，同时对应用的高可用性提出了更高的要求，服务器主备冗余模式已经不能满足当前需求，部署服务器负载均衡设备势在必得。作为应用交付行业内最为成熟的方案提供商F5，其产品技术先进，功能齐全，质量可靠已被世界上很多知名的企业选用，如Microsoft，Oracle，USA Today，Alaska? Airline等总数超过600家。它的主要产品有Big/IP，3DNS，Global/SITE，See/IT。服务器负载均衡解决方案通过提供第4到第7层智能特性消除 ...

2015-12-14 14:24
浏览 211
评论(0)

hadoop job解决大数据量关联时数据倾斜的一种办法

数据倾斜是指，map /reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完。用hadoop程序进行数据关联时，常碰到数据倾斜的情况，这里提供一种解决方法。 (1)设置一个hash份数N，用来对条数众多的key进行打散。 (2)对有多条重复key的那份数据进行处理：从1到N将数字加在key后面作为新key，如果需要和另一份数据关联的话，则要重写比较 ...

2015-12-14 14:15
浏览 117
评论(0)

负载均衡的基本算法

随机：负载均衡方法随机的把负载分配到各个可用的服务器上，通过随机数生成算法选取一个服务器，然后把连接发送给它。虽然许多均衡产品都支持该算法，但是它的有效性一直受到质疑，除非把服务器的可运行时间看的很� ...

2015-12-14 14:05
浏览 223
评论(0)

对 Linux 新手非常有用的 20 个命令

你打算从Windows换到Linux上来，还是你刚好换到Linux上来？哎哟！！！我说什么呢，是什么原因你就出现在我的世界里了。从我以往的经验来说，当我刚使用Linux，命令，终端啊什么的，吓了我一跳。我担心该记住多少命令，来帮助我完成所有任务。毫无疑问，在线文档，书籍，man pages以及社区帮了我一个大忙，但是我还是坚信有那么一篇文章记录了如何简单学习和理解命令的秘籍。这激发了我掌握Linux和使它容易使用的积极性。本文就是通往那里的阶梯。

2015-12-14 09:19
浏览 247
评论(0)

JAVA多线程和并发基础面试问答

多线程和并发问题是Java技术面试中面试官比较喜欢问的问题之一。在这里，从面试的角度列出了大部分重要的问题，但是你仍然应该牢固的掌握Java多线程基础知识来对应日后碰到的问题。（校对注：非常赞同这个观点） Java多线程面试问题 1. 进程和线程之间有什么不同？一个进程是一个独立(self contained)的运行环境，它可以被看作一个程序或者一个应用。而线程是在进程中执行的一个任务。Java运行环境是一个包含了不同的类和程序的单一进程。线程可以被称为轻量级进程。线程需要较少的资源来创建和驻留在进程中，并且可以共享进程中的资源。 2. 多线程编程的好处是什么？ ...

2015-12-14 09:14
浏览 188
评论(0)

秒杀多线程第四篇一个经典的多线程同步问题

上一篇《秒杀多线程第三篇原子操作Interlocked系列函数》中介绍了原子操作在多进程中的作用，现在来个复杂点的。这个问题涉及到线程的同步和互斥，是一道非常有代表性的多线程同步问题，如果能将这个问题搞清楚，那么对多线程同步也就打下了良好的基础。程序描述：主线程启动10个子线程并将表示子线程序号的变量地址作为参数传递给子线程。子线程接收参数-> sleep(50) ->全局变量++ -> sleep(0) ->输出参数和全局变量。要求： 1．子线程输出的线程序号不能重复。

2015-12-14 09:13
浏览 148
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论