hadoop基本知识2

博客分类：

hadoop

Hadoop管理员常用命令hadoop job -list #列出正在运行的jobhadoop job -kill <job_id> #kill jobhadoop fsck /xxx #检查HDFS块状态，是否损坏hadoop fsck /xxx -delete #检查HDFS块状态，删除损坏块hadoop dfsadmin -report #检查HDFS状态，包括DN信息hadoop dfsadmin -safemode enter|leave./bin/start-balancer.sh #平衡集群文件使用hadoop创建一个文件 package com.hadoop ...

2014-04-09 21:21
浏览 1103
评论(0)
分类:互联网

利用SOLR搭建企业搜索平台之 MultiCore

博客分类：

solr

1》找到solr下载包中的example文件夹，在它的下面有个multicore文件夹，将这个文件夹下面的所有东西 copy到 c:\solr-tomcat\solr下面。注意：有一个 solr.xml（这只是默认文件，当然也可以指定别的文件），如： <?xml version="1.0" encoding="UTF-8" ?> <solr persistent="false"> <cores adminPath="/admin/cores"> <cor ...

2014-04-09 17:10
浏览 977
评论(0)
分类:互联网

利用SOLR搭建企业搜索平台之配置文件

博客分类：

solr

运行solr是个很简单的事，如何让solr高效运行你的项目，这个就不容易了。要考虑的因素太多。这里很重要一个就是对solr的配置要了解。懂得配置文件每个配置项的含义，这样操作起来就会如鱼得水！在solr里面主要的就是solr的主目录下面的schema.xml,solrConfig.xml，（c:\solr-tomcat\solr\conf\）。我们首先来说说这个schema.xml。 schema.xml，这个相当于数据表配置文件，它定义了加入索引的数据的数据类型的。主要包括types、fields和其他的一些缺省设置。 1》首先需要在types结点内定义一个 ...

2014-04-09 15:26
浏览 965
评论(0)
分类:互联网

利用SOLR搭建企业搜索平台之一（运行solr）

博客分类：

solr

1》首先下载好solr，我用的是 solr1.3，下载地址： windows版本http://labs.xiaonei.com/apache-mirror/lucene/solr/1.3.0/apache-solr-1.3.0.zip linux版本http://labs.xiaonei.com/apache-mirror/lucene/solr/1.3.0/apache-solr-1.3.0.tgz 2》准备运行容器，我用的是to ...

2014-04-09 14:53
浏览 1131
评论(0)
分类:互联网

hadoop基本知识

博客分类：

hadoop
nutch

Hadoop生态系统Hbase 1、Nosql数据库，key-value存储 2、最大化利用内存HDFS 1、hadoop distribute file system分布式文件系统 2、最大化利用磁盘MapReduce 1、编程模型，主要用来做数据分析 2、最大化利用CPU HDFS设计原则文件以快(block）方� ...

2014-04-08 22:18
浏览 1333
评论(0)
分类:互联网

Aho-Corasick 多模式匹配算法、AC自动机详解

博客分类：

算法
nutch

有时候可能需要按一个关键字词列表来过滤信息，例如过滤黄色或其他非法信息调用indexOf方法来查找关键字集合看起来效率不高，Aho-Corasick算法可用用来在文本中搜索多个关键字，当有一个关键字集合时，想发现文本中所有出现关键词的位置，或者检查是否有关键字集合中的任何关键词出现在文本中时，可用使用Aho-Corasick算法。 Aho-Corasick算法是多模式匹配中的经典算法，目前在实际应用中较多。 Aho-Corasick算法对应的数据结构是Aho-Corasick自动机，简称AC自动机。搞编程的一般都应该知道自动机FA吧，具体细分为：确定性有限状态自动机( ...

2014-04-07 20:57
浏览 3057
评论(0)
分类:互联网

查找算法：线性查找，折半查找

博客分类：

算法
nutch

线性查找 package com.search; /** * JAVA实现线性查找 * * @author lenovo * */ public class LSearch { public static int[] Data = { 12, 76, 29, 22, 15, 62, 29, 58, 35, 67, 58, 33, 28, 89, 90, 28, 64, 48, 20, 77 }; // 输入数据数组 public static int count = 1; // 查找次数计数变量 public static ...

2014-04-07 20:11
浏览 873
评论(0)
分类:互联网

hbase学习--复制主机

博客分类：

linux

安装完一个linux，做集成需要安装多个，做linux复制方法如下：选择要复制的虚拟机，点击右键选择复制需要记得勾选，【重复初始化所有网卡MAC地址】需要完全复制。复制完成，需要做如下操作

2014-04-07 16:52
浏览 710
评论(0)
分类:开源软件

hadoop学习-安装centos

博客分类：

linux

1、安装Oracle VM VirtualBox 安装办法很简单，一路下一步即可。 2、新建虚拟机，在新建的时候，如果内存小于512，默认进入文本安装模式，所以可以选择大点。创建完成需要的配置

2014-04-07 16:46
浏览 484
评论(0)
分类:开源软件

hadoop学习4---hadoop集群2

博客分类：

linux

1、SSH安装 1,设置ssh无密码登录 ~# ssh-keygen输入上面的命令后一路回车即可。2,拷贝生成的密码文件,默认生成的密码文件在用户名目录下的.ssh目录下~#　cd ~/.ssh~#　cp id_rsa.pub authorized_keys3、测试是否可以无密码登录~#　ssh localhost~# who 2、JDK安装

2014-04-04 16:44
浏览 969
评论(0)
分类:开源软件

hadoop学习3---hadoop集群

1、hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop 分布式文件系统（HDFS，Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。对于Hadoop的集群来讲，可以分成两大类角色：Master和Salve。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件系统的访问操作；集群中的 ...

2014-04-04 14:21
浏览 829
评论(0)
分类:开源软件

hadoop学习2-----linux环境搭建

博客分类：

linux

完成了基础配置，安装vsftpd vsftpd是一个linux下的ftp服务器首页检测是否安装了vsftp chkconfig -- list | grep vsftpd 如果没有任何反应，表示没有安装， yum -y install vsftpd 如果提示如下(一般发生在红帽中)： thi ...

2014-04-01 22:56
浏览 845
评论(0)
分类:开源软件

hadoop学习---linux环境搭建，

博客分类：

linux

1、linux安装忽略安装完成，创建hadoop用户 useradd hadoop passwd hadoop 2、关闭不必要的服务 1,关闭防火墙 service iptables stop 关闭SELinux vim /etc/sysconfig/selinux 将SELINUX=enforcing改为 SELINUX=disabled

2014-04-01 22:54
浏览 1003
评论(0)
分类:开源软件

自我反省

博客分类：

杂谈

发现最近一年没有学习了，更没有更新自己的博客了。从今天起，每天学习，学习搜索引擎。坚持每天吧学习心得日志发出来。写这篇博客督促自己。提醒自己。搜索引擎，我来了。~~~~~~ 家里催促的找女朋友结婚，可是找不到啊，以后随缘，不去刻意的找女朋友，全部心思放在学习上。 ~~~~~~~~~~~~~~~

2014-03-27 21:37
浏览 805
评论(0)
分类:非技术

java实现分治法

博客分类：

java

在计算机科学中，分治法是一种很重要的算法。字面上的解释是“分而治之”，就是把一个复杂的问题分成两个或更多的相同或相似的子问题，再把子问题分成更小的子问题……直到最后子问题可以简单的直接求解，原� ...

2014-01-10 15:58
浏览 2631
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop基本知识2

利用SOLR搭建企业搜索平台之 MultiCore

利用SOLR搭建企业搜索平台之配置文件

利用SOLR搭建企业搜索平台之一（运行solr）

hadoop基本知识

Aho-Corasick 多模式匹配算法、AC自动机详解

查找算法：线性查找，折半查找

hbase学习--复制主机

hadoop学习-安装centos

hadoop学习4---hadoop集群2

hadoop学习3---hadoop集群

hadoop学习2-----linux环境搭建

hadoop学习---linux环境搭建，

自我反省

java实现分治法

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>