如何解决BUG？

博客分类：

java

1、定位问题。因为我所有的开源项目都有详细的SLF4J日志输出，当然很多其他开源项目也一样，所有的异常以及自己记录的日志都会统一输出，这为定位问题提供了可能。开发中养成记录详细日志的习惯对于定位问题有非常大的帮助，如果日志不详细或者出现把异常吞掉的情况，那么定位问题就会变得非常困难，APDPlat旗下的10大开源项目都有非常详细的日志。 2、查找原因。如果是自己的代码的问题，一般很快就能搞定了。如果是其他开源项目的问题则继续3。 3、google和stackoverflow搜索异常及提示信息。因为搜索有限制长度，所以调整长度，去除个性化信息如自己的账号名称自己的路径等，一般常见的问题一搜 ...

2013-10-18 15:28
浏览 6176
评论(1)
分类:开源软件

大数据系列6：HBase – 基于Hadoop的分布式数据库

博客分类：

大数据

HBase Gora 大数据搜索引擎网络爬虫

wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gz tar -xzvf zookeeper-3.4.5.tar.gz cd zookeeper-3.4.5 cp conf/zoo_sample.cfg conf/zoo.cfg vi conf/zoo.cfg 修改：dataDir=/home/ysc/zookeeper 添加： server.1=host001:2888:3888 maxClientCnxns=100 mkdir /home/ysc ...

2013-10-10 00:07
浏览 7926
评论(3)
分类:互联网

大数据系列1：在win7上安装配置Hadoop伪分布式集群

博客分类：

大数据

hadoop HBase 大数据搜索引擎网络爬虫

1、安装虚拟机和操作系统 VMware-workstation-full-10.0.0 或 VirtualBox-4.2.18-88781-Win 下载VMware 下载VirtualBox ubuntu-13.04-server-amd64.iso 下载ubuntu 2、设置root用户密码 sudo passwd root 3、上传文件利用

2013-10-09 18:39
浏览 12712
评论(2)
分类:互联网

大数据系列11：Gora – 大数据持久化

博客分类：

大数据

Gora HBase 大数据搜索引擎网络爬虫

borm – 大数据的对象持久化 wget http://archive.apache.org/dist/gora/0.3/apache-gora-0.3-src.zip unzip apache-gora-0.3-src.zip cd apache-gora-0.3 mvn clean package 1、创建项目 mvn archetype:create -DgroupId=org.apdplat.demo.gora -DartifactId=gora-demo 2

2013-10-09 14:20
浏览 7839
评论(0)
分类:互联网

大数据系列10：Spark – 内存计算

博客分类：

大数据

Apache Spark Spark SQL Spark Streaming MLlib GraphX

wget http://mirrors.cnnic.cn/apache/incubator/spark/spark-0.8.0-incubating/spark-0.8.0-incubating-bin-hadoop1.tgz tar -zxvf spark-0.8.0-incubating-bin-hadoop1.tgz mv spark-0.8.0-incubating-bin-hadoop1 spark-0.8.0 wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz tar -zxvf scala-2.9. ...

2013-10-04 05:11
浏览 6421
评论(0)
分类:互联网

大数据系列5：Pig – 大数据分析平台

博客分类：

大数据

pig pig latin 大数据搜索引擎网络爬虫

wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz tar -xzvf pig-0.11.1.tar.gz sudo vi /etc/profile 增加： export PIG_HOME=/home/ysc/pig-0.11.1 exportPATH=$PATH:$PIG_HOME/bin source /etc/profile cp conf/log4j.properties.template conf/log4j.properties pig --help LocalMode： ...

2013-10-04 02:06
浏览 6516
评论(0)
分类:互联网

大数据系列4：Hive – 基于HADOOP的数据仓库

博客分类：

大数据

hive hcatalog 大数据搜索引擎网络爬虫

wget http://mirror.bit.edu.cn/apache/hive/hive-0.11.0/hive-0.11.0-bin.tar.gz tar -xzvf hive-0.11.0-bin.tar.gz cd hive-0.11.0-bin sudo vi /etc/profile 增加： export HIVE_HOME=/home/ysc/hive-0.10.0-bin export PATH=$PATH:$HIVE_HOME/bin source /etc/profile

2013-10-03 00:54
浏览 9973
评论(1)
分类:互联网

大数据系列9：Mahout – 机器学习

博客分类：

大数据

Mahout 机器学习大数据搜索引擎网络爬虫

wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gz tar -xzvf mahout-distribution-0.8.tar.gz cd mahout-distribution-0.8 sudo vi /etc/profile 增加： export PATH=$PATH:/home/ysc/mahout-distribution-0.8/bin source /etc/profile 数据：hadoop fs -put clustering_material. ...

2013-10-03 00:15
浏览 7086
评论(0)
分类:互联网

大数据系列8：Sqoop – HADOOP和RDBMS数据交换

博客分类：

大数据

sqoop 数据迁移大数据搜索引擎网络爬虫

Sqoop1： wget http://mirrors.ustc.edu.cn/apache/sqoop/1.4.4/sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz tar -xzvf sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz mv sqoop-1.4.4.bin__hadoop-1.0.0 sqoop-1.4.4 cd sqoop-1.4.4 sudo vi /etc/profile 增加： export HADOOP_COMMON_HOME=/home/ysc/hadoop-1.2.1

2013-10-03 00:03
浏览 13356
评论(5)
分类:互联网

大数据系列7：Storm – 流计算

博客分类：

大数据

storm 流计算大数据搜索引擎网络爬虫

wget http://download.zeromq.org/zeromq-2.1.7.tar.gz tar -xzvf zeromq-2.1.7.tar.gz cd zeromq-2.1.7 sudo apt-get install gcc sudo apt-get install g++ sudo apt-get install libuuid-dev ./configure sudo apt-get install make make sudo make install

2013-10-02 23:36
浏览 5152
评论(0)
分类:互联网

大数据系列2：建立开发环境编写HDFS和Map Reduce程序

博客分类：

大数据

搭建hadoop开发环境 hadoop 大数据搜索引擎网络爬虫

1、在eclipse中配置hadoop插件将hadoop-eclipse-plugin-1.2.1.jar 复制到eclipse/plugins目录下，重启eclipse。 2、打开MapReduce视图 Window-> Open Perspective -> Other 选择Map/Reduce，图标是个蓝色的象。 3、添加一个MapReduce环境在eclipse下端，控制台旁边会多一个Tab，叫“Map/ReduceLocations”，在下面空白的地方点右键，选择“NewHadoop location...”，在弹出 ...

2013-10-02 23:22
浏览 8471
评论(3)
分类:互联网

大数据系列3：用Python编写MapReduce

博客分类：

大数据

python hadoop 大数据搜索引擎网络爬虫

vi mapper.py 输入： #!/usr/bin/env python importsys for linein sys.stdin: line= line.strip() words= line.split()

2013-10-02 23:09
浏览 6051
评论(0)
分类:互联网

Nutch的发展历程

博客分类：

网络爬虫

hadoop nutch 大数据搜索引擎网络爬虫

Nutch的创始人是Doug Cutting，他同时也是Lucene、Hadoop和Avro开源项目的创始人下面是Nutch的发展历程： 2002年8月由Doug Cutting发起，托管于Sourceforge，之后发布了0.4、0.5、0.6三个版本 2004年9月Oregon State University

2013-09-29 18:18
浏览 4711
评论(0)
分类:开源软件

NUTCH公开课：从搜索引擎到网络爬虫

博客分类：

Nutch相关框架视频教程

Nutch Lucene Hadoop Tika Gora Solr ElasticSearch HBase MapReduce Pig Hive Luke 大数据搜索引擎网络爬虫

Hadoop是大数据的核心技术之一，而Nutch集Hadoop之大成，是Hadoop的源头。学习Hadoop，没有数据怎么办？用Nutch抓！学了Hadoop的Map Reduce以及HDFS，没有实用案例怎么办？学习Nutch！Nutch的很多代码是用Map Reduce和HDFS写的，哪里还能找到比Nutch更好的Hadoop应用案例呢？大数据这个术语最早的引用可追溯到Nutch。当时，大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在，大数据的含义已经被极大地发展了，业界将大数据的特性归纳为4个“V”。Volume数据体量巨大，Variety数据类型 ...

2013-09-12 17:28
浏览 23220
评论(3)
分类:开源软件

给JAVA源代码文件统一地添加licence信息头

博客分类：

java

java util 工具注释工具统一注释

/** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding copyright ownership. * The ASF licenses this file to You under the Apache License, Version 2.0 ...

2013-04-03 03:41
浏览 7719
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

如何解决BUG？

大数据系列6：HBase – 基于Hadoop的分布式数据库

大数据系列1：在win7上安装配置Hadoop伪分布式集群

大数据系列11：Gora – 大数据持久化

大数据系列10：Spark – 内存计算

大数据系列5：Pig – 大数据分析平台

大数据系列4：Hive – 基于HADOOP的数据仓库

大数据系列9：Mahout – 机器学习

大数据系列8：Sqoop – HADOOP和RDBMS数据交换

大数据系列7：Storm – 流计算

大数据系列2：建立开发环境编写HDFS和Map Reduce程序

大数据系列3：用Python编写MapReduce

Nutch的发展历程

NUTCH公开课：从搜索引擎到网络爬虫

给JAVA源代码文件统一地添加licence信息头

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>