本月博客排行
-
第1名
龙儿筝 -
第2名
zysnba -
第3名
johnsmith9th - wy_19921005
- sgqt
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- wy_19921005
- benladeng5225
- fantaxy025025
- javashop
- qepwqnp
- e_e
- 解宜然
- zysnba
- ssydxa219
- sam123456gz
- ranbuijj
- arpenker
- tanling8334
- kaizi1992
- sichunli_030
- xpenxpen
- gaojingsong
- wiseboyloves
- xiangjie88
- ganxueyun
- xyuma
- wangchen.ily
- jh108020
- zxq_2017
- jbosscn
- lemonhandsome
- luxurioust
- Xeden
- lzyfn123
- forestqqqq
- zhanjia
- nychen2000
- ajinn
- wjianwei666
- johnsmith9th
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
最新文章列表
大数据系列4:Hive – 基于HADOOP的数据仓库
wget http://mirror.bit.edu.cn/apache/hive/hive-0.11.0/hive-0.11.0-bin.tar.gz
tar -xzvf hive-0.11.0-bin.tar.gz
cd hive-0.11.0-bin
sudo vi /etc/profile
增加:
export HIVE_HOME=/home/ysc/hive-0.10.0-b ...
大数据系列9:Mahout – 机器学习
wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gz
tar -xzvf mahout-distribution-0.8.tar.gz
cd mahout-distribution-0.8
sudo vi /etc/profile
增加:
export PATH=$PAT ...
大数据系列8:Sqoop – HADOOP和RDBMS数据交换
Sqoop1:
wget http://mirrors.ustc.edu.cn/apache/sqoop/1.4.4/sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz
tar -xzvf sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz
mv sqoop-1.4.4.bin__hadoop-1.0.0 sqoop-1.4.4
cd sqoo ...
大数据系列7:Storm – 流计算
wget http://download.zeromq.org/zeromq-2.1.7.tar.gz
tar -xzvf zeromq-2.1.7.tar.gz
cd zeromq-2.1.7
sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install libuuid-dev
./configure ...
大数据系列2:建立开发环境编写HDFS和Map Reduce程序
1、在eclipse中配置hadoop插件
将hadoop-eclipse-plugin-1.2.1.jar 复制到eclipse/plugins目录下,重启eclipse。
2、打开MapReduce视图
Window-> Open Perspective -> Other 选择Map/Reduce,图标是个蓝色的象。
3、添加一个MapRedu ...
Nutch的发展历程
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人
下面是Nutch的发展历程:
2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本
2004年9月Oregon State University
NUTCH公开课:从搜索引擎到网络爬虫
Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?
大数据这个术语最早的引用可追溯到Nutch。 ...
HttpClient4.x进行Get/Post请求并使用ResponseHandler处理响应
查看原文请移步http://www.yshjava.cn/post/420.html
HTTPClient4之后,基本重写了3的所有代码,使得API用起来更显简单有力,最简单的例子体现在get/post请求以及请求响应结果的处理上。3的时候,需要自己处理响应流,无论是网页编码识别还是代码处理等各方面,非常不便,4之后使用ResponseHandler可以非常方便和简洁地处理上述问题。如下代码演示 ...
nutch2.1+mysql报错及解决
错误信息:java.io.IOException: java.sql.BatchUpdateException: Incorrect string value: '\xD6\xD0\xB9\xFA\xB9\xA4...' for column 'content' at row 1at org.apache.gora.sql.store.SqlStore.flush(SqlStore.java: ...
抓取网站实例配置(一)
附件中包含一个抓取的完整操作实例。主要有如何配置入口地址,如何配置URL类型的字段,如何保存数据库。其中还有Parent类型的一个配置。任何情况下,配置组只有设置了表名的情况下才会去把该组的数据存储起来。表名其实是:是否存储该数据组的标志。祝大家使用顺利。爬虫下载地址: http://anson2003.iteye.com/blog/385344
Heritrix3.1.0的使用
1.在cmd下面进入Heritrix的bin目录下
输入heritrix -a admin:admin,弹出新窗口,新窗口中运行heritrix
2.浏览中输入https://localhost:8443/
得到界面如下
第一个输入框中写入任意Job名称,如s
第二个输入框如果不写则默认存储在bin目录下的jobs文件夹下
3.点击create后:
4.点击"s& ...
谈谈html页面的解析(一)
如今,互联网上的信息越来越多,互联网的信息已经成为一个越来越大的矿山,这个里面有黄金也有垃圾,我们坐在这个矿山上,如何挖掘其中的金子,已经越来越受到重视,而这个挖掘过程的第一步就是需要将这些非结构化的数据转变为结构化的数据。最简单的搜索的爬虫需要这种转变,由WEB到WAP的转码需要这种转变,WEB数据的应用也需要这种转变。
我们通过浏览器所看到的页面信息,是由包含了很多的页面元素组装在一起的,其中 ...
jsoup 简介
jsoup 简介
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
jsoup 的主要功能如下:
1. 从一个 URL,文件或字符串中解析 HTML;
2. 使用 DOM 或 CSS 选择器来查找、取出数据;
FastJson-api
<!-- [if gte mso 9]><xml><w:WordDocument><w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel><w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDra ...