最新文章列表

大数据系列4:Hive – 基于HADOOP的数据仓库

wget http://mirror.bit.edu.cn/apache/hive/hive-0.11.0/hive-0.11.0-bin.tar.gz tar -xzvf hive-0.11.0-bin.tar.gz cd hive-0.11.0-bin sudo vi /etc/profile 增加: export HIVE_HOME=/home/ysc/hive-0.10.0-b ...
yangshangchuan 评论(1) 有9946人浏览 2013-10-03 00:54

大数据系列9:Mahout – 机器学习

wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gz tar -xzvf mahout-distribution-0.8.tar.gz cd mahout-distribution-0.8 sudo vi /etc/profile 增加:     export PATH=$PAT ...
yangshangchuan 评论(0) 有7055人浏览 2013-10-03 00:15

大数据系列8:Sqoop – HADOOP和RDBMS数据交换

Sqoop1: wget http://mirrors.ustc.edu.cn/apache/sqoop/1.4.4/sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz tar -xzvf sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz mv sqoop-1.4.4.bin__hadoop-1.0.0 sqoop-1.4.4 cd sqoo ...
yangshangchuan 评论(5) 有13319人浏览 2013-10-03 00:03

大数据系列7:Storm – 流计算

wget http://download.zeromq.org/zeromq-2.1.7.tar.gz tar -xzvf zeromq-2.1.7.tar.gz cd zeromq-2.1.7 sudo apt-get install gcc sudo apt-get install g++ sudo apt-get install libuuid-dev ./configure ...
yangshangchuan 评论(0) 有5133人浏览 2013-10-02 23:36

大数据系列2:建立开发环境编写HDFS和Map Reduce程序

1、在eclipse中配置hadoop插件        将hadoop-eclipse-plugin-1.2.1.jar 复制到eclipse/plugins目录下,重启eclipse。 2、打开MapReduce视图        Window-> Open Perspective -> Other 选择Map/Reduce,图标是个蓝色的象。 3、添加一个MapRedu ...
yangshangchuan 评论(3) 有8445人浏览 2013-10-02 23:22

大数据系列3:用Python编写MapReduce

      vi mapper.py       输入:              #!/usr/bin/env python                importsys                for linein sys.stdin:                            line= line.strip()                     ...
yangshangchuan 评论(0) 有6023人浏览 2013-10-02 23:09

Nutch的发展历程

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人   下面是Nutch的发展历程:   2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本 2004年9月Oregon State University
yangshangchuan 评论(0) 有4680人浏览 2013-09-29 18:18

NUTCH公开课:从搜索引擎到网络爬虫

Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?   大数据这个术语最早的引用可追溯到Nutch。 ...
yangshangchuan 评论(3) 有23192人浏览 2013-09-12 17:28

java之 25天 网络爬虫抓取图片(二)

正则表达式练习 import java.util.Arrays; import java.util.Collections; import java.util.List; import java.util.TreeSet; public class RegexTest { public static void main(String[] args) { //t ...
Luob. 评论(0) 有7056人浏览 2013-05-30 13:59

HttpClient4.x进行Get/Post请求并使用ResponseHandler处理响应

查看原文请移步http://www.yshjava.cn/post/420.html HTTPClient4之后,基本重写了3的所有代码,使得API用起来更显简单有力,最简单的例子体现在get/post请求以及请求响应结果的处理上。3的时候,需要自己处理响应流,无论是网页编码识别还是代码处理等各方面,非常不便,4之后使用ResponseHandler可以非常方便和简洁地处理上述问题。如下代码演示 ...
杨胜寒 评论(0) 有13690人浏览 2013-05-20 10:54

网络爬虫(网络蜘蛛)之网页抓取

查看原文请移步《http://www.yshjava.cn/post/415.html》   现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不是 ...
杨胜寒 评论(1) 有15805人浏览 2013-05-20 10:44

nutch2.1+mysql报错及解决

错误信息:java.io.IOException: java.sql.BatchUpdateException: Incorrect string value: '\xD6\xD0\xB9\xFA\xB9\xA4...' for column 'content' at row 1at org.apache.gora.sql.store.SqlStore.flush(SqlStore.java: ...
yangshangchuan 评论(0) 有5116人浏览 2013-03-31 23:35

抓取网站实例配置(一)

附件中包含一个抓取的完整操作实例。主要有如何配置入口地址,如何配置URL类型的字段,如何保存数据库。其中还有Parent类型的一个配置。任何情况下,配置组只有设置了表名的情况下才会去把该组的数据存储起来。表名其实是:是否存储该数据组的标志。祝大家使用顺利。爬虫下载地址: http://anson2003.iteye.com/blog/385344
yuhaizhong1 评论(0) 有754人浏览 2012-11-16 17:52

Heritrix3.1.0的使用

1.在cmd下面进入Heritrix的bin目录下 输入heritrix -a admin:admin,弹出新窗口,新窗口中运行heritrix 2.浏览中输入https://localhost:8443/ 得到界面如下 第一个输入框中写入任意Job名称,如s 第二个输入框如果不写则默认存储在bin目录下的jobs文件夹下 3.点击create后: 4.点击"s& ...
jkbjxy 评论(0) 有2896人浏览 2012-09-12 10:07

谈谈html页面的解析(一)

如今,互联网上的信息越来越多,互联网的信息已经成为一个越来越大的矿山,这个里面有黄金也有垃圾,我们坐在这个矿山上,如何挖掘其中的金子,已经越来越受到重视,而这个挖掘过程的第一步就是需要将这些非结构化的数据转变为结构化的数据。最简单的搜索的爬虫需要这种转变,由WEB到WAP的转码需要这种转变,WEB数据的应用也需要这种转变。 我们通过浏览器所看到的页面信息,是由包含了很多的页面元素组装在一起的,其中 ...
jianfeihit 评论(0) 有10654人浏览 2012-09-04 22:45

网络爬虫基本原理(一)

    网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。 一、网络爬虫的基本结构及工作流程     一个通用的网络爬虫的框架如图所示:     网络爬虫的基本工作流程如下:     1.首先选取一部分精心挑选的种子URL;     2.将这些URL放入待抓取URL ...
wawlian 评论(0) 有2836人浏览 2012-07-20 13:18

jsoup 简介

  jsoup 简介 jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 jsoup 的主要功能如下: 1. 从一个 URL,文件或字符串中解析 HTML; 2. 使用 DOM 或 CSS 选择器来查找、取出数据;
晨必须的 评论(0) 有15205人浏览 2012-06-01 13:02

FastJson-api

<!-- [if gte mso 9]><xml><w:WordDocument><w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel><w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDra ...
晨必须的 评论(0) 有13398人浏览 2012-05-30 21:00

基于分块统计和机器学习的主题类网页内容识别算法实现和应用范例

转载自 yshjava的个人博客主页 《基于分块统计和机器学习的主题类网页内容识别算法实现和应用范例》 周末两天在家闲着没事,于是整理了一下之前的的文档和一些琐碎的测试代码,居然发现了几个月前写的一个新闻类主题型网页正文文本自动抽取模块。当时写的比较简单和粗糙,虽然抽取结果差强人意,但是也还勉强说得过去。于是清理一下代码上的灰尘,做了一个小Demo,分享一下。   作者写这篇文 ...
杨胜寒 评论(7) 有7407人浏览 2012-05-14 14:20

网络爬虫简单策略

    前几天同学问我,获取一个网站的资料是通过api调用好还是通过网络爬虫好,我说如果api可以满足需求那可以直接调api因为api是网站给你暴露的接口 ...
簡單從泚銷夨 评论(0) 有6440人浏览 2012-05-05 21:27

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics