最新文章列表

150行代码写爬虫(二)

上篇内容:http://dushen.iteye.com/blog/2415336 项目地址:https://gitee.com/dushen666/spider.git   继续上一篇的内容,在上一篇的时候,我们已经可以将数据爬取下来了,并保存为了json文件的形式。本篇我要将数据插入关系型数据库,并实现去重。 此处以MySQL数据库为例: 我们依照上一篇的items创建表结构: ...
Du_wood 评论(0) 有1624人浏览 2018-04-13 01:08

150行代码写爬虫(一)

目的:爬取某视频网站的所有视频; 工具:scrapy、MySQL、python 2.7; 项目地址:https://gitee.com/dushen666/spider.git; scrapy是一个python的爬虫框架,有兴趣的同学可以了解一下,本篇我将介绍如何用scrapy从零开始编写一个爬虫; 步骤↓ 安装python 2.7,并配置好环境变量 ,此处不多说。 安装scrap ...
Du_wood 评论(0) 有4495人浏览 2018-04-02 22:40

网站移植大师插件规则及说明

下图为大猫电影网对应的插件。某些值与xpath语法类似。 字段说明:(以大猫电影网为例说明) gen表示网站地址 charset表示网站网页使用的编码 isHasDetai ...
svo 评论(0) 有296人浏览 2017-04-20 14:05

新浪微博模拟登录(Java)

      使用HttpClient模拟新浪微博登录,贴在这里做个备忘,也希望能帮助到有这方面需求的童鞋们,代码如下:       package com.yida.spider4j.crawler.test. ...
lxwt909 评论(2) 有5611人浏览 2015-10-29 20:07

音悦台800多万MV视频抓取

       闲的蛋疼,抓下音悦台的MV玩玩,昨晚研究到凌晨1点,现把代码分享与此,以作备忘,如果有涉及侵权,请音悦台通知我,我马上删除代码,哈哈!!!        //因为我发现音悦台的MV ID都是7位数字 int max = 9999999; for(int i=0; i < max; i++) { String videoId = i + "&qu ...
lxwt909 评论(3) 有8015人浏览 2015-10-20 09:37

创建编码一个spider的具体步骤

为使项目框架结构清晰,添加的spider的按城市划分存储位置。 例如宁波新闻网—综合频道,则在spiders下面建一个ningbo(宁波)的文件夹,将该版面的spider写在该文件夹下面。 项目设计框架图:     实际项目tree图片见附件tree.jpg  webcrawler:. |——scrapy.cfg |——webcrawler: |——items.py ...
kevinflynn 评论(0) 有1164人浏览 2015-08-15 17:25

转网络爬虫(Spider)Java实现原理

“网络蜘蛛”或者说“网络爬虫”,是一种能访问网站并跟踪链接的程序,通过它,可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”,我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”,并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。Java语言在此非常适合构建一个“蜘蛛”程序,其内建了对HTTP协议的支持,通过它可以传输大部分的网页信息; ...
bolingbl 评论(0) 有438人浏览 2015-03-10 23:25

网络爬虫(Spider)Java实现原理(转载)

网络爬虫(Spider)Java实现原理      “网络蜘蛛”或者说“网络爬虫”,是一种能访问网站并跟踪链接的程序,通过它,可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”,我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”,并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。    *  Java语言在此非常适合构建一个“蜘 ...
bolingbl 评论(0) 有486人浏览 2015-03-10 23:19

网络爬虫之Spider

网络爬虫是搜索引擎的一个重要的部分。爬虫的根本原理就是下载页面,然后进行解析。Web上的存储着海量数据,怎么样才能将海量数据尽快的下载到本机上?这是网络爬虫设计的一个方案。采取多线程技术。以下代码实现了将网页的数据存储到XML文档。希望能提出更好的方案。   [java] view plaincopy  
bolingbl 评论(0) 有802人浏览 2015-03-10 23:12

phantomjs安装(linux,附带环境变量设置) ,以及casperjs安装。

1. 首先从官网http://phantomjs.org/下载phantomjs压缩包,解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profile 加入 expor ...
alleni123 评论(0) 有7367人浏览 2014-09-24 10:55

网络爬虫种子长什么样

因为网络爬虫是SEO的一部分故归类到SEO,以下是一些有用的网络爬虫种子,当然你也可以去找一些; 这是以前同事找的,感觉很有用跟大家分享一下: 1、天气内容 全天预报:http://www.weather.com.cn/data/cityinfo/{101020100}.html 实时天气:http://www.weather.com.cn/data/sk/{101270101}.html 6  天 ...
boonya 评论(0) 有2899人浏览 2013-05-17 11:35

Spider

Java Spider 网络爬虫
刘小龙 评论(0) 有764人浏览 2013-01-08 01:21

[小代码]蜘蛛爬虫,抓取某网站所有图片文章中的图片~

为朋友的网站写了个小代码,把所有图片下载到本地,有点不道德了,哈哈。。。 package com.ai.picpicker; import java.io.IOException; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpException; ...
wangshu3000 评论(2) 有4491人浏览 2012-01-02 12:02

Python Spider 爬虫实例

Python Spider 爬虫实例 Neo Chen (netkiller) <openunix@163.com> 版权 © 2011 http://netkiller.github.com 摘要 . 目录 爬虫实力 爬虫实力 主要的功能是爬 ...
netkiller.github.com 评论(1) 有1782人浏览 2011-12-28 16:11

解读搜索引擎(预处理)

上回说到采集其实采集过程也很复杂 想了解更多的细节可参见相关的资源。 我们通过搜索结果页可以看到展现的内容包括查询内容和超链接; 因此采集过程主要处理两部分Url 和 文本; 搜索引擎通过爬虫程序(robot/spider)来遍历互联网各个节点,在遍历的过程中会处理已经遍历和尚未遍历的url,以及攫取网站的文本内容。并存储在搜索数据库中。 所谓的预处理过程,恰恰就是完成这些操作。 用户在搜 ...
Ryee 评论(0) 有1169人浏览 2011-11-09 16:42

SEO如何做有效的外链

 国内做SEO的人可能会经常听到这样一句话“你可以不懂如何改META,但你必须知道如何做外链。”可见外链作为SEO优化中的一个手段被许多SEO从业者推 ...
chenhaodejia 评论(0) 有903人浏览 2011-09-07 10:24

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics