最新文章列表

网络爬虫

http://injavawetrust.iteye.com/category/353919 http://injavawetrust.iteye.com/blog/2282354 http://injavawetrust.iteye.com/blog/2279513 http://injavawetrust.iteye.com/blog/2279411
dannyhz 评论(0) 有302人浏览 2016-03-17 16:20

python网络爬虫(一,抓取网页的含义和URL基本构成)

1,网络爬虫的定义 网络爬虫(Web Spider),把互联网比作一张蜘蛛网,Spider就是在这张蜘蛛网上面爬来爬去的蜘蛛。Spider从网站的某一个页面开始读取 ...
xiaojingjing 评论(0) 有1317人浏览 2015-11-18 10:22

网络爬虫:利用Selenium实现登录

本文转载:通通学--知识学习与分享平台 转载链接:http://www.tongtongxue.com/archives/180.html   写过爬虫程序的码农都知道,实现爬虫程序登录的方法有多种,我这利用Selenium来实现登录。提供源代码下载     本案例实现登录的网站是iteye,同时登录时选择第三方登录工具,本处利用的新浪微博来登录。   以下是关键代码:   ...
芝加哥09 评论(0) 有3241人浏览 2015-11-15 21:55

如何抓取Js动态生成数据且以滚动页面方式分页的网页

当我们在进行数据抓取的时候,如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页,那么我们该如何抓取呢? 如类似今日头条这样的网站:http://toutiao.com/ 我们可以使用Selenium来搞定这件事情。Selenium的设计目的虽然是用于Web应用程序的自动化测试,但是却非常适合用来做数据抓取,可以非常简单地绕过网站的反爬虫限制,因为Selenium直接运行在浏览器 ...
yangshangchuan 评论(3) 有10399人浏览 2015-10-14 00:03

自己动手写开源爬虫框架 Slit

自己写的一个开源爬虫框架,取名为Slit。现在的爬虫框架确实有很多,例如Nutch,Heritrix,webMagic等等我为什么又要自己写一个呢?这几个爬虫框架确实都不错,网上也有很多关于它们的评价,但是我发现它们中有很多功能我用不到,有些地方扩展性有点限制,然后自己一想搞个适合自己的轻框架,于是准备这个练手的项目Slit。   下面我对Slit项目做一些基本的介绍,包括项目的架构,内部运 ...
qifeifei 评论(0) 有1089人浏览 2015-05-26 16:19

网络机器人的识别与攻防的经典案例(也即爬虫与反爬虫的经典案例)

本文我们介绍一个网络机器人的识别与攻防的经典案例(也即爬虫与反爬虫的经典案例)。使用到的代码见本人的superword项目: https://github.com/ysc/superword/blob/master/src/main/java/org/apdplat/superword/tools/ProxyIp.java    我们的目的是要使用机器人自动获取站点http://ip.qi ...
yangshangchuan 评论(1) 有12177人浏览 2015-04-12 00:23

SOLR4.2+NUTCH1.6

1、SOLR4.2集成NUTCH1.6 wget  http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz tar  -xzvf  solr-4.2.0.tgz  cd  solr-4.2.0/example  复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/co ...
yangshangchuan 评论(0) 有3525人浏览 2015-04-08 06:21

给LUKE增加word分词器

word分词是一个Java实现的分布式中文分词组件​   1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问)   2、下载并解压Java中文分词组件word-1.0-bin.zip   3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当前 ...
yangshangchuan 评论(0) 有4004人浏览 2015-04-07 21:12

自动更改IP地址反爬虫封锁,支持多线程

8年多爬虫经验的人告诉你,国内ADSL是王道,多申请些线路,分布在多个不同的电信机房,能跨省跨市更好,我这里写好的断线重拨组件,你可以直接 ...
yangshangchuan 评论(3) 有7122人浏览 2015-03-25 05:52

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics