本月博客排行
年度博客排行
-
第1名
宏天软件 -
第2名
龙儿筝 -
第3名
青否云后端云 - wallimn
- vipbooks
- gashero
- wy_19921005
- benladeng5225
- fantaxy025025
- zysnba
- e_e
- javashop
- sam123456gz
- tanling8334
- arpenker
- kaizi1992
- xpenxpen
- lemonhandsome
- xiangjie88
- ganxueyun
- xyuma
- sichunli_030
- wangchen.ily
- jh108020
- Xeden
- johnsmith9th
- zxq_2017
- zhanjia
- jbosscn
- forestqqqq
- luxurioust
- lzyfn123
- ajinn
- daizj
- wjianwei666
- ranbuijj
- 喧嚣求静
- silverend
- kingwell.leng
- lchb139128
- kristy_yy
- lich0079
- jveqi
- java-007
- sunj
- yeluowuhen
- ssydxa219
- lerf
- lstcyzj
- flashsing123
最新文章列表
ios tfhpple iteye 抓取
1.使用 tfhpple
1.1.导入TFHpple
1.2.引入静态库文件libxml2.2.tbd 不是 libxml2.dylib ,ios9 xcode7不使用了
2. 使用 xpath 获取数据 节点
//*[@id="index_main"]/div/div/h3/a
F12 输入 $x("//*[@id= ...
(比较 tika 和正则 ,我更喜欢jsoup ) jsoup 抓取 iteye 网站
jsoup 效果
qq新闻 内容抓取 正则表达 (正则)
http://knight-black-bob.iteye.com/blog/2312411
比较 tika 和正则 ,我更喜欢jsoup
正则 比较难写 ,, ,,,,
下面有jar 包下载
<dependency>
<groupId>org.jsoup</gro ...
qq新闻 内容抓取 正则表达
qq 国内新闻
http://news.qq.com/c/816guonei_1.htm
http://news.qq.com/c/816guonei_2.htm
........
<a target="_blank" class ...
nginx or apache前端禁收录,爬虫,抓取
一、Nginx 规则
直接在 server 中新增如下规则即可:
#################################################
# 禁止蜘蛛抓取动态或指定页面规则 By 张戈博客 #
# 原文地址:http://zhangge.net/5043.html #
# 申 明:转载请尊重版权,保留出处,谢谢 ...
图片识别技术&数据抓取
安装:sudo apt-get install imagemagick
ImageMagick是一套功能强大、稳定而且开源的工具集和开发包,可以用来读、写和处理超过89种基本格式的图片文件,包括流行的TIFF、JPEG、GIF、 PNG、PDF以及PhotoCD等格式。利用ImageMagick,你可以根据web应用程序的 需要动态生成图片, 还可以对一个(或一组)图片进行改变大小 ...
heritrix安装配置和抓取
1 下载 和 解压 从http://crawler.archive.org/下载解压到本地 E:/heritrix-1.14.3 2 配置环境变量 HERITRIX_HOME=E:/heritrix-1.14.3 path后追加 ;%HERITRIX_HOME%/bin 3 配置 heritrix 拷贝E:/heritrix-1.14.3/conf/jmxremote.password. ...
htmlpraser,htmlclient,java线程池
资讯抓取总结
1. HtmlParser简介
HtmlParser是一个纯java写的html解析类库,它不依赖其它的java库文件,主要用于改造或提取html,HtmlParser主要靠Node和Tag来表达Html
(1)、Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法
如:对付树 ...
scrapy抓取ajax请求的网页
在上一篇博客
http://zhouxi2010.iteye.com/blog/1450177
中介绍了用scrapy抓取网页,但是只能抓取普通html中的链接,对于ajax请求的网页却抓不到,但是实际应用中ajax请求又是十分普遍的,所以这里在记录下抓取ajax页面的方法.
仍然是spiders/book.py:
class BookSpider(CrawlSpider):
...
SEO前传 - 解读搜索引擎(采集)
seo的一个基础工作是将网页提供给搜索引擎,那么要完成这项工作有两种方法:1、主动 2、被动
为什么这样说这里要解读一下搜索引擎的原理。
我们在使用搜索引擎查询时,搜索引擎会返回给用户一个查询的结果页,这个页面时在数亿的结果中给你答案的过程。
这些页面从何得来呢?
引擎是一个软件,运行在数据集合上的程序,他两个基础的部件:1、获取数据的部件 2、数据分析的部件
第一部分,数据获取是解 ...