- 浏览: 41621 次
- 性别:
- 来自: 南京
最新评论
-
数据工厂:
博主写的很好,赞一个,多谢分享 神箭手云市场有现成写好的微信公 ...
Scrapy框架结合Spynner采集需进行js,ajax动态加载的网页并提取网页信息(以采集微信公众号文章列表为例) -
kevinflynn:
qindongliang1922 写道验证码能自动破解么没有写 ...
模拟登陆百度的Java实现 -
qindongliang1922:
验证码能自动破解么
模拟登陆百度的Java实现 -
kevinflynn:
是这样的!还是得不断地学习,不断地总结经验才可以!
模拟登陆百度的Java实现 -
hellohank:
现在的很多网页,包括百度,页面上大量使用了js动态加载或js解 ...
模拟登陆百度的Java实现
文章列表
aaaaaaaa
<audio controls="controls" style="display: none;"></audio>
aaaaaabbbbccc aaaa=xxxx>
<audio controls="controls" style="display: none;"></audio>
aaaaaaa> bbbb
]]>
<audio controls="controls" style="display: none;"></audio>
1.jdk的安装
2.nginx的安装
3.tomcat的安装
4.mysql的安装
5.scrapy的安装
6.mongodb的安装
作为爬虫工程师,Linux工程师,系统管理员,软件的部署安装是必备技能。下面是我在工作学习中的总结,希望对网友们有所借鉴和帮助。
环境:
阿里云服务器 CentOS7.0
一.JDK的安装
1.查看linux机器是32位还是64位的方法:
$ getconf LONG_BIT
64
2.下载对应系统的jdk版本 linux 64bit jdk1.8
下载地址:http://www.oracle.com/te ...
Mac上的视频下载和转换
视频下载:
1.到硕鼠官网(http://www.flvcd.com/url.php)下载硕鼠mac版或直接通过链接(http://download.flvcd.com/mac/flvcd_bigrats_mac0521.zip)下载
2.下载后解压缩,软件为免安装,直接双击即可运行
3.双击进入软件主界面,把视频播放地址复制到上面的输入框,点 开始GO 按钮即可得到下载地址。
4.点击用硕鼠下载该视频按钮->开始下载->点击全部开始下载任务开始
对于短视频,直接打开目录即可见。对于长视频采用的是分段下载再合并 ...
01.每天告诉自己一次,『我真的很不错』
02.生气是拿别人做错的事来惩罚自己
03.生活中若没有朋友,就像生活中没有阳光一样
04.明天的希望,让我们忘了今天的痛苦
05.生活若剥去理想、梦想、幻想,那生命便只是一堆空 ...
之前安装的Mongodb比较老1.8.2的,该版本的mongodb数据库有个缺陷,总的数据库容量不能超过2G,倘若超出2G,再往数据库中插入数据是插不进去的。
于是更新版本到3.0
步骤:
1.官网下载mongodb安装文件
2.安装配置
Linux下Mongodb安装 ...
适用系统:Linux(Redhat , CentOS,Debian,Ubuntu)
* Linux的云服务器数据盘未做分区和格式化,可以根据以下步骤进行分区以及格式化操作。
下面的操作将会把数据盘划分为一个分区来使用。
1、查看数据盘
在没有分区和格式化数据盘之前,使用 “df –h”命令,是无法看到数据盘的,可以使用“fdisk -l”命令查看。如下图:
原文网址:http://www.yihaomen.com/article/linux/313.htm
下载spynner,最新版本:https://pypi.python.org/pypi/spynner/2.5
在linux 下开发桌面应用,最常见的开发工具就是QT,而python是开源世界的轻骑兵,学习简单,开发高效,因此有了 pyqt 这个包用 python 来做 QT 开发。下面详细介绍其步骤。一、基础环境配置二、在centos 下编译,安装QT-4.8.3三、安装pyqt四、测试
为使项目框架结构清晰,添加的spider的按城市划分存储位置。
例如宁波新闻网—综合频道,则在spiders下面建一个ningbo(宁波)的文件夹,将该版面的spider写在该文件夹下面。
项目设计框架图:
实际项目tree图片见附件tree.jpg
webcrawler:.
|——scrapy.cfg
|——webcrawler:
|——items.py
|——pipelines.py
|——settings.py
|——__init__.py
|——spiders
|__init__.py
...
需要安装的依赖:
1.Python
2.setuptools
3.twisted
4.zope.interface
5.w3lib
6.libxml2
7.libxslt
8.lxml
9.scrapy
Scrapy是一个开源的基于twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。
yum install gcc python-devel
http://www.cnblogs.com/xiaoruoen/archive/2013/02/27/2933854.html
http://www.coder4 ...
Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
官方主页: http://www.scrapy.org/
中文文档:Scrapy 0 ...
对于网页的采集有这样几种:
1.静态网页
2.动态网页(需进行js,ajax动态加载数据的网页)
3.需进行模拟登录后才能采集的网页
4.加密的网页
3,4的解决方案和思路会在后续blog中陈述
现在只针对1,2的解决方案与思路:
一.静态网页
对于静态网页的采集解析方法很多很多!java,python都提供了很多的工具包或框架,例如java的httpclient,Htmlunit,Jsoup,HtmlParser等,Python的urllib,urllib2,BeautifulSoup,Scrapy等,不详述,网上资料很多的。
二.动态网页
...
近来今日头条特别的火,就拿来研究研究!
头条的新闻内容和新闻评论是开放的,无需登陆就可以获取的到!
但是新闻的评论是需要登陆后才能进行评论的,于是开始模拟头条的用户登陆:
1.模拟登陆的操作能够获取到cookie值,定位initCookie,但是该cookie值不能直接用来作为对新闻进行评论的请求参数。
2.需要找到一个新闻url,例如:http://toutiao.com/a4583986550/,将上部获取的cookie值作为参数,模拟请求,获取到cookie,定为lastCookie.
3.将initCookie和lastCookie进行拼接就可获取到最终的可用于新闻评论的c ...
常常需要爬取百度统计出来的数据,难免要进行百度的模拟登陆!现将程序贴出来,供他人也供自己以后使用:
package org.baidu;
import java.util.List;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.NameValuePair;
import org.apache.http.client.CookieStore;
import org.apache.http.client.HttpC ...