`
kevinflynn
  • 浏览: 41621 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论
文章列表
    aaaaaaaa <audio controls="controls" style="display: none;"></audio>
aaaaaabbbbccc aaaa=xxxx> <audio controls="controls" style="display: none;"></audio>
aaaaaaa> bbbb ]]> <audio controls="controls" style="display: none;"></audio>
1.jdk的安装 2.nginx的安装 3.tomcat的安装 4.mysql的安装 5.scrapy的安装 6.mongodb的安装   作为爬虫工程师,Linux工程师,系统管理员,软件的部署安装是必备技能。下面是我在工作学习中的总结,希望对网友们有所借鉴和帮助。 环境: 阿里云服务器 CentOS7.0 一.JDK的安装 1.查看linux机器是32位还是64位的方法:   $ getconf LONG_BIT 64 2.下载对应系统的jdk版本  linux 64bit  jdk1.8      下载地址:http://www.oracle.com/te ...
Mac上的视频下载和转换 视频下载:   1.到硕鼠官网(http://www.flvcd.com/url.php)下载硕鼠mac版或直接通过链接(http://download.flvcd.com/mac/flvcd_bigrats_mac0521.zip)下载 2.下载后解压缩,软件为免安装,直接双击即可运行      3.双击进入软件主界面,把视频播放地址复制到上面的输入框,点 开始GO 按钮即可得到下载地址。   4.点击用硕鼠下载该视频按钮->开始下载->点击全部开始下载任务开始   对于短视频,直接打开目录即可见。对于长视频采用的是分段下载再合并 ...
01.每天告诉自己一次,『我真的很不错』 02.生气是拿别人做错的事来惩罚自己 03.生活中若没有朋友,就像生活中没有阳光一样 04.明天的希望,让我们忘了今天的痛苦 05.生活若剥去理想、梦想、幻想,那生命便只是一堆空 ...
之前安装的Mongodb比较老1.8.2的,该版本的mongodb数据库有个缺陷,总的数据库容量不能超过2G,倘若超出2G,再往数据库中插入数据是插不进去的。 于是更新版本到3.0 步骤: 1.官网下载mongodb安装文件 2.安装配置 Linux下Mongodb安装 ...
适用系统:Linux(Redhat , CentOS,Debian,Ubuntu) *  Linux的云服务器数据盘未做分区和格式化,可以根据以下步骤进行分区以及格式化操作。 下面的操作将会把数据盘划分为一个分区来使用。    1、查看数据盘 在没有分区和格式化数据盘之前,使用 “df –h”命令,是无法看到数据盘的,可以使用“fdisk -l”命令查看。如下图:
原文网址:http://www.yihaomen.com/article/linux/313.htm   下载spynner,最新版本:https://pypi.python.org/pypi/spynner/2.5 在linux 下开发桌面应用,最常见的开发工具就是QT,而python是开源世界的轻骑兵,学习简单,开发高效,因此有了 pyqt 这个包用 python  来做 QT 开发。下面详细介绍其步骤。一、基础环境配置二、在centos 下编译,安装QT-4.8.3三、安装pyqt四、测试
为使项目框架结构清晰,添加的spider的按城市划分存储位置。 例如宁波新闻网—综合频道,则在spiders下面建一个ningbo(宁波)的文件夹,将该版面的spider写在该文件夹下面。 项目设计框架图:     实际项目tree图片见附件tree.jpg  webcrawler:. |——scrapy.cfg |——webcrawler: |——items.py |——pipelines.py |——settings.py |——__init__.py |——spiders |__init__.py ...
需要安装的依赖: 1.Python 2.setuptools 3.twisted 4.zope.interface 5.w3lib 6.libxml2 7.libxslt 8.lxml 9.scrapy   Scrapy是一个开源的基于twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。 yum install gcc python-devel http://www.cnblogs.com/xiaoruoen/archive/2013/02/27/2933854.html http://www.coder4 ...
       Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 官方主页: http://www.scrapy.org/ 中文文档:Scrapy 0 ...
对于网页的采集有这样几种: 1.静态网页 2.动态网页(需进行js,ajax动态加载数据的网页) 3.需进行模拟登录后才能采集的网页 4.加密的网页   3,4的解决方案和思路会在后续blog中陈述 现在只针对1,2的解决方案与思路: 一.静态网页       对于静态网页的采集解析方法很多很多!java,python都提供了很多的工具包或框架,例如java的httpclient,Htmlunit,Jsoup,HtmlParser等,Python的urllib,urllib2,BeautifulSoup,Scrapy等,不详述,网上资料很多的。   二.动态网页   ...
近来今日头条特别的火,就拿来研究研究! 头条的新闻内容和新闻评论是开放的,无需登陆就可以获取的到! 但是新闻的评论是需要登陆后才能进行评论的,于是开始模拟头条的用户登陆: 1.模拟登陆的操作能够获取到cookie值,定位initCookie,但是该cookie值不能直接用来作为对新闻进行评论的请求参数。 2.需要找到一个新闻url,例如:http://toutiao.com/a4583986550/,将上部获取的cookie值作为参数,模拟请求,获取到cookie,定为lastCookie. 3.将initCookie和lastCookie进行拼接就可获取到最终的可用于新闻评论的c ...
常常需要爬取百度统计出来的数据,难免要进行百度的模拟登陆!现将程序贴出来,供他人也供自己以后使用:     package org.baidu; import java.util.List; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.NameValuePair; import org.apache.http.client.CookieStore; import org.apache.http.client.HttpC ...
Global site tag (gtag.js) - Google Analytics