最新文章列表

你们对“爬虫”这个词好像有什么误会

大数据时代你不可不知的一个词语。。。潜入各个爬虫群内部的小编,今天给大家带来什么样的搞笑的事情了呢,客官您往下看。。。。。。爬虫是啥呢?小编为了“普及”知识特地去百度了一下爬虫,度娘是这么说的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。额 ...
qianxiu 评论(0) 有624人浏览 2018-01-11 12:02

“大数据应用场景”之隔壁老王(连载三)

老王上次在小编帮助下作的一场大戏没成功就被员工以 pa gong 相要挟扼杀在摇篮里了,为了小王的茁壮成长,老王要老老实实的预测明年的销量了。 老王的内心戏:现在某龙辣条都走向国际了,深受各国人民的喜爱,我的辣条厂怎么做才能成为第二个某龙呢?老王不禁陷入了沉思,跟销量有关系的有什么呢?口味?形状?主推哪种辣条?口味没戏了,那就只能从形状和主推款入手了,想到这,老王兴奋的跑过来砸开了小编公司的大门, ...
qianxiu 评论(0) 有453人浏览 2018-01-11 11:29

大数据应用场景”之隔壁老王(连载二)

大家的好朋友,我们的好邻居老王时隔一周第二次闪亮登场了!!!上次给大家讲到老王通过小编公司爬虫的帮助找到了合适的合作伙伴,之后生意一直 ...
qianxiu 评论(0) 有833人浏览 2018-01-11 11:10

“大数据应用场景”之隔壁老王(连载一)

小编告诉大家:为了让大家饶有趣味的了解大数据的应用场景,前嗅要出幺蛾子了!!!——欢迎大家来到《“大数据应用场景”之隔壁老王》。 接下 ...
qianxiu 评论(0) 有500人浏览 2018-01-11 11:03

小白学爬虫-设置Selenium+Chrome代理

微博登录限制了错误次数···加上Cookie大批账号被封需要从Cookie池中 剔除被封的账号··· 需要使用代理··· 无赖百度了大半天都是特么的啥玩意儿???结果换成了 Google手到擒来 分分钟解决(那么问题来了?百度除了卖假药还会干啥?) Selenium+Chrome认证代理不能通过options处理。只能换个方法使用扩展解决 原文地址:https://stackoverflow.c ...
zhimaruanjian 评论(0) 有1995人浏览 2017-12-18 13:19

芝麻HTTP:Scrapy小技巧-MySQL存储

这两天上班接手,别人留下来的爬虫发现一个很好玩的 SQL脚本拼接。 只要你的Scrapy Field字段名字和 数据库字段的名字 一样。那么恭喜你你就可以拷贝这段SQL拼接脚本。进行MySQL入库处理。 具体拼接代码如下: def process_item(self, item, spider): if isinstance(item, WhoscoredNewItem ...
zhimaruanjian 评论(0) 有843人浏览 2017-12-15 09:06

小白学爬虫-在无GUI的CentOS上使用Selenium+Chrome

爬虫代理IP由芝麻HTTP服务供应商提供 各位小伙伴儿的采集日常是不是被JavaScript的各种点击事件折腾啊?好不容易找到个Selenium+Chrome可以解决问题! 但是另一个▄█▀█●的事实摆在面前,服务器都特么没有GUI啊·· 好吧!咱们要知难而上!决不能被这个点小困难打倒······· 然而摆在面前的事实是····  他丫的各种装不上啊!坑爹啊! 那么我来拯救你们于水火之 ...
zhimaruanjian 评论(0) 有1577人浏览 2017-12-13 14:16

Python中ValueError: invalid literal for int() with base 10 的实用解决办法

爬虫代理IP由芝麻HTTP服务供应商提供 今天在写爬虫程序的时候由于要翻页,做除法分页的时候出现了 totalCount = '100' totalPage = int(totalCount)/20 ValueError: invalid literal for int() with base 10的错误 网上同样的错误有人建议用round(float(“1.0”)),但是解决不了我这个问 ...
zhimaruanjian 评论(0) 有1307人浏览 2017-12-12 11:33

使用Python收集获取Linux系统主机信息

爬虫代理IP由芝麻HTTP服务供应商提供 使用 python 代码收集主机的系统信息,主要:主机名称、IP、系统版本、服务器厂商、型号、序列号、CPU信息、内存等系统信息。 #!/usr/bin/env python #encoding: utf-8 ''' 收集主机的信息: 主机名称、IP、系统版本、服务器厂商、型号、序列号、CPU信息、内存信息 ''' from subp ...
zhimaruanjian 评论(0) 有1078人浏览 2017-12-12 11:05

Python学习基础知识概要

爬虫代理IP由芝麻HTTP服务供应商提供 1.输入输出 输出实例 print 'hello','world' hello world 输出实例 name = raw_input(); print "hello,",name world hello,world 输入时提示实例 name = raw_input('please enter your name:' ...
zhimaruanjian 评论(0) 有308人浏览 2017-12-05 09:59

如何高效率采集并分析数据

本文将围绕数据采集的三大要点、如何让分析更有价值、以及数据分析思维三部分展开,感兴趣的朋友一起来了解一下。 一、数据采集的三大要点 1、 ...
可乐瓶里的小辣椒 评论(0) 有32人浏览 2017-03-10 13:58

某广电经营数据报送系统案例分析

 客户背景及面临问题 公司具有多级组织架构,下设131家分公司,其中21家市(州)分公司、110家县(市、区)分公司,省公司为独立法人,对市(州 ...
rmp 评论(0) 有675人浏览 2016-11-22 15:23

报表动态交互

交互增强模块使产品不仅能够展现报表和进行简单的数据填报,而且能够实现更丰富的页面交互功能,从而更好地进行数据的展现和输入。     简单易用的交互效果配置界面,轻松实现交互功能 基于友好易用的交互效果配置页面,用户根据需要选择单元格并设置相应的交互效果,逐项配置交互效果详细配置信息,快速完成交互功能的设置。 支持多种交互效果 产品提供多种交互效果,全面满足用户的交互需求。例如: ...
rmp 评论(0) 有542人浏览 2016-10-14 17:28

数据报表查询

数据查询 通过点选拖拽的设置方式,便捷地为报表定义查询条件,帮助用户轻松查询需要的数据,实现灵活的数据查询交互。   智能易用的查询设计器,高效实现查询界面 基于友好易用的查询设计器,轻松点选添加查询条件,便捷地拖拽条件排列布局,所见即所得的设计查询面板,快速完成查询界面设置。 支持复杂逻辑查询 特有高级条件设置模式,具有括号和逻辑运算功能,能够将多个查询条件使用括号 ...
rmp 评论(0) 有889人浏览 2016-10-11 15:53

智能停车系统实时数据监控

        随着新世纪经济持续健康快速发展,以及加入WTO后私人购车高峰期的即将到来,交通需求将显著增加,停车设施的水平直接影响到城市的交通 ...
rmp 评论(0) 有1408人浏览 2016-09-30 14:57

如何使用爬虫采集微信公众号文章

微商必看:微信公众号文章[多公众号] 采集爬虫(微爬虫进阶版) – 神箭手云爬虫 -一站式云端通用爬虫开发平台 优秀的微信公众号都是相似的,平庸的微信公众号各有各的平庸。   1.打开神箭手云爬虫官网 2.创建爬虫任务 (1)在首页点击“爬虫市场”,在神箭手云市场中搜索微信;
小壁虎 评论(0) 有14人浏览 2016-09-12 16:16

如何使用爬虫采集阿里旅行的机票信息

1.打开神箭手云爬虫官网   2.创建爬虫任务 (1) 在首页点击“爬虫市场
小壁虎 评论(0) 有23人浏览 2016-08-30 15:46

最近博客热门TAG

Java(141746) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics