最新文章列表

关于爬虫采集中使用HTTP代理ip的认知误区

    大部分人都知道,在使用爬虫多次爬取同一网站时,经常会被网站的IP反爬虫机制给禁掉,为了解决封禁 IP 的问题通常会使用代理IP。但也有一部分人在HTTP代理IP的使用上存在着误解,他们认为使用了代理IP就能解决一切问题,然而实际上代理IP不是万能的,它只是一个工具,如果使用不当,一样会被封IP。 首先我们要知道,代理IP分三种类型:透明代理、普通匿名代理、高匿名代理。 使用透明代理和普通匿名 ...
小taomi_77 评论(0) 有385人浏览 2019-11-20 17:40

饿了么交付中心语言栈转型总结

> 前言:  > 本文介绍了饿了么交付中心由python语言栈转换到java语言栈大致过程,一来是对前段时间的工作做下总结,另外也是想通过此次总结为其 ...
大涛学长 评论(0) 有343人浏览 2019-11-19 15:37

趣头条基于 Flink 的实时平台建设实践

本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君。文章将从平台的架构、Flink 现状,Flink 应用以及未来计划四部分分享。 一.平台架构 ------ ### 1.Flink 应用时间线 ![1](https://yqfile.alicdn.com/a8f5abf2ed981e744554d6759e2eff4abb904541.jpeg) 首先是平台的架构,20 ...
大涛学长 评论(0) 有382人浏览 2019-11-15 15:15

496 Next Greater Element I

You are given two arrays (without duplicates) nums1 and nums2 where nums1’s elements are subset of nums2. Find all the next greater numbers for nums1's elements in the corresponding places of nums2. T ...
KickCode 评论(0) 有274人浏览 2019-11-14 13:50

通过爬虫代理IP快速增加博客阅读量——亲测有效

首先题目所说的并不是目的,本文主要是为了更详细的了解网站的反爬机制。而真的想要更高的阅读量还是需要有真正优质的才可以达到的。 1. 通过Heade ...
小taomi_77 评论(0) 有328人浏览 2019-11-13 17:50

今日头条在消息服务平台和容灾体系建设方面的实践与思考

本篇文章整理自今日头条的沈辉在 RocketMQ 开发者沙龙中的演讲,主要和大家分享一下,RocketMQ 在微服务架构下的实践和容灾体系建设。沈辉是今日头条的架构师,主要负责 RocketMQ 在头条的落地以及架构设计,参与消息系统的时间大概一年左右。 以下是本次分享的议题: *   头条的业务背景 *   为什么选择 RocketMQ *   RocketMQ 在头条的落地实践 *   头条 ...
大涛学长 评论(0) 有346人浏览 2019-11-12 15:34

python之__new__与__init__方法的区别

先上例子: class User: def __new__(cls, *args, **kwargs): print("new") def __init__(self,name): self.name=name print("init") user=User() 打印 ...
lucizhang 评论(0) 有489人浏览 2019-11-07 16:29

Python之生成器

generator:生成器     generator中保存的是算法,在调用时才计算。     1、列表生成式转 generator     L = [x*x for x in range(10)]  ###列表     g = (x*x for x in range(10))  ###generator       通过next(g)一个一个打印元素:>>>next(g)   ...
lucizhang 评论(0) 有283人浏览 2019-11-06 19:13

如何有效降低大数据平台安全风险

**企业大数据上云的安全顾虑**  企业大数据在上云过程中,通常会有这样一些安全顾虑:“数据从企业内部迁移到云上后,数据有没有可能会被丢掉? ”,“数据在云上存储时,数据是否可能被篡改?”, “数据在云上使用的时候,数据是否有可能被泄露出去? ”。这三类问题非常具有代表性,它们刚好涵盖了信息安全的三个基本要素,即: 信息的可用性、信息的完整性以及信息的保密性。应当说,这三类问题并不是因为大数据上云 ...
大涛学长 评论(0) 有349人浏览 2019-11-06 15:21

python实现字符串反转的多种方法

1、利用索引 s = 'hello' print(s[::-1]) 结果:'olleh' b = a[i:j:s]说明: i为起始索引(缺省为0), j为结束索引(不包括,缺省为len(a)), s为步进(缺省为1). 所以a[i:j:1]相当于a[i:j]. 当s<0时: i缺省时,默认为-1, j缺省时,默认为-len(a)-1, 所以a[::-1]相当于 a[-1:-len ...
lucizhang 评论(0) 有342人浏览 2019-11-05 22:17

Python爬虫常用小技巧之设置代理IP

设置代理IP的原因 我们在使用Python爬虫爬取一个网站时,通常会频繁访问该网站。假如一个网站它会检测某一段时间某个IP的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,这样便不会出现因为频繁访问而导致禁止访问的现象。 我们在学习Python爬虫的时候,也经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页 ...
小taomi_77 评论(0) 有309人浏览 2019-11-05 17:45

tesseract-ocr 字库下载地址

https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
zhangfeilo 评论(0) 有306人浏览 2019-10-24 10:56

爬虫可以采集哪些数据?爬虫借用什么代理可以提高效率

学习爬虫的门槛非常低,特别是通过Python学习爬虫,即使是网上也能找到许多学习爬虫的方法,而且爬虫在数据采集方面效果比较好,比如可以采集几万 ...
小taomi_77 评论(0) 有395人浏览 2019-10-14 17:47

应用上云新模式,Aliware 全家桶亮相杭州云栖大会

全面上云带来的变化,不仅是上云企业数量上的攀升,也是企业对云的使用方式的转变,越来越多的企业用户不仅将云作为一种弹性资源,更是开始在云 ...
大涛学长 评论(0) 有428人浏览 2019-10-12 14:58

python9 测试代码

####测试代码### #模块unittest (python标准库中) 单元测试 #测试函数 import unittest from name_function import user_name """导入模块unittext和待测函数""" class nameTestCase(unittest.TestCase): #这个类必须继 ...
陈三许 评论(0) 有618人浏览 2019-10-11 22:20

最近博客热门TAG

Java(141746) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) .net(54785) 编程(39454) JSP(37542) 数据结构(36423) Eclipse(31254) PHP(29989) F#(26079) 算法(24867) 脚本(19840) J#(18922) JDBC(17888) ASP(17480) JDK(14881) JVM(14450)

博客电子书下载排行

    >>浏览更多下载

    相关资讯

    相关讨论

    Global site tag (gtag.js) - Google Analytics