爬取一个https 的网站 - 风动 - ITeye博客

`

lykm02

浏览: 51409 次
性别:
来自: 上海

最近访客更多访客>>

mysql_dba

香菇油菜

依然任逍遥

小无敌H

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

di1984HIT： 5楼牛人啊~~~
JDK 与 OpenJDK
zhangzj109： wget --no-check-certificate --n ...
JDK 与 OpenJDK
jsjxqjy：有人说, openJDK里面是如何测试一个代码的正确性,才来关 ...
JDK 与 OpenJDK
fbt045：说的好，openJDK版本6问题老多
JDK 与 OpenJDK
sczhui：说得好，楼猪
JDK 与 OpenJDK

爬取一个https 的网站

博客分类：

杂谈

selenium https juniper

阅读更多

朋友让帮忙爬取一个https的网站，帐号密码都有。
自个去看了下，乍看之下，似乎很简单。
但是该网站的的安全性，我觉得挺高的。有效的减少了程序爬取成功的骚扰性。

网站使用 https协议，并使用juniper client来维持session。
也就是说在你登录后的第一步，他要求client端启动一个 juniper client 和server同步，并以一小时为时间段。
这样的话，他就可以有效的监控当前用户有多少个session在访问。

于是很悲催的事情，就是这种事情了。
测试过程中，经常因为各种异常来不及推出，于是原来的session就会一直在，直到我下次登录或者logout。

当然，这些都不是重点。

于是，使用了 selenium 来操纵 firefox。于是启动了custom firefox。进行了一系列的操作。
真心好用。

打完收工。

分享到：

Hibernate id generator | 恶心的javascript bug

2012-07-29 12:12
浏览 3138
评论(0)
分类:Web前端
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

jsoup实现爬取一个完整的网站，并保存到本地: 用jsoup实现爬取一个完整的网站，包含网站里的所有链接内容，会另存为html到本地，js和css文件也会保存到本地，可以直接在本地打开查看一个完整的网站。 eclipse项目，可以直接导入修改。提供一个链接和保存爬取后...

爬取招行外汇网站数据.pdf: 总结来说，本项目是一个典型的网络数据爬取应用，它涵盖了网络爬虫设计、HTML解析、数据提取、数据存储等重要知识点。通过本项目的实施，不仅可以学习到如何使用Python进行网络数据的爬取和处理，还能加深对现代Web...

Scrapy爬虫，爬取两个网页: Scrapy是一个快速的、高层次的web爬虫框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy使用了Python语言，并且构建在一些强大的库之上，如twisted用于异步网络操作，lxml用于解析HTML和XML文档。以下是...

精选_python爬虫--爬取网站中的多个网页_源码打包: 在"7k7k_urls"这个文件中，可能包含了一个或多个URL，代表了要爬取的7k7k游戏网站的多个网页。通过读取这些URL并应用上述爬虫流程，可以获取网站上的信息，比如游戏列表、用户评论等。开发爬虫时，需要注意以下几...

爬取一个网站的所有页面: 爬取一个网站的所有页面，并将每个页面的标题、URL和正文内容保存到MongoDB数据库. 这个爬虫示例使用了requests库和BeautifulSoup库来爬取指定网站的所有页面，并使用pymongo库将每个页面的标题、URL和正文内容保存...

爬取51job网站招聘信息: 这是一个爬取51job招聘网站的代码，可以输入关键字爬取想要的各个职业的招聘信息，根据页码爬取制定页数的信息，可以选择存储到TXT，mongodb或者mysql中，代码简单易懂，可阅读性高

很好用的网站前端页面爬取工具: 2. 遵守robots.txt：每个网站都有一个robots.txt文件，它告诉爬虫哪些页面可以抓取，哪些应避免。遵循这个文件可以避免被目标网站封禁。 3. 控制爬取速度：频繁或快速的爬取可能会对目标服务器造成压力，因此需要...

Python-一个爬取实习僧网站信息的爬虫: 在本项目中，"Python-一个爬取实习僧网站信息的爬虫" 是一个使用Python编程语言实现的数据抓取程序，旨在从实习僧网站获取相关信息。实习僧网站是一个专门提供实习机会信息的平台，对于寻找实习的学生或者求职者来说...

菜谱网站爬取_菜谱网站爬取_differentofl_菜谱_: 本项目名为"菜谱网站爬取_differentofl_菜谱"，旨在自动爬取菜谱网站的前N页内容，包括菜名、原料和做法等信息，为初学者提供一个实践学习的平台。首先，我们要理解爬虫的基本工作原理。网络爬虫，又称为网页蜘蛛...

python实战（爬取一个小说网站，将爬取的文本转换为语音）: - 在爬虫程序中，可以设计一个循环，每次爬取一章内容，然后调用TTS模块将其转换为语音。 - 可以使用多线程或异步IO提高效率，同时处理多个章节的转换。 - 最后，可以创建一个播放器或者提供下载链接让用户听取或...

爬取全国空气质量监测网代码.py: 爬取一个网页可获得数据，但是连续的获取网页，会出现两个错误。 1.Message: ReferenceError: items is not defined 2.connection refused 解决方法： 1.connection refused问题,可能是网页开太多，使用driver.quit...

scrapy实例爬取网站: 在这个实例中，我们将探讨如何使用Scrapy来爬取一个网站，并将抓取的数据保存为CSV格式的表格。首先，让我们了解Scrapy的基本架构。Scrapy由多个组件组成，包括Spider、Item、Item Pipeline、Request/Response、...

各大网站新闻数据爬取.rar: 总结起来，"各大网站新闻数据爬取.rar"是一个宝贵的教育资源，涵盖了Python爬虫的基本要素，包括爬虫框架的使用、HTML解析、数据存储以及应对网站反爬策略的方法。无论是初学者还是有经验的开发者，都能从中获益，...

python爬虫开发代码-电影网站信息爬取案例: 最后，"电影"可能是一个包含所有爬取到的电影信息的文件或数据库记录。在实际应用中，我们通常会将爬取到的数据保存到本地文件（如CSV或JSON），或者存入数据库如MySQL或MongoDB，以便后续的数据分析和应用。总的...

基本爬虫实战-爬取一个基本的静态网站为例子: 利用requests爬取这个站点每一页的电影列表，顺着列表再爬取每个电影的详情页；利用正则表达式提取每部电影的名称、封面、类别、上映时间、评分、剧情简介等内容把以上爬取的内容保存为JSON文本文件；使用多进程...

知乎爬虫(知乎网站爬取工具,爬取知乎网页内容): 例如，从一个问题的页面出发，可以爬取问题的描述、回答、评论，以及回答者的个人信息。 “知乎爬虫”这一标签表明这是一个专门针对知乎设计的爬虫，它可能有特定的适配和优化，以应对知乎网站特有的数据结构和反爬...

python爬取成语网站: 使用requests，lxml，xpath，bs4，selenium，scarpy中任意库写一个爬取成语网站的代码要求：爬取成语名称，成语解释，成语出处，写入CSV文件中，无需遍历，爬取10页即可，地址：...

爬取美女网站图片.py: 初学者的简单爬取.一个简单的小代码

网站爬取工具，可爬网站静态的HTML: 具体到"Teleport Pro Installer.exe"这个文件，它可能是一个网站爬取工具的安装程序。Teleport Pro是一款早期的网页下载工具，能够完整地下载网站的静态HTML页面，包括图片、样式表和脚本等资源，便于离线浏览或存档...

根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页: 10. **爬虫项目的组织**：一个完整的Scrapy项目通常包括spiders、items、pipelines、settings等文件，每个部分都有其特定功能，共同协作完成爬取任务。 11. **数据存储**：爬取到的数据可以存储为CSV、JSON文件，...

Global site tag (gtag.js) - Google Analytics