`
老汉学编程
  • 浏览: 31614 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

selenium驱动firefox抓取网页数据,在firefox内存优化和速度优化方面的努力

阅读更多

使用默认frofile,启动firefox  内存600M,几个小时之后彪到一个G。

禁用掉图片,缓存  启动内存200M左右,但是几个小时之后内存彪到600M左右.

 

目前查到的优化项,正在努力中&尝试中......,

各种尝试如果都不行,目前想到的终极解决方案:爬取一定量的页面之后关闭当前线程对应的firefox窗口,开启新窗口!

profile.setPreference("permissions.default.image", 2);
//禁用浏览器缓存
profile.setPreference("network.http.use-cache", false);
profile.setPreference("browser.cache.memory.enable", false);
profile.setPreference("browser.cache.disk.enable", false);
profile.setPreference("browser.sessionhistory.max_total_viewers", 3);
profile.setPreference("network.dns.disableIPv6", true);
profile.setPreference("Content.notify.interval", 750000);
profile.setPreference("content.notify.backoffcount", 3);
                   
//有的网站支持   有的不支持
profile.setPreference("network.http.pipelining", true);
profile.setPreference("network.http.proxy.pipelining", true);
profile.setPreference("network.http.pipelining.maxrequests", 32);

分享到:
评论

相关推荐

    PYTHON下selenium安装包已经Firefox驱动

    它允许开发者用编程方式控制浏览器,执行点击、填写表单、导航等操作,广泛应用在网站自动化测试、数据抓取和模拟用户行为等领域。Selenium支持多种浏览器,包括Chrome、Firefox、IE等,而这里特别提到了Firefox驱动...

    Python+Selenium+Firefoxdriver爬虫 用到的火狐浏览器安装包和对应版本的geckodriver驱动下载

    在本文中,我们将深入探讨如何结合Python、Selenium以及Firefox浏览器的驱动程序geckodriver来构建一个爬虫。首先,我们需要了解这三个组件的作用。 1. Python:作为一门流行的编程语言,Python以其简洁的语法和...

    python模拟firefox浏览器抓取数据

    为了实现用Python模拟Firefox浏览器抓取网页数据的功能,我们需要准备并安装一些必要的工具和库。 ##### 1.1 安装 Selenium Selenium 是一个强大的用于Web应用程序测试的工具,它支持多种编程语言(如 Python),...

    Selenium×Firefox自动化爬虫模板.zip

    而与Firefox的结合,意味着我们可以通过Selenium驱动Firefox浏览器来抓取网页数据。 【描述】"爬虫"一词表明这个压缩包的内容是关于网络爬虫技术的,爬虫是一种自动遍历互联网并抓取网页信息的程序。在Python中,...

    FireFoxDriver-WebDriver

    Selenium 3.3.1与Firefox的兼容性优化,使得开发者可以更流畅地进行Web自动化测试。 **2. Firefox V47** Firefox V47是Mozilla Firefox浏览器的一个老版本,发布于2017年。在这个版本中,Firefox继续支持传统的XUL...

    谷歌和火狐浏览器驱动.zip

    本文将深入探讨谷歌浏览器(Chrome)和火狐浏览器(Firefox)所使用的驱动程序,以及它们在实际应用中的重要性。 首先,让我们了解什么是浏览器驱动。浏览器驱动,也称为WebDriver,是一种接口,允许编程语言与...

    C#操作Selenium自动化测试,采集数据实例源码。

    在提供的压缩包`SeleniumDemo`中,你将找到完整的C#源码示例,这些示例可能包含如何定位网页元素、执行点击操作、处理页面跳转、填充表单和收集数据等内容。代码中应有详细的注释,帮助你理解每个步骤的作用。 总之...

    (源码)基于Selenium和Scrapy的动态网页爬虫系统.zip

    Selenium用于处理JavaScript动态加载的页面,Scrapy则负责高效抓取静态和动态网页数据。通过两者的结合,本项目能够灵活应对各种复杂的网页抓取需求。 ## 主要特性和功能 动态网页处理利用Selenium模拟浏览器操作...

    Selenium模拟浏览器万能爬虫指南.pdf

    虽然它在速度上无法与传统爬虫相媲美,但在复杂网页交互和动态内容抓取方面,Selenium所具有的优势让它成为了不可或缺的工具。在学习和使用Selenium时,开发者需要重点关注其安装配置、页面元素定位和框架搭建等方面...

    浏览器驱动(Google 、Firefox).rar

    浏览器驱动在IT行业中扮演着至关重要的角色,尤其是对于自动化测试和网页抓取等任务。这里主要涉及的是Google Chrome和Firefox的浏览器驱动,分别是ChromeDriver和GeckoDriver。 首先,我们来了解一下什么是浏览器...

    delphi网页数据提取工具

    接着,我们来探讨多线程技术在数据提取中的应用。在处理大量网页时,单线程的处理速度往往无法满足需求。通过使用TThread或其他多线程组件,我们可以并发地处理多个网页,显著提升效率。每个线程负责一个或一组网页...

    【脚本】基于selenium批量查询&统计号码归属地

    在IT领域,自动化测试和网页数据抓取是重要的工作之一,尤其在大数据分析和市场研究中。本项目涉及的知识点集中在Python编程、Selenium库、WebDrive接口以及数据处理上。接下来,我们将深入探讨这些核心概念。 首先...

    Python36_selenium_driver驱动包

    这个驱动包适用于Chrome浏览器的第70版本和Firefox浏览器的第63版本。Selenium WebDriver是一个强大的开源库,它允许程序员通过编程方式控制Web浏览器,进行网页元素的定位、点击、输入等操作,极大地提升了Web测试...

    浏览器驱动,包含chrome,火狐等.zip

    总的来说,Chrome和Firefox等浏览器驱动为自动化测试和网页爬虫提供了强大的工具,它们使得开发者能够更方便地操控浏览器,提高了工作效率,同时在测试和数据抓取方面具有广泛的应用价值。正确理解和使用这些驱动,...

    python selenium 离线包等安装环境全套可用文件.zip

    Python Selenium 是一个强大的自动化测试工具,它允许程序员模拟用户与网页进行交互,广泛应用于Web应用的自动化测试和网页抓取。在离线环境中安装Python Selenium,通常需要包括Python解释器、Selenium库、对应的...

    selenium webdriver爬取动态网页

    在IT行业中,网络爬虫是数据获取的重要工具,尤其对于动态网页的抓取,传统的HTTP请求方式往往无法获取完整信息。本主题将深入探讨如何利用Selenium WebDriver这一强大的工具来爬取动态网页,并结合提供的"ieee_...

    selenium的dll文件与phantomjs.

    在数据抓取领域,Selenium和PhantomJS的组合提供了一种强大且灵活的工具,能够应对复杂的网页结构和动态加载的内容。通过熟练掌握这两个工具,开发者可以高效地自动化网页交互和数据提取任务,极大地提高工作效率。...

    学习Python selenium自动化网页抓取器

    Selenium支持各种浏览器如Chrome、Firefox等,同时还支持多种编程语言,如Java、C#、Python等。本文主要关注的是使用Python语言进行Selenium操作。 ##### 2.2 安装Selenium 在Python环境中安装Selenium非常简单,只...

    geckodriver-v0.29.1-win32.zip

    在Python编程中,Selenium是一个强大的自动化测试工具,也被广泛用于网页数据抓取。它模拟用户行为,例如点击按钮、填写表单和导航网页。Selenium支持多种浏览器,其中包括Firefox。然而,为了使Selenium能够控制...

    基于python selenium实现B站直播弹幕和礼物信息爬虫源码+项目操作说明.zip

    (2)下载浏览器驱动(驱动与浏览器版本一定要对应)(浏览器推荐使用Firefox和Chrome):参考 [爬虫利器selenium和浏览器驱动安装教程](https://blog.csdn.net/qq_44032277/article/details/105793873) (3)修改...

Global site tag (gtag.js) - Google Analytics