`
悲剧了
  • 浏览: 144263 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

采集数据小总结

 
阅读更多
通过http下载对方网页文本,然后匹配相关标签,提取出需要数据,以指定格式存放,然后再对应自己数据库的规则放入其中



采集过程遇到的问题

1.十分钟内访问数据页面,需要输入验证码

2.每天ip限定访问五十个以内,用完则明天再来


刚开始的解决办法:去抓取网上提供的代理ip 端口,然后代理访问

问题:
代理ip好多不能用,需要代理ip个数较多,然后还要根据采集网站的规则设置,比如十分钟内每个代理访问规则数量-1,之后再次访问.


吃完饭后的解决办法:代理软件,goagent可以试试,用的是谷歌的ip,但居然是动态的,但是几秒一动态,具体不知道
问题:
那么就用这个代理连续采集,能进行,但是大概采集3000个成功500个,采集完成后多采集几次就ok了,然后把重复数据一合并,基本就ok了



快下班时的解决办法:
百度 搜搜什么的网页快照,这么bug的方式居然没想到,用站长工具一搜索,居然这么多的收录,然后直接根据规则深度采集


采集与防采集都是很多网站必备的,但是这玩意不好弄,大家有什么更好的采集方式,防采集方式,转头石头什么的,果断砸过来
分享到:
评论

相关推荐

    labview数据采集之触发采集.docx

    一般性触发采集是最基本的触发采集形式,它通常是在接收到特定信号后开始采集数据,并通过循环控制结构(如While Loop)来设置采集的时间长度。这种方式适用于大多数情况下的数据采集需求,但可能无法满足某些特殊...

    myDataCollect.zip_c# 串口 曲线_串口 CSharp_采集 CSharp_采集 实时 数据_采集曲线

    总结,C#串口数据采集与实时曲线显示是结合硬件通信和图形化界面的关键技术。通过SerialPort类处理串口通信,DataReceived事件监听数据,OxyPlot库绘制曲线,以及File类进行数据存储,我们可以构建出高效、实时的...

    C#采集网页数据小工具

    总结来说,创建"C#采集网页数据小工具"涉及以下关键技术点: 1. 使用HtmlAgilityPack库解析和处理HTML。 2. 应用XPath查询来定位和提取所需数据。 3. 设计用户界面,允许用户输入XPath表达式。 4. 存储和操作采集到...

    数据采集汇聚+数据治理+数据分析+数据可视化工具

    数据建模平台是一种集成化的解决方案,它涵盖了数据采集、数据治理、数据分析以及数据可视化等多个关键环节,旨在提高数据管理效率,提升数据资产的价值,并帮助企业或组织实现数据驱动的商业决策。该平台尤其针对...

    数据采集实验报告归纳.pdf

    数据采集(DAQ)是指从系统外部采集数据并进行转换后传输到系统内部的过程,能够提供这一功能的完整系统被称为数据采集系统(Data Acquisition System)。数据采集系统包括数据采集卡、计算机和信号发生器等组件。 ...

    移动通信网络中数据采集与数据挖掘的应用.pdf

    移动通信网络中数据采集技术的应用 移动通信网络技术的快速发展,对于数据采集技术提出了更高的要求。数据采集技术是移动通信网络中的关键技术之一,它负责从各种设备和网络单元中收集相关数据,为网络优化、性能...

    labview连续数据采集

    2. 数据采集:按照设定的参数开始实时采集数据,数据通常会被存放在内存中的缓冲区。 3. 数据处理:对采集到的数据进行必要的计算、滤波、转换等操作。 4. 文件存储:将处理后的数据写入TXT文件。TXT文件是一种通用...

    微机数据采集系统设计

    2. 设计要求:系统需具备单通道数据采集与显示功能,以及多通道循环采集数据并显示的能力。 3. 课程设计思路:设计A/D数据采集电路,使用MFID多功能微机实验平台板上的8255A接口,通过软硬件结合,实现数据采集与...

    国内外数据采集系统的综述

    当前,国内对于数据采集系统的引入和研发正处于快速发展阶段,本文旨在通过分析国内外的研究资料,总结数据采集系统的发展历程、现状及未来趋势,并提出相关建议。 #### 二、数据采集系统的历史与现状 ##### 1. ...

    数据采集与处理技术试卷要点.pdf

    速度则是指系统采集数据的能力,通常以每秒采集多少样本数来衡量。 **4. 数据采集系统功能** 数据采集系统具备以下功能: - **数据采集**:获取原始数据。 - **信号调理**:对原始信号进行放大、滤波等处理。 - *...

    JAVA串口采集传感器数据

    采集数据代码 serialPort.close(); ``` 5. **读写数据**:使用`InputStream`和`OutputStream`进行串口数据的读取和写入。 ```java InputStream in = serialPort.getInputStream(); OutputStream out = ...

    饿了么商户数据采集爬虫.zip

    总结起来,"饿了么商户数据采集爬虫"是一个利用Python爬虫技术从饿了么平台获取商户数据的项目,涉及到数据采集工具的运用、数据集的生成以及数据的潜在应用。在实际操作中,我们需要关注合法性和伦理问题,同时充分...

    一种基于QT的数据采集平台数据的展示方法及装置.pdf

    数据采集平台是指能够从各种数据源中采集数据的系统,例如感知器、传感器、数据库等。数据采集平台的主要功能是将采集到的数据进行处理、存储和分析,以便于后续的数据挖掘和分析。 三、数据展示方法 数据展示方法...

    采集数据.exe

    总结来说,"采集数据.exe"代表了一种自动化数据采集的工具,而"Debug"子文件则强调了在数据采集过程中调试和优化的重要性。随着大数据时代的到来,掌握高效、合规的数据采集技术,对于个人和组织的发展具有深远影响...

    数据采集处理项目技术方案.doc

    总结,本技术方案详尽规划了一个数据采集处理项目的实施路径,从引言到具体的技术实现,全面覆盖了项目的目标、原则、规范以及关键技术。通过实施该项目,投资商和企业可以充分利用数据资源,提升业务决策的科学性和...

    QQ综合数据采集

    总结,QQ综合数据采集是一种有效的数据获取方式,但需谨慎操作,确保合法性与合规性。通过合适的工具和技术,可以获取有价值的市场信息,从而支持决策制定和业务发展。在使用过程中,不断学习和了解最新的法律法规,...

    基于oracle的增量数据采集实现总结

    本篇文章将聚焦于"基于Oracle的增量数据采集实现总结"这一主题,结合标签"源码"和"工具",探讨如何通过编程方式实现实时或定时获取Oracle数据库中的新增或更新数据。 增量数据采集是一种有效的方法,它只捕获自上次...

Global site tag (gtag.js) - Google Analytics