`
iluoxuan
  • 浏览: 580000 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

特定网站爬虫---原理篇

 
阅读更多

1:http://www.shuoshuo520.com/

的小说网站爬虫,又定向简单到智能爬取数据的学习路径。

 

1:爬虫原理。

 

就是对url连接的搜索:

 

具体使用广度优先搜索:

 


 

访问的路径是  A - B C D E F -H G - I

 

使用队列保存 ,就是 A 先入队  出对 ,在B C D E F 入队 ,在B C D E出对  H入队 F出对 G入队 H出对 I入队

 

目前的方法:

 

一个 PaserUrlUtil类 解析 和处理 url和html 主要用HttpClient和Jsoup

 

一个是队列类LinkedQueue,保存已经访问的url和添加新的 url实体,处理url的去重操作

 

一个Crawler主程序类,宽度搜索url,知道没有可处理的为止,目标网站 深度是6层也结束。

 

想队列中添加新的urlhttp://www.shuoshuo520.com/book9/
想队列中添加新的urlhttp://www.shuoshuo520.com/book10/
想队列中添加新的urlhttp://www.shuoshuo520.com/modules/article/index.php?fullflag=1
已经访问的url--http://www.shuoshuo520.com/book1/
正在处理的url实体--deptValue--1--url--http://www.shuoshuo520.com/book1/
bookUrls-处理进入 deptvalue-==1-
bookUrls--http://www.shuoshuo520.com/Book1/2.html
bookUrls--http://www.shuoshuo520.com/Book1/3.html
bookUrls--http://www.shuoshuo520.com/Book1/4.html
bookUrls--http://www.shuoshuo520.com/Book1/5.html
bookUrls--http://www.shuoshuo520.com/Book1/6.html
bookUrls--http://www.shuoshuo520.com/Book1/7.html
bookUrls--http://www.shuoshuo520.com/Book1/8.html
 

 

 

  • 大小: 15.8 KB
分享到:
评论

相关推荐

    Python爬虫-简单例子介绍-参考价值不大,需要的下.docx

    这篇文档主要介绍了如何使用Python进行简单的网络爬虫操作,适合初学者进行学习。文档通过一个实际的例子展示了如何抓取新浪新闻的部分数据,并将其存储到Excel表格中。以下是文档中的主要知识点: 1. **Python基础...

    网络爬虫原理与实战

    在《网络爬虫原理与实战》这篇文章中,作者详细介绍了网络爬虫的基本概念、工作原理以及如何利用Java进行实战操作。 #### 一、网络爬虫基本原理 网络爬虫的基本原理主要包括以下几个步骤: 1. **请求资源**:向...

    c#最好的网络爬虫下载---mtkos.com

    首先,我们要了解网络爬虫的基本工作原理。通常,它包括以下几个步骤:发送HTTP请求获取网页,解析HTML或其他格式的文档,提取所需信息,以及可能的存储和处理这些信息。C#中的`System.Net`和`System.IO`命名空间...

    python爬虫 - js逆向解密之简单端口加密破解v2 -- 修复版.pdf

    在Python爬虫领域,我们经常会遇到JavaScript加密的网站,这些网站为了防止被爬取,会将关键信息(如代理服务器的IP和端口)通过加密的方式隐藏在网页源码中。这篇文档主要讨论的是如何对这类JavaScript加密进行逆向...

    python爬虫模拟浏览器访问-User-Agent过程解析

    在介绍python爬虫模拟浏览器访问-User-Agent过程解析之前,需要了解几个基本概念。...通过这篇文章的学习,我们可以更加深入地理解Python爬虫的工作原理和实现方法,提升自身的编程技能和解决实际问题的能力。

    Python-python爬虫由浅入深

    12. 爬虫项目实践:通过实际案例,如爬取新闻网站、社交媒体、电商网站等,锻炼爬虫设计和实现能力,包括数据抓取、清洗、分析全过程。 13. 数据分析与可视化:使用Pandas、Matplotlib、Seaborn等库对爬取的数据进行...

    CSDN爬虫(一)——爬虫入门+数据总览

    5. **CSDN特定策略**:针对CSDN的网站特点,可能需要定制特定的爬虫策略,如登录、模拟点击等。 总的来说,这篇文章和其附带的代码示例为初学者提供了一个很好的起点,让他们能够快速掌握webMagic框架,并应用到...

    python版网络爬虫

    它提供了所有必要的工具和服务,以便用户能够构建自定义的爬虫程序来抓取特定的网站。 - **主要特点**: - **灵活性**:支持多种类型的爬虫。 - **可扩展性**:通过中间件和扩展提供强大的定制功能。 - **性能...

    大数据时代的反爬虫技术_陈利婷

    综上所述,这篇文章可能全面地介绍了大数据时代下反爬虫技术的原理、方法和应用,为网站如何在面对大量数据抓取需求的同时,保护自身资源与用户隐私提供了参考。同时,本文也强调了在大数据环境下,反爬虫技术的创新...

    爬虫项目ge-processin开发笔记

    在本篇“爬虫项目ge-processin开发笔记”中,我们将深入探讨如何构建一个高效的网络爬虫,并专注于处理和分析获取的数据。这个项目的核心是利用Python编程语言进行数据抓取和处理,结合图像处理技术,可能涉及到数字...

    python 零基础学习篇正式课-07.数据爬虫企业实战.zip

    爬虫的核心在于获取网页数据,这需要理解网络请求的工作原理。HTTP(超文本传输协议)是互联网上应用最为广泛的一种网络协议,爬虫通过发送HTTP请求(GET、POST等)来获取网页内容。了解HTTP头、状态码、请求方法等...

    python零基础学习篇数据爬虫技巧-6第六章 浏览器测试框架:Selenium.zip

    Selenium的工作原理是通过WebDriver接口与浏览器进行通信。WebDriver是一个开放标准,允许编程语言与浏览器进行交互。在Python中,我们需要安装`selenium`库,并下载对应的浏览器驱动(如ChromeDriver),然后通过...

    网络爬虫设计与实现毕业设计论文.pdf

    6. 网络爬虫的研究和实现:文档强调了对网络爬虫原理的研究以及相关功能实现的重要性。研究网络爬虫的原理可以帮助我们更好地理解爬虫的工作机制,包括如何选择合适的种子URL、如何遵循链接、如何存储和处理爬取的...

    爬虫设计文档 关于网络爬虫设计的文档

    本篇文章将探讨网络爬虫设计的一些核心概念和策略,包括URL标准化、防止陷入网络陷阱、遵循漫游拒绝访问规则,以及两种常见的爬虫搜索策略——宽度优先搜索和线性搜索。 首先,URL地址的标准化是爬虫设计的基础,...

    网络爬虫技术探究-本科毕设论文.doc

    网络爬虫,又称网络蜘蛛或网络机器人,是自动化地抓取互联网信息的一种程序,对于搜索引擎的信息采集至关重要,同时也可作为定向信息采集工具,用于获取特定网站下的特定信息,例如招聘信息、房屋租赁信息以及网络...

    网络爬虫基础 个人学习笔记

    这篇个人学习笔记主要涵盖了数据的采集、存储以及Scrapy爬虫框架三个核心部分。 **一、数据的采集** 1. **HTTP协议**:网络爬虫的基础是HTTP协议,理解请求和响应的工作原理至关重要。GET和POST是最常见的两种请求...

    python爬虫教程从理论到实战

    - 聚焦爬虫:专注于特定领域或主题,如特定网站的商品价格。 - 增量爬虫:跟踪网站更新,仅抓取新内容。 - 分布式爬虫:利用多台计算机并行工作,提升效率和稳定性。 - **爬虫技术实现**: - 发送HTTP请求:...

Global site tag (gtag.js) - Google Analytics