`
iluoxuan
  • 浏览: 575058 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

特定网站爬虫---原理篇

 
阅读更多

1:http://www.shuoshuo520.com/

的小说网站爬虫,又定向简单到智能爬取数据的学习路径。

 

1:爬虫原理。

 

就是对url连接的搜索:

 

具体使用广度优先搜索:

 


 

访问的路径是  A - B C D E F -H G - I

 

使用队列保存 ,就是 A 先入队  出对 ,在B C D E F 入队 ,在B C D E出对  H入队 F出对 G入队 H出对 I入队

 

目前的方法:

 

一个 PaserUrlUtil类 解析 和处理 url和html 主要用HttpClient和Jsoup

 

一个是队列类LinkedQueue,保存已经访问的url和添加新的 url实体,处理url的去重操作

 

一个Crawler主程序类,宽度搜索url,知道没有可处理的为止,目标网站 深度是6层也结束。

 

想队列中添加新的urlhttp://www.shuoshuo520.com/book9/
想队列中添加新的urlhttp://www.shuoshuo520.com/book10/
想队列中添加新的urlhttp://www.shuoshuo520.com/modules/article/index.php?fullflag=1
已经访问的url--http://www.shuoshuo520.com/book1/
正在处理的url实体--deptValue--1--url--http://www.shuoshuo520.com/book1/
bookUrls-处理进入 deptvalue-==1-
bookUrls--http://www.shuoshuo520.com/Book1/2.html
bookUrls--http://www.shuoshuo520.com/Book1/3.html
bookUrls--http://www.shuoshuo520.com/Book1/4.html
bookUrls--http://www.shuoshuo520.com/Book1/5.html
bookUrls--http://www.shuoshuo520.com/Book1/6.html
bookUrls--http://www.shuoshuo520.com/Book1/7.html
bookUrls--http://www.shuoshuo520.com/Book1/8.html
 

 

 

  • 大小: 15.8 KB
分享到:
评论

相关推荐

    c#最好的网络爬虫下载---mtkos.com

    首先,我们要了解网络爬虫的基本工作原理。通常,它包括以下几个步骤:发送HTTP请求获取网页,解析HTML或其他格式的文档,提取所需信息,以及可能的存储和处理这些信息。C#中的`System.Net`和`System.IO`命名空间...

    python爬虫 - js逆向解密之简单端口加密破解v2 -- 修复版.pdf

    在Python爬虫领域,我们经常会遇到JavaScript加密的网站,这些网站为了防止被爬取,会将关键信息(如代理服务器的IP和端口)通过加密的方式隐藏在网页源码中。这篇文档主要讨论的是如何对这类JavaScript加密进行逆向...

    基于web爬虫基本原理的新技术专题课程论文

    本篇论文旨在深入探讨基于Web爬虫的基本原理及其新技术,以期为广工学子提供一个全面的学习平台,同时也可供其他有需求的学者参考。 1.1 引言 随着互联网的快速发展,网络信息的多样性和复杂性使得传统的信息检索...

    Python-python爬虫由浅入深

    12. 爬虫项目实践:通过实际案例,如爬取新闻网站、社交媒体、电商网站等,锻炼爬虫设计和实现能力,包括数据抓取、清洗、分析全过程。 13. 数据分析与可视化:使用Pandas、Matplotlib、Seaborn等库对爬取的数据进行...

    爬虫项目ge-processin开发笔记

    在本篇“爬虫项目ge-processin开发笔记”中,我们将深入探讨如何构建一个高效的网络爬虫,并专注于处理和分析获取的数据。这个项目的核心是利用Python编程语言进行数据抓取和处理,结合图像处理技术,可能涉及到数字...

    CSDN爬虫(一)——爬虫入门+数据总览

    5. **CSDN特定策略**:针对CSDN的网站特点,可能需要定制特定的爬虫策略,如登录、模拟点击等。 总的来说,这篇文章和其附带的代码示例为初学者提供了一个很好的起点,让他们能够快速掌握webMagic框架,并应用到...

    python 零基础学习篇正式课-07.数据爬虫企业实战.zip

    爬虫的核心在于获取网页数据,这需要理解网络请求的工作原理。HTTP(超文本传输协议)是互联网上应用最为广泛的一种网络协议,爬虫通过发送HTTP请求(GET、POST等)来获取网页内容。了解HTTP头、状态码、请求方法等...

    python零基础学习篇数据爬虫技巧-6第六章 浏览器测试框架:Selenium.zip

    Selenium的工作原理是通过WebDriver接口与浏览器进行通信。WebDriver是一个开放标准,允许编程语言与浏览器进行交互。在Python中,我们需要安装`selenium`库,并下载对应的浏览器驱动(如ChromeDriver),然后通过...

    爬虫设计文档 关于网络爬虫设计的文档

    本篇文章将探讨网络爬虫设计的一些核心概念和策略,包括URL标准化、防止陷入网络陷阱、遵循漫游拒绝访问规则,以及两种常见的爬虫搜索策略——宽度优先搜索和线性搜索。 首先,URL地址的标准化是爬虫设计的基础,...

    网络爬虫技术探究-本科毕设论文.doc

    网络爬虫,又称网络蜘蛛或网络机器人,是自动化地抓取互联网信息的一种程序,对于搜索引擎的信息采集至关重要,同时也可作为定向信息采集工具,用于获取特定网站下的特定信息,例如招聘信息、房屋租赁信息以及网络...

    网络爬虫基础 个人学习笔记

    这篇个人学习笔记主要涵盖了数据的采集、存储以及Scrapy爬虫框架三个核心部分。 **一、数据的采集** 1. **HTTP协议**:网络爬虫的基础是HTTP协议,理解请求和响应的工作原理至关重要。GET和POST是最常见的两种请求...

    python网络爬虫程序

    本篇文章将深入探讨Python网络爬虫的基本原理,以及如何通过代理IP避免在爬取过程中被网站屏蔽。 首先,我们要了解Python中的基础网络请求库,如`requests`,它是Python中最常用的HTTP客户端库。通过`requests.get...

    豆瓣爬虫程序.rar

    本篇文章将围绕“豆瓣爬虫程序”这一主题,深入探讨爬虫的基本原理、如何构建针对豆瓣的爬虫,以及如何处理和分析获取到的数据。 首先,我们需要理解爬虫的基本工作原理。爬虫,又称为网络蜘蛛或网络机器人,是一种...

    基于Python网络爬虫设计与实现-古志敏.pdf

    文章详细介绍了Python语言的基础特性,以及网络爬虫的基本概念和原理。 网络爬虫是一种自动化数据采集工具,通过模拟浏览器行为抓取互联网上的信息。文中特别提到了四种类型的爬虫:通用爬虫、聚焦爬虫、深度爬虫和...

    好用的爬虫好用的爬虫

    本篇文章将深入探讨爬虫的工作原理、类型、使用场景及实现技术。 爬虫主要分为两类:广度优先爬虫和深度优先爬虫。广度优先爬虫首先遍历网页的链接,逐层深入,适合抓取网站结构较浅的内容;而深度优先爬虫则沿着一...

    python零基础学习篇课程资料-CLASSDATA_ch08数据爬虫技巧_week2(补充了正则).zip

    本课程资料“python零基础学习篇课程资料-CLASSDATA_ch08数据爬虫技巧_week2(补充了正则)”是专为初学者设计的,旨在帮助你掌握基本的网络数据抓取技能,并引入了正则表达式这一强大的文本处理工具。 在章节8中,...

    .net 爬虫示例

    《.NET爬虫示例详解》 ...通过学习并理解这个.NET爬虫示例,我们可以掌握基本的爬虫原理和技术,为进一步深入学习和实践打下坚实的基础。同时,也要不断关注新的技术和最佳实践,以适应不断变化的网络环境。

    一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程.docx

    总的来说,理解Scrapy的工作原理和数据采集过程,不仅有助于你编写高效的爬虫,还能让你更好地应对网站反爬机制,实现数据的自动化、结构化采集。通过实践和不断学习,你可以掌握这个强大的工具,为数据分析、信息...

    毕业论文-主题网络爬虫的研究与实现.doc

    这篇本科毕业论文“主题网络爬虫的设计与实现”深入探讨了这一技术的原理、方法和实践过程。 在当前信息化社会中,互联网上的信息量爆炸性增长,涵盖各个领域的知识和数据。然而,这些信息的分散性和无组织性使得...

Global site tag (gtag.js) - Google Analytics