`
iluoxuan
  • 浏览: 574896 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

特定网站爬虫---原理篇

 
阅读更多

1:http://www.shuoshuo520.com/

的小说网站爬虫,又定向简单到智能爬取数据的学习路径。

 

1:爬虫原理。

 

就是对url连接的搜索:

 

具体使用广度优先搜索:

 


 

访问的路径是  A - B C D E F -H G - I

 

使用队列保存 ,就是 A 先入队  出对 ,在B C D E F 入队 ,在B C D E出对  H入队 F出对 G入队 H出对 I入队

 

目前的方法:

 

一个 PaserUrlUtil类 解析 和处理 url和html 主要用HttpClient和Jsoup

 

一个是队列类LinkedQueue,保存已经访问的url和添加新的 url实体,处理url的去重操作

 

一个Crawler主程序类,宽度搜索url,知道没有可处理的为止,目标网站 深度是6层也结束。

 

想队列中添加新的urlhttp://www.shuoshuo520.com/book9/
想队列中添加新的urlhttp://www.shuoshuo520.com/book10/
想队列中添加新的urlhttp://www.shuoshuo520.com/modules/article/index.php?fullflag=1
已经访问的url--http://www.shuoshuo520.com/book1/
正在处理的url实体--deptValue--1--url--http://www.shuoshuo520.com/book1/
bookUrls-处理进入 deptvalue-==1-
bookUrls--http://www.shuoshuo520.com/Book1/2.html
bookUrls--http://www.shuoshuo520.com/Book1/3.html
bookUrls--http://www.shuoshuo520.com/Book1/4.html
bookUrls--http://www.shuoshuo520.com/Book1/5.html
bookUrls--http://www.shuoshuo520.com/Book1/6.html
bookUrls--http://www.shuoshuo520.com/Book1/7.html
bookUrls--http://www.shuoshuo520.com/Book1/8.html
 

 

 

  • 大小: 15.8 KB
分享到:
评论

相关推荐

    c#最好的网络爬虫下载---mtkos.com

    首先,我们要了解网络爬虫的基本工作原理。通常,它包括以下几个步骤:发送HTTP请求获取网页,解析HTML或其他格式的文档,提取所需信息,以及可能的存储和处理这些信息。C#中的`System.Net`和`System.IO`命名空间...

    python爬虫 - js逆向解密之简单端口加密破解v2 -- 修复版.pdf

    在Python爬虫领域,我们经常会遇到JavaScript加密的网站,这些网站为了防止被爬取,会将关键信息(如代理服务器的IP和端口)通过加密的方式隐藏在网页源码中。这篇文档主要讨论的是如何对这类JavaScript加密进行逆向...

    基于web爬虫基本原理的新技术专题课程论文

    本篇论文旨在深入探讨基于Web爬虫的基本原理及其新技术,以期为广工学子提供一个全面的学习平台,同时也可供其他有需求的学者参考。 1.1 引言 随着互联网的快速发展,网络信息的多样性和复杂性使得传统的信息检索...

    爬虫设计文档 关于网络爬虫设计的文档

    本篇文章将探讨网络爬虫设计的一些核心概念和策略,包括URL标准化、防止陷入网络陷阱、遵循漫游拒绝访问规则,以及两种常见的爬虫搜索策略——宽度优先搜索和线性搜索。 首先,URL地址的标准化是爬虫设计的基础,...

    网络爬虫技术探究-本科毕设论文.doc

    网络爬虫,又称网络蜘蛛或网络机器人,是自动化地抓取互联网信息的一种程序,对于搜索引擎的信息采集至关重要,同时也可作为定向信息采集工具,用于获取特定网站下的特定信息,例如招聘信息、房屋租赁信息以及网络...

    基于Python网络爬虫设计与实现-古志敏.pdf

    文章详细介绍了Python语言的基础特性,以及网络爬虫的基本概念和原理。 网络爬虫是一种自动化数据采集工具,通过模拟浏览器行为抓取互联网上的信息。文中特别提到了四种类型的爬虫:通用爬虫、聚焦爬虫、深度爬虫和...

    好用的爬虫好用的爬虫

    本篇文章将深入探讨爬虫的工作原理、类型、使用场景及实现技术。 爬虫主要分为两类:广度优先爬虫和深度优先爬虫。广度优先爬虫首先遍历网页的链接,逐层深入,适合抓取网站结构较浅的内容;而深度优先爬虫则沿着一...

    一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程.docx

    总的来说,理解Scrapy的工作原理和数据采集过程,不仅有助于你编写高效的爬虫,还能让你更好地应对网站反爬机制,实现数据的自动化、结构化采集。通过实践和不断学习,你可以掌握这个强大的工具,为数据分析、信息...

    毕业论文-主题网络爬虫的研究与实现.doc

    这篇本科毕业论文“主题网络爬虫的设计与实现”深入探讨了这一技术的原理、方法和实践过程。 在当前信息化社会中,互联网上的信息量爆炸性增长,涵盖各个领域的知识和数据。然而,这些信息的分散性和无组织性使得...

    搜索引擎-原理、技术与系统(google,baidu)

    本篇文章将深入探讨搜索引擎的工作原理,特别是谷歌(Google)和百度(Baidu)这两大全球知名搜索引擎的技术特点。 一、搜索引擎工作流程 1. 抓取:搜索引擎通过网络爬虫(Crawler)遍历互联网上的网页,按照网页...

    分布式网络爬虫_总体设计说明.doc

    总的来说,这篇报告展示了如何利用Java、多线程和MySQL构建一个分布式网络爬虫,以及如何针对特定网站进行定制化爬取。这个项目不仅锻炼了学生的实际操作技能,也体现了他们对网络爬虫技术和分布式系统设计的理解。...

    基于广度优先算法的多线程爬虫程序的设计与实现毕业论文.doc

    这篇论文全面涵盖了网络爬虫设计与实现的关键技术,为读者提供了一个深入理解爬虫工作原理和实现方法的视角。通过阅读论文,读者不仅可以学习到爬虫的理论知识,还能了解到具体实践中的策略和技术。

    抓取的程序

    本篇将深入探讨抓取程序的核心原理、常见技术以及如何构建一个简单的网页抓取程序。 1. **爬虫的基本工作流程** - **发起请求**:爬虫首先会模拟用户行为,向目标网站发送HTTP或HTTPS请求,获取网页内容。 - **...

    网站抓取工具

    本篇文章将深入探讨网站抓取工具的工作原理、主要功能以及常见类型。 1. 工作原理: 网站抓取工具通过模拟浏览器行为,向服务器发送HTTP请求来获取网页内容。它们解析HTML或其他Web格式的响应,然后识别和提取所需...

    netSpider.rar

    需要注意的是,网络爬虫的开发必须遵守《robots.txt》协议和网站的抓取政策,尊重网站的版权,避免对服务器造成过大的负担。此外,对于动态加载、登录限制或JavaScript渲染的内容,可能需要更复杂的爬虫技术,如...

    python爬虫基础知识点整理

    本篇文章将详细梳理Python爬虫的基础知识点,帮助初学者快速入门。 首先,我们需要理解什么是网络爬虫。网络爬虫是一种自动浏览互联网并抓取网页内容的程序或脚本。它们按照预设的规则,如遍历链接,逐页抓取信息。...

    抓取网站内容

    本篇将深入探讨这个主题,帮助你理解如何抓取网站内容以及相关的重要知识点。 一、网页抓取原理 网页抓取的基本原理是模拟浏览器发送HTTP请求到服务器,获取响应的HTML或其他格式的网页内容,然后通过解析这些内容...

    搜索引擎工作原理简单模拟.ppt

    本篇将概述搜索引擎如何处理网页,并以一个简化的例子来解释这一过程。 首先,搜索引擎通过“蜘蛛”(也称网络爬虫)来抓取网页。蜘蛛是搜索引擎的自动程序,如Googlebot、baiduspider、Yahoo! Slurp和Msnbot等,...

    精通Nginx--第2版1

    《精通Nginx--第2版1》是一本专为有经验的系统管理员和系统工程师设计的书籍,适合那些熟悉服务器安装和配置以满足特定需求的专业人士。即使没有使用Nginx的经验,读者也能通过本书学习到丰富的知识。本书采用模块化...

Global site tag (gtag.js) - Google Analytics