特定网站爬虫---原理篇 - 追随大师的脚步,,, - ITeye博客

`

iluoxuan

浏览: 584909 次
性别:
来自: 北京

最近访客更多访客>>

czl026

java_my_life

hejin_sl

yzzh9

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

liu_jiaqiang：写的挺好
maven多项目管理
H972900846：我想知道哪里整的，如果是自己写的，那有点牛呀如果是抄的请说明出 ...
SSL身份认证原理
春天好：博主写的很好，赞一个，多谢分享 *(^-^*)分享一个免费好用 ...
定向网站爬虫---初级例子
fenglingabc：经过测试，parameterType="java.u ...
mybatis获取主键和存储过程返回值
jyghqpkl： [u][/u] ...
Cookie的secure 属性

特定网站爬虫---原理篇

博客分类：

java
lucene

阅读更多

1：http://www.shuoshuo520.com/

的小说网站爬虫，又定向简单到智能爬取数据的学习路径。

1：爬虫原理。

就是对url连接的搜索：

具体使用广度优先搜索：

访问的路径是 A - B C D E F -H G - I

使用队列保存，就是 A 先入队出对，在B C D E F 入队，在B C D E出对 H入队 F出对 G入队 H出对 I入队

目前的方法：

一个 PaserUrlUtil类解析和处理 url和html 主要用HttpClient和Jsoup

一个是队列类LinkedQueue,保存已经访问的url和添加新的 url实体，处理url的去重操作

一个Crawler主程序类，宽度搜索url，知道没有可处理的为止，目标网站深度是6层也结束。

想队列中添加新的urlhttp://www.shuoshuo520.com/book9/
想队列中添加新的urlhttp://www.shuoshuo520.com/book10/
想队列中添加新的urlhttp://www.shuoshuo520.com/modules/article/index.php?fullflag=1
已经访问的url--http://www.shuoshuo520.com/book1/
正在处理的url实体--deptValue--1--url--http://www.shuoshuo520.com/book1/
bookUrls-处理进入 deptvalue-==1-
bookUrls--http://www.shuoshuo520.com/Book1/2.html
bookUrls--http://www.shuoshuo520.com/Book1/3.html
bookUrls--http://www.shuoshuo520.com/Book1/4.html
bookUrls--http://www.shuoshuo520.com/Book1/5.html
bookUrls--http://www.shuoshuo520.com/Book1/6.html
bookUrls--http://www.shuoshuo520.com/Book1/7.html
bookUrls--http://www.shuoshuo520.com/Book1/8.html

查看图片附件

分享到：

定向网站爬虫---初级例子 | BloomFilter–大规模数据处理利器

2012-11-07 17:43
浏览 1087
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python爬虫-简单例子介绍-参考价值不大，需要的下.docx: 这篇文档主要介绍了如何使用Python进行简单的网络爬虫操作，适合初学者进行学习。文档通过一个实际的例子展示了如何抓取新浪新闻的部分数据，并将其存储到Excel表格中。以下是文档中的主要知识点： 1. **Python基础...

网络爬虫原理与实战: 在《网络爬虫原理与实战》这篇文章中，作者详细介绍了网络爬虫的基本概念、工作原理以及如何利用Java进行实战操作。 #### 一、网络爬虫基本原理网络爬虫的基本原理主要包括以下几个步骤： 1. **请求资源**：向...

c#最好的网络爬虫下载---mtkos.com: 首先，我们要了解网络爬虫的基本工作原理。通常，它包括以下几个步骤：发送HTTP请求获取网页，解析HTML或其他格式的文档，提取所需信息，以及可能的存储和处理这些信息。C#中的`System.Net`和`System.IO`命名空间...

python爬虫 - js逆向解密之简单端口加密破解v2 -- 修复版.pdf: 在Python爬虫领域，我们经常会遇到JavaScript加密的网站，这些网站为了防止被爬取，会将关键信息（如代理服务器的IP和端口）通过加密的方式隐藏在网页源码中。这篇文档主要讨论的是如何对这类JavaScript加密进行逆向...

python爬虫模拟浏览器访问-User-Agent过程解析: 在介绍python爬虫模拟浏览器访问-User-Agent过程解析之前，需要了解几个基本概念。...通过这篇文章的学习，我们可以更加深入地理解Python爬虫的工作原理和实现方法，提升自身的编程技能和解决实际问题的能力。

基于web爬虫基本原理的新技术专题课程论文: 本篇论文旨在深入探讨基于Web爬虫的基本原理及其新技术，以期为广工学子提供一个全面的学习平台，同时也可供其他有需求的学者参考。 1.1 引言随着互联网的快速发展，网络信息的多样性和复杂性使得传统的信息检索...

Python-python爬虫由浅入深: 12. 爬虫项目实践：通过实际案例，如爬取新闻网站、社交媒体、电商网站等，锻炼爬虫设计和实现能力，包括数据抓取、清洗、分析全过程。 13. 数据分析与可视化：使用Pandas、Matplotlib、Seaborn等库对爬取的数据进行...

CSDN爬虫（一）——爬虫入门+数据总览: 5. **CSDN特定策略**：针对CSDN的网站特点，可能需要定制特定的爬虫策略，如登录、模拟点击等。总的来说，这篇文章和其附带的代码示例为初学者提供了一个很好的起点，让他们能够快速掌握webMagic框架，并应用到...

python版网络爬虫: 它提供了所有必要的工具和服务，以便用户能够构建自定义的爬虫程序来抓取特定的网站。 - **主要特点**： - **灵活性**：支持多种类型的爬虫。 - **可扩展性**：通过中间件和扩展提供强大的定制功能。 - **性能...

大数据时代的反爬虫技术_陈利婷: 综上所述，这篇文章可能全面地介绍了大数据时代下反爬虫技术的原理、方法和应用，为网站如何在面对大量数据抓取需求的同时，保护自身资源与用户隐私提供了参考。同时，本文也强调了在大数据环境下，反爬虫技术的创新...

爬虫项目ge-processin开发笔记: 在本篇“爬虫项目ge-processin开发笔记”中，我们将深入探讨如何构建一个高效的网络爬虫，并专注于处理和分析获取的数据。这个项目的核心是利用Python编程语言进行数据抓取和处理，结合图像处理技术，可能涉及到数字...

python 零基础学习篇正式课-07.数据爬虫企业实战.zip: 爬虫的核心在于获取网页数据，这需要理解网络请求的工作原理。HTTP（超文本传输协议）是互联网上应用最为广泛的一种网络协议，爬虫通过发送HTTP请求（GET、POST等）来获取网页内容。了解HTTP头、状态码、请求方法等...

python零基础学习篇数据爬虫技巧-6第六章浏览器测试框架：Selenium.zip: Selenium的工作原理是通过WebDriver接口与浏览器进行通信。WebDriver是一个开放标准，允许编程语言与浏览器进行交互。在Python中，我们需要安装`selenium`库，并下载对应的浏览器驱动（如ChromeDriver），然后通过...

网络爬虫设计与实现毕业设计论文.pdf: 6. 网络爬虫的研究和实现：文档强调了对网络爬虫原理的研究以及相关功能实现的重要性。研究网络爬虫的原理可以帮助我们更好地理解爬虫的工作机制，包括如何选择合适的种子URL、如何遵循链接、如何存储和处理爬取的...

爬虫设计文档关于网络爬虫设计的文档: 本篇文章将探讨网络爬虫设计的一些核心概念和策略，包括URL标准化、防止陷入网络陷阱、遵循漫游拒绝访问规则，以及两种常见的爬虫搜索策略——宽度优先搜索和线性搜索。首先，URL地址的标准化是爬虫设计的基础，...

网络爬虫技术探究-本科毕设论文.doc: 网络爬虫，又称网络蜘蛛或网络机器人，是自动化地抓取互联网信息的一种程序，对于搜索引擎的信息采集至关重要，同时也可作为定向信息采集工具，用于获取特定网站下的特定信息，例如招聘信息、房屋租赁信息以及网络...

网络爬虫基础个人学习笔记: 这篇个人学习笔记主要涵盖了数据的采集、存储以及Scrapy爬虫框架三个核心部分。 **一、数据的采集** 1. **HTTP协议**：网络爬虫的基础是HTTP协议，理解请求和响应的工作原理至关重要。GET和POST是最常见的两种请求...

python爬虫教程从理论到实战: - 聚焦爬虫：专注于特定领域或主题，如特定网站的商品价格。 - 增量爬虫：跟踪网站更新，仅抓取新内容。 - 分布式爬虫：利用多台计算机并行工作，提升效率和稳定性。 - **爬虫技术实现**： - 发送HTTP请求：...

python3爬虫手册——来自某培训机构: **爬虫原理篇** - **爬虫与数据**：介绍爬虫的基本概念，即如何从网页上抓取数据。了解爬虫的工作原理，是编写爬虫前的必要准备。 - **通用爬虫与聚焦爬虫**：通用爬虫抓取目标广泛，而聚焦爬虫针对特定主题或网站...

Global site tag (gtag.js) - Google Analytics