-
关于使用网络爬虫爬数据的问题? 请各位老师进5
我要做一个通用搜索引擎,但是这个通用搜索引擎是只关心宁波地区的所有信息的。我先在有一个网站:http://www.sosoj.net/so/index.html里面列出了很多关于宁波的网站,我打算用heritrix爬虫去爬这个网站,但是我有一个问题,就是如何定制爬虫,使他不要爬到宁波信息以外的链接,因为一不小心爬到其他的链接,就很有可能停不下来了,本人还是个新手,希望有经验的老师能给学生多提点意见和思路,学生不胜感激!
问题补充:AngelAndAngel 写道这个很简单 思路是这样的:
你在每次爬取的时候 不是会得到地址或者域名吗,把这个域名获得后,用HttpClient连接到http://www.ip138.com/这样的类似网站的表单,会返回给你一个ip,然后把这个ip跟你宁波的Ip比对,在宁波ip以外的直接就不考虑。别忘记采纳哦 也可以站内聊,我目前也做了个类似功能的。
非常感谢您给的这样新颖的建议,我会去尝试的!!!实际上在看到你的回帖前我就用了一个更笨的方法,我找了一个宁波网址导航(http://www.jzptt.com/NingBo_City/NingBo_Jiaoyou.htm),里面有很多关于宁波各方面的网址,我可以认为这些网址里面的全部信息加起来就囊括了宁波的所有信息。于是我把各个分类里面的各项Url全部搜集起来打算放到heritrix的seeds里面,也就是作为heritrix的种子url(不过这种子url确实有点多),这样heritrix爬取数据的来源可以说解决了,当然我相信,您给的方法一定能更好,更彻底的爬到宁波的所有信息。但是AngelAndAngel如果仔细看我的问题会发现,我问题的侧重点不在“应该从什么地方爬去数据?”,而是在如何以尽量全面的得到宁波的信息,并且方便制作索引为目的,来”定制“heritrix,使得存在本地的镜像文件不至于很复杂,所以最后我想问的是,针对”定制“这个问题,能否提供一个思路?
问题补充:AngelAndAngel 写道你说话客气了。你刚才说的我真的没太大思路,感觉太困难。我只是感觉有个死办法,一般ip都是有格式的比如 156.134.120.105这样的,而比如说我们湖北的网段是一定的 是218.199.128.1 - 218.199.143.255 ,然后你每个.之间的数字取随机数,只要在你网段内的,都去模拟访问。
等我解决了这个问题,在找你,嘎嘎!
2011年8月19日 23:57
4个答案 按时间排序 按投票排序
-
你说话客气了。你刚才说的我真的没太大思路,感觉太困难。我只是感觉有个死办法,一般ip都是有格式的比如 156.134.120.105这样的,而比如说我们湖北的网段是一定的 是218.199.128.1 - 218.199.143.255 ,然后你每个.之间的数字取随机数,只要在你网段内的,都去模拟访问。
2011年8月24日 19:45
-
这个很简单 思路是这样的:
你在每次爬取的时候 不是会得到地址或者域名吗,把这个域名获得后,用HttpClient连接到http://www.ip138.com/这样的类似网站的表单,会返回给你一个ip,然后把这个ip跟你宁波的Ip比对,在宁波ip以外的直接就不考虑。别忘记采纳哦 也可以站内聊,我目前也做了个类似功能的。2011年8月22日 12:44
相关推荐
Python网络爬虫与数据采集是一门技术课程,主要内容包括网络爬虫的基础知识、网络爬虫请求的基本处理、使用Python相关库进行网络请求、理解HTTP协议及其相关技术,以及如何应对常见的反爬虫策略等。 网络爬虫基础...
在IT领域,网络爬虫是一项重要的技术,尤其对于数据挖掘、数据分析和自动化信息获取来说更是不可或缺。本主题围绕“网络爬虫作业练习”,主要涉及Python编程语言和相关的爬虫技术,我们将深入探讨这些知识点。 首先...
网络爬虫数据工具是互联网信息获取的重要手段,它允许用户自动化地从网页中抓取大量数据,用于各种目的,如网站构建、市场分析、电商运营和信息监控。SoMinerV5.41是一个这样的工具,它具备高效的数据采集功能,能够...
Python网络爬虫与数据采集是现代数据驱动决策和分析中的重要技能。Python语言因其简洁的语法和丰富的库支持,成为了爬虫开发者的首选工具。在这个主题中,我们将深入探讨Python爬虫的基础、进阶技巧以及如何进行数据...
"爬虫_爬虫_医院数据爬虫_"这个标题暗示了我们将会探讨的是一个专门针对医院数据的网络爬虫项目。这类爬虫的目标是收集医疗行业的相关数据,如医院的科室信息、医生的专业资质、就诊时间、预约挂号情况等,以便进行...
本文档是关于Python网络爬虫的复习大纲,涵盖了爬虫的基本概念、实现原理、技术、网页请求原理、抓取网页数据、数据解析、并发下载、抓取动态内容、图像识别与文字处理、存储爬虫数据、爬虫框架Scrapy等知识点。...
网络爬虫是一种自动获取网页信息的技术,它模拟人类浏览网页的行为,通过编程方式遍历互联网上的页面,收集所需数据。在网络爬虫的论文答辩PPT中,主要涉及以下几个知识点: 1. **网络爬虫的基本原理**:网络爬虫...
【VB网络爬虫源码 - 智联爬虫(爬智联招聘的数据)】是一个基于Visual Basic(VB)编程语言实现的网络爬虫项目,主要用于抓取和解析智联招聘网站上的招聘信息。这个项目可以帮助我们理解如何利用VB进行网络数据抓取...
在本实习报告中,我们将深入探讨Python网络爬虫的基本概念、常用的爬虫框架及其特性,以及通过实例演示如何使用Python爬虫爬取豆瓣网上的电影数据。 一、爬虫选题背景 随着互联网信息的爆炸式增长,手动收集和处理...
【课程简介】 本课程适合所有需要弥补...Python网络爬虫教程 数据采集 信息提取课程 11-Scrapy爬虫基本使用(共32页).pptx Python网络爬虫教程 数据采集 信息提取课程 12-实例4-股票数据定向Scrapy爬虫(共23页).pptx
资源描述: 这个资源是关于Python爬虫基础的教程,旨在帮助初学者掌握如何使用Python编程语言构建简单的网络爬虫,从网页中抓取数据,并进行基本的数据处理和存储。 内容概要: 教程涵盖了Python爬虫的基本概念、...
【完整课程列表】 ...Python网络爬虫教程 数据采集 信息提取课程 11-Scrapy爬虫基本使用(共32页).pptx Python网络爬虫教程 数据采集 信息提取课程 12-实例4-股票数据定向Scrapy爬虫(共23页).pptx
2、此爬虫程序爬到的网页内容存储到数据库中,运用的是SQL Server 2005 3、程序中运用了基于字符串匹配的分此方法中的正向最大匹配法 4、此爬虫程序采用的是广度优先的搜索方法搜索网络中的网页
【Python网络爬虫代码】是基于Python3编程语言实现的一款数据抓取工具,主要用于从互联网上,特别是百度百科这类网站,自动获取指定网页中的信息。爬虫技术在信息技术领域扮演着重要角色,它能帮助我们高效地提取...
基于Python的网络爬虫,爬虫目标网站为智联招聘,爬取内容为各职业的...这只是个简单得网络爬虫,大佬们无视就好,仅供大家参考,如果觉得可以请留言鼓励一下哈,有啥问题也可以留言,不定时查看。 可以做毕业设计用
教案:大数据采集之利用网络爬虫获取新冠疫情的实时数据.docx教案:大数据采集之利用网络爬虫获取新冠疫情的实时数据.docx教案:大数据采集之利用网络爬虫获取新冠疫情的实时数据.docx教案:大数据采集之利用网络...
在调试过程中,可能会遇到的问题包括网络连接错误、解析错误、数据格式问题等。测试数据应覆盖各种情况,如正常页面、分页、动态加载页面等,测试结果需验证数据的完整性和准确性。 **6 课程设计心得与体会** 通过...
网络爬虫-Python和数据分析