这个项目主要是分析一个页面的深度链接值,然后进行相应的抓取.目前已经完成了
单页面抓取操作方法的封装(import graspContent.py)
以及
MySQL数据库连接(import link_db.py)
.
Python操作MySQL的库是MySQLdb:
MySQLdb is the Python DB API-2.0 interface. _mysql is a low-level API similiar to the MySQL C API. ZMySQLDA is a Database Adapter for Zope2.
在
这里可以找到更多信息和下载.
高效的协议分析可以参考
curl,
PyCurl是其一个python封装.
项目放置在
上,采用MIT协议分发.如果有兴趣加入,可以发邮件至myctrls@gmail.com和我联系.
项目地址
http://code.ibd.ac.cn
SVN checkout:
https://xspider2.googlecode.com/svn/trunk/
最后感谢很多在我学习和实践python道路上帮忙的很多朋友们.
附图是xspider2的结构图.
- 描述: 红色的部分是四个基础方法
- 大小: 4.6 KB
分享到:
- 2008-03-08 00:28
- 浏览 1387
- 评论(0)
- 论坛回复 / 浏览 (0 / 2494)
- 查看更多
相关推荐
自已写的一个WEB站点日志程序 <br>作用: 将调试信息写到日志文件中去。 <br>特点: 一、不用指定目录,默认是在站点目录下生成一个logs目录,生成日志的文件名是:站点虚拟目录.日期.log,当然你也可以...
在这个“自已写的一个CTreeCtrl”中,开发者已经扩展了标准的CTreeCtrl功能,使其能够支持设置特定项的颜色和字体,从而提供了更丰富的视觉效果和用户体验。 CTreeCtrl的基础功能包括添加、删除和修改树型控件中的...
"MyTXT"显然是一个用户自行开发的简单文本编辑器,它可能包含了基础的文本输入、保存、复制、粘贴等功能。以下是一些相关的重要知识点: 1. **文本编辑器的基本功能**: - 文本输入:用户可以输入文字,编辑器需要...
标题中的“自已写上传组件”意味着我们要讨论的是如何创建一个自定义的文件上传功能,这通常涉及到前端和后端的交互,以及处理文件上传的流程。在IT领域,文件上传是网页应用的一个常见功能,它允许用户将本地文件...
这个标题表明这是一个关于Java编程的项目,作者自己编写了一个计算器程序,并鼓励其他人下载学习。这个计算器可能是基于控制台或者图形用户界面(GUI)实现的,展示了作者对Java语言的理解和应用能力。 【描述】: ...
用halcon自已写的直线测量的例子,可以设置卡尺,搜索框,给新手一个启发
在FPGA实现SPI主控端,你需要设计一个SPI控制器模块,该模块应包含以下部分: 1. **时钟发生器**:产生SPI通信所需的时钟信号SCK。 2. **片选信号控制**:根据需要切换CS信号,选择对应的SPI设备。 3. **移位寄存器*...
本篇文章将聚焦于一个特定的话题——“Vue自已写的日历插件”,通过这个话题,我们将深入探讨如何在Vue中创建自定义日历组件,以及它背后的原理和实践。 首先,创建一个日历插件通常涉及到以下几个关键点: 1. **...
C# vs 2010 .net 4.0。 自已写来自已用的,传到网上交流一下,主要有 一,备忘记录,提醒,增加,修改,删除等 二,日志功能,提醒每天写日志,方便工作总结。 大家有什么好的想法,可以评论哦。
自已写的图形项界面, 主要功能就是在一个view中,显示item,并可对item进行操作,还有些缩放平移功能没有实现,没有动画效果.zip
自已收集的一些网络爬虫开发的资料、文档、以一些源码。有需要的朋友可以下载哦。
根据提供的文件信息,本文将详细解释标题和描述中所涉及的知识点,包括如何在Windows环境下用...通过以上步骤,本程序实现了一个简单的文件读写功能,可以将指定文件的前300个字节数据以十六进制格式写入新文件中。
【标题】:“自已写的jquery ui框架” 这个标题暗示了一个项目,其中开发者创建了一个基于jQuery UI的自定义框架。jQuery UI是jQuery库的一个扩展,提供了丰富的用户界面组件,如日期选择器、对话框、拖放功能等。...
代码都是用svn来管理的,但是web项目基本上是由成千上万个文件组成的,每次发布到新功能上去,都是痛苦的过程,一个个对照log来找文件,还要把不能发布的文件删除,人一多,时间一长,自已都不记得发布了什么,什么 ...
虽然描述中没有明确提及,但一个良好的MVC框架通常会支持依赖注入,以提高代码的灵活性和可测试性。这允许控制器在运行时动态地获取依赖的服务,如数据库连接或缓存服务。 7. **数据库抽象层**: MVC框架通常提供...
本主题涉及的是一个自定义的VB时间控件源码(OCX),这是一个非常实用的技术,允许开发者自定义时间显示和交互方式,以满足特定项目需求。 VB时间控件(OCX)是一种ActiveX控件,它是在VB环境中开发的,可以被其他...
在本例中,标题提到的是“一些自已写的CGI程序”,这意味着我们正在讨论用户自己编写的CGI应用,可能是用C或C++语言实现的。 CGI在Web开发中的作用是充当桥梁,它接收来自HTTP服务器的请求,并生成一个响应,这个...
标题为“自已写的Webmvc框架”,这表明作者尝试创建了一个类似Spring MVC的自定义框架,用于处理Web应用程序的请求、路由和视图渲染。这里我们将详细探讨这一主题,包括相关的技术、设计原则和实现步骤。 1. **MVC...
NULL 博文链接:https://tntxia.iteye.com/blog/699654
《自已动手写内核_skelix》是一个深入学习操作系统内核设计与实现的资源集合,其中包含了多个分步解析的rar压缩文件和一个chm帮助文档。这个项目旨在帮助读者理解内核的工作原理,通过实际操作编写内核,从而提升在...