`
Jarymin
  • 浏览: 67754 次
  • 性别: Icon_minigender_1
  • 来自: Mars
社区版块
存档分类
最新评论
文章列表
Xspider2的前期已经完成,目前的版本是0.1.1b可以实现 Single page的抓取; 页面深度的返回与存储 现在打算在X2的基础上增加一个页面深度及路径的算法,这个算法我称之为TPDA,按照GNU风格的解释 TPDA: The Page/Point Depth Algorithm. 争取实现:页面深度和路径无分词文本空间高频词语提取路径最优算法核心算法可能采取JAVA去描述,Python来实现架构,有机会的话最好实践把Perl
这一周是忙碌的,高压的.终于在昨天下班前完成了leader交给我的练手项目,公司是用Zend框架开发的,但是之前leader考虑到我对php不是很熟悉,就让我先去做一个爬虫的项目(Python),这个project完成之后,几乎没有时间再来学习php了,好在我 ...
哇哈哈,访问量过1100了!今天去买了一套Microsoft Wired Desktop 500,感觉好不错 很有手感.
起点现在的双域名分别是不同的页面架构技术: cmfu是原来老的ASP,对于公开章节,起点采用的是js调用一个txt,相对原来直接页面显示,确实是一个明智的选择(对抓取的来说也方便:p). qidian采用的是新的.Net技术,这个里面就需要采用正则去匹配了. 结合上一篇文章我的小程序,这里将社区内相关的代码全部show一下. 首先是我的: #!/usr/bin/python #filename:simpleCMFU import re import urllib def alaynsis_id(url_given): name=url_given[-11:-1]+ur ...
使用方法: 进入程序目录,输入123.exe 按照提示 输入需要的章节url,程序即会自动下载该章节的text文本存储到程序目录下,以章节id为名. 由于源代码很简单,就不献丑了,欢迎各位和我多多赐教,我也会完善后续版本. 经兜兜提醒发现,原来起点改版了,新的网站采用.net架构,目前程序只能分析cmfu.com即asp的老版本架构起点页面,这个问题我会在下一个版本解决
DBUtils 是一套允许线程化 Python 程序可以安全和有效的访问数据库的模块。DBUtils已经作为 Webware for Python 一部分用来结合 PyGreSQL 访问 PostgreSQL 数据库,当然他也可以用在其他Python应用程序中来访问 DB-API 2 兼容的数据库接口。 模块 DBUtils实际上是一个包含两个子模块的Python包,一个用于连接DB-API 2模块,另一个用于连接典型的PyGreSQL模块。 全局的DB-API 2变量 SteadyDB.py 用于稳定数据库连接 PooledDB.py 连接池 PersistentDB.py 维持持续 ...
      线程(thread, 台湾称 执行绪)是"进程"中某个单一顺序的控制流。也被称为轻量进程(lightweight processes)。计算机科学术语,指运行中的程序的调度单位。       线程是进程中的实体,一个进程可以拥有多个线 ...
近日,把玩Google Pisaca API的时候发现返回一个这样的时间格式: 2008-02-13T14:15:44.000Z ,问人未果. 窃以为T,z应该是和时区有关,经过google果然这个就是传说中的UTC 通用标准时以z来标识 其它的时区显示的时间与通用协调时间不同,因此例如你能使用太平洋标准时间2007-12-25T06:00:00:000-8:00来显示2007年12月25日的早上6:00(它比UTC时间滞后8小时)。 这个没法使用,得转换下. public class TimeZoneTest { public static void main (St ...
  • 2008-03-10 23:10
  • 浏览 24736
  • 评论(0)
  • 论坛回复 / 浏览 (0 / 11590)
经过30个小时的coding,终于解决了编码问题.现在把过程和体会记录下来:P</br> MySQL 数据库方面:</br> 数据库的创建支持UTF8: CREATE DATABASE db_name DEFAULT CHARACTER SET utf8 COLLATE utf8_bin; 很多时候,默认的会选择COLLATE utf8_general_ci,这个对中文支持不好.我就是错在这里了。 Python 编码方面: 1指定文件编码是必须的:#-*-coding:utf-8-*-</br> 2某些环境下可以使用这个:</br> reload ...
娘你的,代码又错了. fk,mysqldb fk,utf8 fk,mysql to be continued!
这个项目主要是分析一个页面的深度链接值,然后进行相应的抓取.目前已经完成了单页面抓取操作方法的封装(import graspContent.py)以及MySQL数据库连接(import link_db.py). Python操作MySQL的库是MySQLdb: MySQLdb is the Python DB API-2.0 interface. _mysql is a low-level API similiar to the MySQL C API. ZMySQLDA is a Database Adapter for Zope2. 在这里可以找到更多信息和下载. 高效的协议分析可以参考 ...
唉,娘你的...
Dell 22'双屏显示
最近长沙遭遇了传说中50年不遇的雪灾,这个城市完全被雪淹没了.工作快一个月了,每天忙忙碌碌的,早起贪黑,似乎充实了不少,可是收获了什么呢?似乎已经快要麻木的习惯这样朝九晚五和两点一线的生活了,在颠簸的公交车上,经常混混的睡去.突然间,我可悲的发现自己丧失了那股冲劲,一个20岁的小伙本该朝气蓬勃,而我却这样的萎靡.曾几何时自己是多么梦想着这样It人的生活,enjoy coding! enjoy reading! 最近在坛子里发现离我一路之隔的写字楼里的一位朋友月薪是6-7K,心里便有了一点不平衡,虽然他们告诉我"Mirror,不要急,你还年轻"可是似乎我却很还是在意这个.... ...

a little lost

不爽!
Global site tag (gtag.js) - Google Analytics