`
liangguanhui
  • 浏览: 112932 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论
阅读更多

刚刚发布了0.1.0-b13,顺便在这里稍微介绍一下这个项目 (http://code.google.com/p/teucer/)。

Teucer的名称
这个名字纯粹巧合,读者无需深究。(Teucer 的发音可以参考http://www.answers.com/topic/teucer)

In Greek mythology Teucer, was the son of King Telamon of Salamis and his second wife Hesione, daughter of King Laomedon of Troy. He fought alongside his half-brother, Ajax, in the Trojan War and is the legendary founder of the city Salamis on Cyprus. Teucer was the nephew of King Priam of Troy and so the cousin of Hector and Paris - all of whom he fought against in the Trojan War.

Teucer的背景
在面对无联网爆炸性信息量的同时,很多人都有把某些方面的信息抓取下来的需求。如何实现这种爬虫式的定向抓取呢?开始的时候,我是结合HttpClient + ThreadPool + Jkarta oro采集数据的。 后来由于经常使用,也做了一些简单的封装。

不过,无论如何封装、如何简化,静态语言Java的实现都比不上脚本语言来的方便。正与在字符处理的某些方面,从简易方面来说,perl把java远远甩开。于是,Teucer 便诞生了。

Teucer的目标
Teucer 的目标,是构建一种基于Java 极其简单的、高效的、易于扩展的、无需打开庞大IDE的、一种定向爬虫的脚本:
  • 之所以基于Java,是因为我以前一直用Java来抓取网页。Teucer对于JDK的要求是1.5。
  • 这里的简单是相对一般开发人员而言,并不适合普通用户。由于爬虫是需要大量的文本处理,而正则表达式是处理文本的不二之选,所以,正则表达式是Teucer 核心之一。
  • 高效是指多线程、缓存等。
  • 扩展性是目前的主流,不得不从啊。
  • 为何我要强调庞大的IDE呢?因为我的机器配置一般般,打开eclipse之流内存消耗急剧上升,所以我对IDE是又爱又恨啊。我写Teucer 脚本一般是用UltraEdit?,不喜欢用D版软件的朋友可以考虑用Notepad++。
  • Teucer 是一种目标非常明确的脚本,你不要指望它可以跟Perl、Python一样强大,因为,我没有这个实力。我的目标仅仅是让Teucer 可以完成一般网页定向抓取。

Teucer要点
  • 过程处理
  • “fork”以及层次式的变量
  • I/O 操作
  • 正则表达式
1
0
分享到:
评论
1 楼 presses 2009-09-15  
抓数据不难,但做成通用的不易。希望能帖些文档出来看看。

相关推荐

Global site tag (gtag.js) - Google Analytics