butterfly

浏览: 8947 次
性别:
来自: Sun Yet-sen Universi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

IBM的两个开源工具包：UIMA和IODT

博客分类：

bussiness

开源

今天看了IBM公司开发的两个开源工具包，名称分别是UIMA和IODT。 UIMA是Unstructured Information Management Architecture，我译作“非结构化信息的管理架构”。可以在这里找到它的相关介绍和下载：http: //www.alphaworks.ibm.com/tech/uima� ...

2007-02-05 16:37
浏览 2858
评论(0)
论坛回复 / 浏览 (0 / 2510)

昨天终于把抽取网页信息的和与数据库连接的两部分代码写完并测试了，基本上还是可以运行滴，只是还是有些小bug，这都是源于编程时想的不够仔细。在这过程中碰到了几个困难： 1。网页的源代码采用的字符编码问题。因为网页的源代码里是夹杂着中文字符的，所以我先以字节流的形式将整个源代码文件的内容读入一个字节数组里(byte[])，然后通过String类的构造函数String(byte[], String charset)构造一个新的字符串，其中charset是网页的源代码所选定的字符编码方式，这样得到的新的字符串就是用java里默认的Unicode编码表示的了。其实Strin ...

2007-01-29 13:22
浏览 1193
评论(0)

关于如何获取网页代码的问题

博客分类：

null

浏览器数据挖掘 Firefox .net Google

我正在做一个数据挖掘的项目，第一步要把某个网站上的网页的代码下载下来，下面是我写的获取网页代码的程序的源代码： /** * Download the file specified by an URL. */ package fetchInformation; import java.io.*; import java.net.*; /** * @author caoji ...

2007-01-21 17:35
浏览 3779
评论(2)
论坛回复 / 浏览 (2 / 7080)
分类:企业架构

Things to do before the journey to hometown

博客分类：

bussiness

important

Time flies. In my plan, the date of my journey to hometown is 2007.2.10, so I still have about 20 days to finish the work I am doing. Oh, God, I prey I can do it. Things include: 1.Data mining. I have to write a program to fetch the information on the website: http://www.dianping.com ...

2007-01-20 10:44
浏览 1120
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

IBM的两个开源工具包：UIMA和IODT

第一阶段的工作总结

关于如何获取网页代码的问题

Things to do before the journey to hometown

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

IBM的两个开源工具包：UIMA和IODT

第一阶段的工作总结

关于如何获取网页代码的问题

Things to do before the journey to hometown

最近访客更多访客>>