yuhai.china

浏览: 160230 次
性别:
来自: 北京

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

给定训练样本 ('Nobody owns water.','good'); ('the quick rabbit jumps fences','good'); ('buy pharmaceuticals','bad'); ('make quick money at the online casino','bad'); ('the quick brown fox jumps','good'); 如何判断一个新的样本'quick money'是good还是bad呢，最常用的办法就是朴素贝叶斯分类朴素贝叶斯分类的步骤大致如下： 1.根据样本集判断每个词属于各个分类的可能性。也就是计 ...

2008-11-23 19:38
浏览 1418
评论(1)

使用watij和xpath实现自动spider(完善中)

IE QQ Web 工作

watij本来是用于web测试的，但是我发现利用它来做垂直爬虫，效果也很好以下的代码抓了三个网站 package com.example.tests; import watij.runtime.ie.IE; import watij.finders.AttributeFinder; import watij.finders.Finder; import watij.finders.NameFinder; import watij.finders.XPathFinder; import watij.finders.FinderFactory.*; import watij. ...

2008-07-29 11:24
浏览 3478
评论(2)

volecity使用入门

HTML

$对象.属性就可以把值取出来普通的html文件加入 #foreach #end 就可以完成很多功能了， volecity支持arraylist

2008-07-29 11:19
浏览 1553
评论(0)

java和mysql日期技巧

MySQL Java

DateFormat format = new SimpleDateFormat("yyyy-MM-dd hh:mm:ss"); format.format(new Date(format.parse(str).getTime())) mysql convert( s as datetime)

2008-07-29 11:16
浏览 1937
评论(1)

使用FileUpload上传文件

quartz Apache F#HTML C

<% %> <%@ page language="java" contentType="text/html;charset=UTF-8"%> <%@ page import="com.qunar.dataservice.quartz.*,com.qunar.dataservice.common.*,com.qunar.dataservice.util.*,java.util.*,java.io.File,com.qunar.dataservice.extract.ImageTool"%> ...

2008-05-23 17:58
浏览 3997
评论(1)

我把lucene2.2的源代码整理到一个文件里了，对阅读代码有点用处

简单的用一个10行左右的递归程序实现此功能的，如果有人愿意打印源代码，还是挺有用的

2007-07-12 22:10
浏览 1743
评论(0)
论坛回复 / 浏览 (0 / 2139)
分类:企业架构

使用开源组件搭建搜索引擎

搜索引擎 lucene Apache HTML REST

在开发中小型搜索引擎的过程中，我使用由Java开发的开源软件：jspider,htmlparser,lucence,IKAnalyzer，下面我一一道来。 lucence很著名啦，不必多说，我写的这个引擎就是在它自带的demo基础上重构的。 jspider顾名思义，是一个用Java开发的爬虫。 htmlparser是解析html页面的，因为lucene自带的html解析器不够健壮，所以用了这个。 IKAnalyzer是为lucence定做的中文分词组件，在使用中我发现效果不错。具体的编码下次再说吧，呵呵

2007-06-22 13:00
浏览 5151
评论(11)
论坛回复 / 浏览 (7 / 9700)
分类:企业架构

« 上一页 1 2 3 4 5 下一页 »

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

朴素贝叶斯分类

使用watij和xpath实现自动spider(完善中)

volecity使用入门

java和mysql日期技巧

使用FileUpload上传文件

我把lucene2.2的源代码整理到一个文件里了，对阅读代码有点用处

使用开源组件搭建搜索引擎

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

朴素贝叶斯分类

使用watij和xpath实现自动spider(完善中)

volecity使用入门

java和mysql日期技巧

使用FileUpload上传文件

我把lucene2.2的源代码整理到一个文件里了，对阅读代码有点用处

使用开源组件搭建搜索引擎

最近访客更多访客>>