`
yuhai.china
  • 浏览: 160230 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
给定训练样本 ('Nobody owns water.','good'); ('the quick rabbit jumps fences','good'); ('buy pharmaceuticals','bad'); ('make quick money at the online casino','bad'); ('the quick brown fox jumps','good'); 如何判断一个新的样本'quick money'是good还是bad呢,最常用的办法就是朴素贝叶斯分类 朴素贝叶斯分类的步骤大致如下: 1.根据样本集判断每个词属于各个分类的可能性。   也就是计 ...
watij本来是用于web测试的,但是我发现利用它来做垂直爬虫,效果也很好 以下的代码抓了三个网站 package com.example.tests; import watij.runtime.ie.IE; import watij.finders.AttributeFinder; import watij.finders.Finder; import watij.finders.NameFinder; import watij.finders.XPathFinder; import watij.finders.FinderFactory.*; import watij. ...
$对象.属性 就可以把值取出来 普通的html文件加入 #foreach #end 就可以完成很多功能了, volecity支持arraylist
DateFormat format = new SimpleDateFormat("yyyy-MM-dd hh:mm:ss"); format.format(new Date(format.parse(str).getTime())) mysql convert( s as datetime)
<% %> <%@ page language="java" contentType="text/html;charset=UTF-8"%> <%@ page import="com.qunar.dataservice.quartz.*,com.qunar.dataservice.common.*,com.qunar.dataservice.util.*,java.util.*,java.io.File,com.qunar.dataservice.extract.ImageTool"%> ...
简单的用一个10行左右的递归程序实现此功能的, 如果有人愿意打印源代码,还是挺有用的
在开发中小型搜索引擎的过程中,我使用由Java开发的开源软件:jspider,htmlparser,lucence,IKAnalyzer,下面我一一道来。 lucence很著名啦,不必多说,我写的这个引擎就是在它自带的demo基础上重构的。 jspider顾名思义,是一个用Java开发的爬虫。 htmlparser是解析html页面的,因为lucene自带的html解析器不够健壮,所以用了这个。  IKAnalyzer是为lucence定做的中文分词组件,在使用中我发现效果不错。 具体的编码下次再说吧,呵呵
Global site tag (gtag.js) - Google Analytics