- 浏览: 94246 次
- 性别:
- 来自: 广州
-
最新评论
-
hadasione:
有相关文档推荐吗
语义分析有感 -
snowpeakjava:
您好,我现在也遇到同样的问题,使用您写的IKTokenizer ...
支持Solr4的IKTokenizerFactory -
henry2009:
eight90 写道它的main函数呢?main函数还要列出来 ...
文档相似度计算 -
henry2009:
deydoris 写道算法里面的分词是用的什么算法咩?开源的还 ...
文档相似度计算 -
eight90:
它的main函数呢?
文档相似度计算
文章列表
@echo off
for /l %%i in (1,1,24) do cd.> D:\样例文档\%%i.txt
cmd
简单生成一堆空文档!
前些日子在程序中用到select ... for update的语句,但是发觉,着语句用着就是不爽。感觉整个程序有点慢。郁闷之中,就找了点大学时候的概念好好恶补恶补。
====================================================
数据库中乐观锁与悲观锁的 ...
在爬虫的过程中,我们常常会遇到主题内容相同的网页,例如转载网页等等。由于标题不一样,内容有细微的偏差,也许我们的爬虫会误认为两个网页是不同的。这个时候,我们就必须对网页内容过滤消重。几乎所有的消重技术都基于这样一个基本思想:为每个文档计算出一组指纹(fingerprint),若两个文档拥有一定数量的相同指纹,则认为这两个文档的内容重叠性较高,也即二者是内容转载的。(具体详细内容在搜 索 引 擎 — 原理、技术与系统一书中有详细介绍)。
根据书中的算法描述,简单写了一个,网页消重的java代码,做一下代码笔记。
以下是算法中的主要部分:具体算法,在搜 索 引 擎 — ...
原文转载自http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx
根据上面所说,我写了一个页面降噪的测试类,确实有效,不过对于不同网页,可能结果有偏差,特别网页文字比较少的,例如图片于文字混合的主题正文页面,等等。
package com.test.net;
import java.io.BufferedReader;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import ...
最近在做爬虫时的一点点心德,记录下来。
文档相似度计算,一般常用的就是余弦定理,代表性介绍的文章有:
google黑板报的数学之美系列十二 -- 余弦定理和新闻的分类(这个是网上的一遍原文转载,google的黑板报被河蟹了)
把文档量化然后通过余弦定理计算相似度,主要适用于爬虫的聚类统计,和文档分类,是一种比较简单的分类算法:
/**
* 计算文档相似度
*
* @param doci
* 准备比较的文档
* @param docj
* 样例文档
* @return
*/
public doub ...
简单的做了持久化list的操作,方便网络传输数据,待时日可扩展为持久化队列系统或nosql数据库。为自主开发的的nosql作准备,以此为记:
package com.test.list;
import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.ObjectInp ...
合并排序属于稳定排序的一种,也是一种外部排序。一般用户文件排序,空间复杂度为O(n)
package algorithms;
/**
* 合并排序
* @author heng
* @date 2010-6-26
*/
public class MergeSort {
public static void main(String[] args) {
int[] x = { 10, 2, 33, 44, 0, 55, 1, 8, 7, 6, 20, 19, 35 };
MergeSort ms = new MergeSort();
Syste ...
算法的时间复杂度
2007年12月02日 星期日 01:17
定义:如果一个问题的规模是n,解这一问题的某一算法所需要的时间为T(n),它是n的某一函数
T(n)称为这一算法的“时间复杂性”。
当输入量n逐渐加大时,时间复杂性的极限 ...
广州到现在还是一个大工地,每个晚上都在整,嘈得没办法睡觉~~
可恶,这样下去怎么搞亚运!
(javaeye写好的东西能不能不发布出去~)
循环链表
package algorithms;
/**
* 链表
* @author henry
* @date 2010-06-04 1:06:22
*/
public class MyLinkedList {
private static MyNode myNode;
private static int size = 0;
public MyLinkedList() {
// TODO Auto-generated constructor stub
myNode = new MyNode();
}
/**
* ...
二分查找,和快排。过几天比较下快排和插入排序,两个的效率。
package algorithms;
/**
* 快排,递归二分查找
* @author henry
* @date 2010-06-04 1:04:10
*/
public class RbSearch {
public static int[] a = { 11, 22, 44, 5, 0, 3, 9, 10, 45 };
/**
* 二分查找
*
* @param left
* @param middle
* @param right
* @par ...
/**
* Returns a DocIdSet with documents that should be
* permitted in search results.
*/
@Override
public DocIdSet getDocIdSet(IndexReader reader) throws IOException {
final TermEnum enumerator = query.getEnum(reader);//把过滤好的数据倒排出来
try {
// if ...
优先队列的java实现
注:当时写好之后忘了检查,这个优先队列有点缺陷~~~嘻嘻,不过我在工作环境中已经作了修改
package test;
import java.util.Comparator;
/**
* @作用:优先队列
* @author henry
* @date 2010-4-30
*/
public class PriQueue<E> {
private static int DEFAULT_CAPECITY = 11;
private Object[] objs;
private Comparator<? su ...
A highly scalable, eventually consistent, distributed, structured
key-value store.
http://incubator.apache.org/cassandra/Data Presentations
Cassandra Sigmod