- 浏览: 184611 次
- 性别:
- 来自: 深圳
最新评论
-
不要叫我杨过:
受教了,高手
Heritrix架构分析 -
springaop_springmvc:
apache lucene开源框架demo使用实例教程源代码下 ...
Lucene 3.0.2 使用入门 -
zxw961346704:
值得学习的算法
Java 计算器 -
medicine:
Thread.sleep(1000); 会使线程进入 TIM ...
Java.lang.Thread 和 Java.lang.ThreadGroup -
tangzlboy:
嗯,不错!收藏。
Java 入门
文章列表
最近在做一个大作业,主要是用到Heritrix 1.14.4 + Lucene 3.0.2
主要是兴趣所在,所以之前对Heritrix进行了一些些皮毛的学习,这次的作业要更实质些,对用Heritrix爬下来的那1.5G文件进行索引的建立和搜索的实现。还有自己写下新的排序算法,提高搜索的质量和结果。
其他的先不说,先从Lucene的入门级别开始。
3.0版本是重大的版本,改动很大。在API上做了很多的调整,已经删除了很多之前废弃的方法以及类,并支持了很多Java5 的新特性:包括泛型、可变参数、枚举和autoboxing等。因此,此版本和2.x版本不能兼容,如要使用3.0版本,最好是在新项目中去 ...
布局管理是决定容器中组件的大小和位置的过程。布局管理器(Layout Manager)负责管理容器中组件的布局。它指明了容器中构件的位置和尺寸大小。(由java.awt包提供。下面是比较常用的 几个布局管理器)
FlowLayout 流布局管理器 Borde ...
内容:Inverted Index and Retrieval System
1。配置Lucene, 对ccer数据建立索引和查询系统
中文分词模块(IKAnalyzer可选)
2。阅读代码,分析Lucene的ranking算法。写一个简短的报告文档。
3。改进ranking算法,并进行评估,给出一个实验报告。
算法改进可用方法:PageRank Combination, LSI, Language Model, or…
评估指标可用:P@10, MAP, F1, or …
评估方法可用:human judgment or auto compare wit ...
以下是自己用Java写的一个计算器类。
支持科学计数表达式的结果,但不支持在过程中的计算。
支持字符串的数学表达式,包括括号,指数运算,然后最后直接计算。
附件是可以直接运行的jar文件(电脑上需要有JDK环境)
packa ...
概率统计中的部分内容
1。乘法公式
P(AB) = P(A) P(B|A) = P(B) P(A|B)
2。全概率公式
3。贝叶斯公式
线性代数中的部分内容(待续)
1.逆矩阵
对给定矩阵A,若存在一个矩阵B,满足 AB = BA = I,则称矩阵A可逆,并称矩阵B是A的逆矩阵。
求A的逆阵的方法
[ A | I ] ~ [ I | B ] ----> B即是A的逆阵
2.初等变换
(1) 对调矩阵中的任意两行( ...
1.背景知识要求
线性代数,概率论和数理统计
程序设计( Java 或C/C++ )
Web Crawler 的结构(见博客http://hanyuanbo.iteye.com/admin/blogs/779350)
2.基本的,也是最简单的抓取网站的爬虫的算法:
网络爬虫设计时需要注意的一些问题
见附件
3. Web的深入理解:
Web 有多大?
选择6个流行的 search engine, 假设它们索引页面之间的 independency
Sampling: 通过575个查询对这些SE采样,分析它们之间的overlap
用overlap来估计各个SE所覆盖的 i ...
今天启动Eclipse,告诉我“Failed to create the Java Virtual Machine”。查了查资料,是Eclipse的配置文件需要改下,可能是上次我改过之后出现的问题。主要是改下:launcher.XXMaxPermSize。如下:
-startup
plugins/org.eclipse.equinox.launcher_1.1.0.v20100507.jar
–launcher.library
plugins/org.eclipse.equinox.launcher.win32.win32.x86_1.1.0.v20100503
-product
o ...
1。 散列函数
对于字符串的散列函数,可以使用下列方式:
int hash = 0;
for(int i=0;i<s.length();i++){
hash = g * hash + s.charAt(i);//g最好是素数,比如31
}
对于字符串,如果有s1.equals(s2),那么必有s1.hashCode() == s2.hashCode().反则不成立 ...
1。源文件。
package sender;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.net.DatagramPacket;
import java.net.DatagramSocket;
import java.net.InetSocketAddress;
import java.net.Socke ...
详见代码。
package com.java.sort;
import java.util.Arrays;
public class Sort {
/**
* 冒泡排序
*
* @param array
*/
public static void bubble(int[] array) {
for (int i = 0; i < array.length; i++) {
for (int j = i + 1; j < array.length; j++) {
if (array[i] > array[ ...
要求如下:
内容:crawler和graph link analysis
1。heritrix系统使用 要求:配置、安装Heritrix,抓取指定的网站: http://www.ccer.pku.edu.cn/
2。heritrix系统代码分析 要求:按Week2的web crawler系统结构,寻找Heritrix系统里面的crawler的下面两个部分:
isUrlVisited,politeness
分析它们的实现技术。
3。搜集web数据的graph link analysis 要求:回答以下问题,并给出方法的说明
这个网站有多少网页?
入度、 ...
最近作业中有个需要用Heritrix抓包的任务,不过抓起来,我真的崩溃了。用我的电脑抓了奖金20个小时,抓了50M。都哭了。不过发现那个active threads项最多只有一个,很多时候都是0。偶表示压力很大。。 怎么搞的??
听朋友说,加上网上搜资料,终于搞定,原来Heritrix采用HostnameQueueAssignmentPolicy来进行对URL处理。url队列以hostname为key,所有相同key的url放置在同一个队列里面,也就是说同一个host下面的所有url都放在一个队列里面,当线程获取url时候,会将该队列放置到同步池中,拒绝其他线程访问。觉得说的有道理,嘿嘿。按照如 ...
关于SWT和JFace联合开发Java的GUI应用程序,强烈推荐一本书:《The definitive guide to SWT and JFace》。由浅入深的将你带进SWT和JFace的开发中。
1. 需要的Jar包 。如下图:
[img]
[/img]
附件中有所需要的4个jar包。
2. dll文件进行关联。
想在Windows下运行swt和jface的应用程序,还需要让程序知道本地库文件,让程序知道如何调用本地资源来生成图形化界面。我的做法是:
找到相对应的dll文件,放到项目的某个目录中,然后在VM中设置。如下:
附件中有所需要的lib包。
3. 第一个Hello ...