`
文章列表
最近在做一个大作业,主要是用到Heritrix 1.14.4 + Lucene 3.0.2 主要是兴趣所在,所以之前对Heritrix进行了一些些皮毛的学习,这次的作业要更实质些,对用Heritrix爬下来的那1.5G文件进行索引的建立和搜索的实现。还有自己写下新的排序算法,提高搜索的质量和结果。 其他的先不说,先从Lucene的入门级别开始。 3.0版本是重大的版本,改动很大。在API上做了很多的调整,已经删除了很多之前废弃的方法以及类,并支持了很多Java5 的新特性:包括泛型、可变参数、枚举和autoboxing等。因此,此版本和2.x版本不能兼容,如要使用3.0版本,最好是在新项目中去 ...
布局管理是决定容器中组件的大小和位置的过程。布局管理器(Layout Manager)负责管理容器中组件的布局。它指明了容器中构件的位置和尺寸大小。(由java.awt包提供。下面是比较常用的 几个布局管理器) FlowLayout 流布局管理器 Borde ...
内容:Inverted Index and Retrieval System 1。配置Lucene, 对ccer数据建立索引和查询系统      中文分词模块(IKAnalyzer可选) 2。阅读代码,分析Lucene的ranking算法。写一个简短的报告文档。 3。改进ranking算法,并进行评估,给出一个实验报告。      算法改进可用方法:PageRank Combination, LSI, Language Model, or…      评估指标可用:P@10, MAP, F1, or …      评估方法可用:human judgment or auto compare wit ...
以下是自己用Java写的一个计算器类。 支持科学计数表达式的结果,但不支持在过程中的计算。 支持字符串的数学表达式,包括括号,指数运算,然后最后直接计算。 附件是可以直接运行的jar文件(电脑上需要有JDK环境) packa ...
下面是前三章的习题

概率统计

概率统计中的部分内容 1。乘法公式 P(AB) = P(A) P(B|A) = P(B) P(A|B) 2。全概率公式 3。贝叶斯公式

线性代数

线性代数中的部分内容(待续) 1.逆矩阵 对给定矩阵A,若存在一个矩阵B,满足 AB = BA = I,则称矩阵A可逆,并称矩阵B是A的逆矩阵。 求A的逆阵的方法 [ A | I ] ~ [ I | B ]    ---->  B即是A的逆阵 2.初等变换 (1) 对调矩阵中的任意两行( ...
1.背景知识要求     线性代数,概率论和数理统计     程序设计( Java 或C/C++ ) Web Crawler 的结构(见博客http://hanyuanbo.iteye.com/admin/blogs/779350) 2.基本的,也是最简单的抓取网站的爬虫的算法: 网络爬虫设计时需要注意的一些问题 见附件 3. Web的深入理解: Web 有多大? 选择6个流行的 search engine, 假设它们索引页面之间的 independency Sampling: 通过575个查询对这些SE采样,分析它们之间的overlap 用overlap来估计各个SE所覆盖的 i ...
今天启动Eclipse,告诉我“Failed to create the Java Virtual Machine”。查了查资料,是Eclipse的配置文件需要改下,可能是上次我改过之后出现的问题。主要是改下:launcher.XXMaxPermSize。如下: -startup plugins/org.eclipse.equinox.launcher_1.1.0.v20100507.jar –launcher.library plugins/org.eclipse.equinox.launcher.win32.win32.x86_1.1.0.v20100503 -product o ...
1。 散列函数 对于字符串的散列函数,可以使用下列方式: int hash = 0; for(int i=0;i<s.length();i++){ hash = g * hash + s.charAt(i);//g最好是素数,比如31 } 对于字符串,如果有s1.equals(s2),那么必有s1.hashCode() == s2.hashCode().反则不成立 ...
1。源文件。 package sender; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.InetSocketAddress; import java.net.Socke ...
详见代码。 package com.java.sort; import java.util.Arrays; public class Sort { /** * 冒泡排序 * * @param array */ public static void bubble(int[] array) { for (int i = 0; i < array.length; i++) { for (int j = i + 1; j < array.length; j++) { if (array[i] > array[ ...
要求如下: 内容:crawler和graph link analysis 1。heritrix系统使用 要求:配置、安装Heritrix,抓取指定的网站: http://www.ccer.pku.edu.cn/ 2。heritrix系统代码分析 要求:按Week2的web crawler系统结构,寻找Heritrix系统里面的crawler的下面两个部分:      isUrlVisited,politeness     分析它们的实现技术。 3。搜集web数据的graph link analysis 要求:回答以下问题,并给出方法的说明      这个网站有多少网页?     入度、 ...
最近作业中有个需要用Heritrix抓包的任务,不过抓起来,我真的崩溃了。用我的电脑抓了奖金20个小时,抓了50M。都哭了。不过发现那个active threads项最多只有一个,很多时候都是0。偶表示压力很大。。 怎么搞的?? 听朋友说,加上网上搜资料,终于搞定,原来Heritrix采用HostnameQueueAssignmentPolicy来进行对URL处理。url队列以hostname为key,所有相同key的url放置在同一个队列里面,也就是说同一个host下面的所有url都放在一个队列里面,当线程获取url时候,会将该队列放置到同步池中,拒绝其他线程访问。觉得说的有道理,嘿嘿。按照如 ...
关于SWT和JFace联合开发Java的GUI应用程序,强烈推荐一本书:《The definitive guide to SWT and JFace》。由浅入深的将你带进SWT和JFace的开发中。 1. 需要的Jar包 。如下图: [img] [/img] 附件中有所需要的4个jar包。 2. dll文件进行关联。 想在Windows下运行swt和jface的应用程序,还需要让程序知道本地库文件,让程序知道如何调用本地资源来生成图形化界面。我的做法是: 找到相对应的dll文件,放到项目的某个目录中,然后在VM中设置。如下: 附件中有所需要的lib包。 3. 第一个Hello ...
Global site tag (gtag.js) - Google Analytics