`
文章列表
通过简单的抓取演示,有必要对Heritrix框架的架构进行一些了解。通过搜索相关资料并整合如下。其他相关内容网址: http://blog.sina.com.cn/s/blog_5484ad0d01008gox.html http://guoyunsky.iteye.com/category/82971 http://blog.csdn.net/gris0509/archive/2009/11/15/4812641.aspx Heritrix的架构图如下: 在以上两个博客里,很详细的介绍了Heritrix的结构,可以帮助理解Heritrix的工作原理。个人觉得在理解中最重要的有如下几点: ...
以下三张图片说明了网络爬虫的体系结构。
通过第一篇的Eclipse配置成功Heritrix之后,便可以通过运行 org.archive.crawler.Heritrix.java来启动工程以便进行抓取内容。不过最常用的方法是通过WebUI来进行一系列的配置。 1. 运行Heritrix并通过浏览器访问http://localhost:8080来进行登录 ...
1.读取两个整数,输出它们的和与差 main: ## Get first number from user, put into $t0. li $v0, 5 # load syscall read_int into $v0 syscall # make the syscall move $t0, $v0 # move the number read into $t0 ## Get second number from user, put into $t1. li $v0, 5 # load syscall read_int into $v0 ...
在其他帖子上看到有Eclipse 配置 Heritrix 1.14.4的文章,这里有很多内容是引用自那里。如http://extjs2.iteye.com/blog/699751 不过这里对配置有一些进一步的说明。 Eclipse 配置 Heritrix 1.14.4的配置过程如下: 1. 首先从http://sourceforge.net/projects/archive-crawler/ 中下载 heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip(Windows) 2. 在Eclipse 中创建一个java project的工程(可以命名为He ...
在前面分开的说了下Java.lang.Thread和Java.lang.ThreadGroup。这里说下在java.lang包下其他重要的类及其函数。 附件中是在lang包下的所有类的分类截图。下面就其中比较重要的类进行说明。 1. 封装类 对Java中8种基本数据类型进行了封装,这样使得Java的面向对象思想在基本数据类型上也得到了相应的体现。如: package com.java.lang; public class _BasicType { public static void main(String[] args) { Object o = 2;// Integer ...
ava的System.getProperty()方法可以获取的值 java.version Java 运行时环境版本 java.vendor Java 运行时环境供应商 java.vendor.url Java 供应商的 URL java.home Java 安装目录 java.vm.specification.version Java 虚拟机规范版本 java.vm.specification.vendor Java 虚拟机规范供应商 java.vm.specification.name Java 虚拟机规范名称 java.vm.version Java 虚拟机实现版本 java.vm.ve ...
以下两个事例是执行Windows下的命令或者可执行文件。 // 用Java调用windows系统的exe文件,比如notepad,calc之类 public static void openWinExe() { Runtime rn = Runtime.getRuntime(); try { String command = "notepad"; rn.exec(command); } catch (Exception e) { System.out.println("Error win exec!"); ...
以下是自己做的一些北京大学poj的acm题目,刚刚开始做,做的有些水。不断更新中。 package cn.edu.szpku.poj; import java.math.BigDecimal; import java.util.Scanner; public class _1001 { public static void main(String[] args) { Scanner cin = new Scanner(System.in); while (cin.hasNextBigDecimal()) { BigDecimal R = cin.next ...
1. URL 类 URL 代表一个统一资源定位符,它是指向互联网“资源”的指针。资源可以是简单的文件或目录,也可以是对更为复杂的对象的引用,例如对数据库或搜索引擎的查询。有关 URL 的类型和格式的更多信息,可从以下位置找到:      http://www.socs.uts.edu.au/MosaicDocs-old/url-primer.html 通常,URL 可分成几个部分。上面的 URL 示例指示使用的协议为 http (超文本传输协议)并且该信息驻留在一台名为 www.socs.uts.edu.au 的主机上。主机上的信息名称为 /MosaicDocs-old/url-primer ...
在以后的一段时间内,我打算用Java编写一个类似于NS2或者TinyOS下的Octopus模拟环境。因为这些模拟器使用起来简直是太麻烦了。后来经过对NS的学习发现,写这样的模拟器,简直是一场噩梦,不知道需要多久多久多久。。。 经过 ...
Java中比较丰富的I/O操作,使得Java能够被众多公司接受的一个优势之一。 数据流的概念和技术家奴啊了堆文件I/O的理解、处理以及操作。数据流指一定字节长度和方向的线性有序数据。虽然输入、输出数据都以线性有序字节流的形式存在,但这些数据流的内容可以构成不同文件格式:文本文件、二进制文件、对象文件、压缩文件等等。 Java中的I/0须知道以下内容: 文件的格式、文件内容、数据流方向、文件路径和缓冲。 1.基本知识 stream代表的是任何有能力产出数据的数据源,或是任何有能力接收数据的接收源。在 Java的I/O中,所有的stream(包括Input和Out stream)都包括两种类型: ...
1. TCP链接中的分组交换和状态图。见附件。 (1)建立连接 客户端首先向服务器申请打开某一个端口(用SYN段等于1的TCP报文),然后服务器端发回一个ACK报文通知客户端请求报文收到,客户端收到确认报文以后再次发出确认报文确认刚才服务器端发出的确认报文(绕口么),至此,连接的建立完成。这就叫做三次握手。如果打算让双方都做好准备的话,一定要发送三次报文,而且只需要三次报文就可以了。 可以想见,如果再加上TCP的超时重传机制,那么TCP就完全可以保证一个数据包被送到目的地。 (2)结束连接 TCP有一个特别的概念叫做half-close,这个概念是说,TCP的连接是全双工(可以同时发送和接收 ...
1. Linux下进程的不同状态 创建就绪内核用户睡眠唤醒被抢先僵死进程被创建需要的系统资源已分配进程被内核调用时钟周期结束被调出内核需要的系统资源被占用需要的系统资源可用被高优先级的进程抢先进程即将结束被内核清 ...
1. C 在Linux下编译运行C文件如下(设定有一个hello.c的文件) 在当前目录下(C), # gcc hello.c -o hello # ./hello 在当前目录下(C++) # g++ hello.cc -o hello # ./hello 命令行参数来实现main函数参数的传递 #include<stdio.h> int factorial(int n); int main(int argc, char **argv){ if(argc == 2){ int n = atoi(argv[1]); int result = factor ...
Global site tag (gtag.js) - Google Analytics