- 浏览: 24912 次
- 性别:
- 来自: 辽宁
最新评论
-
blue3377:
上面的代码 ,能用不哦?
网络蜘蛛基本原理 -
dayang2001911:
...
Spring的jar包解析
文章列表
网络蜘蛛基本原理
关键字: 网络蜘蛛 爬虫 spider
网络蜘蛛即Web
Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从
网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网
站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来 ...
- 2009-03-12 21:31
- 浏览 2336
- 评论(1)
http://www.cnblogs.com/mjgforever/archive/2007/08/31/877076.html
前言 微软有很多MSXML的版本,如Msxml2.DOMDocument.6.0、Msxml2.DOMDocument.5.0、Msxml2.DOMDocument.4.0等。在浏览器中如何运用这些版本显得非常必要。 常见的错误用法:
if (Web.Application.get_type() == Web.ApplicationType.InternetExplorer)
- 2009-02-25 19:27
- 浏览 2987
- 评论(0)
XML DOM 初学者指南
http://www.yellowsheepriver.com/memberarea/infor/php/html/001/03html/001/0006.htm
总述:本文主要讨论如何利用XMLDOM访问和维护XML文档,该XMLDOM由Microsoft 解析器实现。
简介
- 2009-02-25 18:51
- 浏览 1188
- 评论(0)
http://www.xml.org.cn/dispbbs.asp?BoardID=11&id=23546&replyID=10134&star=2&skin=0 一、文档对象模型(DOM) DOM是Document Object Model(文档对象模型)的简称,是对XML文档进行应用开发、编程的应用程序接口(API)。作为W3C公布的一种 ...
- 2009-02-25 18:43
- 浏览 2875
- 评论(0)
前面做了一个Heritrix1.14.1在Eclipse下的配置总结,那种配置方法虽然可以在Eclipse把Heritrix运行起来,但是存在在WUI下建立JOB时,存在“Modules界面不能改变选择项”的问题。
因此又试了一下,如果能够按以下方法配置,即可正常启动,并且不再发生上面提到的问题。简要说明如下:
1、下载heritrix-1.14.1-src.zip和heritrix-1.14.1.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包;
2、在Eclipse下新建Java项目,取名Heritrix.1.14.1;
3、复制SRC包下面src/java文件夹下o ...
前几天,装上了ubuntu8.10,感觉很不错,有一点很不明白,就是明明是插上耳机的为什么音响里面还有声音,这个问题一直困扰了我好几天,由于是在实验室怕打扰其他同学,也不好调试,今天终于弄好了,原来很简单:
只要关掉(可能应该是打开)声音开里面的Headphone Jack Sence就好了。
双击任务栏小喇叭->设备第一项->开头选项板->Headphone Jack Sence打勾!
如果没有该选项,在面板的首选项里找到该选项打勾就好了!
可能只能我这样第一次用Linux的人会遇到这样的问题吧:)
- 2008-11-18 20:00
- 浏览 4692
- 评论(0)
今天终于把Heritrix启动起来了,在此做些总结。
很长时间就想试试这个强大的爬虫了,但是经过多次在命令行里按照网上的各位大侠的方法都失败,不知道为什么,今天还试了一下1.12.1和1.14.1两个版本的,都是提示密码文件的要设成单用户并只读,我已经如此设置了安全标签,但仍不能解决问题,所以决定在Eclipse里面试一下,多次失败后,终于成功启动了Heritrix!
下面简要列一下,其实很简单:
1、在Eclipse下新建一个项目。(哪一个版本应该无所谓吧,JDK1.5);
2、将1.14.1版的Heritrix两个.zip文件下载并解压到临时目录(he ...
//http://www.iteye.com/topic/93119
在开发中小型搜索引擎的过程中,我使用由Java开发的开源软件:jspider,htmlparser,lucence,IKAnalyzer,下面我一一道来。
lucence很著名啦,不必多说,我写的这个引擎就是在它自带的demo基础上重构的。
jspider顾名思义,是一个用Java开发的爬虫。
htmlparser是解析html页面的,因为lucene自带的html解析器不够健壮,所以用了这个。
IKAnalyzer是为lucence定做的中文分词组件,在使用中我发现效果不错。
具体的编码下次再说吧,呵呵
接着 ...
- 2008-11-04 08:40
- 浏览 1373
- 评论(0)
How to get IOleSite interface of the WebBrowser in an ActiveX control
//From http://www.cnblogs.com/jonnyyu/archive/2004/02/14/1248.html
//based on Q172763 HOWTO: Retrieve the Top-Level IWebBrowser2 Interface from an ActiveX Control
using System;
using System.ComponentModel;
using System.Wi ...
- 2008-11-03 20:00
- 浏览 1416
- 评论(0)
Spring的jar包解析
关键字: spring的jar包解析
摘自: http://heilwolf.iteye.com/blog/171387
下载的spring包中文件及各种包众多,在项目中往往只有部分是我们必须的,如果不清楚什么时候需要什么包的话,看看下面就知道了。
aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。
dist 目录下是Spring 的发布包,关于发布包下面会详细进行说明。
docs 目录下是相关的文档,包括有Spring api 的javadoc、reference 参 ...
- 2008-10-19 15:47
- 浏览 1359
- 评论(1)
来源:http://www.blogjava.net/zhouxing/archive/2007/12/14/167864.html
垂直搜索引擎
垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
垂直搜索引擎能否赢得市场?
垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。因此,特定行业的用户 ...
- 2008-10-17 15:10
- 浏览 1374
- 评论(0)