网络蜘蛛基本原理

博客分类：

Java

网络蜘蛛基本原理关键字: 网络蜘蛛爬虫 spider 网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。　　对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，从目前公布的数据来 ...

2009-03-12 21:31
浏览 2351
评论(1)

正确使用不同版本的MSXML

博客分类：

DOM

Office Microsoft XP OS Security

http://www.cnblogs.com/mjgforever/archive/2007/08/31/877076.html 前言微软有很多MSXML的版本，如Msxml2.DOMDocument.6.0、Msxml2.DOMDocument.5.0、Msxml2.DOMDocument.4.0等。在浏览器中如何运用这些版本显得非常必要。常见的错误用法： if (Web.Application.get_type() == Web.ApplicationType.InternetExplorer)

2009-02-25 19:27
浏览 3027
评论(0)

XML DOM 初学者指南

博客分类：

DOM

XML VB Microsoft 数据结构 Sinatra

XML DOM 初学者指南 http://www.yellowsheepriver.com/memberarea/infor/php/html/001/03html/001/0006.htm 总述：本文主要讨论如何利用XMLDOM访问和维护XML文档，该XMLDOM由Microsoft 解析器实现。简介

2009-02-25 18:51
浏览 1221
评论(0)

利用VC++与MSXML解析XML文档

博客分类：

DOM

VC++XML 编程 ASP VB

http://www.xml.org.cn/dispbbs.asp?BoardID=11&id=23546&replyID=10134&star=2&skin=0 一、文档对象模型（DOM）　　DOM是Document Object Model（文档对象模型）的简称，是对XML文档进行应用开发、编程的应用程序接口（API）。作为W3C公布的一种� ...

2009-02-25 18:43
浏览 2907
评论(0)

Heritrix1.14.1在Eclipse下的配置总结（续）

博客分类：

Java

Eclipse maven 浏览器 XML

前面做了一个Heritrix1.14.1在Eclipse下的配置总结，那种配置方法虽然可以在Eclipse把Heritrix运行起来，但是存在在WUI下建立JOB时，存在“Modules界面不能改变选择项”的问题。　　因此又试了一下，如果能够按以下方法配置，即可正常启动，并且不再发生上面提到的问题。简要说明如下：　　１、下载heritrix-1.14.1-src.zip和heritrix-1.14.1.zip两个压缩包，并解压，以后分别简称SRC包和ZIP包；　　２、在Eclipse下新建Java项目，取名Heritrix.1.14.1；　　３、复制SRC包下面src/java文件夹下o ...

2008-12-01 19:50
浏览 1101
评论(0)
论坛回复 / 浏览 (0 / 4102)

解决ubuntu耳机与音响控制问题

博客分类：

Linux

Ubuntu Linux

前几天，装上了ubuntu8.10，感觉很不错，有一点很不明白，就是明明是插上耳机的为什么音响里面还有声音，这个问题一直困扰了我好几天，由于是在实验室怕打扰其他同学，也不好调试，今天终于弄好了，原来很简单：只要关掉（可能应该是打开）声音开里面的Headphone Jack Sence就好了。双击任务栏小喇叭－＞设备第一项－＞开头选项板－＞Headphone Jack Sence打勾！如果没有该选项，在面板的首选项里找到该选项打勾就好了！可能只能我这样第一次用Linux的人会遇到这样的问题吧：）

2008-11-18 20:00
浏览 4729
评论(0)

Heritrix1.14.1在Eclipse下的配置总结

博客分类：

Java

Eclipse maven XML 工作

今天终于把Heritrix启动起来了，在此做些总结。很长时间就想试试这个强大的爬虫了，但是经过多次在命令行里按照网上的各位大侠的方法都失败，不知道为什么，今天还试了一下1.12.1和1.14.1两个版本的，都是提示密码文件的要设成单用户并只读，我已经如此设置了安全标签，但仍不能解决问题，所以决定在Eclipse里面试一下，多次失败后，终于成功启动了Heritrix！下面简要列一下，其实很简单： 1、在Eclipse下新建一个项目。（哪一个版本应该无所谓吧，JDK1.5）； 2、将1.14.1版的Heritrix两个.zip文件下载并解压到临时目录（he ...

2008-11-05 16:36
浏览 1547
评论(0)
论坛回复 / 浏览 (0 / 4425)

主题：使用开源组件搭建搜索引擎

博客分类：

Linux

搜索引擎 lucene Apache HTML REST

//http://www.iteye.com/topic/93119 在开发中小型搜索引擎的过程中，我使用由Java开发的开源软件：jspider,htmlparser,lucence,IKAnalyzer，下面我一一道来。 lucence很著名啦，不必多说，我写的这个引擎就是在它自带的demo基础上重构的。 jspider顾名思义，是一个用Java开发的爬虫。 htmlparser是解析html页面的，因为lucene自带的html解析器不够健壮，所以用了这个。 IKAnalyzer是为lucence定做的中文分词组件，在使用中我发现效果不错。具体的编码下次再说吧，呵呵接着 ...

2008-11-04 08:40
浏览 1414
评论(0)

How to get IOleSite interface of the WebBrowser in

Windows Security Microsoft C C++

How to get IOleSite interface of the WebBrowser in an ActiveX control //From http://www.cnblogs.com/jonnyyu/archive/2004/02/14/1248.html //based on Q172763 HOWTO: Retrieve the Top-Level IWebBrowser2 Interface from an ActiveX Control using System; using System.ComponentModel; using System.Wi ...

2008-11-03 20:00
浏览 1451
评论(0)

Spring的jar包解析

博客分类：

Java

Spring AOP 框架 MVC iBATIS

Spring的jar包解析关键字: spring的jar包解析摘自: http://heilwolf.iteye.com/blog/171387 下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs 目录下是相关的文档，包括有Spring api 的javadoc、reference 参 ...

2008-10-19 15:47
浏览 1395
评论(1)

垂直搜索引擎

搜索引擎互联网 Google 百度数据结构

来源：http://www.blogjava.net/zhouxing/archive/2007/12/14/167864.html 垂直搜索引擎垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式，通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”，且具有行业色彩，相比较通用搜索引擎的海量信息无序化，垂直搜索引擎则显得更加专注、具体和深入。垂直搜索引擎能否赢得市场？垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页，而是范围极为缩小、极具针对性的具体信息。因此，特定行业的用户 ...

2008-10-17 15:10
浏览 1416
评论(0)

heritrix的启动与设置收藏

XSL 配置管理 XP 脚本工作

heritrix的启动与设置收藏新一篇: EPC901安装XP | 旧一篇: Heritrix使用笔记——Heritrix运行脚本转自http://hi.baidu.com/syimiaoa/blog/item/999e29f7934cdd26720eec84.html，很好的介绍了heritrix的启动与设置初步学习了Heritrix，这个网络小爬虫，以下� ...

2008-10-17 14:43
浏览 2754
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

网络蜘蛛基本原理

正确使用不同版本的MSXML

XML DOM 初学者指南

利用VC++与MSXML解析XML文档

Heritrix1.14.1在Eclipse下的配置总结（续）

解决ubuntu耳机与音响控制问题

Heritrix1.14.1在Eclipse下的配置总结

主题：使用开源组件搭建搜索引擎

How to get IOleSite interface of the WebBrowser in

Spring的jar包解析

垂直搜索引擎

heritrix的启动与设置收藏

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>