`
lmx800
  • 浏览: 29840 次
  • 来自: ...
文章分类
社区版块
存档分类
最新评论
文章列表
在讨论Xerdoc DSearch的架构的时候,我们就讨论决定采用Eclipse Plugin Framework,可惜那时Eclipse Plugin Framework和SWT以及其它耦合比较大,因此,决定借鉴Eclipse Plugin Framework的思想,来实现一个自己的轻量级的Plugin Framework。 一晃已经过去快一年了,其实非常早就想把自己研究Eclipse Plugin Framework的心得写下来,米嘉也一再催促,不过一直比较懒,觉着这个题目实在要写的太多,于是一直拖着。后来想想,真的应该早点儿把自己的一些粗糙想法写出来,即是对自己的一个总结,也能对其他人有些 ...
FAQ How do I make my plug-in dynamic aware? From Eclipsepedia Dynamic awareness requires extra steps that were not required prior to the introduction of dynamic plug-ins. Dynamic awareness requires that you remove all references to classes defined in other plug-ins when those plug-ins are r ...
引言 ---实时操作系统的使用,能够简化嵌入式系统的应用开发,有效地确保稳定性和可靠性,便于维护和二次开发。 μC/OS-II是一个基于抢占式的实时多任务内核,可固化、可剪裁、具有高稳定性和可靠性,除此以外,μC/OS-II的 ...
引言 随着现代计算机技术的飞速发展和互联网技术的广泛应用,从PC时代过渡到了以个人数字助理、手持个人电脑和信息家电为代表的3C(计算机、通信、消费电子)一体的后PC时代。后PC时代里,嵌入式系统扮演了越来越重要的角色,被广泛应用于信息电器、移动设备、网络设备和工控仿真等领域。 嵌入式系统是以嵌入式计算机为核心,面向用户、面向产品、面向应用,软硬件可裁减的,适用于对功能、可靠性、体积、成本、功耗等综合性能有严格要求的计算机系统。随着嵌入式系统的广泛应用,传统的前/后台程序开发机制已经不能满足日益复杂和荷记得的实现要求,因而现场常常采用嵌入式产时操作系统PROS(Real Time Operatio ...
一、搜索引擎技术/动态资源 <一>、综合类 1、卢亮的搜索引擎研究    [URL=http://www.wespoke.com/][/URL]http://www.wespoke.com/ 卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"([URL=http://booso.com/][/URL]http://booso.com/),好像现在已经停止开发了,目前他服务于博客网。在他的这个blog上可以了解许多搜索引擎开发的技术和经验,值得持续关注。 2、laolu\'blog   有不少来自国外的关于搜索引擎方面的资料,偏重于资料和数字 3、哈斯日志 ...
A case study in writing an open source search engine Nutch Search engines are as critical to Internet use as any other part of the network infrastructure, but they differ from other components in two important ways. First, their internal workings are secret, unlike, say, the workings of the DNS (doma ...
续接《Nutch爬虫实验运行及抓取数据分析(一)》: 在分析了WebDB之后,下面我们继续分析Nutch爬虫在对实验网络抓取之后其它的结果文件内容。         Segments         Crawler在抓取中共生成了三个segment,分别存放于segments文件夹下的以时间戳为文件夹名的三个子文件夹下面。每个segment代表Crawler的一次“产生/抓取/更新”循环。Nutch中提供了如下的命令可以清晰的看到segments的简介:         bin/nutch segread -list -dir crawl-tinysite/segments/ 命令结果如下 ...
为了更深入地对Nutch爬虫进行了解,我们需要运行一个实际的抓取过程并对这个过程中的细节进行记录,对抓取生成的结果文件进行内容分析。首先你需要下载Nutch程序并搭建起可以令其运行的平台,这在网上都有详细的说明资料,我就不赘述了。我们需要做的第一步就是建立起一个实验用的Web站点,这个站点只包含了四个网页。图1描述了这四个网页之间的链接关系,并且C网页和C-dup网页的网页内容是相同的。   图1 实验站点结构图   我们首先需要设置种子URL,我们设置A网页为爬虫起始抓取网页。命令如下: echo 'http://keaton/tinysite/A.html' > urls   另 ...
利用Java进行略显底层应用开发的时候,其IO和多线程部分是两个比较大的难点。这篇文章对IO系统的概括条理很是清晰,有助于让你跳出Java像洋葱一样层层包括的IO迷宫。 1. stream代表的是任何有能力产出数据的数据源,或是任何有能力接收数据的接收源。在Java的IO中,所有的stream(包括Input和Out stream)都包括两种类型:
1.介绍   NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。   文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。 块的查找以及数据在网络上传输等细节由NDF ...
前几天读到google研究员吴军的数学之美系列篇,颇有感触。而恰好自己前段时间做了个基于统计语言模型的中文切分系统的课程项目,于是乎,帖出来与大家共同学习。 分词技术在搜索引擎,信息提取,机器翻译等领域的重要地位与应用就不敖述了。步入正题:)   <!--[if !supportLists]-->一、 <!--[endif]-->项目概述   本切分系统的统计语料是用我们学校自己开放的那部分,大家可以在 这里 下载,中文字符约184万,当然这都是已切分好了的,可以用此建立一个比较小的语料库。本系统我主要分下面四个步骤完成: <!--[if !supportLists ...
在windows下 跑nutch  crawl必须使用cygwin,没办法的事情,目前nutch只有shell脚本驱动,这多多少少给windows开发者带来一些麻烦,虽然通常情况下,java应用总会部署在unix机器上,即使如此,对于众多在windows上开发 java 应用的开发者来说,不需要装什么其他东西,直接在window环境中就能跑 nutch  crawl显得更省力,下面将nutch-0.7.1 bin目录下的nutch shell 脚本直接转换成ant脚本,nutch玩家直接将ant脚本放在nutch-0.7.1下直接运行即可,当然你应该根据你的需求设置一些脚本元素 <p ...
当某个插件需要被加载时, Nutch 会加载所有插件的相关接口到缓存,此后每个插件需要实例的时候,根据相关接口和相关接口实现实例在缓存内的记录,使用反射实现一个实例并返回,下面以 QueryFilter 的所有插件被加载例子进行说明。   具体代码参看org.apache.nutch.seacher.QueryFilters<init> ( 1 )当第一次需要得到 QueryFilter 的一个子类的实例时,使用下面这句话试图获得所有的实例:   this.queryFilters = (QueryFilter[]) conf.getObject(QueryFilter.cl ...
21世纪是信息的时代,也是网络的时代。不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时,也容易使人在查询自己所需的有用的相关信息时陷入 迷茫。搜索引擎正是为了满足人们网络信息搜索应运而生的网络工 ...
Google 成功的搜索引擎幕后的技术英雄非常简单:解决 PC 崩溃问题。      美国加利福尼亚州伯林格姆当地时间本周三,Google 负责技术和运营的副总裁 Urs Hoelzle 在 EclipseCon 会议上透露了 Google 数据中心运行的一些秘密。许多 ...
Global site tag (gtag.js) - Google Analytics