`
billy_zh
  • 浏览: 61725 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
出处: http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Update ),转化链接(Invert Links)一直到建立索引(Index)都是采用MapReduce来完成的 ...
出处: http://hi.baidu.com/shirdrn/blog/item/a4934f116b575018b8127b72.htmlorg.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfiguration类,我认为有必要提到Hadoop的Configuration类,即org.apache ...
出处:http://hi.baidu.com/shirdrn/blog/item/5d24ef2298e3eca24623e887.html在对Nutch抓取工作流程分析中,已经简单地提及到了inject操作,如下所示: inject操作调用的是nutch的核心包之一crawl包中的类org.apache.nutch.crawl.Injector。它执行的结果是:crawldb数据库内容得到更新,包括URL及其状态。 inject操作主要作用可以从下面3方面来说明: (1) 将URL集合进行格式化和过滤,消除其中的非法URL,并设定URL状态(UNFETCHED),按照一定方法 ...
出处: http://hi.baidu.com/shirdrn/blog/item/b7de0813a865a8d6f7039e18.htmlNutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程序,通过阅读org.apache.nutch.crawl.Crawl类的源代码来了解Nutch是如何根据接收的命令行进行配置及其启动的。 org.apache.nutch.crawl.Crawl类的主函数如下所示: // 应该知道,Nutch查找文件系统是 ...
  服务定义及启动 <mbean code="org.jboss.naming.NamingService"       name="jboss:service=Naming"       xmbean-dd="resource:xmdesc/NamingService-xmbean.xml">   <attribute name="CallByValue">false</attribute>   <attribute name="Port">109 ...
JBoss4采用JMX作为它的核心框架,JMX构成了一个服务总线体系,所有对服务的调用都通过此总线进行分发。   MbeanServer 下面是一个MbeanServer的关系图 从图中可以看出,MBeanServer持有一个MBean注册表,所有的MBean都必须登记到注册表中,   一个服务操作的执行过程 下图是一个服务操作的执行序列图    XMBean XMBean是Xml MBean的缩写,即通过xml文件描述的MBean,下面是jboss-service.xml中JNDIView的mbean定义.    <mbean code="org.jboss.naming.JN ...
jboss核心启动就是完成对jmx实现的初始化,在没有深入研究jmx的实现之前,我们可以将jmx看成一个类似hashtable的东西,通过给定一个ObjectName, 就能取得相应的对象。   step 1  org.jboss.Main   main.boot(args)    1. 设置HOME_URL;  2. 创建ServerLoader    ServerLoader loader = new ServerLoader(props);  3. 添加boot libs、endorsed jars、jmx libs、concurrentlib和 extra libs;  4. 装载S ...
本文将尝试解答以下几个问题:1. JBoss5内核是如何部署的?2. JBoss5部署体系发生了哪些变化?3. 部署单元怎么被指定的deployer部署?4. 热部署是如何实现的? 一、JBoss5内核的部署 JBoss5的内核是重新设计的Microcontainer,定制了一个ProfileServiceBootstrap用于启动Microcontainer。bootstrap启动后,通过BasicXMLDeployer布署conf/bookstrap-beans.xml在jboss5中使用XmlBinding组件解析bootstrap-beans.xml,xmlbinding组件通过sche ...
在Seam Framework中,Interceptor完成简单的AOP功能,本文分析Interceptor的处理流程。 在创建Seam组件的Component类时,有一段初始化Interceptor的代码: if ( interceptionEnabled ) { initInterceptors(); } 不过可以通过在Seam组件上使用@BypassInterceptors注解以禁止使用Interceptor. Component.initInterceptors() initDefaultInterceptors(); // 初始化默认的Intercep ...
本文讲述Seam组件的初始化和实例化过程。 初始化seam组件 SeamListener.contextInitialized(...)   new Initialization(servletContext).create().init(); Initialization.create()   StandardDeploymentStrategy.scan();   通过UrlScanner 扫描包含 seam.properties, META-INF/seam.properties 或 META-INF/components.xml的文件夹和jar文件。     Componen ...
Microcontainer将是彻底的反转控制(IoC),依赖注入的轻量容器,允许开发人员通过XML配置POJO,这些POJO有自己的生命周期,能够独立作为服务(Service)使用,更重要是它不在依赖JBoss应用服务器了,可以成为组件嵌入到任何系统。 欢迎交流, [url=http://blog.cchensoft.com/down/JBoss MicroContainer分析及应用.pdf]JBoss MicroContainer分析及应用[/url]
<div> <script type="text/javascript"><!-- google_ad_client = "pub-7593383990029668"; google_ad_width = 728; google_ad_height = 90; google_ad_format = "728x90_as"; google_ad_type = "text_image"; //2007-06-29: yq-首页上方通栏 google_ad_channel = "69 ...
portlet.xml portlet定义描述文件,它描述portlet的类型,支持Mode, preferenes和role等,遵循JSR168标准实现,以便于移植(需要针对性的做一些小改过)。 下面是一个简单的定义:  〈portlet〉   〈portlet-name〉2〈/portlet-name〉   〈display-name〉My Account〈/display-name〉   〈!-- portlet的实现类 --〉   〈portlet-class〉com.liferay.portlet.StrutsPortlet〈/portlet-class〉   〈init-param ...
一、图片显示 启动liferay或浏览liferay官方网站,查看任一图片的链接可看到如下形式的url: http://www.liferay.com/image/journal/article?img_id=FRONT-PAGE-NEWS-FEATURES.image1&version=1.0 看到这样的url, 大概都会猜想图片数据是否存在数据库中,事实确是如此。 在web.xml中可以找到image的servlet映射  <servlet></servlet>  〈servlet〉     〈servlet-name〉ImageServlet〈/servl ...
  本文介绍如何以外部war应用的方式向liferay portal集成portlet, 还是以sample-jsp-portlet为例来说明。 一,portlet如何被liferay portal调用? 在web-xml定义中,可以看到这样的一个servlet定义:    〈servlet〉   〈servlet-name〉sample_jsp_portlet〈/servlet-name〉   〈servlet-class〉com.liferay.portal.kernel.servlet.PortletServlet〈/servlet-class〉   〈init-param〉    〈p ...
Global site tag (gtag.js) - Google Analytics