`
mr_lonely_hp
  • 浏览: 91160 次
  • 性别: Icon_minigender_1
  • 来自: 湖南
社区版块
存档分类
最新评论

nutch 1.2 war的二次开发 第一步,重新编写首页

阅读更多

nutch的首页,比较难看,实现了一些基本页面,像baidu一样。你如果像对它进行二次开发的话,你就得读一下源码了,然后进行build.xml 重新打包在tomcat里发布了,当然。这里我已经对它进行了读写哈。

nutch 里的页面,是通过xslt 里编写的,在源码src/web/style/nutch-page.xsl 编写,这里有一个xsl格式的源码。这里你应该要读懂它的基本结构,不然会build.xml失败的。所以你要一步一步的试。

基本结构:

<?xml version="1.0"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
version="1.0">
<xsl:output method="html" doctype-public="-//W3C//DTD HTML 4.01 Transitional//EN" />
<xsl:template match="page">
<html>
<xsl:comment>
This page is automatically generated. Do not edit!
</xsl:comment>
<head>
<!-- page title -->
<title>
<xsl:text>你自己定义的title </xsl:text>
<xsl:value-of select="title" disable-output-escaping="yes" />
</title>
<!-- insert style 插入你的样式 -->
<xsl:copy-of select="document('../include/style.html')" />
<!-- specify icon file 引入js包 -->
<script language="javascript" src="../resources/js/navMore-min.js"></script>
<script src="../resources/js/autoComplete-min.js"></script>
<script src="../resources/js/goso-slide-min.js"></script>
<script src="../resources/js/goso-waterMark-min.js"></script>
<script src="../resources/js/helpers-min.js"></script>
<script language="javascript" src="../resources/js/index.js"></script>

<script type="text/javascript">
<xsl:comment>
function queryfocus() {
search = document.search;
if (search != null) { search.query.focus(); }
}
<xsl:text>// </xsl:text>
</xsl:comment>
</script>
</head>
<body class="homeLink" onLoad="queryfocus();">
<xsl:call-template name="body" />
<xsl:copy-of select="document('../include/footer.html')"/>
</body>
</html>
</xsl:template>
<!-- included menu -->
<xsl:template name="subnavi">

</xsl:template>
<!-- /included menu -->
<!-- included body -->
<xsl:template name="body">
你的body
</xsl:template>
<!-- /included body -->
</xsl:stylesheet>

我作了简单的增删,你认真比较,应该能看出它的变化。

这样重新打包部署应该就没有问题了。

分享到:
评论

相关推荐

    nutch-1.2.war

    nutch官方简单案例,请版本是nutch-1.2.war

    nutch1.2 java的project

    Nutch 1.2 是一个开源的Web爬虫项目,基于Java开发,它主要用于抓取互联网上的网页并进行索引。这个项目是Apache Lucene的一部分,提供了完整的搜索引擎解决方案。Eclipse 是一个流行的Java集成开发环境(IDE),在...

    nutch1.2 java project

    Nutch 1.2 是一个开源的网络爬虫项目,基于 Java 编写,用于抓取互联网上的网页并建立索引。这个项目是 Apache Software Foundation 的一部分,它为大规模的数据采集提供了强大的工具。Nutch 1.2 版本相对于早期版本...

    Nutch 1.2源码阅读

    ### Nutch 1.2 源码阅读深入解析 #### Crawl类核心作用与流程概览 在深入了解Nutch 1.2源码之前...对于希望进一步探索搜索引擎原理或开发定制化搜索引擎的应用开发者来说,Nutch提供了一个优秀的起点和丰富的资源库。

    nutch1.2源码

    Nutch 1.2是该项目的一个稳定版本,提供了许多改进和优化,使得它在搜索引擎构建、数据分析等领域具有广泛应用。 一、Nutch概述 Nutch是由Apache软件基金会开发的开源Web爬虫项目,主要用于抓取互联网上的网页并...

    myeclipse8.5导入nutch1.2源码

    ### MyEclipse 8.5 导入 Nutch 1.2 源码的知识点详解 #### 一、背景介绍 Nutch 是一个高度可扩展且开放源代码的网络爬虫项目,由 Apache 软件基金会维护。它不仅能够抓取网页,还能进行全文检索,通常运行在 Linux...

    nutch1.2测试文档

    nutch1.2测试文档

    nutch-1.2.part02

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    Nutch1.7二次开发培训讲义

    ### Nutch 1.7 二次开发培训讲义知识点概览 #### 一、环境搭建与准备工作 **1. 开发环境的选择与配置** - **操作系统:** 二次开发Nutch 1.7时,开发阶段的操作系统选择相对灵活,只要确保安装了JDK和Eclipse即可。...

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    本文旨在详细介绍如何在Windows环境下搭建基于cygwin、MyEclipse 8.5、Nutch 1.2及Tomcat 6.0的开发环境,并对每个步骤进行深入解析。 #### 一、Cygwin的配置 **1.1 安装** Cygwin是一款用于Windows系统的Linux...

    nutch-1.2.part06

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch二次开发学习笔记

    我们需要去抓取网页数据的时候我们就用nutch来爬取,我们对它进行二次开发使其更加符合我们的需求

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    将nutch-0.9-war部署到Tomcat服务器上,并对nutch-site.xml进行配置。在运行过程中,发现因jsp文件中的转义字符缺失导致错误,通过对search.jsp、cached.jsp等文件进行修正,解决了这些问题。同时,针对中文乱码问题...

    Nutch搜索引擎培训讲义

    - 提供了丰富的API接口,方便开发者进行二次开发和集成。 5. **用户体验** - 改进了用户界面和交互体验,提供更友好的管理控制台。 #### 四、总结 Nutch是一款强大的开源搜索引擎平台,提供了多个版本以适应...

    nutch部分网页乱码BUG修正

    Nutch是Apache开发的一款开源网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行数据处理。然而,在实际使用过程中,由于编码问题,Nutch可能会出现部分网页乱码的情况。本篇文章将深入探讨这个...

    nutch09war

    有点小问题,学过jsp的应该会,这里不解释了

    Nutch1.7二次开发培训讲义 之 腾讯微博抓取分析

    ### Nutch 1.7 二次开发培训讲义之腾讯微博抓取分析 #### 一、概述 Nutch 是一个开源的网络爬虫项目,它提供了灵活的数据抓取能力,并支持二次开发定制功能。本篇培训讲义主要针对的是如何使用 Nutch 1.7 版本对...

    Nutch插件开发文档

    #### 二、Nutch插件开发基础 为了更好地理解Nutch插件的开发过程,我们需要先了解几个关键的概念: 1. **Pluggable接口**:这是所有扩展点必须实现的一个通用接口,用于确定一个类是否能够作为插件集成到Nutch框架...

Global site tag (gtag.js) - Google Analytics