- 浏览: 634560 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (314)
- 生活 (2)
- c# (37)
- 技术 (3)
- 400电话 (0)
- 400常见问题 (0)
- 400资费 (0)
- html (7)
- css (0)
- 数据库 (7)
- javascript (16)
- php (33)
- asp.net mvc2 (10)
- mysql (9)
- C# 3.0 LinQ (10)
- vs2005或vs2008 (4)
- flash and as3 (7)
- fms (1)
- dedeCMS (11)
- java (33)
- j2me (1)
- swing (1)
- c++ (1)
- jquery easyui (3)
- jquery (5)
- android (29)
- MongoDB (9)
- VtigerCRM (1)
- test (0)
- linux (30)
- nutch (2)
- SqlServer数据库 (2)
- 数据检索 (2)
- java抓取 (11)
- 乐天 (1)
- 淘宝 (1)
- Silverlight4.0 (6)
- sphinx实时索引 (5)
- ecshop (9)
- codeigniter(CI) (3)
- axure6 (1)
- 京东店铺装修教程 (2)
- xpath (1)
- joomla (2)
- bpm (1)
- Bootstrap (2)
- knockout (4)
- ecstore (4)
- css3 (1)
- 微信 (2)
- dede (0)
- soa_edi (1)
- odoo (0)
- web (1)
最新评论
-
骑着蜗牛超F1:
在ie6下报了个stack overflow at line ...
兼容ie6和ie7 的16进制码流在html中显示为图片代码(base64) -
冰之海洋:
好像少了一句代码吧? FloatingFunc.show(th ...
android 一直在最前面的浮动窗口效果 -
yanzhoupuzhang:
连接有问题!
iis7.0官方下载 IIS 7.0(微软Web服务器组件IIS 7.0) 官方(windows 2003,XP,2000) -
whatable:
唉,楼主你都没有搞清楚重量级和轻量级。。。。既然引用了SWT, ...
java swing 内置浏览器打开网页显示flash图表-swt Browser应用 -
yy_owen:
我晕啊,你链接的什么内容额,我要的iis,你链接个视频什么意思 ...
iis7.0官方下载 IIS 7.0(微软Web服务器组件IIS 7.0) 官方(windows 2003,XP,2000)
nutch环境配置在windows系统上必须要安装【Cygwin】。cygwin是一个在windows平台上运行的unix模拟环境。
一、安装jdk
Jdk版本为1.6, 下载地址:
http://www.sun.com/download/
安装路径 :C:\Program Files\Java\jdk1.6.0_23\(安装路径不做硬性要求,可能由于版本不同路径有所区别,请注意该处 )
配置PATH环境变量 ;%JAVA_HOME%\bin;%TOMCAT_HOME%\bin
配置JAVA_HOME环境变量 C:\Program Files\Java\jdk1.6.0_23
配置JAVA_BIN环境变量 C:\Program Files\Java\jdk1.6.0_23\bin
配置CLASSPATH环境变量 %JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar
二、安装Tomcat
版本为5.0 (一定要用Tomcat5.0,如果注意下载了Tomcat6.0,会导致运行时的一些不知名的异常:例如 “Attribute
value details.getValue("url") is quoted with " which must be escaped
when used within the value)
下载地址:
http://tomcat.apache.org/
设置TOMCAT_HOME环境变量 c:\tomcat
3.安装Cygwin.(在windows模拟linux环境)
下载Cygwin
三、准备windows下的Linux虚拟环境,即"Cygwin"
这里我要对Cygwin 多做点文章,因为我感觉我在配置Nutch个环境时,大部分时间还是花在Cygwin上了。首先他不同于一般的软件,不能直接下载到。只能他的一个类似于 下载器的程序去访问Cygwin在网上的镜像,我想不通为什么非要通过这样方式,也许是因为老更新吧,这样维护方便。
第一步 下载 http://www.cygwin.com/setup.exe
只有几K.但是这才开始下载
他有三种下载方式:
- 从Internet上直接安装,这个据说很费时间。
- 下载但不安装。 (推荐这样方法)
- 从本地安装。
下载完成后在运行 setup.exe
选择 【从本地安装】,点击下一步
不用改变直接点击下一步就可以(这个是cygwin要安装到哪里)
选择你在上面下载是制定的cygwin目录点击下一步开始安装。
安装完成后可以单击桌面上的【Cygwin】快捷方程式进行启动,启动后界面如下:
经过上面的过程,Cygwin就安装完成了,待用。
Nutch下载及配置
Nutch下载地址:
http://apache.etoak.com//nutch/
http://apache.etoak.com//nutch/apache-nutch-1.2-bin.zip(这里配置使用的是1.2,最新的是1.3)
Nutch配置:
- 解压Nutch到d:\nutch\nutch-1.2
- 在d:\nutch\nutch-1.2 目录下新建文件夹urls 并在其下面建立文件 urls\nutch.txt,并在nutch.txt中写入要抽取的站点地址如: 将要抓取的网站地址输入,比如http://www.my400800.cn /(注意最后的/一定要有 )
- 打开conf\crawl-urlfilter.txt文件,将
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
改为
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*my400800.cn/(这里也要有/呦 ) - 打开nutch/conf/nutch-site.xml文件,修改<configuration></configuration>为:
<configuration>
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.2</value>
</property>
</configuration> - 开始爬(从上面启动的【Cygwin dos窗口输入如下命令】)
/cygdrive/d/nutch/nutch-1.2/bin/nutch crawl -dir localdownweb -depth 1 -threads 1 topN 10 urls >&/crygdrive/d/nutch/nutch-1.2/ logs/log1.log
crawl:通知nutch.jar,执行crawl的main方法。
urls:存放需要爬行的url.txt文件的目录
-dir sina 爬行后文件保存的位置
-depth 2:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1。
-threads 指定并发的进程 这是设定为 4
-topN :一个网站保存的最大页面数。
会出现如下错误
在上面的目录建立[urls]目录,在目录里面建立 【nutch.txt】,内容为:想抓取的url地址,格式为:http://www.my400800.cn/(后面的反斜杠不要忘记呀)
再次运行上面的命令出现如下窗口,启动成功。
发表评论
-
Java 线程中的Join、wait、notify,sleep
2016-06-22 17:28 4541.wait和notify这两个方法都是Object中的方法 ... -
Java多线程sleep(),join(),interrupt(),wait(),notify()
2016-06-22 17:25 510浅析 Java Thread.join() ... -
Java和C#运行命令行并获取返回值 运行bat文件
2015-08-04 10:45 1332Java运行命令行的例子 import java.io.B ... -
HttpClient的超时用法小记
2012-05-06 08:23 973HttpClient在使用中有两个超时时间,是一直接触 ... -
JDK1.5中的线程池(java.util.concurrent.ThreadPoolExecutor)使用简介
2012-05-05 21:29 792在多线程大师Doug Lea的 ... -
XPath 语法 org.dom4j.Document
2012-02-07 13:12 1333XPath 使用路径表达式 ... -
Nutch命令大全
2011-12-28 15:12 1428Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方 ... -
Nutch1.2搜索引擎使用详解
2011-12-27 17:12 1690Nutch作为一款刚刚诞生 ... -
ECLIPSE java.lang.OutOfMemoryError: PermGen space 错误
2011-12-21 15:03 1120ECLIPSE 最近一段时间经常报错,看了日志,有如下错误信息 ... -
Heritrix 和 Nutch 比较与分析(java开源网络爬虫)
2011-11-15 11:01 7460Heritrix项目介绍 Heritrix工程 ... -
heritrix 下载、安装、配置、以及简单开发
2011-11-04 11:36 1394一、下载: 到www.sourcef ... -
java 如何判断Socket已断开
2011-09-14 13:34 1735最近在开发中遇到一个问题,就是如何判断远端服务器是否已经断开连 ... -
java 程序内存溢出问题查找
2011-04-10 18:00 984这段是时间用java swing做了一个小程序,但是运行一点时 ... -
jtable 隐藏表头标题行
2011-04-08 10:59 3278今天需要把JTable的表头也就是标题行给隐藏掉,在晚上找了一 ... -
java FrameView 启动最大化
2011-03-30 08:49 1535FrameViewzView = new ... -
Swing窗口Linux下不支持最大化问题
2011-03-28 10:15 1003由于最近一直在Linux下工作,今天遇到了Swing窗口不能最 ... -
java 抓取网页内容,可设定代理(HttpURLConnection)
2011-03-11 09:41 1464/* * To change this template, ... -
swing下 改变窗口样式为windows风格(swing控件样式不美观解决方案)
2011-03-02 15:52 2642在windows环境下可以用下面两种方法使窗口显示window ... -
swt Browser 如何打开新url链接地址
2011-02-28 17:27 1712上一篇文章【java swing 内置浏览器打开网页显示fla ... -
java swing 内置浏览器打开网页显示flash图表-swt Browser应用
2011-02-25 16:45 3870今天在网上找了好久如何用在java swing打开网页,从而实 ...
相关推荐
### Nutch 和 Cygwin 在 Windows 系统上的配置指南 #### 一、JDK 安装及环境配置 为了确保 Nutch 能够在 Windows 上正常运行,首先需要安装 Java 开发工具包 (JDK)。以下是安装 JDK 的详细步骤: 1. **下载 JDK**...
- **用途**: 由于 Nutch 的脚本采用 Linux Shell 编写,因此在 Windows 平台上需要 Cygwin 来模拟 Linux 系统环境。 3. **Nutch 1.4** - **下载地址**: [http://nutch.apache.org/](http://nutch.apache.org/) - ...
Cygwin是一个在Windows上模拟Linux环境的开源软件,它提供了许多在Linux环境下才能运行的命令行工具,使得我们能够在Windows系统上执行类似Linux的操作,这对于需要在Windows系统中运行Nutch这样的基于Unix/Linux的...
* 在安装完成后,需要配置 Cygwin 的环境变量,将 Cygwin 的 bin 目录添加到系统的 PATH 变量中。 * 之后,需要安装 Cygwin 的一些必要的包,例如 openssh、openssl、curl 等。 3. 安装 Nutch 1.7 安装 Nutch 1.7 ...
因为 Nutch 原生设计在 Linux 环境下运行,所以在 Windows 上配置 Nutch 需要一些额外的步骤。主要有两种方法: - **在 Eclipse 中使用 Nutch**: - 创建一个新的 Java 项目。 - 导入 Nutch 源码,将 `src\java`...
Cygwin是一个在Windows上运行的类Unix环境,使得用户能够在Windows系统中执行Linux命令。首先,你需要从官方网址下载Cygwin的ISO镜像文件,并使用虚拟光驱软件加载。双击ISO中的Setup文件启动安装向导。在向导中,...
在Windows 7环境下配置Apache Nutch是一个相对复杂的过程,因为它主要设计用于Linux操作系统。Nutch是一个开源的网络爬虫框架,常用于构建搜索引擎。以下是在Windows 7中配置Nutch的详细步骤: 首先,我们需要安装...
安装过程中,首先需要在Windows系统上安装Cygwin,安装完成后,需指定JDK的安装路径,这通常是在环境变量中设置NUTCH_JAVA_HOME。在Cygwin的终端中,通过设置环境变量来实现: ``` export NUTCH_JAVA_HOME=/path/to/...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...
1. 操作系统:Nutch可以在Linux、Unix或Mac OS X等类Unix系统上运行,Windows系统也可以通过Cygwin模拟。 2. Java环境:Nutch需要Java Development Kit (JDK) 1.8 或更高版本,确保`JAVA_HOME`环境变量指向正确的JDK...
- 解决方案可能包括修改Nutch或Hadoop的配置文件,例如`core-site.xml`,以适应Windows环境,或者在Windows上安装支持这些Unix命令的工具,如Cygwin。 4. **Nutch配置文件**: - Nutch运行还需要配置一系列的配置...
- 如果在Windows环境下使用Nutch,文档中提到的安装Cygwin并将`F:\cygwin\bin`添加到系统环境变量中,是为了确保Nutch能够在Windows平台上正常运行。Cygwin提供了一系列类似于Linux的工具,这对于Nutch在Windows...
Cygwin是一款用于Windows系统的Linux模拟环境,它能够让我们在Windows上使用许多原本只在Linux环境下才可用的工具和命令。对于Nutch这样的开源爬虫框架来说,其默认支持的是Linux环境,因此我们需要通过安装Cygwin来...
3. **Cygwin**:用于模拟 Linux 环境,在 Windows 上提供 shell 和工具集。 4. **Nutch**:选择版本为 0.7.2。 #### 三、软件下载地址 - **JDK**: [http://java.sun.com/javase/downloads/index.html]...
综上所述,Nutch 1.4在Windows下的安装配置涉及多个环节,包括Java环境搭建、Cygwin的安装、Nutch与Solr的下载与配置等,每一步都需仔细操作以确保系统正常运行。通过以上步骤,用户不仅能够实现对目标网站的自动化...
【Nutch安装配置】是关于开源搜索引擎项目Nutch的详细操作流程,主要涉及源码编译、环境搭建和系统配置等内容。Nutch是一款基于Java的搜索引擎框架,常用于大数据环境下的网页抓取、分析和索引。在进行Nutch安装配置...