- 浏览: 91120 次
- 性别:
- 来自: 湖南
最新评论
-
leibnitz:
你好,为什么在全网抓取时不需要执行dedup命令呢?
nutch全网爬行的底层命令 -
wanggang0323:
这个网页的抽取有进展了吗?是否可以交流一下。qq3928754 ...
模板抽取思路的分析
文章列表
Java中没有指针,所以也没有引用传递了,仅仅有值传递不过可以通过对象的方式来实现引用传递 类似java没有多继承 但可以用多次implements 接口实现多继承的功能
值传递:方法调用时,实际参数把它的值传递给对应的形式参数, ...
2进制CPU使用,8进制很少见,10进制适合人类使用,16进制适合编译器和底层程序员使用,希望对你有所帮助!
public class Sun1 {
public static void main(String[] args) {
System.out.println(Integer.toHexString(20)); //十进制转成十六进制
System.out.println(Integer.toBinaryString(20));//十进制转成二进制
System.out.println(Integer.toOctalString(20));//十进制转成八进制
Sys ...
生成jar包的两种方式:
1、第一种 选择类生成Jar包
Java代码 收藏代码
1. jar cvf classes.jar Foo.class Bar.class
jar cvf classes.jar Foo.class Bar.class
-jar 执行命令
-cvf 创建新的归档文件,生成详细输出,指定归档文件名
-classes.jar 给生成的包起名字
-Foo.class Bar.class 选择的包
2、第二种 将文件夹内class和子文件夹内的class 打包到jar
Java代码 收藏代码
1. jar cvfm classes.jar m ...
1
假设你是windows平台,你安装了J2SDK,那么现在你从cmd控制台窗口进入J2SDK安装目录下的bin目录,然后运行java命令,出现如下结果,这些就是包括java.exe工具的和JVM的所有命令都在里面。这里面告诉你可以用 -Dxxxx=xxx 设置参数
即:-D<name>=<value>
set a system property
----------------------
D:\j2sdk15\bin>java
Usage: java [-options] class [args...]
...
先进入文件目录下编译文件
例如:进入到目录cd D:\Work\Learn\JavaSE\src\net\multiTalk
编译该目录下的文件:Javac –Encoding UTF-8 A.java B.java C.java D.java
运行该文件
如果该class文件位于D:\Work\Learn\JavaSE\src\net\multiTalk 目录下,该Java文件的包名为package net.multiTalk,则退回到D:\Work\Learn\JavaSE\src\目录下,然后运行java net.multiTalk.XXX
或者在任意目录下输入指令java – ...
分为以下几个部分:
1 解析成Dom 通过sax,
DocumentFragment root;
//把网页内容content转化byte
byte[] contentInOctets = content.getContent();
//SAX解析抽取外部信息
InputSource input = new InputSource(new ByteArrayInputStream(
contentInOctets));
//设置编码
input.setEncoding(encoding);
root = parse(input);
2 通 ...
- 2011-03-05 00:43
- 浏览 1991
- 评论(0)
今天看到一篇文章,关于页面转化成xml的方式,突然想到nutch的模板匹配问题,因为第一个页面,写匹配方式,及写一些与此同时过滤真的很没有效率,所以我打算,扩展nutch的htmlParser这个插件,把nutch只当作一个爬虫,而索引这块先不考虑。考虑采用自己建立solr服务器来建立索引。
方案:动态代码-->html-->转化成xml或xhtml --> XSLT提取
然后通过xslt模板来匹配需求采集的部分。这样如果有目标站点,则可以通过编写xslt模板来采集相关数据。跑模板的同时建立数据库关联,直接把数据存入数据库中。
思路已经形成,接下来时间就准备 ...
- 2011-03-03 00:20
- 浏览 1118
- 评论(1)
最近在研究nutch,找到了关于使用底层命令进行全网爬行的资料。
首先获得网址集,使用http://rdf.dmoz.org/rdf/ 目录下的content.example.txt 文件做测试,建立文件夹dmoz
命令:bin/nutch org.apache.nutch.tools.DmozParser content.example.txt >dmoz/urls
注射网址到crawldb数据库:
命令:bin/nutch inject crawl/crawldb dmoz
创建抓取列表:
命令:bin/nutch generate crawl/crawldb craw ...
- 2011-02-25 13:13
- 浏览 2460
- 评论(1)
最近在研究nutch,整理了一下关于读取资源数据的命令。
1.查看crawldb数据库:bin/nutch readdb url/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。
查看每个url地址的详细内容,导出数据:bin/nutch readdb url/crawldb/ -dump crawldb(导出的地址)
查看具体的url,以163为例:bin/nutch readdb url/crawldb/ -url http://www.163.com/
2.查看linkdb数据库的链接情况:bin/nutch readlinkdb url/lin ...
- 2011-02-25 13:12
- 浏览 828
- 评论(0)
二次开发的时候,需要重点对Nutch的界面及界面显示数据进行适当的调整。
目前据我了解到的要修改的地方有以下几点:
1。搜索页面页头页尾log修改、选项卡乱码显示问题。
2。显示查询结果行 添加查询用时
3。查询结果摘要长度修改,默认只有20个字符。
4。网页快照乱码修改,以及后面的(评分详解) (anchors) (more from news.qq.com)菜单项修改。
5。show all hits修改
6。分页功能修改,源码只有下一页功能。
7。文本高亮显示。
改变摘要长度,在文件nutch-site.xml中
<conf ...
- 2011-02-25 00:30
- 浏览 1038
- 评论(0)
<%@ page session="false" contentType="text/html; charset=UTF-8"
pageEncoding="UTF-8" import="java.io.*" import="java.util.*"
import="java.net.*" import="javax.servlet.http.*"
import="javax.servlet.*" import ...
- 2011-02-25 00:29
- 浏览 1696
- 评论(0)
<%@ page session="false" contentType="text/html; charset=UTF-8"
pageEncoding="UTF-8" import="java.io.*" import="java.util.*"
import="java.net.*" import="javax.servlet.http.*"
import="javax.servlet.*" import=" ...
- 2011-02-25 00:27
- 浏览 1154
- 评论(0)
nutch的首页,比较难看,实现了一些基本页面,像baidu一样。你如果像对它进行二次开发的话,你就得读一下源码了,然后进行build.xml 重新打包在tomcat里发布了,当然。这里我已经对它进行了读写哈。
nutch 里的页面,是通过xslt 里编写的,在源码src/web/style/nutch-page.xsl 编写,这里有一个xsl格式的源码。这里你应该要读懂它的基本结构,不然会build.xml失败的。所以你要一步一步的试。
基本结构:
<?xml version="1.0"?>
<xsl:stylesheet xmlns: ...
- 2011-02-23 23:54
- 浏览 1180
- 评论(0)
nutch
-1.0 的分布式
查询部署
nutch-1.0集成了hadoop的mapreduce
实现分布式爬虫方式,抓取的网页及索引等都存放在HDFS上,但hdfs
用于查询是不切实际的,所以建议copy到本地
之后做搜索
查询。但如果索引文件
很多,索引数据
量大,在一台机器上部署查询势必很慢,这时可以考虑分布式查询方式,将索引分散在多个机器中;
下面是分布式查询方式的部署方式:
首先定义两点:
1. search-servers.txt 所在的机器为主节点,设IP为172.16.100.1;
2. search-servers.txt 中定义的各个节点为su ...
- 2011-02-23 00:15
- 浏览 963
- 评论(0)
nutch1.2 修改jsp页面后,想打包部署到tomcat中,有几个地方需要修改的。
其中一个地方,当然是搜索的索引路径了.
nutch-site.xml
<property>
<name>searcher.dir</name>
<value>F:\nutch\test</value>
</property>
另外一个地方就是
nutch-default.xml
<property>
<name>plugin.folders< ...
- 2011-02-23 00:14
- 浏览 973
- 评论(0)