`
mr_lonely_hp
  • 浏览: 91120 次
  • 性别: Icon_minigender_1
  • 来自: 湖南
社区版块
存档分类
最新评论
文章列表
Java中没有指针,所以也没有引用传递了,仅仅有值传递不过可以通过对象的方式来实现引用传递 类似java没有多继承 但可以用多次implements 接口实现多继承的功能 值传递:方法调用时,实际参数把它的值传递给对应的形式参数, ...
2进制CPU使用,8进制很少见,10进制适合人类使用,16进制适合编译器和底层程序员使用,希望对你有所帮助! public class Sun1 { public static void main(String[] args) {   System.out.println(Integer.toHexString(20)); //十进制转成十六进制   System.out.println(Integer.toBinaryString(20));//十进制转成二进制   System.out.println(Integer.toOctalString(20));//十进制转成八进制   Sys ...
生成jar包的两种方式: 1、第一种 选择类生成Jar包 Java代码  收藏代码    1. jar cvf classes.jar Foo.class Bar.class  jar cvf classes.jar Foo.class Bar.class -jar 执行命令 -cvf 创建新的归档文件,生成详细输出,指定归档文件名 -classes.jar 给生成的包起名字 -Foo.class Bar.class 选择的包 2、第二种 将文件夹内class和子文件夹内的class 打包到jar Java代码  收藏代码    1. jar cvfm classes.jar m ...
1 假设你是windows平台,你安装了J2SDK,那么现在你从cmd控制台窗口进入J2SDK安装目录下的bin目录,然后运行java命令,出现如下结果,这些就是包括java.exe工具的和JVM的所有命令都在里面。这里面告诉你可以用 -Dxxxx=xxx 设置参数 即:-D<name>=<value>                   set a system property ---------------------- D:\j2sdk15\bin>java Usage: java [-options] class [args...]            ...
先进入文件目录下编译文件 例如:进入到目录cd  D:\Work\Learn\JavaSE\src\net\multiTalk 编译该目录下的文件:Javac –Encoding UTF-8 A.java B.java C.java D.java 运行该文件 如果该class文件位于D:\Work\Learn\JavaSE\src\net\multiTalk 目录下,该Java文件的包名为package net.multiTalk,则退回到D:\Work\Learn\JavaSE\src\目录下,然后运行java net.multiTalk.XXX 或者在任意目录下输入指令java – ...
分为以下几个部分: 1 解析成Dom 通过sax, DocumentFragment root; //把网页内容content转化byte byte[] contentInOctets = content.getContent(); //SAX解析抽取外部信息 InputSource input = new InputSource(new ByteArrayInputStream( contentInOctets)); //设置编码 input.setEncoding(encoding); root = parse(input); 2 通 ...
今天看到一篇文章,关于页面转化成xml的方式,突然想到nutch的模板匹配问题,因为第一个页面,写匹配方式,及写一些与此同时过滤真的很没有效率,所以我打算,扩展nutch的htmlParser这个插件,把nutch只当作一个爬虫,而索引这块先不考虑。考虑采用自己建立solr服务器来建立索引。 方案:动态代码-->html-->转化成xml或xhtml --> XSLT提取 然后通过xslt模板来匹配需求采集的部分。这样如果有目标站点,则可以通过编写xslt模板来采集相关数据。跑模板的同时建立数据库关联,直接把数据存入数据库中。 思路已经形成,接下来时间就准备 ...
最近在研究nutch,找到了关于使用底层命令进行全网爬行的资料。 首先获得网址集,使用http://rdf.dmoz.org/rdf/ 目录下的content.example.txt 文件做测试,建立文件夹dmoz 命令:bin/nutch org.apache.nutch.tools.DmozParser content.example.txt >dmoz/urls 注射网址到crawldb数据库: 命令:bin/nutch inject crawl/crawldb dmoz 创建抓取列表: 命令:bin/nutch generate crawl/crawldb craw ...
最近在研究nutch,整理了一下关于读取资源数据的命令。 1.查看crawldb数据库:bin/nutch readdb url/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。 查看每个url地址的详细内容,导出数据:bin/nutch readdb url/crawldb/ -dump crawldb(导出的地址) 查看具体的url,以163为例:bin/nutch readdb url/crawldb/ -url http://www.163.com/ 2.查看linkdb数据库的链接情况:bin/nutch readlinkdb url/lin ...
二次开发的时候,需要重点对Nutch的界面及界面显示数据进行适当的调整。 目前据我了解到的要修改的地方有以下几点: 1。搜索页面页头页尾log修改、选项卡乱码显示问题。 2。显示查询结果行 添加查询用时 3。查询结果摘要长度修改,默认只有20个字符。 4。网页快照乱码修改,以及后面的(评分详解) (anchors) (more from news.qq.com)菜单项修改。 5。show all hits修改 6。分页功能修改,源码只有下一页功能。 7。文本高亮显示。 改变摘要长度,在文件nutch-site.xml中 <conf ...
<%@ page session="false" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8" import="java.io.*" import="java.util.*" import="java.net.*" import="javax.servlet.http.*" import="javax.servlet.*" import ...
<%@ page session="false" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8" import="java.io.*" import="java.util.*" import="java.net.*" import="javax.servlet.http.*" import="javax.servlet.*" import=" ...
nutch的首页,比较难看,实现了一些基本页面,像baidu一样。你如果像对它进行二次开发的话,你就得读一下源码了,然后进行build.xml 重新打包在tomcat里发布了,当然。这里我已经对它进行了读写哈。 nutch 里的页面,是通过xslt 里编写的,在源码src/web/style/nutch-page.xsl 编写,这里有一个xsl格式的源码。这里你应该要读懂它的基本结构,不然会build.xml失败的。所以你要一步一步的试。 基本结构: <?xml version="1.0"?> <xsl:stylesheet xmlns: ...
nutch -1.0 的分布式 查询部署 nutch-1.0集成了hadoop的mapreduce 实现分布式爬虫方式,抓取的网页及索引等都存放在HDFS上,但hdfs 用于查询是不切实际的,所以建议copy到本地 之后做搜索 查询。但如果索引文件 很多,索引数据 量大,在一台机器上部署查询势必很慢,这时可以考虑分布式查询方式,将索引分散在多个机器中; 下面是分布式查询方式的部署方式: 首先定义两点: 1. search-servers.txt 所在的机器为主节点,设IP为172.16.100.1; 2. search-servers.txt 中定义的各个节点为su ...
nutch1.2 修改jsp页面后,想打包部署到tomcat中,有几个地方需要修改的。 其中一个地方,当然是搜索的索引路径了. nutch-site.xml <property> <name>searcher.dir</name> <value>F:\nutch\test</value> </property> 另外一个地方就是 nutch-default.xml <property> <name>plugin.folders< ...
Global site tag (gtag.js) - Google Analytics