- 浏览: 52847 次
- 性别:
最新评论
文章列表
1. nutch 基本配置和安装不在赘述。
2.新建自己的plugin 只要实现对应的plugin接口即可。
3.plugin.xml 的具体配置可以参考plugins目录下的标准。
4.一个是schema.xml,在其中的fields标签下加入如下代码:
<field name="test1" type="date" stored="true" indexed="true"/>
<field name="test2" type="string" ...
最近要搞个数据挖掘的项目,用了开源nutch作为爬虫;一些坑记录下来;免得后续忘记。
1. 配置 regex-urlfilter.txt,配置一定要规范,行尾切记不要有特殊字符和空格。
否则nutch不给你工作,会显示0抓取记录。
2.每次抓取可以新建数据保存目录,否则 urls 里面的seed 配置不生效。依然爬去的是上一个配置。
3.和solr配合,请把conf的schema.xml 和 solr 里面的schema.xml合并。注意去重复的。有了就不要配置了。如果配置不合适,solr的core出不来。
4.solr 显示查询页面
http://localhost:8080/solr/c ...
JobTracker会接受TaskTracker的心跳,并处理。不多说,直接上源码
public synchronized HeartbeatResponse heartbeat(TaskTrackerStatus status,
boolean restarted,
boolean initialContact,
...
首先看看Hadoop ssh 脚本
elif [ "$COMMAND" = "jar" ] ; then
CLASS=org.apache.hadoop.util.RunJar
任务递交。
WordCount 里面有一句话:
System.exit(job.waitForCompletion(true) ? 0 : 1);
1.job.waitForCompletion:一般情况下我们提交一个job都是通过job.waitForCompletion方法提交,该方法内部会调用job.submit()方法 ...
1.选择从主菜单选择 "Boot Arch Linux" 并按回车,系统将加载并给出登录提示,自动以 'root' 登录。
2.建立网络连接
激活接口,(例如eth0):
[plain] view plaincopy
# ip link set eth0 up
添加地址:
[plain] view plaincopy
# ip addr add 192. ...
Hadoop源代码分为三大模块:MapReduce、HDFS和Hadoop Common。其中MapReduce模块主要实现了MapReduce模型的相关功能;HDFS模块主要实现了HDFS的相关功能;而Hadoop Common主要实现了一些基础功能,比如说RPC、网络通信等。
在用户使用HadoopMapReduce模型进行并行计算时,用户只需要写好Map函数、Reduce函数,之后调用JobClient将Job提交即可。在JobTracker收到提交的Job之后,便会对Job进行一系列的配置,然后交给TaskTracker进行执行。执行完毕之后,JobTracker会通知JobClien ...
g e t o p t s可以编写脚本,使控制多个命令行参数更加容易。g e t o p t s用于形成命令行处理标
准形式。原则上讲,脚本应具有确认带有多个选项的命令文件标准格式的能力。
20.2.1 getopts脚本实例
通过例子可以更好地理解g e t o p t s。以下g e t o p t s脚本接受下列选项或参数。
• a 设置变量A L L为t r u e。
• h 设置变量H E L P为t r u e。
第20章向脚本传递参数229
下载
• f 设置变量F I L E为t r u e。
• v 设置变量V E R B O S E为t r u e。
对于所有变量设置,一般 ...
脚本框架控制参数开始与停止。脚本需要两个参数,如果没有输入两个
参数,那么产生一个u s a g e语句。注意这里使用c a s e语句处理输入脚本的不同参数。
#!/bin/bash
# opt.sh
usage()
{
echo "usage: `basename $0` start|stop proc ...
start_kernel()中调用了一系列初始化函数,以完成kernel本身的设置。这些动作有的是公共的,有的则是需要配置的才会执行的。
在start_kernel()函数中,
输出Linux版本信息(printk(linux_banner))
设置与体系结构相关的环境(setup_arch())
页表结构初始化(paging_init())
使用"arch/alpha/kernel/entry.S"中的入口点设置系统自陷入口(trap_init())
使用alpha_mv结构和entry.S入口初始化系统IRQ(init_ ...
===================参考天极 技术网 文章=================
当用户打开PC的电源,BIOS开机自检,按BIOS中设置的启动设备(通常是硬盘)启动,接着启动设备上安装的引导程序lilo或grub开始引导Linux,Linux首先进行内核的引导,接下来执行init程序,init程序调用了rc.sysinit和rc等程序,rc.sysinit和rc当完成系统初始化和运行服务的任务后,返回init;init启动了mingetty后,打开了终端供用户登录系统,用户登录成功后进入了Shell,这样就完成了从开机到登录的整个启动过程。
第一部分:内核的 ...
都说ArchLinux是利剑一把,最近体验了下,6秒钟系统启动完毕,不管你信不信,反正我信了。
记录gnome安装:
之前折腾了下kde,安装wiki archLinux 上面的配置下来,到最后也没有成功;不知道怎么时候,总是报错。
最后无奈之下,卸载kde,安装gnome:
1. pacman -Syu 升级系统;
2. pacman -S gnome
3. pacman -S gnome-terminal
4. pacman -S xorg xorg-xinit xorg-server xf86-video-nv
5. 耐心等待,安装后,配置下,
/etc/initta ...
基本的文件系统体系结构
Linux 文件系统体系结构是一个对复杂系统进行抽象化的有趣例子。通过使用一组通用的 API 函数,Linux 可以在许多种存储设备上支持许多种文件系统。例如,read 函数调用可以从指定的文件描述符读取一 ...
=========== 摘抄自 Archlinux wiki 供自己查阅 ===========
Ext4是Linux上Ext3文件系统的进化。在很多方面,Ext4对于Ext3有着比Ext3对于Ext2更多更深的改变。Ext3主要是针对Ext2添加了日志系统,而Ext4修改了重要的文件系统的数据结构,比如用来 ...
============ 摘自ArchLinux wiki============
修改引导文件
/etc/inittab
乱序执行
Note: 使用该方法后,不能保证所有系统服务按顺序启动。如果dbus未在X图形服务器启动前开启,某些功能可能出现异常(ck-launch-session、gnome、kde 等等)。
通过修改inittab使启动脚本乱序执行,而不必按顺序等待上一个脚本执行完毕:
# 用“once”代替“wait”
rc::sysinit:/etc/rc.sysinit
rs:S1:wait:/etc/rc.single
rm:2345:once:/etc/rc.multi
...
分析瓶颈
要优化系统,先要找到性能瓶颈。通过分析系统配置能够获取这些信息。这里给出几条分析系统性能的简单方法:
运行大型软件(比如 openoffice、firefox)时,如果系统变卡,很可能是内存不足。以下命令用来查 ...