- 浏览: 170527 次
- 性别:
- 来自: 北京
最新评论
-
小桔子:
u 棒棒哒!按照你的搞定了,之前搞了好久!u 棒棒哒!!! ...
Ubuntu为Tomcat启用80端口 -
u011938035:
我用的是nutch1.7,org.apache.nutch.n ...
nutch1.4 URLNormalizers 详解 -
peigang:
试试跟踪一下脚本,应该是环境变量的问题。
nutch1.4:爬虫定时抓取设置 -
zhangmj10:
你好,看这帖子是好久以前的,不知道你能不能看到。不知道能不能帮 ...
nutch1.4:爬虫定时抓取设置 -
shinide1989:
楼主你好,我正需要修改html的解析,并想把结果存为其他格 ...
nutch1.4插件开发
文章列表
nutch分布式调试环境配置
- 博客分类:
- nutch
准备:hadoop单机模式设置,参考:http://peigang.iteye.com/admin/blogs/2093070
nutch配置:1、解压nutch文件,此处以apache-nutch-1.4-bin.tar.gz为例。
2、将编译好的nutch文件拷贝到nutch/runtime/local 目录下。注意lib下的.jar文件必须与编译环境的同步。同时将apache-nutch-*.jar拷贝到lib中。
配置conf目录,将hadoop/conf下的core-site.xml 、hdfs-site.xml、mapred-site.xml拷贝到l ...
hadoop单机模式配置
- 博客分类:
- hadoop
Hadoop单机模式调试很方便,现将配置过程作一描述:
环境准备:
JAVA环境要调试安装正常,可以在命令行执行java -version 查看结果,能正常显示版本即可。
java环境变量配置示例如下:
export JAVA_HOME=/home/$USER/jdk1.7
export JRE_HOME=/home/$USER/jdk1.7
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jr ...
Red Hat Enterprise Linux 下将tomcat的server.xml的端口改为80后非root身份无法启动tomcat.
这是因为只有root用户才可访问1024以下的端口。
解决方法:重将server.xml中的端口改为8080,然后做IP映射。以超级用户登录执行如下命令即可。
iptables -t nat -A PREROUTING -p tcp --dport 80 -j REDIRECT --to-port 8080
nutch 正文提取流程解析
- 博客分类:
- nutch
nutch正文提取在Fatcher的run方法中进行,本文将相关调用对象结构进行分析说明,各对象结构如下图所示:
未完待续:
高并发访问的核心原则其实就一句话“把所有的用户访问请求都尽量往前推”。
如果把来访用户比作来犯的"敌人",我们一定要把他们挡在800里地以外,即不能让他们的请求一下打到我们的指挥部(指挥部就是数据库及分布式存储)。
如:能缓存在用户电脑本地的,就不要让他去访问CDN。 能缓存CDN服务器上的,就不要让CDN去访问源(静态服务器)了。能访问静态服务器的,就不要去访问动态服务器。以此类推:能不访问数据库和存储就一定不要去访问数据库和存储。
说 起来很轻松,实际做起来却不容易,但只要稍加努力是可以做到的,Google的日独立IP过亿不也做到了么?我们这几千万的PV站 ...
用Eclipse开发nutch准备工作
- 博客分类:
- nutch
本文来源于:http://zettadata.blogspot.com/2011/12/eclipsenutch.html,由于某种不“不可知”的原因无法打开,现在转载贴图。以给其他人提供帮助。
一、tomcat部署调试
Update the package repository
sudo apt-get update
sudo apt-get upgrade --show-upgrades
Install the authbind package
sudo apt-get install authbind
This package allows non-root users to bind to ports below 1024. Install the tomcat7 package
sudo apt-get install to ...
hbase 程序开发环境准备
- 博客分类:
- hadoop
准备环境:
1、jdk安装调试完毕
2、eclipse安装调试完毕
hbase配置
1、将如下jar文件引入工程中: hadoop-core-1.0.0.jar,hbase-0.94.0-security.jar,zookeeper-3.4.3.jar,protobuf-java-2.4.0a.jar
2、拷贝hbase运行环境中的hbase-site.xml到工程根目录下。
3、hbase-site.xml中注意以下几个配置:
<configuration><property><name>hbase.rootdir</na ...
mysql客户端安装导致服务无法启动
- 博客分类:
- DataBase
ubuntu12.04版本中安装了mysql-5.1.63-linux-x86_64-glibc23。安装完配置完毕后可以正常使用。
在意外安装了mysql-client-5.5后,重启服务器导致执行mysql start出现如下提示:
#mysql -u root -p出现,ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/run/mysqld/mysqld.sock' (2)
google、baidu也没解决。甚至重新安装配置mysql也无效。费劲周折突然想起 ...
准备:
1、JDK安装调试完毕
2、hadoop安装调试完毕。
3、下载hbase,地址:http://www.apache.org/dyn/closer.cgi/hbase/ ;本次安装使用版本hbase-0.94.0-security(未确认是否要打补丁)
4、 ulimit 和 nproc: Base是数据库,会在同一时间使用很多的文件句柄。大多数linux系统使用的默认值1024是不能满足的,会导致FAQ: Why do I see "java.io.IOException...(Too manyopen files)" in my logs?异常。
...
crontab使用经验(转)
- 博客分类:
- OS
crontab使用经验 本文出自孤风颠影|网站运维 网址:http://yunhaozou.org/linux/109.html.
作为网站运维工程师,经常要与crontab打交道,通过使用crontab自动运行定时任务从而达到自动化运维的目的。在我的日常工作中也深刻地感受到 ...
转:Solr开发文档
- 博客分类:
- solr
Solr开发文档
原文地址:http://www.cnblogs.com/hoojo/archive/2011/10/21/2220431.html
分析师给出关于Hadoop的12个事实
- 博客分类:
- hadoop
分析师给出关于Hadoop的12个事实TechTarget中国原创内容,原文链接:http://www.searchbi.com.cn/showcontent_62856.htm?info=databaseweekly20120622
【TechTarget中国原创】现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发 ...
nutch1.4 分布式爬取
- 博客分类:
- nutch
从nutch1.3开始本地抓取(单机),分布式抓取(集群)所使用的配置文件和命令单独分开。 NUTCH_HOME/conf 为分布式抓取所用配置文件 NUTCH_HOME/runtime/deply/bin/nutch 分布式抓取命令 NUTCH_HOME/runtime/local/conf 为本地抓取所用配置文件 NUTCH_HOME/runtime/local/bin/nutch 本地抓取命令
另外,修改了NUTCH_HOME/conf下的配置文件,需要重新编译之后才能生效。
爬取命令分别如下:
单机:
*/nutch1.4/runtime/local/bin/nutc ...
nutch1.4:爬虫定时抓取设置
- 博客分类:
- nutch
nutch1.4定时爬取数据配合linux定时任务可以实现nutch的自动定时爬取,linux定时任务请参考《 Linux定时执行任务命令 :at和crontab》
步骤如下:
1、首先查看当前用户的 crontab服务执行命令:
crontab -l
执行结果:
no crontab for ***
表示没有定义 crontab 服务
2、编辑crontab服务:
crontab -e
*/10 * * * * /home/*/*.sh //每10分钟执行一次 ,*.sh中包含nutch抓取脚本如crawl
注意设置服务执行账户,此处 ...