- 浏览: 170516 次
- 性别:
- 来自: 北京
最新评论
-
小桔子:
u 棒棒哒!按照你的搞定了,之前搞了好久!u 棒棒哒!!! ...
Ubuntu为Tomcat启用80端口 -
u011938035:
我用的是nutch1.7,org.apache.nutch.n ...
nutch1.4 URLNormalizers 详解 -
peigang:
试试跟踪一下脚本,应该是环境变量的问题。
nutch1.4:爬虫定时抓取设置 -
zhangmj10:
你好,看这帖子是好久以前的,不知道你能不能看到。不知道能不能帮 ...
nutch1.4:爬虫定时抓取设置 -
shinide1989:
楼主你好,我正需要修改html的解析,并想把结果存为其他格 ...
nutch1.4插件开发
文章列表
CentOS7下Kafka的安装介绍
- 博客分类:
- JAVA
简介
Kafka 是一种高吞吐的分布式发布订阅消息系统,能够替代传统的消息队列用于解耦合数据处理,缓存未处理消息等,同时具有更高的吞吐率,支持分区、多副本、冗余,因此被广泛用于大规模消息数据处理应用。Kafka 支持Java 及多种其它语言客户端,可与Hadoop、Storm、Spark等其它大数据工具结合使用。
本教程主要介绍Kafka 在Centos 7上的安装和使用,包括功能验证和集群的简单配置。
安装JDK
Kafka 使用Zookeeper 来保存相关配置信息,Kafka及Zookeeper 依赖Java 运行环境,从oracle网站下载JDK 安装包,解压安装:
...
[译]Python Performance
- 博客分类:
- python
性能技巧目录目录 1其他版本 2概述:优化需要优化的 2选择正确的数据结构 2排序 2字符串连接 4循环 4避免“点”... 5局部变量 5初始化字典元素 6import语句的消耗 7数据聚合 8少做 9Python不是C 9使用xrange来代替range 11执行时绑定函数 ...
This page is devoted to various tips and tricks that help improve the performance of your Python programs. Wherever the information comes from someone else, I've tried to identify the source.
Python has changed in some significant ways since I first wrote my "fast python" page in about 1 ...
web部分
<form class="form-horizontal" role="form" id="form" name="form" >
<div class="form-body">
<div class="form-group">
<label class="col-md-3 control-label">登录账户</label>
<span cl ...
大家好,这是以前搜集的一篇ENDNOTE使用方法,具体作者已经不知道了,现在引用来大家交流学习,希望对大家有用 ENDNOTE使用方法,常用! 一、简介 EndNote是一款用于海量文献管理和批量参考文献管理的工具软件,自问世起就成为科研界的必备武器。在前EndNote时代,文献复习阶段从各大 数据库中搜集到的文献往往千头万绪、或重复或遗漏,难以管理,阅读所作的笔记则分散各处,难以高效地进行有机整合。到写论文时,大量的文献引用往往复杂异 常,尤其修改时,牵一发而动全身。这些难题,EndNote可以凭一己之力,彻底解决。 学校里目前盛行的依然是EndNote 9.0,而功能更为强大的V ...
2015的macbookair,怎么装win8系统
- 博客分类:
- OS
先下载个WIN8原版系统,百度搜 msdn i tell you可以下载到Macbook机桌面
准备个8G或以上U盘,用于制作(Win8系统启动盘和存储支持Win8的驱动程序)
制 作系统启动安装U盘。 打开MAC机的Bootcamp助手,点继续,进入页面:点选第1和第2项:“创建Windows8或更高版本的安装盘”(即系统启动U盘)。第3项先不 点选。点继续。 进入新页面后,系统自动找到桌面win8.ISO文件,自动识别插入的U盘作为目标盘(只插入1个待制作的U盘)。时间大概20分钟,看你网速如何。
制作完启动U盘后,在次回到Bootcamp助手页面,这次 ...
Nutch1.7二次开发培训讲义
- 博客分类:
- nutch
做Nutch二次开发,开发阶段用什么操作系统都可以,只要有JDK和Eclipse即可,源代码的管理需要使用一个集中的版本控制系统,可以使用SVN或GIT,建议采用Bitbucket免费的私有库托管。如果想阶段性地在Hadoop集群上面试运行,需要搭建一个Hadoop伪分布式集群或完全分布式集群,开发组可以共用一个集群。
1、下载并解压eclipse(集成开发环境)
使用Standard版
下载地址:Eclipse Standard 4.3
主要的竞争情报分析研究方法
- 博客分类:
- 读书笔记
8.1 竞争情报分析方法综述
8.1.1 思维分析方法
(1)综合归纳
(2)对比分析 (3)典型分析 (4)背景分析 (5)专家调查
8.1.2 常用的竞争情报分析方法
8.1.2.1行业分析:五种力量产业模型、产业情景分析、产业细分化
8.1.2.2基于组织的竞争情报分析:竞争对手跟踪、核心竞争力分析、关键成功因素分析、管理档案、多点竞争分析、优势及弱点分析、反求工程分析。
8.1.2.3基于竞争活动的情报分析
8.1.3 竞争情报分析工具的使用情况
8.1.4 竞争情报分析软件
(1)神经网络软件
...
竞争情报的网络信息源
- 博客分类:
- 读书笔记
1、网上信息: 门户、站点资源 BBS、网上讨论 商情数据库及其利用:美国商务信息数据库、道琼斯数据库、EBSCO商业资源数据库、盖尔商业资源数据库、Dialog检索系统(专利、商标、著作权、政 策法规、商业与产业数据库、商业统计库、国际公司名录与财务数据库、产品信息库、美国公司名录与财务数据库)、Lexis-Nexis、 1.1 国内商情数据库 中国咨询行系列数据库(中国经济新闻库、中国商业报告库、中国法律法规库、中国统计数据库、中国上市公司文献库、香港上市公司资料库、中国企业产品库、中国中央及地方政府机构库、中国人物库、INFOBANK环球商讯库、中 ...
时钟同步功能简介: 在Windows系统中,时钟同步是通过Windows Time服务(W32Time)完成的。W32Time通过NTP(Network Time Protocol)协议访问目标时钟同步服务器的123端口进行时间同步。服务器的地址可以在“时间与日期”设置窗口的“Internet Time” 选项中进行设置。Windows默认提供了几个互联网上的时钟同步服务器地址,比如:time.windows.com,你电脑上的时钟同步就是W32Time通过访问这里预设的服务器地址进行的。默认的时间间隔是7天。 你也许会问,既然Windows默认提供了时钟同步,那博客园服务器怎么会出现时间不同 ...
PHP+APACHE+MYSQL配置
- 博客分类:
- PHP
一、准备,需要相关网站下载安装文件:
apache http://httpd.apache.org/download.cgi
php http://windows.php.net/download/
mysql http://www.mysql.com/downloads/
二、安装
1.PHP安装使用绿色方式,下载Zip文件解压。2.配置在解压的根目录下找到php.ini-development,是用于开发环境的配置文件;还有一个php.ini-production,这个是用于生产环境的配置文件。使用php.in-development,复制一份,重命名为php.ini。开始 ...
nutch-default.xml 配置范例
- 博客分类:
- nutch
nutch的配置文件属性很多,需要根据实际需要详细配置。下面是经过验证的生产环境配置文件:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
Licensed to the Apache Software Foundation (ASF) under one or more
contributor license agreements. See the NOTICE ...
nutch本地模式调试环境配置
- 博客分类:
- nutch
nutch本地模式调试可以跟踪详细的爬取过程,便于调试。现将环境配置做如下说明:
1、apache官网下载nutch文件,我们以apache-nutch-1.4-bin.tar.gz 为例。将apache-nutch-1.4-bin.tar.gz解压到linux工作目录。
2、执行 chmod +x runtime/local/bin/nutch 修改权限。
3、runtime/local 目录下运行命令 ./bin/nutch
4、安装提示说明做配置调整。
5、以上操作过程完成后nutch即可以正常爬取数据。
注意事项:
1、本地模式 ...