Sensei是LinkedIn的一个分布式搜索系统。安装步骤参考:
http://linkedin.jira.com/wiki/display/SENSEI/Getting+Started
需要:
linkedin自己的相关包:
bobo-browse ,norbert ,zoie ,kafka (这些在git的lib目录下有)
1. 下载编译sensei:
git clone git://github.com/javasoze/sensei.git sensei
git 的安装参见:http://rabbit9898.iteye.com/blog/789809
运行ant编译 (需要在Linux下编译)
2. 启动Zookeeper
zookeeper-3.2.0/bin/zkServer.sh start
3. 启动sensei node
bin/start-sensei-node.sh 0 17071 0,1,2,3,4,5,6,7,8,9,10 node-conf/
sensei node 会向zooKeeper注册.
4. 启动web 测试查询
4.1 因为jetty端口冲突需要修改build.xml
<target name="server" depends="init" >
<exec executable="mvn">
<arg line="-Dlog4j.configuration=file:./resources/log4j.properties -Djetty.port=8081 jetty:run" />
</exec>
</target>
4.2 修改一下 resources/log4j.properties 可以将${log.home} 指向自己的目录
#log4j.appender.sensei.File=${log.home}/sensei-server.log
#log4j.appender.info.File=${log.home}/sensei-info.log
启动
ant server
log里可以看到Jetty能够启动起来(JMX注册有问题,可以暂时不管)
访问:
http://localhost:8081/
可以看到:
Sensei Node 中的log可以看到:
2011/04/11 10:11:42.838 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] serving partitions: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
2011/04/11 10:11:42.841 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] searching partition: 0 browse took: 3
2011/04/11 10:11:42.842 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] searching partition: 1 browse took: 1
2011/04/11 10:11:42.843 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] searching partition: 2 browse took: 1
2011/04/11 10:11:42.845 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] searching partition: 3 browse took: 1
2011/04/11 10:11:42.846 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] searching partition: 4 browse took: 1
2011/04/11 10:11:42.848 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] searching partition: 5 browse took: 2
2011/04/11 10:11:42.849 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] searching partition: 6 browse took: 1
2011/04/11 10:11:42.850 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] searching partition: 7 browse took: 1
2011/04/11 10:11:42.852 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] searching partition: 8 browse took: 2
2011/04/11 10:11:42.853 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] searching partition: 9 browse took: 1
2011/04/11 10:11:42.854 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] searching partition: 10 browse took: 1
2011/04/11 10:11:42.857 INFO [com.sensei.search.nodes.AbstractSenseiNodeMessageHandler] [] searching partitions [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10] took: 15
- 大小: 39.7 KB
分享到:
相关推荐
sensei, 分布式实时搜索数据库 什么是 Sensei( http://www.senseidb.com/ )Sensei是一个分布式的弹性实时搜索数据库。维基维基在以下位置可用:http://linkedin.jira.com/wiki/display/SENS
总结来说,`linkedin_scraper`是一个用于LinkedIn数据抓取的Python库,用户可以通过PyPI进行下载和安装。尽管这个库本身并不直接与Zookeeper或云原生概念相关,但在实际的大型分布式系统中,类似的数据抓取工具可能...
从给定的文件信息来看,标题和描述都指向了“Java分布式学习笔记01分布式Java应用”,这显然是关于Java在分布式环境下的应用和技术的学习资料。虽然提供的部分内容由于格式问题难以直接解析,但我们可以根据标题、...
分布式消息中间件是现代软件架构中的重要组成部分,特别是在微服务和大数据处理场景中,它们扮演着数据通信的关键角色。本书《分布式消息中间件实践_倪炜(著)》深入探讨了四种主流的消息队列(Message Queue,MQ)...
Azkaban4.0编译包提供了预编译的组件,可以直接安装和使用,无需自行编译源代码。 在Azkaban4.0编译包中,包含了以下四个主要部分: 1. **azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz**:这是Azkaban执行服务器的...
Pinot是LinkedIn推出的一个分布式OLAP引擎,设计用于实时分析大量数据。 分布式OLAP引擎Pinot的架构设计主要考虑了三个方面:高性能、实时分析和水平扩展。Pinot使用 columnar storage 和 indexing 来提高查询性能...
分布式计算技术是现代计算机科学中的一个重要领域,它涉及如何通过多台计算机的协作来处理大规模的数据和执行复杂的计算任务。本教材源代码集合为学习者提供了深入理解分布式计算原理和实践操作的宝贵资源。 分布式...
例如,LinkedIn使用了其自有的分布式存储系统,能够存储和处理PB级别的数据。同时,LinkedIn还开发了高效的数据处理和分析框架,比如Kafka,用于实现高吞吐量的数据传输,并且有如Presto这样的查询引擎,用于快速、...
LinkedIn接口API调用实例是一个关于如何与LinkedIn的开发平台交互的实际应用示例。LinkedIn API允许开发者访问LinkedIn的数据,包括用户信息、公司数据、职位发布等,以便构建与LinkedIn相关的应用程序和服务。下面...
分布式消息系统是现代软件架构中的核心组成部分,尤其是在大数据时代,它们承担着数据处理、异步通信和系统解耦的关键任务。本文将深入探讨四种主流的开源分布式消息系统:RabbitMQ、Kafka、ActiveMQ和RocketMQ,...
由于LinkedIn对搜索结果有分页限制,爬虫需要模拟用户行为,逐页加载并抓取数据。 3. **数据解析**:收到响应后,爬虫会解析HTML页面,提取出每个员工的链接、职位、工作地点等关键信息。这一过程通常使用XPath或...
Kafka是一个开源的流处理平台,由LinkedIn开发并贡献给Apache软件基金会。它的核心设计是作为一个高吞吐量、低延迟的消息队列,能够处理海量实时数据。Kafka的主要特点包括消息持久化、支持多消费者和发布/订阅模型...
KAFKA是一个高吞吐量的分布式消息系统,由LinkedIn开发并开源,现在是Apache软件基金会的顶级项目。它主要设计用于处理实时流数据,允许应用程序发布和订阅消息,同时提供了一个可扩展且容错的数据总线。本文将详细...
Kafka最初由LinkedIn公司开发,之后于2010年开源,是为处理实时流式数据而设计的分布式消息队列系统。它能够提供高吞吐量,并且在系统可靠性、可伸缩性以及容错性方面表现出色。Kafka使用Scala语言开发,支持多种...
LinkedIn API for PHP是一个用于与LinkedIn平台进行数据交互的PHP库,它允许开发者通过编程方式访问LinkedIn的公开或授权用户的数据,如个人资料、职位、公司信息等。在使用这个API时,开发者可以创建各种应用程序,...
分布式OLAP引擎Pinot是LinkedIn开发的一个实时大数据分析平台,专为大规模在线分析处理(OLAP)设计。它能够在亚秒级时间内提供大规模数据的低延迟查询服务,这对于实时业务决策至关重要。Pinot的设计目标是支持高...
Kafka是一种高性能、可扩展的分布式消息系统,由LinkedIn开发并贡献给了Apache软件基金会。它被设计为一个实时处理大量数据的平台,适用于大数据流处理、日志聚合、网站活性跟踪等多个场景。Kafka的核心特性包括其...
Kafka,这一由LinkedIn原创并最终成为Apache顶级项目的分布式消息系统,以其高效、稳定和可扩展性在大数据领域占据着重要的位置。Kafka的核心特性在于其分布式、分区化、多副本的设计,以及与Zookeeper的紧密协作,...
卡夫卡是一款开源的分布式流处理平台,由LinkedIn开发并贡献给Apache软件基金会。Kafka主要设计用于构建实时数据管道和流应用,它能够高效地处理大量的实时数据,同时支持消息持久化、高吞吐量以及容错性。 **1. ...
LinkedIn是一个以商业和职业网络为导向的社交平台,拥有超过1.16亿的用户,它提供了一个让人们能够专业地建立人际网络、发布和寻找工作、回答问题以及塑造思想领导力的环境。通过LinkedIn,用户可以发现某家企业雇用...