`
清风
  • 浏览: 30854 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop and Lucene

阅读更多
这几天的工作一直在围绕Hadoop进行,记录一些随手心得.

Hadoop有价值的部分:
1.HDFS
一个分布式的文件系统,我们的目标是用HDFS来完成数据的分布式保存和索引文件的分布式保存

2.Map/Reduce
用来做分布式运算,摆脱SQL的束缚,完全利用索引,来进行数据的检索.然后用Map/Reduce来进行我们需要的统计计算,利用分布式机制提高运算速度

Lucene,以前只是比较皮毛的接触过Lucene,这次会有一次比较深入的应用,利用Lucene的索引提高检索速度,并配合HDFS,将索引文件分布式存储

目前还一个很重要的工作,就是解决FreeBSD下diablo-jdk1.5的RandomAccess类的mode设置为rws不能正常工作的问题

http://lists.freebsd.org/pipermail/freebsd-java/2006-September/005670.html

参考资料:
http://lucene.apache.org/hadoop/
http://lucene.apache.org/java/docs/index.html
分享到:
评论
2 楼 火柴天堂 2008-04-10  
汗,来点实际的。这些算什么东西,光概念
1 楼 老熊 2007-09-21  
呵呵,期待看到你更多的成果

相关推荐

    Scaling Big Data with Hadoop and Solr

    标题《Scaling Big Data with Hadoop and Solr》和描述以及标签中提到的Hadoop、Solr和BigData,涉及的是大数据领域的几个关键技术点,结合对全文内容的理解,以下为详细知识点: 1. Hadoop的定义及特点 Hadoop是一...

    Hadoop和Kerberos:超越大门的疯狂Hadoop and Kerberos: The Madness Beyond the Gate

    它基于Google的MapReduce论文和Google File System (GFS) 论文而设计,最初由Doug Cutting创建,并在2006年作为Apache Lucene的子项目启动。Hadoop的核心组件包括Hadoop Distributed File System (HDFS) 和MapReduce...

    Hadoop 2011云计算大会演讲ppt

    7. **使用Hadoop-Lucene-Solr进行大规模搜索**:《Using hadoop-lucene-solr-for-large-scale-search(H--.pdf》介绍了如何结合这三个强大的工具进行大规模数据的全文检索,提供高效的搜索体验。 8. **SAE数据存储的...

    Hadoop in Practice(2012)

    Hadoop in Practice collects 85 Hadoop examples and presents them in a problem/solution format. Each technique addresses a specific task you'll face, like querying big data using Pig or writing a log ...

    Elastic Search Server 2nd Edition

    He currently works as a consultant and a software engineer at Sematext Group, Inc., where he concentrates on open source technologies such as Apache Lucene and Solr, Elasticsearch, and Hadoop stack....

    search big data with solr and hadoop

    - **Solr**:基于Lucene的企业级全文搜索引擎,拥有出色的可扩展性和灵活性。 这些技术共同构成了一个强大的数据处理平台,不仅可以处理大量的数据,还能确保数据的高可用性与可靠性。 #### Solr的架构设计 Solr的...

    Lucene研究,Lucene 读书笔记

    用户输入如 "lucene AND learned NOT hadoop" 的查询语句。 #### (2) 查询处理 - **词法分析**:识别单词和关键字,如得到单词 "lucene", "learned", "hadoop",以及关键字 "AND", "NOT"。 - **语法分析**:根据...

    lucene3的最新代码

    9. **分布式搜索**:虽然不是 Lucene 3.0 的核心特性,但可以与 Hadoop 等工具结合,实现大规模数据的分布式搜索。 10. **API 变更**:每个版本的 Lucene 都可能有 API 的调整,开发者需要关注这些变化,以确保代码...

    Solr in Action 英文版完整版

    scale distributed search solutions that can be deployed as an elastically scaling cloud-based service and can provide additional intelligence to other big data technologies like Hadoop and Mahout.

    Solr in Action最新完整版

    scale distributed search solutions that can be deployed as an elastically scaling cloud-based service and can provide additional intelligence to other big data technologies like Hadoop and Mahout.

    Web Crawling and Data Mining with Apache Nutch

    Apache Nutch的学习旅程中,用户还需要了解如何搭建和维护一个良好的开发环境,这包括了解与Nutch相关的各种工具和平台,比如Hadoop、Lucene、Solr等。Hadoop是Nutch的主要存储和计算基础,而Lucene和Solr则为Nutch...

    知识库详细设计说明书1

    综上所述,知识库管理系统利用Lucene、Hadoop、AOP等关键技术,结合Mahout的智能算法,实现了高效的知识检索、分布式存储和推荐功能。同时,通过精心设计的数据结构,确保了数据的有序管理和安全访问。

    一个专业搜索公司关于lucene+solar资料(1)

    - Nutch是一个开源框架,基于Hadoop和Lucene构建。 - 用于大规模网络爬取和全文搜索。 - **2.2.5 用户界面** - 设计友好的用户界面,让用户可以方便地进行搜索操作。 - 支持多种展示形式,如列表、卡片式等。 ...

    大数据分析的六大工具介绍 (3).docx

    二、HPC(High Performance Computing and Communications) HPC 是美国科学、工程、技术联邦协调理事会向国会提交的报告,也就是被称为 HPCC 计划的报告。其目的是通过加强研究与开发解决一批重要的科学与技术挑战...

    Java检索引擎

    7. **查询语法和布尔运算**:理解Lucene支持的查询语法,如短语查询、近似查询、布尔运算符(AND, OR, NOT)等。 通过深入学习和实践这两个项目,开发者不仅可以掌握Java全文检索的基本技能,还可以了解到搜索引擎...

Global site tag (gtag.js) - Google Analytics