玩转大数据系列之Apache Pig如何与Apache Lucene集成（一）

qindongliang1922

浏览: 2207999 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：118248

: 证道Hadoop
浏览量：126634

: 证道shell编程
浏览量：60700

: ELK修真
浏览量：71866

文章分类

社区版块

存档分类

博客分类：

Pig
Lucene(神界篇)

hadoop lucene pig

在文章开始之前，我们还是简单来回顾下Pig的的前尘往事：

1，Pig是什么？

Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache（一个开源软件的基金组织）的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台，它提供的SQL-like语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一点和FaceBook开源的Hive（一个以SQL方式，操作hadoop的一个开源框架）一样简洁，清晰，易上手！

2，Pig用来干什么？

要回答这个问题，还得回归到雅虎当初使用Pig的目的：

1）吸收和分析用户的行为日志数据（点击流分析、搜索内容分析等），改进匹配和排名算法，以提高检索和广告业务的质量。
2）构建和更新search index。对于web-crawler抓取了的内容是一个流数据的形式，这包括去冗余、链接分析、内容分类、基于点击次数的受欢迎程度计算(PageRank)、最后建立倒排表。
3）处理半结构化数据订阅（data seeds）服务。包括：deduplcaitin（去冗余），geographic location resolution，以及 named entity recognition.

3， Pig在Hadoop生态系统中的地位

OK，下面回答正题，散仙最近在做的一个项目也是有关我们站搜索的关键词的点击率分析，我们的全站的日志数据，全部记录在Hadoop上，散仙初步要做的任务以及此任务的意义如下：

（1）找出来自我站搜索的数据
（2）分析关键词在某个时期内的搜索次数
（3）分析关键词在某个时期的点击次数
（4）通过这些数据，找出一些搜索无点击，搜索有点击，搜索点击少，和少搜索点击高等的一些边界关键词
（5）通过分析这些关键词，来评估我们站的搜索质量，给搜索方案的优化，以及改良提供一些参考依据
（6）使用Lucene或Solr索引存储分析后的数据，并提供灵活强大的检索方式

具体的使用Pig分析数据过程，散仙在这里就不细写了，感兴趣的朋友，可以在微信公众号的后台留言咨询，今天主要看下，Pig分析完的数据结果如何存储到Lucene索引里，至于为什么选择lucene系列的索引存储，而不选择数据库存储或直接存储在HDFS上，最大的原因还是在速度上，散仙前段时间分析的数据是直接存储在HDFS上，存HDFS上是很好，又能备份，还能容灾，但是！但是查询，读取，过滤，转换就非常麻烦了，速度慢的没法说，每次都得读取数据，然后使用JAVA程序计算出最终结果，然后给前端展示，即使数据量并不太大，但中间耗费了较多的时间数据的读取，传输和分析上，所以这次在分析关键词的转化率时，干脆就顺便研究下，如何使用Pig和Lucene，Solr或者ElasticSearch集成。

Pig或Hive本身能直接将各种格式的文件包括二进制，json，avro，以及bzip，gzip，lzo，snappy，orc等各种压缩格式存储在HDFS上或Hbase里，但是却不能直接将Lucene索引存储在HDFS上，至于为什么不能直接存储索引在HDFS上，这个与倒排索引的文件结构的组织方式有一定的关系，感兴趣的朋友可以在微信公众号上留言咨询，虽说不能直接存储在HDFS上，但是我们可以间接得通过他们的UDF函数来扩展Pig或Hive，使得他们支持索引存储，注意这里虽然实现了索引存储在HDFS上，但实质却是，在本地的临时目录先生成索引，然后又变相的拷贝到了HDFS上，算是一种折中的算式吧。在Pig里，需要定义两个UDF上来完成索引存储这件事，一个主要是创建索引，另一个是索引输出，在github上已有大牛实现了，我们需要做的工作：

（1）访问这个地址下载这个压缩包。
（2）提取出自己想要的部分，在eclipse工程中，修改定制适合自己环境的的代码（Lucene版本是否兼容？hadoop版本是否兼容？，Pig版本是否兼容？）。
（3）使用ant重新打包成jar
（4）在pig里，注册相关依赖的jar包，并使用索引存储

下面给出，散仙的测试的脚本：

---注册依赖相关的包
REGISTER  /home/search/nsconvent/spig/20150112/lucenepig/pigudf.jar; 
REGISTER  /home/search/nsconvent/spig/20150112/lucenepig/lucene-analyzers-common-4.10.2.jar; 
REGISTER  /home/search/nsconvent/spig/20150112/lucenepig/lucene-core-4.10.2.jar; 
REGISTER  /home/search/nsconvent/spig/20150112/lucenepig/lucene-queryparser-4.10.2.jar; 

--声明别名引用（注意只能无参的引用，带参数的在反射时候，会出现异常）
DEFINE  LuceneStore  com.pig.support.lucene.LuceneStore;
--加载数据
a = load '/tmp/data/20150303/tt.txt' using PigStorage(',')  as (lbl:chararray,desc:chararray,score:int);  ;
--生成索引并存储在HDFS上，注意需要配置简单lucene索引方式（是否存储？是否索引？）
store a into '/tmp/data/20150303/luceneindex' using LuceneStore('store[true]:tokenize[true]');

至此，我们已成功将索引存储在HDFS上，别高兴太宰，这仅仅是一个开始而已，在这里大家可能有疑问，存储在HDFS上的索引是否能够直接查询或访问呢？答案是肯定的，但不推荐大家直接读取HDFS上索引，即使了有了Hadoop的块缓存（Block Cache）提速，性能仍然是比较低的，除非你的集群机器不缺内存，否则，散仙还是建议大家直接把索引拷贝到本地磁盘再检索，这样做暂时比较麻烦，散仙在后面的文章里会介绍怎么把pig生成的结果集，直接以Http的方式存储到Solr或ElasticSearch里，这样以来就非常方便快捷了。

本文就到此结束，有任何疑问的朋友，都可以直接在微信公众号里留言咨询，公众号的二维码在文末能够看到，大家用手机骚一下，就能直接关注，好了，不扯了，赶紧回家，在尼玛不走，苦逼的就没地铁了！！！

想了解更多有关电商互联网公司的搜索技术和大数据技术的使用，请欢迎扫码关注微信公众号：我是攻城师（woshigcs）
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享，也是一个温馨的技术互动交流的小家园，有什么问题随时都可以留言，欢迎大家来访！

查看图片附件

1
顶

0
踩

分享到：

玩转大数据系列之Apache Pig如何与Apache S ... | Apache Pig学习笔记之内置函数（三）

2015-03-05 21:54
浏览 2950
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

刘嘉怡.中期检查.doc: 刘嘉怡.中期检查.doc

COMSOL热电效应模型：基于MATLAB API的热电转换仿真与优化: 内容概要：本文详细介绍了如何使用COMSOL Multiphysics进行热电效应仿真的全过程。首先解释了热电效应的基本概念及其应用场景，如手机充电发烫、吹风机温度升高等。接着，通过具体实例展示了如何在COMSOL中建立热电模型，包括选择合适的物理场（焦耳热和热电效应）、设定材料属性（电导率、导热系数、塞贝克系数）、绘制几何形状以及设置边界条件。文中还提供了详细的MATLAB代码片段用于自动化建模流程，涵盖求解器配置、网格划分、后处理等方面的技术细节。此外，作者分享了一些常见问题的解决方案，如求解器不收敛、网格畸变等。适合人群：对热电效应感兴趣的科研人员、工程技术人员及高校学生，尤其适用于有一定COMSOL和MATLAB基础的学习者。使用场景及目标：帮助读者掌握热电效应的基本原理和COMSOL仿真技能，能够独立完成从模型构建到结果分析的完整流程。目标是提高热电转换系统的效率，优化设计参数，探索新材料的应用潜力。其他说明：文章不仅提供了理论指导，还包括大量实战经验和技术技巧，有助于解决实际建模过程中遇到的问题。

汽车内外饰模具设计规范详解：分型面、斜顶滑块及模架顶出系统的技术要点: 内容概要：本文深入探讨了汽车内外饰模具设计的关键要素，涵盖分型面设计、斜顶和滑块的应用、模架选择以及顶出系统的配置。针对每个部分，不仅提供了理论指导，还辅以Python、MATLAB等编程语言的实际代码示例，帮助理解和实施具体设计方案。例如，分型面设计强调了如何根据产品结构和外观要求确定最佳分型面位置；斜顶和滑块部分讨论了不同类型及其应用场景；模架和顶出系统则关注于结构稳定性和顶出效果的优化。适合人群：从事汽车模具设计的专业人士，尤其是希望深入了解内外饰模具设计细节的新手设计师和技术人员。使用场景及目标：适用于汽车内外饰模具设计项目，旨在提高模具设计的精度和效率，减少试错成本，确保产品质量。通过学习本文提供的技术和实践经验，能够更好地应对实际工作中遇到的各种挑战。其他说明：文中提到的代码示例和经验公式均来源于实际工程案例，具有较高的参考价值。同时，作者还分享了许多宝贵的行业经验和技巧，有助于读者快速掌握模具设计的核心技能。

python3.10以上可安装pyside6（类似pyqt），具体安装操作步骤: python3.10以上可安装pyside6（类似pyqt），具体安装操作步骤

【人工智能领域】DeepSeek AI深度探索平台的优势解析：多模态处理、低成本训练与广泛应用场景综述: 内容概要：DeepSeek AI是由杭州深度求索人工智能基础技术研究有限公司于2025年1月20日发布的深度探索AI技术。它具有多模态能力、多语言支持、长上下文理解、领域垂直优化、开源特性等多项技术突破，支

IIS配置phpweb服务器所需VC-redist.x64.rar: IIS配置phpweb服务器所需VC_redist.x64.rar

云南移动5G-A网业战略发展探讨 -创新领航，千帆竞发，共同迈入5G-A新时代.pptx: 云南移动5G-A网业战略发展探讨 -创新领航，千帆竞发，共同迈入5G-A新时代.pptx

C#学习之OpenCv实现模版匹配案例: 本文描述了如何使用C#基于OpenCvSharpe实现模版匹配功能，其中实现了下功能： 1、图像加载； 2、模版加载、绘制、保存功能； 3、模版匹配功能。

【软件工程与数据分析】数据结构求职面试问题汇总：涵盖链表、树结构及算法复杂度分析的实战题目解析: 内容概要：本文档汇集了CSci 235软件设计与分析II课程中关于数据结构的面试题，由Stewart Weiss教授整理。文档涵盖了广泛的数据结构主题，包括但不限于链表（如单链表、双向链表、循环链表）、二叉树（如二叉搜索树、最小高度二叉搜索树）、栈、队列等。每个问题都旨在考察求职者对不同数据结构的理解及其应用场景。例如，选择合适的数据结构实现手机通讯录功能，或设计支持撤销功能的文本编辑器。此外，文档还探讨了复杂度分析（Big-O表示法），以及如何优化特定操作的时间复杂度。最后，文档提供了额外的学习资源链接，帮助求职者进一步准备面试。适合人群：计算机科学专业的学生或有志于从事软件开发工作的求职者，特别是那些希望在技术面试中表现优异的人士。使用场景及目标：①理解并掌握常见数据结构的基本概念和特性；②学会根据不同场景选择最合适的数据结构；③掌握常见数据结构操作的时间复杂度分析；④为技术面试做充分准备，提高面试成功率。其他说明：文档中的问题不仅限于理论知识，还包括实际编码练习，建议读者在学习过程中动手实践，以加深理解和记忆。同时，文档提供的额外资源链接可以作为扩展阅读材料，帮助读者更全面地掌握相关知识。

【路径规划】基于matlab A_Star融合灰狼算法GWO求解多仓库机器人送货路径规划【含Matlab源码 13134期】.zip: Matlab领域上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

帆软本地打印插件FinePrint 8.0版本: 帆软本地打印插件FinePrint 8.0版本，适用于FineReport8

【嵌入式控制系统】基于EECS461课程的嵌入式控制技术在汽车领域的应用与发展：从基础概念到未来挑战了文档的主要内容: 内容概要：本文介绍了密歇根大学EECS 461课程——嵌入式控制系统的核心内容及其发展背景。课程旨在教授学生嵌入式控制系统的理论与实践，包括传感器和执行器接口、实时性能和安全要求、混合行为系统、分布式控制网络等方面的知识。文中特别强调了现代汽车作为嵌入式控制系统的典型应用，从1977年到2019年间，汽车技术经历了从模拟控制到微处理器控制的巨大变革，如今的汽车具备了更高效、更环保、更安全的特点。课程还涵盖了S32K144微控制器的开发环境、实验室练习（如数字I/O、PWM信号生成、虚拟墙模拟等）以及自动代码生成工具的使用。适合人群：具备一定编程基础，特别是对嵌入式系统感兴趣的本科生和研究生，尤其是电气工程、计算机科学专业的高年级学生或硕士生。使用场景及目标：①了解嵌入式控制系统的基本概念和发展历程；②掌握嵌入式控制系统的设计方法和技术手段，如实时操作系统、中断处理、网络通信协议（CAN）等；③通过实际项目操作，熟悉嵌入式硬件平台和开发工具链的应用。其他说明：随着汽车行业向智能化、自动化方向发展，对于能够开发复杂嵌入式软件的人才需求日益增长。EECS 461不仅为学生提供了扎实的技术训练，也为他们未来的职业发展打下了坚实的基础。此外，课程还反映了跨学科教育的重要性，鼓励学生打破传统学术界限，培养解决实际问题的能力。

C#与Halcon联合编程实现高效视觉几何定位与测量框架: 内容概要：本文详细介绍了如何利用C#与Halcon联合编程构建高效的视觉几何定位与测量框架。主要内容涵盖模板创建与匹配、圆测量、数据持久化以及图像采集等方面的技术细节。首先，通过创建形状模板并进行匹配，实现了工件的精确定位。接着，针对圆形物体的测量，提出了动态ROI绘制、亚像素边缘提取和稳健圆拟合的方法。此外，还讨论了模板管理和图像采集的最佳实践，确保系统的稳定性和高效性。最后，强调了Halcon对象的内存管理和错误处理机制，提供了实用的优化建议。适合人群：具备一定编程基础，尤其是对C#和Halcon有一定了解的研发人员和技术爱好者。使用场景及目标：适用于工业生产线上的自动化检测设备开发，旨在提高工件定位和尺寸测量的精度与效率。主要目标是帮助开发者掌握C#与Halcon联合编程的具体实现方法，从而构建稳定可靠的视觉检测系统。其他说明：文中提供了大量实战代码片段和调试技巧，有助于读者快速理解和应用相关技术。同时，作者分享了许多实际项目中的经验和教训，使读者能够避开常见陷阱，提升开发效率。

【人工智能领域】DeepSeek AI核心技术优势及广泛应用场景：推动全球AI创新与产业变革: 内容概要：本文深入探讨了DeepSeek AI的独特优势及其在全球AI领域的影响力。DeepSeek由中国深度求索公司开发，自2025年1月20日发布以来，凭借其卓越的性能和独特优势迅速吸引了全球关注。其核心优势包括：1) 极致成本效率，如低成本训练和高效推理；2) 强大的推理能力，涵盖多领域表现优异

php连接sqlserver之VC-redist.x64.exe: php连接sqlserver之VC_redist.x64.exe

基于Matlab/Simulink的异步电动机恒压频比与转差频率控制仿真及其实现: 内容概要：本文详细介绍了利用Matlab/Simulink进行异步电动机交流调速系统的仿真实验，主要探讨了两种控制方式：恒压频比（V/F）开环控制和转差频率闭环控制。文中不仅提供了具体的数学模型和代码片段，还展示了不同控制方式下的仿真结果对比，包括转速响应、电流波形和谐波含量等方面的表现。此外，文章深入讲解了SVPWM（空间矢量脉宽调制）的应用，强调了其相对于传统SPWM的优势，并给出了详细的参数调整技巧和注意事项。适合人群：从事电机控制系统设计的研究人员和技术人员，尤其是对Matlab/Simulink有一定基础并希望深入了解异步电动机调速系统的人群。使用场景及目标：适用于需要进行电机控制算法开发和优化的场合，旨在帮助读者掌握异步电动机调速的基本原理和具体实现方法，提高仿真的准确性和效率。其他说明：文章通过丰富的实例和图表，生动地展示了各种控制策略的特点和效果，有助于读者更好地理解和应用相关理论。同时，文中提供的调试技巧对于解决实际工程中的常见问题非常有帮助。

电动汽车等速工况续驶里程仿真及Matlab实现详解: 内容概要：本文详细介绍了如何利用Matlab进行电动汽车等速工况续驶里程的仿真。首先解释了等速工况的概念及其重要性，接着展示了具体的参数设定，如车辆质量、风阻系数、电池容量等。然后深入探讨了核心算法，包括阻力计算、功率需求、能量消耗以及SOC（剩余电量）的变化过程。文中特别强调了一些常见的陷阱和注意事项，如单位换算错误、电机效率的动态变化等。最后，通过可视化工具展示了仿真结果，并讨论了可能的改进方向，如引入NEDC工况循环和其他动态因素。适合人群：新能源汽车专业的学生、研究人员以及对电动汽车仿真感兴趣的工程师。使用场景及目标：①帮助理解和掌握电动汽车等速工况续驶里程仿真的原理和方法；②提供详细的代码实现和注释，便于学习和修改；③用于课程设计、毕业设计或其他研究项目。其他说明：本文不仅提供了完整的Matlab代码，还包括详细的参数说明和常见问题解析，确保使用者能够顺利运行并理解整个仿真过程。同时，作者还分享了许多实践经验，有助于提高仿真的准确性和实用性。

【定稿】桂林电子科技大学第七届大学生思政课社会实践优秀成果展示活动实施方案 (1).zip: 【定稿】桂林电子科技大学第七届大学生思政课社会实践优秀成果展示活动实施方案 (1).zip

直线感应电机瞬态磁场仿真教程：Maxwell 16.0与ANSYS 2020关键技术解析: 内容概要：本文详细介绍了使用Maxwell 16.0和ANSYS 2020进行直线感应电机瞬态磁场仿真的方法和技术要点。首先强调了建模前的准备工作，包括初级线圈布置、次级导体材料选择、气隙宽度等参数的确定。然后针对Maxwell 16.0用户，讲解了坐标系的选择（笛卡尔坐标系）、初级绕组绘制、运动参数设置、网格剖分优化以及边界条件的正确配置。对于ANSYS 2020用户，则着重讲述了如何利用Maxwell模块建立模型并在Mechanical中进行电磁力耦合分析，包括参数化扫描设置、气隙厚度扫描、磁密云图动态更新等技巧。此外，文中还分享了许多实用的经验和注意事项，如避免常见的参数设置错误、提高仿真精度的方法、处理推力波动等问题的具体措施。适合人群：从事电机设计与仿真的工程师、研究人员，尤其是有一定Maxwell和ANSYS使用基础的技术人员。使用场景及目标：帮助用户掌握直线感应电机瞬态磁场仿真的全流程，确保仿真结果的准确性，提升工作效率。具体应用场景包括但不限于新电机设计验证、现有电机性能优化、故障诊断等。其他说明：文中提供了大量具体的命令和脚本示例，便于读者直接应用到实际工作中。同时，作者结合自身丰富的实践经验，给出了许多宝贵的建议和警示，有助于读者避开常见陷阱，顺利完成仿真任务。

基于Matlab Simulink的交流异步电机矢量控制与SVPWM仿真建模及优化: 内容概要：本文详细介绍了如何在Matlab Simulink中构建交流异步电机的矢量控制模型及其SVPWM调制方法。首先解释了坐标变换（如Clarke和Park变换）的基本原理，并提供了具体的实现代码。接着讨论了双闭环控制策略，即电流环和速度环的设计与参数整定，强调了PI控制器的抗饱和处理以及速度环带宽的选择。对于SVPWM部分，文章对比了几种不同的调制算法，推荐了一种改进的七段式算法，提高了电压利用率并降低了谐波含量。此外，文中还分享了许多实际调试过程中遇到的问题及解决方案，如启动电流冲击、低频振荡等。适合人群：从事电力电子、电机驱动系统设计的研究人员和技术工程师，尤其是对矢量控制和SVPWM感兴趣的初学者。使用场景及目标：适用于需要深入了解交流异步电机矢量控制原理及其实现方法的人群。目标是在掌握理论基础上，能够独立搭建并优化Simulink仿真模型，从而提高实际应用中的性能表现。其他说明：随文提供的工程文件包含了完整的模型和详细的参数整定表格，便于读者进行实践操作。同时，作者还提供了一些实用的小贴士，帮助避免常见的错误和陷阱。

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论