记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下:
(1)问题一: 如何在Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载,和切分数据?
注意关于这个问题,在Pig中,会反应到2个场景中,
第一: 在Pig加载(load)数据时候 。
第二: 在Pig处理split,或则正则截取数据的时候。
先稍微说下,为啥使用十六进制的字段分隔符,而不是我们常见的空格,逗号,冒号,分号,#号,等,这些字符,虽然也可以使用,但是如果我们数据中有和这些符号冲突的数据,那么在解析时,就会发生一些出人意料的Bug,所以,为了保险起见,选用肉眼不可读的十六进制的数据,是一个不错的选择,当然这也是,针对场景来说的,看情况决定。
关于详细的ASCII和十六进制,二进制,八进制,十进制的文档介绍,请参考维基百科全书。
下面继续回到正题,本例中,我们的数据格式是这样存储的:
每行一条记录,UTF-8编码;
每条记录都包括字段名和字段内容;
字段之间用ascii码1分隔;
字段名与内容之间用ascii码2分隔;
一个在eclipse中的小例子如下:
public static void main(String[] args) {
//注意\1和\2,在我们的IDE中,NotePad++中,Linux的终端设备的界面中,都会呈现不同的
//显示方式,大家可以在维基百科中,详细了解下
//数据示例
String s="prod_cate_disp_id019";
//split规则
String ss[]=s.split("\2");
for(String st:ss){
System.out.println(st);
}
}
关于load函数,加载时支持的分隔符类型,大家可以参考官网的文档
下面看在Pig脚本的代码:
--Hadoop技术交流群:415886155
/*Pig支持的分隔符包括:
1,任意字符串,
2,任意转义字符
3,dec的字符\\u001 或者 \\u002
4,十六进行字符 \\x0A \\x0B
*/
--注意这个load时的分隔符,代表ASCII的1,作为Pig里面的dec直接解析方式
a = load '/tmp/dongliang/20150401/20150301/tmp_search_keywords_cate_stat/' using PigStorage('\\u001') ;
/**
注意下面的分割符^B,这个符号是脱元字符,只会在终端设备上
显示,这个符号,代表ASCII的2
*/
a = foreach a generate REGEX_EXTRACT ($0, '(.*)^B(.*)', 2) as time ,
REGEX_EXTRACT ($1, '(.*)^B(.*)', 2) as kw ,
REGEX_EXTRACT ($2, '(.*)^B(.*)', 2) as ic ,
REGEX_EXTRACT ($3, '(.*)^B(.*)', 2) as cid,
REGEX_EXTRACT ($4, '(.*)^B(.*)', 2) as cname,
REGEX_EXTRACT ($5, '(.*)^B(.*)', 2) as pname,
REGEX_EXTRACT ($6, '(.*)^B(.*)', 2) as snt,
REGEX_EXTRACT ($7, '(.*)^B(.*)', 2) as cnt,
REGEX_EXTRACT ($8, '(.*)^B(.*)', 2) as fnt,
REGEX_EXTRACT ($9, '(.*)^B(.*)', 2) as ant,
REGEX_EXTRACT ($10, '(.*)^B(.*)', 2) as pnt ;
--获取字符串长度
a = foreach a generate SIZE(cid) as len;
--按长度分组
b = group a by len;
--统计各个长度下的数量
c = foreach b generate group, COUNT($1);
--输出打印
dump c;
(2)问题二:如何在Apache Solr中,查询某个不分词的field的长度,有多少个记录?
Solr里面并没有直接提供这样类似JAVA里的lenth这样的函数,或者Pig里面的SIZE这样的函数,那么我们应该如何查询呢?
Solr虽然不直接支持这样的查询,但是我们可以通过正则查询,来变相的实现这个目的,用法如下:
(1)查询固定长度 cid:/.{6}/ 只过滤长度为6的记录
(2)查询范围长度 cid:/.{6,9}/ 只过滤长度6到9的记录
(3)查询最少多少长度以上的cid:/.{6}.*/ 长度最少为6的
(3)问题三:在使用Pig+MapReduce,向Solr中,批量添加索引时,发现,无任何错误异常,但是索引里却没任何数据?
这是一个比较诡异的问题,本来,散仙觉得应该是程序出问题了,但是后来发现,同样的代码向另外一个collection里添加数据,就很正常,查看solr的log,发现里面打印的一些信息如下:
INFO - 2015-04-01 21:08:36.097; org.apache.solr.update.DirectUpdateHandler2; start commit{,optimize=false,openSearcher=true,waitSearcher=true,expungeDeletes=false,softCommit=false,prepareCommit=false}
INFO - 2015-04-01 21:08:36.098; org.apache.solr.update.DirectUpdateHandler2; No uncommitted changes. Skipping IW.commit.
INFO - 2015-04-01 21:08:36.101; org.apache.solr.core.SolrCore; SolrIndexSearcher has not changed - not re-opening: org.apache.solr.search.SolrIndexSearcher
INFO - 2015-04-01 21:08:36.102; org.apache.solr.update.DirectUpdateHandler2; end_commit_flush
解释下上面的信息的意思,大概就是说在数据索引完了,但是没有发现有commit的数据,所以跳过commit,这一点在程序跑的时候是非常奇怪的,因为数据源HDFS里最少有110万的数据,怎么会没有数据呢? 然后散仙通过谷歌搜索发现也有人发现类似的奇怪情况,无任何异常的情况下,重建索引成功,却在索引里没有看见任何数据,而且最为疑惑的是,这几个网上已经有的案例,竟然没有一个有解决方案。
没办法了,只好再次查看程序,这一次散仙,把中间处理好需要建索引的数据,给打印出来看一下,到底什么情况,结果打印出来的都是一行行空数据,原来在使用正则截取数据时,原来的分隔符失效了,所以导致截取不到数据,这下问题基本定位了,solr索引里没有数据,肯定是因为本来就没有数据提交,导致的那个奇怪的log发生,结果在散仙把这个bug修复之后,再次重建索引,发现这次果然成功了,在Solr中,也能正常查询到数据。如果你也发生了类似的情况,请首先确保你能正确的获取到数据,不论是从远程读取的,还是解析word,excel,或者txt里面的数据,都要首先确定,能够正确的把数据解析出来,然后,如果还是没建成功,可根据solr的log或者抛出的异常提示,进行修复 。
最后,欢迎大家关注散仙的公众号:我是攻城师,有任何问题,都可以直接留言与散仙交流。

- 大小: 58.9 KB
分享到:
相关推荐
这个数据集提供了2010年至2021年间加拿大各省的家庭支出与收入数据,这些数据根据人口统计和地理指标进行了分类。每行代表了年份(REF_DATE)、省份(GEO)以及编码后的支出或收入类型的唯一组合(COORDINATE)。以下是该数据集的关键特点及包含的列信息: 关键特点: 支出数据:家庭支出按照收入五分位数和支出类别进行分类。 收入数据:家庭收入值根据家庭类型、较年长成年人的年龄组别和收入水平细分。 地理位置匿名化:为了保护隐私,原始的地理位置标识符被替换为如“Province 1”这样的标签。 时间序列:涵盖了超过十年的财务数据(2010–2021),适合用于纵向经济和社会趋势分析。 包含的列: REF_DATE:记录年份(2010–2021) GEO:省份标签(例如,“Province 1”) Statistic:度量类型(例如,平均家庭支出) Before-tax household income quintile:税前家庭收入水平分组 Household expenditures, summary-level categories:支出类别 UOM:计量单位 COORD
1.【锂电池剩余寿命预测】GRU门控循环单元锂电池剩余寿命预测(Matlab完整源码和数据) 2.数据集:NASA数据集,已经处理好,B0005电池训练、测试; 3.环境准备:Matlab2023b,可读性强; 4.模型描述:GRU门控循环单元在各种各样的问题上表现非常出色,现在被广泛使用。 5.领域描述:近年来,随着锂离子电池的能量密度、功率密度逐渐提升,其安全性能与剩余使用寿命预测变得愈发重要。本代码实现了GRU门控循环单元在该领域的应用。 6.作者介绍:机器学习之心,博客专家认证,机器学习领域创作者,2023博客之星TOP50,主做机器学习和深度学习时序、回归、分类、聚类和降维等程序设计和案例分析,文章底部有博主联系方式。从事Matlab、Python算法仿真工作8年,更多仿真源码、数据集定制私信。
2000-2024年各省专利侵权案件结案数数据 1、时间:2000-2024年 2、来源:国家知识产权J 3、指标:专利侵权案件结案数 4、范围:31省 5、用途:可用于衡量知识产权保护水平
- 使用`<div>` 容器组织游戏界面,包含得分显示、游戏画布和操作按钮 - 支持三种游戏模式选择(一般模式、困难模式、无敌模式) - 移动端和桌面端兼容,提供触摸和键盘两种控制方式 2. CSS样式 : - 采用Flex布局实现页面居中显示 - 使用Grid布局实现方向按钮的排列 - 定义了游戏容器的阴影、圆角等视觉效果 - 为按钮添加了hover效果和过渡动画 3. JavaScript逻辑 : - 使用Canvas API实现游戏渲染 - 实现了蛇的移动、食物生成、碰撞检测等核心游戏逻辑 - 支持三种游戏模式,不同模式对应不同的游戏速度和规则 - 使用localStorage保存最高分记录 - 实现随机颜色生成,使游戏更具趣味性 代码整体结构清晰,功能完整,具有良好的可扩展性和可维护性。
台区终端电科院送检文档
内容概要:本文详细介绍了一个基于强化学习(RL)的飞机升阻力特性预测模型的实现过程。首先,定义了飞机空气动力学环境,包括状态空间、动作空间以及目标——预测升力系数(Cl)和阻力系数(Cd)。接着,通过生成模拟数据并进行预处理,创建了用于训练的数据集。然后,构建了一个神经网络代理模型,用于联合编码状态和动作,并预测升阻力系数。最后,实现了PPO算法来训练强化学习代理,使其能够根据当前状态选择最优动作,并通过不断迭代提高预测精度。文中还提供了完整的代码实现和详细的注释。 适合人群:航空航天领域的研究人员、机器学习工程师、对强化学习感兴趣的开发者。 使用场景及目标:适用于需要预测飞机升阻力特性的应用场景,如飞行器设计优化、性能评估等。目标是通过强化学习方法提升预测模型的准确性,从而为实际工程提供可靠的理论支持和技术手段。 其他说明:本文不仅涵盖了模型的设计与实现,还包括了数据生成、预处理等多个环节,有助于读者全面理解整个建模过程。同时,提供的代码可以作为研究和开发的基础,方便进一步扩展和改进。
cmock ut aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
lsm6d datasheet
风力发电机传动机构的设计(增速器)
genesys-zu(5ev)配置petalinux(从安装到嵌入)
django自建博客app
Android项目原生java语言课程设计,包含LW+ppt
幼儿园预防肺结核教育培训课件资料
STM32F103RCT6单片机控制气泵和电磁阀的开关 1、气泵和电磁阀的开和关均为开关量,实现控制方法有多种,比如继电器,但是继电器动作有噪声且体积较大,更好的方法为使用mos管。 2、mos管的选型:mos管选择主要注意两个参数即可,一是导通的电流,二是耐压值,并且常用NMOS管,根据要求,气泵和电磁阀供电电压为12V,所以选择的mos管耐压值要大于12V,这里选用耐压值为30V的MOS管,并且导通电流为5.8A。
因文件较多,数据存放网盘,txt文件内包含下载链接及提取码,永久有效。失效会第一时间进行补充。样例数据及详细介绍参见文章:https://blog.csdn.net/T0620514/article/details/146916073
将 Windows 系统中 “C:\windows\fonts” 目录下的所有字体文件
智能量测终端最新标准
滑道式提升机及其控制电路的设计.zip
资源内项目源码是来自个人的毕业设计,代码都测试ok,包含源码、数据集、可视化页面和部署说明,可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源,毕设答辩评审绝对信服的保底85分以上,放心下载使用,拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务,拿来就能用的绝对好资源!!! 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.txt文件,仅供学习参考, 切勿用于商业用途。
三拐曲轴模锻工艺及模具设计说明书参考.zip