`
weitao1026
  • 浏览: 1050256 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Pig0.12.0和Solr4.10.2一些问题

pig 
阅读更多

遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下:

(1)问题一: 如何在Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载,和切分数据?

注意关于这个问题,在Pig中,会反应到2个场景中,
第一: 在Pig加载(load)数据时候 。
第二: 在Pig处理split,或则正则截取数据的时候。

先稍微说下,为啥使用十六进制的字段分隔符,而不是我们常见的空格,逗号,冒号,分号,#号,等,这些字符,虽然也可以使用,但是如果我们数据中有和这些符号冲突的数据,那么在解析时,就会发生一些出人意料的Bug,所以,为了保险起见,选用肉眼不可读的十六进制的数据,是一个不错的选择,当然这也是,针对场景来说的,看情况决定。

关于详细的ASCII和十六进制,二进制,八进制,十进制的文档介绍,请参考
维基百科全书。

下面继续回到正题,本例中,我们的数据格式是这样存储的:

Java代码 复制代码 收藏代码
  1. 每行一条记录,UTF-8编码;  
  2. 每条记录都包括字段名和字段内容;  
  3. 字段之间用ascii码1分隔;  
  4. 字段名与内容之间用ascii码2分隔;  
每行一条记录,UTF-8编码;
每条记录都包括字段名和字段内容;
字段之间用ascii码1分隔;
字段名与内容之间用ascii码2分隔;



一个在eclipse中的小例子如下:

Java代码 复制代码 收藏代码
  1. public static void main(String[] args) {  
  2.     //注意\1和\2,在我们的IDE中,NotePad++中,Linux的终端设备的界面中,都会呈现不同的  
  3.     //显示方式,大家可以在维基百科中,详细了解下  
  4.     //数据示例  
  5.     String s="prod_cate_disp_id019";  
  6.     //split规则  
  7.     String ss[]=s.split("\2");  
  8.     for(String st:ss){  
  9.         System.out.println(st);  
  10.     }  
  11. }  
	public static void main(String[] args) {
		//注意\1和\2,在我们的IDE中,NotePad++中,Linux的终端设备的界面中,都会呈现不同的
		//显示方式,大家可以在维基百科中,详细了解下
		//数据示例
		String s="prod_cate_disp_id019";
		//split规则
		String ss[]=s.split("\2");
		for(String st:ss){
			System.out.println(st);
		}
	}




关于load函数,加载时支持的分隔符类型,大家可以参考官网的文档
下面看在Pig脚本的代码:

Java代码 复制代码 收藏代码
  1. --Hadoop技术交流群:415886155  
  2. /*Pig支持的分隔符包括: 
  3. 1,任意字符串, 
  4. 2,任意转义字符 
  5. 3,dec的字符\\u001 或者 \\u002 
  6. 4,十六进行字符 \\x0A  \\x0B 
  7. */  
  8. --注意这个load时的分隔符,代表ASCII的1,作为Pig里面的dec直接解析方式  
  9. a = load '/tmp/dongliang/20150401/20150301/tmp_search_keywords_cate_stat/' using PigStorage('\\u001') ;  
  10.   
  11. /** 
  12.  
  13. 注意下面的分割符^B,这个符号是脱元字符,只会在终端设备上 
  14. 显示,这个符号,代表ASCII的2 
  15. */  
  16. a = foreach a generate   REGEX_EXTRACT ($0'(.*)^B(.*)'2) as time ,  
  17.                          REGEX_EXTRACT ($1'(.*)^B(.*)'2) as kw ,  
  18.                          REGEX_EXTRACT ($2'(.*)^B(.*)'2) as ic ,  
  19.                          REGEX_EXTRACT ($3'(.*)^B(.*)'2) as cid,  
  20.                          REGEX_EXTRACT ($4'(.*)^B(.*)'2) as cname,  
  21.                          REGEX_EXTRACT ($5'(.*)^B(.*)'2) as pname,  
  22.                          REGEX_EXTRACT ($6'(.*)^B(.*)'2) as snt,  
  23.                          REGEX_EXTRACT ($7'(.*)^B(.*)'2) as cnt,  
  24.                          REGEX_EXTRACT ($8'(.*)^B(.*)'2) as fnt,  
  25.                          REGEX_EXTRACT ($9'(.*)^B(.*)'2) as ant,  
  26.                          REGEX_EXTRACT ($10'(.*)^B(.*)'2) as pnt ;  
  27.   
  28. --获取字符串长度  
  29. a = foreach a generate SIZE(cid) as len;  
  30. --按长度分组  
  31. b = group a by len;  
  32. --统计各个长度下的数量  
  33. c = foreach b generate group, COUNT($1);  
  34. --输出打印  
  35. dump c;  
--Hadoop技术交流群:415886155
/*Pig支持的分隔符包括:
1,任意字符串,
2,任意转义字符
3,dec的字符\\u001 或者 \\u002
4,十六进行字符 \\x0A  \\x0B
*/
--注意这个load时的分隔符,代表ASCII的1,作为Pig里面的dec直接解析方式
a = load '/tmp/dongliang/20150401/20150301/tmp_search_keywords_cate_stat/' using PigStorage('\\u001') ;

/**

注意下面的分割符^B,这个符号是脱元字符,只会在终端设备上
显示,这个符号,代表ASCII的2
*/
a = foreach a generate   REGEX_EXTRACT ($0, '(.*)^B(.*)', 2) as time ,
                         REGEX_EXTRACT ($1, '(.*)^B(.*)', 2) as kw ,
                         REGEX_EXTRACT ($2, '(.*)^B(.*)', 2) as ic ,
                         REGEX_EXTRACT ($3, '(.*)^B(.*)', 2) as cid,
                         REGEX_EXTRACT ($4, '(.*)^B(.*)', 2) as cname,
                         REGEX_EXTRACT ($5, '(.*)^B(.*)', 2) as pname,
                         REGEX_EXTRACT ($6, '(.*)^B(.*)', 2) as snt,
                         REGEX_EXTRACT ($7, '(.*)^B(.*)', 2) as cnt,
                         REGEX_EXTRACT ($8, '(.*)^B(.*)', 2) as fnt,
                         REGEX_EXTRACT ($9, '(.*)^B(.*)', 2) as ant,
                         REGEX_EXTRACT ($10, '(.*)^B(.*)', 2) as pnt ;

--获取字符串长度
a = foreach a generate SIZE(cid) as len;
--按长度分组
b = group a by len;
--统计各个长度下的数量
c = foreach b generate group, COUNT($1);
--输出打印
dump c;




(2)问题二:如何在Apache Solr中,查询某个不分词的field的长度,有多少个记录?

Solr里面并没有直接提供这样类似JAVA里的lenth这样的函数,或者Pig里面的SIZE这样的函数,那么我们应该如何查询呢?

Solr虽然不直接支持这样的查询,但是我们可以通过正则查询,来变相的实现这个目的,用法如下:
(1)查询固定长度 cid:/.{6}/ 只过滤长度为6的记录
(2)查询范围长度 cid:/.{6,9}/ 只过滤长度6到9的记录
(3)查询最少多少长度以上的cid:/.{6}.*/ 长度最少为6的



(3)问题三:在使用Pig+MapReduce,向Solr中,批量添加索引时,发现,无任何错误异常,但是索引里却没任何数据?

这是一个比较诡异的问题,本来,散仙觉得应该是程序出问题了,但是后来发现,同样的代码向另外一个collection里添加数据,就很正常,查看solr的log,发现里面打印的一些信息如下:

Java代码 复制代码 收藏代码
  1. INFO  - 2015-04-01 21:08:36.097; org.apache.solr.update.DirectUpdateHandler2; start commit{,optimize=false,openSearcher=true,waitSearcher=true,expungeDeletes=false,softCommit=false,prepareCommit=false}  
  2. INFO  - 2015-04-01 21:08:36.098; org.apache.solr.update.DirectUpdateHandler2; No uncommitted changes. Skipping IW.commit.  
  3. INFO  - 2015-04-01 21:08:36.101; org.apache.solr.core.SolrCore; SolrIndexSearcher has not changed - not re-opening: org.apache.solr.search.SolrIndexSearcher  
  4. INFO  - 2015-04-01 21:08:36.102; org.apache.solr.update.DirectUpdateHandler2; end_commit_flush  
INFO  - 2015-04-01 21:08:36.097; org.apache.solr.update.DirectUpdateHandler2; start commit{,optimize=false,openSearcher=true,waitSearcher=true,expungeDeletes=false,softCommit=false,prepareCommit=false}
INFO  - 2015-04-01 21:08:36.098; org.apache.solr.update.DirectUpdateHandler2; No uncommitted changes. Skipping IW.commit.
INFO  - 2015-04-01 21:08:36.101; org.apache.solr.core.SolrCore; SolrIndexSearcher has not changed - not re-opening: org.apache.solr.search.SolrIndexSearcher
INFO  - 2015-04-01 21:08:36.102; org.apache.solr.update.DirectUpdateHandler2; end_commit_flush




解释下上面的信息的意思,大概就是说在数据索引完了,但是没有发现有commit的数据,所以跳过commit,这一点在程序跑的时候是非常奇怪的,因为数据源HDFS里最少有110万的数据,怎么会没有数据呢? 然后散仙通过谷歌搜索发现也有人发现类似的奇怪情况,无任何异常的情况下,重建索引成功,却在索引里没有看见任何数据,而且最为疑惑的是,这几个网上已经有的案例,竟然没有一个有解决方案。

没办法了,只好再次查看程序,这一次散仙,把中间处理好需要建索引的数据,给打印出来看一下,到底什么情况,结果打印出来的都是一行行空数据,原来在使用正则截取数据时,原来的分隔符失效了,所以导致截取不到数据,这下问题基本定位了,solr索引里没有数据,肯定是因为本来就没有数据提交,导致的那个奇怪的log发生,结果在散仙把这个bug修复之后,再次重建索引,发现这次果然成功了,在Solr中,也能正常查询到数据。如果你也发生了类似的情况,请首先确保你能正确的获取到数据,不论是从远程读取的,还是解析word,excel,或者txt里面的数据,都要首先确定,能够正确的把数据解析出来,然后,如果还是没建成功,可根据solr的log或者抛出的异常提示,进行修复 。

 

分享到:
评论

相关推荐

    pig-0.12.0-cdh5.5.0.tar.gz

    3. **性能优化**:Pig-0.12.0 版本中引入了一些性能优化措施,包括改进的编译器优化、内存管理和查询执行策略。这些改进有助于减少数据处理的时间,提高大数据分析的效率。 4. **元数据和存储**:在 CDH 5.5.0 中,...

    pig-0.12.0(Ubuntu)

    **标题:“pig-0.12.0(Ubuntu)”** **内容详解:** "Pig-0.12.0" 是Apache Pig的一个版本,它是一个用于处理大规模数据集的平台,尤其适合在Hadoop生态系统中进行数据分析。Pig的设计理念是通过一种名为Pig ...

    Serialplot-0.12.0-win32

    它包含了运行Serialplot所需的所有组件,特别是"serialplot-0.12.0-win32.exe"这个可执行文件,用户只需双击即可开始安装和使用。 Serialplot的核心功能在于其强大的数据采集和实时绘图能力。对于科研、工程以及...

    simpleclient-0.12.0-API文档-中文版.zip

    赠送jar包:simpleclient-0.12.0.jar; 赠送原API文档:simpleclient-0.12.0-javadoc.jar; 赠送源代码:simpleclient-0.12.0-sources....人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    PhpPresentation0.12.0(修复图表问题导致的报错)

    这个版本是0.12.0,它主要修复了一个重要的问题,即在生成包含图表的内容时可能导致Microsoft PowerPoint 2010及以上版本或者WPS Office出现错误、空白页的状况。这个问题可能由于不兼容的格式或编码导致,影响了...

    jetson上torchvision-0.12.0源码

    这个是jetson上使用的torchvision0.12.0版本源码,解压后使用 sudo python3 setup.py install即可安装,编译大约耗时30分钟完成,请耐心等待,安装这个源码之前您必须安装好torch-1.11.0-cp38-cp38-linux_aarch64,...

    Lombok 0.12.0

    Lombok 0.12.0让代码更加简洁

    simpleclient-0.12.0-API文档-中英对照版.zip

    赠送jar包:simpleclient-0.12.0.jar; 赠送原API文档:simpleclient-0.12.0-javadoc.jar;...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。 双语对照,边学技术、边学英语。

    hive-0.12.0.part1.rar

    hive-0.12.0.part1.rar hive-0.12.0.part1.rar

    libthrift-0.12.0.jar

    libthrift-0.12.0.jar的java类库。

    hive-0.12.0.tar.gz

    3. **稳定性增强**:修复了之前版本中的一些已知问题,提升了系统的稳定性和可靠性。 4. **改进的元数据管理**:可能对元数据存储和管理进行了改进,使得元数据操作更加高效。 然而,随着时间的推移,Hive已经发展...

    flannel的镜像版本v0.12.0以及kube-flannel.yml.rar

    k8是安装所需要的flannel的镜像版本v0.12.0以及kube-flannel.yml资源

    frescolib-v0.12.0.zip

    Fresco通过其强大的功能和优化机制,有效地解决了这些问题,使得图片加载更加高效、流畅。 Fresco的核心特性包括: 1. **内存管理**:Fresco采用了分层缓存策略,将图片存储在两个层级的内存中——一个是内存中的...

    pandas-0.12.0.zip

    在“pandas-0.12.0.zip”这个压缩包中,包含了Pandas库的0.12.0版本,这是该库历史上的一个重要版本,它提供了丰富的数据结构和分析工具,使得数据清洗、预处理和探索变得轻而易举。 Pandas的核心是DataFrame对象,...

    Python库 | future-0.12.0.tar.gz

    为了解决这一问题,Python社区开发了一个名为`future`的库,它的全名是`future-0.12.0.tar.gz`,这是一个压缩包文件,包含了`future`库的源代码,版本号为0.12.0。本文将深入探讨这个库的功能、用途以及如何使用,以...

    flanneld-v0.12.0-amd64.zip

    k8s集群安装,如果网络插件无法下载,可以手动下载后上传再加载,解压之后,上传到服务器上,再进行加载

    torchvision-0.12.0+cpu-cp39-cp39-linux_x86_64.whl

    torchvision-0.12.0+cpu-cp39-cp39-linux_x86_64.whl

    pigunit:Pig的基于Node.js的单元测试(以及尝试Hadoop简便方法)

    已针对Pig 0.12.0进行了测试,但是PigUnit的API非常简单,以至于我不希望有任何版本依赖性。 下载后,解压缩并切换到源目录,同时构建Pig和PigUnit: ant && ant pigunit-jar (作为附带说明,您也可以从下载pig

    tensorflow-0.12.0-cp35-cp35m-win_amd64.whl

    值得注意的是,0.12.0是TensorFlow的一个较早版本,随着时间的推移,新版本可能引入了更多的功能和修复了已知问题。因此,除非有特定需求,通常建议使用最新稳定版。 在Windows 10上安装TensorFlow时,需要确保系统...

    absl-py-0.12.0.tar.gz

    8. **调试工具**:包括断言和错误检测工具,有助于在开发过程中发现问题。 在**absl-py-0.12.0**这个版本中,可能包含以下更新和改进: - 修复了一些已知的bug,提高了库的稳定性和可靠性。 - 可能引入了新的功能...

Global site tag (gtag.js) - Google Analytics