Solr /export 海量数据导出实现

mozhenghua

浏览: 328166 次
性别:
来自: 杭州

最近访客更多访客>>

huang_love_ok

wang_eye

贝铃-Turing

joechl

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Solr需要流式导出海量数据，导出数据是基于流式的，当服务端match到第一条数据之后就会向客户端flush出数据。

需要导出的列需要将schema中field元素的docvalue设置为true，并且在solrconfig.xml中配置

<requestHandler name="/export" class="solr.SearchHandler">
 <lst name="invariants">
   <str name="rq">{!xport}</str>
   <str name="wt">xsort</str>
   <str name="distrib">false</str>
 </lst>
 <arr name="components">
   <str>query</str>
 </arr>
</requestHandler>

客户端的查询代码如下：

                final String[] fl = StringUtils.split(fields, ",");
		SolrClient client = new HttpSolrClient(url);

		query.setDistrib(false);
		query.setFields(fields);
		query.setRows(9999999);

		final PrintWriter writer = new PrintWriter(new OutputStreamWriter(
				FileUtils.openOutputStream(outfile), Charset.forName("utf8")));

		for (String f : fl) {
			writer.print(f);
			writer.print(",");
		}

		final AtomicInteger count = new AtomicInteger(0);
		QueryResponse result = client.queryAndStreamResponse(query,
				new StreamingResponseCallback() {
					@Override
		public void streamSolrDocument(SolrDocument doc) {
						// process doc
					}

		public void streamDocListInfo(long numFound, long start,
							Float maxScore) {
						// writer.println("numFound:" + numFound);
					}
				});
		writer.close();
		System.out.println("numFound:" + result.getResults().getNumFound());
		client.close();

solr服务端相关的代码：

QP：

ExportQParserPlugin 在export handler中使用QP

查询结果流式排序输出：

SortingResponseWriter

分享到：

hive udf 使用示例 | solr5和solr6相同集群共存冲突解决

2016-11-29 13:18
浏览 8044
评论(1)
分类:企业架构
查看更多

1 楼 xiaowangge 2017-11-15

query.setDistrib(false); 之后只是获取了其中某一个分片的数据了，如果不设置的话，数据量大了就会把solr弄崩溃了，你的不会么？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr /export 海量数据导出实现

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr /export 海量数据导出实现

评论

发表评论

相关推荐

最近访客更多访客>>