`
mozhenghua
  • 浏览: 326076 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Solr /export 海量数据导出实现

 
阅读更多

    Solr需要流式导出海量数据,导出数据是基于流式的,当服务端match到第一条数据之后就会向客户端flush出数据。

    需要导出的列需要将schema中field元素的docvalue设置为true,并且在solrconfig.xml中配置

<requestHandler name="/export" class="solr.SearchHandler">
 <lst name="invariants">
   <str name="rq">{!xport}</str>
   <str name="wt">xsort</str>
   <str name="distrib">false</str>
 </lst>
 <arr name="components">
   <str>query</str>
 </arr>
</requestHandler>

 

 客户端的查询代码如下: 

                final String[] fl = StringUtils.split(fields, ",");
		SolrClient client = new HttpSolrClient(url);

		query.setDistrib(false);
		query.setFields(fields);
		query.setRows(9999999);

		final PrintWriter writer = new PrintWriter(new OutputStreamWriter(
				FileUtils.openOutputStream(outfile), Charset.forName("utf8")));

		for (String f : fl) {
			writer.print(f);
			writer.print(",");
		}

		final AtomicInteger count = new AtomicInteger(0);
		QueryResponse result = client.queryAndStreamResponse(query,
				new StreamingResponseCallback() {
					@Override
		public void streamSolrDocument(SolrDocument doc) {
						// process doc
					}

		public void streamDocListInfo(long numFound, long start,
							Float maxScore) {
						// writer.println("numFound:" + numFound);
					}
				});
		writer.close();
		System.out.println("numFound:" + result.getResults().getNumFound());
		client.close();

 

solr服务端相关的代码:

QP:

  ExportQParserPlugin 在export handler中使用QP

查询结果流式排序输出:

  SortingResponseWriter

 

分享到:
评论
1 楼 xiaowangge 2017-11-15  
query.setDistrib(false); 之后只是获取了其中某一个分片的数据了,如果不设置的话,数据量大了就会把solr弄崩溃了,你的不会么?

相关推荐

    solr/ext/ 里面的jar包

    org.apache.solr.common.SolrException: Could not find necessary SLF4j logging jars. If using Jetty, the SLF4j logging jars need to go in the jetty lib/ext directory. For other containers, the ...

    配置好的solr启动环境

    2. **增量创建索引**:Solr支持增量索引,意味着当新的数据加入或已有数据发生变化时,无需重新构建整个索引,而是只更新受影响的部分。这对于大型数据集来说,既节省时间又节省资源。 3. **创建索引**:索引是Solr...

    solr 的使用及安装

    Solr 基于 Lucene 库,提供了一个高度可配置和可扩展的平台,用于处理和索引大量数据,支持多种数据源,如文件、数据库等。其主要特性包括: 1. **全文搜索**:Solr 可以对文本进行分词和索引,实现高效的模糊匹配...

    Linux安装单机版Solr.docx

    ### Linux安装单机版Solr知识点详解 #### 一、安装环境准备 在开始安装单机版Solr之前,确保已经准备好如下环境: ...通过以上步骤,您应该能够在Linux系统上成功安装单机版Solr,并为后续的数据搜索和管理提供支持。

    SOLR HOME 相对路径配置

    在Solr,一个基于Lucene的全文搜索服务器,配置`SOLR_HOME`是至关重要的步骤,因为它决定了Solr实例的数据存储位置。本篇将详细解释三种不同的`SOLR_HOME`配置方式。 首先,我们来看第一种配置方法,即**基于当前...

    解决solr启动404问题

    Solr是Apache Lucene项目的一个子项目,是一个高性能、基于Java的企业级全文搜索引擎服务器。当你在尝试启动Solr时遇到404错误,这通常意味着Solr服务没有正确地启动或者配置文件设置不正确。404错误表示“未找到”...

    solr4.9与tomcat8,tomcat7整合

    在Solr 4.9版本中,可以与Jetty或Tomcat这样的Servlet容器进行集成,以实现更灵活的部署。 1. **Solr 4.9与Jetty的直接运行** - 首先,你需要从Apache官网下载Solr 4.9的zip包,并解压。 - 使用CMD命令行,进入...

    tomcat+solr服务配置

    ### Tomcat + Solr 服务配置详解 #### 一、前言 ...按照上述步骤操作可以实现 Solr 服务的快速搭建,并确保其稳定运行。这对于需要快速搭建搜索功能的应用程序开发人员来说是非常有用的参考资料。

    在tomcat环境下搭建solr3.5和mmseg4j搜索引擎

    ### 在Tomcat环境下搭建Solr 3.5与MMSEG4J搜索引擎 #### 一、配置Solr环境 1. **下载Solr** - 访问官方下载页面:[http://www.apache.org/dyn/closer.cgi/lucene/solr/]...

    ubuntu下solr7的ik分词及配置使用

    export SOLR_HOME=/opt/solr/server/solr export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 ``` 启动Solr服务: ```bash cd /opt/solr/bin ./solr start -f ``` 这将启动Solr并监听默认的8983端口。打开...

    solr 全量数据迁移

    Solr,全称为Apache Solr,是一款开源的企业级搜索引擎,被广泛用于大数据处理中的全文检索、数据分析和实时搜索。在日常运维中,我们有时需要进行Solr的数据迁移,以适应系统扩展、升级或备份恢复的需求。本文将...

    solr -8.11.1.zip 文件

    solr -8.11.1.zip 文件

    solr服务器的搭建

    Solr服务器搭建是一个重要的步骤,它是Apache Lucene项目的一个企业级搜索平台,广泛应用于全文检索、数据索引和搜索解决方案。下面将详细讲解如何在Java 1.7和Tomcat 1.7环境下搭建Solr 4.10.3单机版。 一、Java...

    Solr的Multicore(分片)配置

    这种配置方式有助于实现更好的资源管理和扩展性,尤其适用于需要处理多种类型数据或多个独立搜索服务的场景。 在进行Multicore配置时,首先要确保满足必要的硬件和软件环境。例如,本例中提到了两台服务器,一台...

    Solr3.5整合Tomcat

    Solr 是一个基于 Lucene 的全文搜索引擎服务器,它提供了高级的搜索功能,广泛应用于网站的全文检索、数据索引和搜索。在企业级应用中,Solr 往往需要与 Web 服务器集成,以实现更高效的服务。在这个场景下,Tomcat ...

    solr资料

    - 添加数据后,可以尝试使用Solr的基本请求参数来查询数据。例如,通过访问 `http://localhost:8983/solr/select?q=solr` 可以查询包含“solr”的文档。 - Solr提供了丰富的查询参数,如 `q` 表示查询字符串,`fl` ...

Global site tag (gtag.js) - Google Analytics