- 浏览: 2180932 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (682)
- 软件思想 (7)
- Lucene(修真篇) (17)
- Lucene(仙界篇) (20)
- Lucene(神界篇) (11)
- Solr (48)
- Hadoop (77)
- Spark (38)
- Hbase (26)
- Hive (19)
- Pig (25)
- ELK (64)
- Zookeeper (12)
- JAVA (119)
- Linux (59)
- 多线程 (8)
- Nutch (5)
- JAVA EE (21)
- Oracle (7)
- Python (32)
- Xml (5)
- Gson (1)
- Cygwin (1)
- JavaScript (4)
- MySQL (9)
- Lucene/Solr(转) (5)
- 缓存 (2)
- Github/Git (1)
- 开源爬虫 (1)
- Hadoop运维 (7)
- shell命令 (9)
- 生活感悟 (42)
- shell编程 (23)
- Scala (11)
- MongoDB (3)
- docker (2)
- Nodejs (3)
- Neo4j (5)
- storm (3)
- opencv (1)
最新评论
-
qindongliang1922:
粟谷_sugu 写道不太理解“分词字段存储docvalue是没 ...
浅谈Lucene中的DocValues -
粟谷_sugu:
不太理解“分词字段存储docvalue是没有意义的”,这句话, ...
浅谈Lucene中的DocValues -
yin_bp:
高性能elasticsearch ORM开发库使用文档http ...
为什么说Elasticsearch搜索是近实时的? -
hackWang:
请问博主,有用solr做电商的搜索项目?
Solr中Group和Facet的用法 -
章司nana:
遇到的问题同楼上 为什么会返回null
Lucene4.3开发之第八步之渡劫初期(八)
Solr发展飞快,现在最新的版本已经6.1.0了,下面来回顾下Solr6.x之后的一些新的特点:
(1)并行SQL特性支持,编译成Streaming 表达式,可以在solrcloud集群中,并行执行
(2)SolrCloud的Collection被抽象成关系型数据库表,现在不仅仅可以支持强大的全文检索,还通过SQL支持像数据库一样的BI分析
(3)在SQL的where语句中,全面支持强大的Lucene/Solr语法
(4)一些聚合操作例如Group会自动优化成并行操作,通过使用Streaming表达式来以Map-Reduce的方式运行
(5)在(4)中运行的聚合操作,还可以以原生的JSON Facet 方式,来优化提升性能
(6)SQL特性目前仅支持SolrCloud集群方式,单机方式并不支持
有关SolrCloud的集群搭建,在这里散仙就不详细说了,有兴趣的朋友,可以参考我前面的文章
http://qindongliang.iteye.com/blog/2275990,搭建好的集群如下:
实际上像Solr或者ElasticSearch能支持SQL,这并不奇怪,因为他们底层基本上都提供了SQL能支持的大部分功能接口,比如,排序,过滤
分组,聚合等一些操作,能支持SQL,但不意味着能取代关系型数据库,恰恰相反,NoSQL是作为SQL的有力补充,怎么样组合搭配使用,能把业务
场景优化的更好,或者能解决某类问题,才是引入这些框架的初衷。
前面说到,Solr在api层面已经有各种功能的接口,缺的就是一个SQL语法解析器,以及如何与最新的Java8的对接? 所以在Solr6.x里面,引入两个
最重要的东东就是:
(1)引入了Facebook开源的大数据SQL检索框架Presto的SQL Parser
(2)使用Java8的Streaming Api写的Streaming Expressions (流式表达式),支持类似shell的管道的计算方式,可以对数据流进行各种复杂操作例如各种join,
也可以进行图谱查询
使用Solrj通过JDBC查询Solr,目前只能查,暂不支持更新,修改,删除等操作
依赖jar包:
$SOLR_HOME/dist/solrj-libs 所有的jar
$SOLR_HOME/dist/solr-solrj-<version>.jar solr-solrj.jar
如果是maven项目:
<!-- https://mvnrepository.com/artifact/org.apache.solr/solr-solrj --> <dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-solrj</artifactId> <version>6.1.0</version> </dependency>
下面来看一段Solrj通过JDBC查询示例:
Connection con=null; Statement stmt=null; ResultSet rs=null; try{ String collection="sql_search"; String aggregationMode="facet";// facet or map_reduce //注意solr//:后面跟的是zk集群地址,如果有chroot path还需要加上 con=DriverManager.getConnection("jdbc:solr://192.168.1.184:2181/solr6?collection="+collection+"&aggregationMode="+aggregationMode+"&numWorkers=2"); //检索,排序,topN String sql1="select dtime from big_search order by dtime desc limit 4 "; //多级分组,排序1 String sql2="select t1,t2,t3 , count(*) from big_search group by t1,t2 ,t3 order by count(*) desc limit 3 "; //分组,过滤,排序2 String sql21="select t1, count(*) from big_search group by t1 having count(*) > 2 order by count(*) desc "; //去重 String sql221="select distinct t3 from sql_search limit 2 "; //全文检索查询 String sql15="select rowkey from big_search where title='(你好 苏州)' limit 4 "; //聚合函数 支持max,min,avg,sum,count String sql4="select count(*) from big_search limit 2 "; //提取字段 String sql3="select t1,t2 from big_search "; stmt = con.createStatement();//编译sql rs = stmt.executeQuery(sql21);//执行sql ResultSetMetaData metaData = rs.getMetaData(); //获取字段名元数据 String line_space="\t"; //格式化打印 for(int i=1;i<=metaData.getColumnCount();i++){ System.out.print(metaData.getColumnName(i)+line_space);//打印表头 } System.out.println(); while(rs.next()) {//循环从游标提取数据 for(int i=1;i<=metaData.getColumnCount();i++){//遍历列头 System.out.print(rs.getString(metaData.getColumnName(i))+line_space);//格式化打印字段内容 } System.out.println(); } } finally { if(rs!=null){ rs.close(); } if(stmt!=null){ stmt.close(); } if(con!=null){ con.close(); } } System.out.println("====end====");
下面来看一段使用流式表达式查询的操作,无须任何依赖,在Solr的Admin界面就能操作;
图中的代码的是查询solrcloud中每个shard一条数据,然后总共返回3条数据,最后对3条数据,排序,取top1
总结:
(1)关于如何集成中文分词IK或者Ansj
单机版的solr,如果是IK,需要在
solr\server\solr-webapp\webapp\WEB-INF目录下,新建一个classes目录,将其词库文件全部放进去
然后将IK的jar包,放入solr\server\solr-webapp\webapp\WEB-INF\lib下。
如果是Ansj,则需要将Ansj相关的jar包放入solr\server\solr-webapp\webapp\WEB-INF\lib下,
然后将Ansj的library的目录,放在solr\server中。
在SolrCloud集群模式中,是需要把某个collection下的conf下的所有文件,上传到zookeeper上的,所有的shard都会
从zk上加载所需的文件,包括一些词库的配置,这个时候,放在本地磁盘上的词库,是不会被识别的,所以你需要把上传的词库
文件一起上传到zk上,然后配置合理的路径即可,任何文件的更新,都需要reload整个collection才能更新(solr6之前是需要relaod所有的shard),
否则,发生的改动不会被识别。
(2)理解map_reduce 和 facet两种聚合模式
A: map_reduce 模式,支持任意多字段的聚合查询,不受限制,但性能稍低
测试环境5个shard+3个副本
测试数据,必须大于6(shard+1)条数据,否则会报错
可测 group+distict
执行流程如下:
B:facet 模式,使用Solr原生的Json Facet Api 操作,受一定索引的限制,但性能较高
只要求有shard,有数据,即可测试,利用solr原生的Facet api进行聚合
(3)理解DocValue对SQL查询的影响
大部分情况下在Solr中的SQL查询,是需要加上limit关键词的,如果你不加,要么你就会发现,你的查询可能会莫名其妙的报错
这个时候问题的原因大部分是跟DocValue有关的, Solr6要求,所有不加的limit查询的字段,必须全部是DocValue激活的
字段,如果任何一个不是,那么查询肯定报错,如果你加了limit关键词,要么可以不受这个限制影响。
至于为什么必须要激活DocValue字段才能进行all字段提取查询,主要目的还是为了性能,想了解DocValue可以
参考散仙之前的文章:http://qindongliang.iteye.com/blog/2297280
(4) Solr6支持客户端工具(像MySQL的NaviCat)查询链接:
A:DbVisualizer (C/S客户端GUI)
B:SQuirreL SQL (C/S客户端GUI)
C:Apache Zeppelin (B/S web端)
大部分都需要配置添加有关的solr的jdbc的jar包,具体安装方式参考文末链接
(5)除了JDBC方式支持SQL查询,http方式也是可以的:
[search@h1 ~]$ cat sql.sh ## 聚合模式 map_reduce #curl --data-urlencode 'stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10' http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=map_reduce ## 聚合模式 facet curl --data-urlencode 'stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10' http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=facet [search@h1 ~]$ sh sql.sh {"result-set":{"docs":[ {"count(*)":4,"t1":"01"}, {"count(*)":2,"t1":"02"}, {"count(*)":2,"t1":"03"}, {"count(*)":2,"t1":"04"}, {"count(*)":2,"t1":"05"}, {"EOF":true,"RESPONSE_TIME":84}]}}
官网文档:
https://cwiki.apache.org/confluence/display/solr/Streaming+Expressions
https://cwiki.apache.org/confluence/display/solr/Parallel+SQL+Interface#ParallelSQLInterface-SQLClientsandDatabaseVisualizationTools
有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。
技术债不能欠,健康债更不能欠, 求道之路,与君同行。
评论
2 楼
qindongliang1922
2016-08-15
greemranqq 写道
亲,咨询下,SQL 里面有对数据进行处理的函数吗? 比如 字符串截取,数字类型保留2位,时间格式化 等等
目前没有在官网文档上看到有相关的函数,可以持续官网文档
1 楼
greemranqq
2016-08-15
亲,咨询下,SQL 里面有对数据进行处理的函数吗? 比如 字符串截取,数字类型保留2位,时间格式化 等等
发表评论
-
最新版Solr6.2.1安装记录
2016-09-23 18:48 2019下载最新版Solr6.2.1 wget http:/ ... -
ElasticSearch+Solr几个案例笔记
2016-09-22 18:46 1943(一) 最大能索引字符 ... -
SolrCloud之Sharding路由介绍
2016-07-19 16:07 3435在Solr4.4之后,Solr提供了SolrCloud ... -
Lucene/Solr/ElasticSearch搜索问题案例分析
2016-06-23 18:08 1848最近收集的两个搜索 ... -
Lucene+Solr+ElasticSearch查询匹配优化
2016-06-01 19:37 2932当我们在处理搜索业务时候,需求往往是灵活多变的,有时候我们需 ... -
如何通过JMX远程监控Solr?
2016-05-23 16:07 2020有时候,我们在服务 ... -
如何实现Solr自定义评分查询
2016-05-12 17:49 4855(一)背景介绍 大多数时候我们使用lucene/solr ... -
浅谈Lucene中的DocValues
2016-05-10 19:12 7566前言: 在Lucene4.x之后, ... -
开源大数据索引项目hive-solr
2016-05-06 16:15 1957github地址:https://github.com/qi ... -
浅谈Solr和ElasticSearch建索引性能优化策略
2016-04-27 18:48 2206由于Solr和ElasticSearch ... -
如何使用Hive集成Solr?
2016-03-17 15:05 2839(一)Hive+Solr简介 Hive ... -
Solr中如何使用游标进行深度分页查询
2016-03-10 16:34 3808通常,我们的应用系统 ... -
Hbase+Solr实现二级索引提供高效查询
2016-02-18 18:28 7082接着上一篇介绍协处理 ... -
SolrCloud5.4.1集群实战(一)
2016-02-06 10:06 3877古时候,人们用一头牛 ... -
如何使用Spark大规模并行构建索引
2016-02-01 12:54 2713使用Spark构建索引非常简单,因为spark提供了更高级的 ... -
如何在Solr中实现多core查询?
2015-12-07 20:55 4093基于solr或者elasticsearch提供的多核,多索引 ... -
Solr配置maxBooleanClauses属性不生效原因分析
2015-12-02 14:12 2474上次已经写过一篇关于 ... -
Solr如何避免查询条件过多异常
2015-11-17 16:07 2875今天,需要查询一个东西,在q里面大概有900左右参数,使用so ... -
Solr中Group和Facet的用法
2015-10-14 19:40 4611先来看一下Group与Facet的 ... -
Solr字段ExternalFileField使用
2015-09-15 16:43 2155ExternalFileField是一种非 ...
相关推荐
《动网论坛 v6.1.0 SQL版》是一款基于ASP和JS技术构建的社区论坛软件,其核心亮点在于性能的显著提升。该版本通过全面优化ASP和JS的执行效率,实现了整体性能的50%以上的提升,为用户提供更为流畅的浏览体验。 首先...
4. 执行SQL:调用Statement或PreparedStatement的方法执行SQL查询、更新等操作。 5. 处理结果:如果执行的是查询,可以使用ResultSet对象遍历查询结果。 6. 关闭资源:在完成操作后,必须关闭Statement、ResultSet和...
【动网最新6.1.0sql商业版】是一款针对论坛社区类网站的管理系统,集成了全面的功能和服务,旨在提供高效、稳定且安全的在线交流平台。该版本为商业版,意味着它具备了更高级别的技术支持和服务保障,适用于对网站...
在MetInfo 6.1.0版本中,问题出现在多个DB::get_one函数调用中,这些调用使用了未经过充分过滤的用户输入,即{$_M[form][class1]}变量,直接拼接到了SQL查询语句中。 例如,在以下代码段中: ```php $met_fd_back ...
本资源包含el7版本的CM6.1.0和el6和el7版本CDH6.1.0: cloudera-manager-daemons-6.1.0-769885.el7.x86_64.rpm oracle-j2sdk1.8-1.8.0+update141-1.x86_64.rpm cloudera-manager-agent-6.1.0-769885.el7.x86_64.rpm ...
赠送jar包:mssql-jdbc-6.1.0.jre8.jar; 赠送原API文档:mssql-jdbc-6.1.0.jre8-javadoc.jar; 赠送源代码:mssql-jdbc-6.1.0.jre8-sources.jar; 赠送Maven依赖信息文件:mssql-jdbc-6.1.0.jre8.pom; 包含翻译后...
这款工具支持多种数据库引擎,包括但不限于MySQL、PostgreSQL、Oracle、SQL Server、SQLite等,提供了统一的图形化界面来执行SQL查询、数据库设计、数据可视化以及各种数据库管理任务。 在DBeaver 6.1.0版本中,有...
jasperreports-6.1.0下载
gmp-6.1.0
根据提供的文件信息,本文将详细解释如何在已运行的Tomcat服务器上安装Liferay 6.1.0,并配置其连接到SQL Server 2005 Express数据库的过程。 ### Liferay 6.1.0 安装过程 #### 1. 下载源代码并编译 首先需要下载...
VirtualBox是一款强大的虚拟化软件,由德国InnoTek Software GmbH公司开发,后来被甲骨文公司(Oracle)收购。...虚拟机的配置灵活性和易用性使得VirtualBox成为了个人用户和企业用户的首选虚拟化软件之一。
4. **SQL 支持**:增加了对 SQL 查询的支持,使习惯于 SQL 语法的开发者更容易上手。 5. **更易用的 API**:对 API 进行了调整,使其更符合 RESTful 风格,降低了使用门槛。 **三、源码分析** 解压 `elastic...
标题中的"Inno Setup 6.1.0中文语言包"指的是Inno Setup的最新版本6.1.0的中文本地化资源文件,它允许用户将安装程序界面翻译成简体中文,以方便中国用户进行安装操作。 在描述中,我们只看到"Inno Setup 6.1.0中文...
7. **移植性**:ACE库设计的目标之一就是高度的可移植性,它已经成功运行在多种操作系统上,包括Windows、Linux、Unix、VxWorks等。 在ACE_wrappers这个压缩包中,通常包含了ACE库的源代码、头文件、示例程序、文档...
动网论坛 v6.1.0 SQL存储版是一款非官方发布的论坛系统,主要基于SQL数据库进行数据存储。这款论坛软件的出现,为那些寻求社区交流平台的用户提供了新的选择,尤其是对已有6.0 SQL版的用户,可以方便地进行升级安装...
Unity 插件Curvy Splines v6.1.0
仓促推出,估计还有好多好多问题 大家先测试测试吧 给大家下载的不知道还遗留什么问题,大家也可以通过测试动网官方站点来报告问题,有的问题下载版存在而官方版不一定存在的 另外提供下载的数据库里面还有一些测试...
GMP是用C语言编写的,它的核心特性在于能够处理任意精度的整数,不仅支持基本的算术运算(如加减乘除、幂运算),还支持更复杂的数学操作,如模运算、素性测试、大数分解等。由于其高度优化的实现,GMP在处理大数时...
2. **SQL 支持增强**:Elasticsearch 6.1.0 提供了更完善的 SQL 查询支持,用户可以通过标准的 SQL 语法来查询和操作数据,这为习惯于 SQL 的开发人员提供了便利。 3. **索引生命周期管理(ILM)**:此版本引入了...
**VASP 6.1.0:第一性原理计算软件详解** **一、VASP简介** VASP(Vienna Ab initio Simulation Package)是一款广泛应用于材料科学和化学领域的第一性原理计算软件。它基于密度泛函理论(DFT),能够进行晶体结构...