请您先登录,才能继续操作

阅读更多

8顶
0踩

数据库
BigQuery是Google于2011年底正式推出的一项Web服务,通过该服务,开发者可以使用Google的架构来运行SQL语句对超大型的数据库进行操作。即BigQuery可以对开发者上传的超大型数据进行直接交互式分析,开发者无需投资建立自己的数据中心。

今天,谷歌升级了BigQuery,带来了更强大的功能,比如更大的查询范围、新的数据类型、更灵活的表结构、更好的分析工具等。具体如下。


1.  Big JOIN 和 Big Group Aggregations

从多个庞大的数据集中提取信息是非常具有挑战性且非常耗时,如果你的数据过大(TB级别),往往需要复杂的MapReduce工作流、并需要为基础设施投入大量的资金和时间。

新版本BigQuery中带来了一个新的功能,使得分析师和开发者可以在数据库中更快地运行类似SQL的连接和聚合查询,而无需分批次处理。Big JOIN功能可以通过公共key合并两个大型数据表,并产生一个结果集,大大简化了数据分析工作。

对于分组查询,可以使用新的Big Group Aggregations功能,允许开发者在结果集分组中包含更多的值。

要使用这些新功能,只需在JOIN或GROUP BY字句中加上EACH修饰符。更多信息:BigQuery query reference

/* JOIN EACH example 
* Selects the top 10 most edited Wikipedia pages
* of words that appear in works of Shakespeare.
*/

SELECT
 TOP(wiki.title, 10), COUNT(*)
FROM
 [publicdata:samples.wikipedia] AS wiki
JOIN EACH
 [publicdata:samples.shakespeare] AS shakespeare
ON
 shakespeare.word = wiki.title; 

2.  对TIMESTAMP数据类型的原生支持

新版本中增加了TIMESTAMP数据类型,该类型允许开发者导入日期和时间值的同时保留时区偏移信息。此外,还增加了一些函数,用于将TIMESTAMP字段转换为其他格式、计算间隔、提取部分值(小时、星期、时刻等)。更多信息:query reference#timestamp

/* TIMESTAMP example
* Which hours in the day are the most popular for GitHub actions?
* This query converts github_timeline "created_at" date time   
* strings to BigQuery TIMESTAMP, and extracts the hour from each.
*/

SELECT
 HOUR(TIMESTAMP(created_at)) AS event_create_hour,
 COUNT(*) AS event_count
FROM
 [publicdata:samples.github_timeline]
GROUP BY
 event_create_hour
ORDER BY
 event_count DESC; 

3.  添加列到现有BigQuery表格

要使用此功能,只需提供一个新的模式和列数据,并使用BigQuery API方法“Tables: update”或“Tables: patch”即可。更多信息:BigQuery API reference

4.  BigQuery Web UI:数据集链接和数据集共享通知

这提供了一个便捷的方式,使得授权用户可以快速访问数据集,并允许标记和共享。此外,还增加了电子邮件通知,以告知用户他们已经获得了数据集的访问权限。



详细信息:BigQuery gets big new features to make data analysis even easier
  • 大小: 31.2 KB
  • 大小: 23.2 KB
8
0
评论 共 4 条 请登录后发表评论
4 楼 freezingsky 2013-03-19 14:05
cuiyushan3 写道
shuhen2011 写道
可惜Google懂不懂就被墙,不然的话可以为小企业节约多少成本啊。百度那玩意儿就知道黑心搂钱,不管别人死活


https://www.google.com.hk/
这样试试还会被墙吗

这个网址天天用,但是经常卡线,要么就是404.
3 楼 cuiyushan3 2013-03-19 09:22
shuhen2011 写道
可惜Google懂不懂就被墙,不然的话可以为小企业节约多少成本啊。百度那玩意儿就知道黑心搂钱,不管别人死活


https://www.google.com.hk/
这样试试还会被墙吗
2 楼 freezingsky 2013-03-18 22:48
google被压制得无语了,动不动就是没法打开,或者访问超时。娘的!逼得我一定要用百度,百度不行,还得去找bing。
1 楼 shuhen2011 2013-03-18 16:34
可惜Google懂不懂就被墙,不然的话可以为小企业节约多少成本啊。百度那玩意儿就知道黑心搂钱,不管别人死活

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Solr使用记录【一】

    我这次用的solr是4.10.3 分词器是这个 这是第一次使用solr,更多的都是通过网上的文章和请教别人完成的。 Solr,我理解为就是一个数据库,其中的collection相当于一张表,document相当于一条记录,filed相当于一个...

  • !求指导!求解惑:Solr4.3纠错(已解决)

    这两个星期菜鸟一直在看solr纠错的配置,发现很多让人崩溃的地方,想请教大家的配置情况以及改进意见~ 看到的大神们欢迎留言,啊,不,是一定要留言,不胜感激 以下是我在solrconfig.xml里面的配置 <...

  • 【杂谈】Solr的自动聚类carrot2和facet关系和比较

    请教个问题,有谁用过solr的自动聚类吗? 何达(25073021) 11:47:33 自动聚类carrot2这种效果很一般,还不如facet,想效果好得自己做 不和企鹅聊天(547317812) 11:48:12 自己做?复杂吗? 何达(25073021) 11:48:...

  • 搜索技术之我不懂的东西?

    那个谁,我这里现在有个问题要请教下你,这边有个站,客户要加个需求,就是需要一个搜索的功能,大概搜索的属性差不多有50个左右,不多,没有淘宝那么复杂,比如,我一个冰箱,总有型号吧,根据型号这样子去查找,...

  • 面试及总结3

    GG似乎对Search和sort很感兴趣,于是接着深入询问了solr建立、排序等细节问题,于是我把我曾经负责的工作,如Analyzer分词、语义分析;document全文通过field字段建立索引及存储;用户Search parser的string分词抽取...

  • 百度面试及总结3

    GG似乎对Search和sort很感兴趣,于是接着深入询问了solr建立、排序等细节问题,于是我把我曾经负责的工作,如Analyzer分词、语义分析;document全文通过field字段建立索引及存储;用户Search parser的string分词抽取...

  • 搜索,推荐,广告系统架构及算法技术资料大合集吐血整理——2020年终分享

    萌新想请教一下 特征选择 的问题 实时计算引擎在贝壳的应用与实践 今日头条在消息服务平台和容灾体系建设方面的实践与思考 推荐系统中模型训练及使用流程的标准化 知识图谱与语义分析技术介绍(附前沿论文...

  • 百度+京东+美团Java面经合集

    一个有三次面试,前面两次是技术面,要求手写代码(面试官是会发一个网址,在里面写的内容会同步到面试官的电脑),问的问题超多,一个半小时左右,第三次是BOSS面,也会问技术问题,因为面试完后没有做记录,所以可能...

  • NLP自然语言处理干货贴

    摘要:摘要:本篇是本人在Solr的基础上,配置了中文分词器,并对其进行的性能测试总结,具体包括使用mmseg4j、I... 47.Getting Started with TextBlob 摘要:TextBlob is a new python natural language ...

  • 大学四年到阿里技术专家,我是怎么走过来的

    你可能会接触到Logstash,Canal等中间件,然后发现可视化也是个问题,那Kibana就应运而生,用的时候发现欧洲人的分词习惯跟我们不一样,那Ik中文分词器又得了解啦。 使用之后你还会发现他底层的Lucene有很多坑要怎...

  • elasticsearch 构建企业级搜索探讨

    显然光靠技术是解决不了问题的,虽然我们有 Elasticsearch、Solr 这样的底层技术支持,但它们更多的还是作为技术人员的核心工具,单靠这些无法实现用户的业务价值。 我们需要结合领域知识、用户的业务去搭建一个...

  • webmagic采集CSDN的Java_WebDevelop页面

    java web上传文件功能的问题, solr高亮问题, java web上传文件到项目里自动刷新项目后才能读取到, 求教一个手机网站开发问题, 用MyEclipse做图书管理系统出现HTTP Status 500 - , 新人请教个jsp传值给servlet的问题...

  • TinySpider开源喽~~~

    phpstorm中使用搜狗输入中文出现乱行问题怎样解决? Android中如何实现快播中娱乐风向标的效果 使用java做手机后台开发! Chrome 29 的alert对话框好漂亮,有木有啊有木有 Eclipse+ADT+Android环境配置...

  • 构建网络爬虫?so easy

    phpstorm中使用搜狗输入中文出现乱行问题怎样解决? Android中如何实现快播中娱乐风向标的效果 使用java做手机后台开发! Chrome 29 的alert对话框好漂亮,有木有啊有木有 Eclipse+ADT+Android环境配置...

  • TinySpider开源喽

    请教 solr query分词查询,结果为空的问题 这段代码有问题吗,怎么我运行报错? jquery mobile 页面中切换闪屏问题 你帮我改好,我给你讲个笑话可好TUT asp.net问题:Js如何获取cookie中的值? android 电话拦截并...

  • 智能车竞赛介绍(竞赛目标和赛程安排).zip

    全国大学生智能汽车竞赛自2006年起,由教育部高等教育司委托高等学校自动化类教学指导委员会举办,旨在加强学生实践、创新能力和培养团队精神的一项创意性科技竞赛。该竞赛至今已成功举办多届,吸引了众多高校学生的积极参与,此文件为智能车竞赛介绍

  • 集字卡v4.3.4微信公众号原版三种UI+关键字卡控制+支持强制关注.zip

    字卡v4.3.4 原版 三种UI+关键字卡控制+支持获取用户信息+支持强制关注 集卡模块从一开始的版本到助力版本再到现在的新规则版本。 集卡模块难度主要在于 如何控制各种不同的字卡组合 被粉丝集齐的数量。 如果不控制那么一定会出现超过数量的粉丝集到指定的字卡组合,造成奖品不够的混乱,如果大奖价值高的话,超过数量的粉丝集到大奖后,就造成商家的活动费用超支了。我们冥思苦想如何才能限制集到指定字卡组合的粉丝数,后我们想到了和支付宝一样的选一张关键字卡来进行规则设置的方式来进行限制,根据奖品所需的关键字卡数,设定规则就可以控制每种奖品所需字卡组合被粉丝集到的数量,规则可以在活动进行中根据需要进行修改,活动规则灵活度高。新版的集卡规则,在此次政府发布号的活动中经受了考验,集到指定字卡组合的粉丝没有超出规则限制。有了这个规则限制后,您无需盯着活动,建好活动后就无人值守让活动进行就行了,您只需要时不时来看下蹭蹭上涨的活动数据即可。 被封? 无需担心,模块内置有防封功能,支持隐藏主域名,显示炮灰域名,保护活动安全进行。 活动准备? 只需要您有一个认证服务号即可,支持订阅号借用认证服务号来做活动。如果您

  • 出口设备线体程序详解:PLC通讯下的V90控制与开源FB284工艺对象实战指南,出口设备线体程序详解:PLC通讯与V90控制集成,工艺对象与FB284协同工作,开源学习V90控制技能,出口设备1200

    出口设备线体程序详解:PLC通讯下的V90控制与开源FB284工艺对象实战指南,出口设备线体程序详解:PLC通讯与V90控制集成,工艺对象与FB284协同工作,开源学习V90控制技能,出口设备1200线体程序,多个plc走通讯,内部有多个v90,采用工艺对象与fb284 共同控制,功能快全部开源,能快速学会v90的控制 ,出口设备; 1200线体程序; PLC通讯; 多个V90; 工艺对象; FB284; 功能开源; V90控制。,V90工艺控制:开源功能快,快速掌握1200线体程序与PLC通讯

  • 基于Arduino与DAC8031的心电信号模拟器资料:心电信号与正弦波的双重输出应用方案,Arduino与DAC8031心电信号模拟器:生成心电信号与正弦波输出功能详解,基于arduino +DAC

    基于Arduino与DAC8031的心电信号模拟器资料:心电信号与正弦波的双重输出应用方案,Arduino与DAC8031心电信号模拟器:生成心电信号与正弦波输出功能详解,基于arduino +DAC8031的心电信号模拟器资料,可输出心电信号,和正弦波 ,基于Arduino;DAC8031;心电信号模拟器;输出心电信号;正弦波输出;模拟器资料,基于Arduino与DAC8031的心电信号模拟器:输出心电与正弦波

  • (参考项目)MATLAB口罩识别检测.zip

    MATLAB口罩检测的基本流程 图像采集:通过摄像头或其他图像采集设备获取包含面部的图像。 图像预处理:对采集到的图像进行灰度化、去噪、直方图均衡化等预处理操作,以提高图像质量,便于后续的人脸检测和口罩检测。 人脸检测:利用Haar特征、LBP特征等经典方法或深度学习模型(如MTCNN、FaceBoxes等)在预处理后的图像中定位人脸区域。 口罩检测:在检测到的人脸区域内,进一步分析是否佩戴口罩。这可以通过检测口罩的边缘、纹理等特征,或使用已经训练好的口罩检测模型来实现。 结果输出:将检测结果以可视化方式展示,如在图像上标注人脸和口罩区域,或输出文字提示是否佩戴口罩。

Global site tag (gtag.js) - Google Analytics