今天Airbnb召开了第一次开放技术大会OpenAir,重点是数据驱动在airbnb开发过程中的实践,作为内部人士,我来给大家分享、总结一下3个airbnb开源大数据神器
Airpal
第一个神器叫Airpal,是airbnb内部最炙手可热的数据分析工具,目前在github上面有900多个star。
Airpal是建立在Facebook的Prestodb上的一个可视化分布式SQL查询引擎。Airbnb现在大概有1.5PB的数据。传统上是可以用hive查询,但Hive有以下几个缺点。
第一是对于一些小规模的query,map reduce的overhead太大,比如我就想看一张表的前10行,select * from * limit 10
Hive会触发一个map reduce job,然后半分钟过去了还在map阶段。。。而Airpal背后采用的prestodb则没有这个问题,并且Airpal提供对一个表的数据预览。
Hive的第二个缺点是对于非技术人士不大友好,而airpal是图形界面,只要会sql就可以使用,结果直接生成一个csv
文件。很多非技术部门,比如finance的分析员需要做大数据分析的时候,Airpal会非常方便。据我观察,在airbnb,数据科学家还是喜欢用命令行的hive,而非技术人士,或者需要做一些简单查询的工程师和产品经理,则多用airpal
Airpal还有个好处是可以直接和公司的LDAP相连,员工用LDAP登陆,可以直接设置相应的访问权限,使得全公司可以放心用一套数据分析系统
Aerosolve
Aerosolve是支撑Airbnb定价建议系统的机器学习引擎。
传统的机器学习引擎更像一个黑箱,很难知道是哪一个feature对最后的结果产生 了最大的影响。比如Airbnb上的房东设定价格后,我们不仅是希望提示这个价格是过高或过低(模型判断结果),而是希望给房东具体的原因,比如位置太偏,或者评价数不够多(feature的权重)。
比如下图就说明了评价数量以及三星评价数量对价格的影响。我们(惊奇)的发现,一个评价和15个评价的效果差不多,房东并不会因为有更多的评价而得到更多的订单,而3星评价甚至会起到副作用
Airflow
大数据的基础还是data pipeline。Airflow则是Airbnb内部发起、排序、监控data pipeline的工具。
转自http://www.sickcoder.com/airbnb-openair/
相关推荐
Lottie 是由 Airbnb 开源的一个强大的动画库,它为 Android、iOS 和 React Native 平台提供了便捷的动画解决方案。通过 Lottie,开发者可以将 Adobe After Effects (AE) 创建的动画导出为 JSON 文件,然后在移动应用...
Lottie是Airbnb开源的一个支持 Android、iOS 以及 ReactNative,利用Json文件的方式快速实现动画效果的库。简单点说就是Json文件记录动画路径,Android、iOS 以及 ReactNative解析展现出来。
Caravel是Airbnb开源的一个强大且用户友好的数据探索和可视化工具,它旨在简化数据分析过程,让数据分析师、数据科学家以及业务人员能够快速地理解并利用数据。Caravel是基于Python构建的,利用了诸如SQLAlchemy、...
Airbnb 开源的 After Effects 动画解析器,实现了将 After Effects 的动画直接生成 Android iOS 原生代码,太赞了!.zip,在android和ios、web和react native上本地渲染after-effects动画
架构介绍 后端 整个项目的后端是基于Python的,用到了Flask、Pandas、SqlAlchemy。 Flask AppBuilder(鉴权、CRUD、规则 Pandas(分析) ... SqlAlchemy(数据库ORM) ...此外,也关注到Superset的缓存机制值得我们...
Airbnb 开源数据其数据探索和可视化平台Caravel Caravel Caravel 是一个数据探索平台,旨在实现可视化、直观和交互。 [这个项目曾经被命名为 Panoramix] Screenshots & Gifs Caravel Caravel 的主要目标是使...
`Airbnb`是一家知名的创业公司,它的开源代码风格指南在前端社区广泛使用。`Airbnb`的JavaScript编码规范旨在提高代码的可读性和可维护性,包括对变量声明、函数定义、括号使用、空格、注释等多方面的规定。而`...
月球(Lunar)是一个由Airbnb开发并开源的React工具包和设计语言,专为他们的内部项目和开源项目而构建。这个框架旨在提供一套统一的设计原则、组件库和开发工具,以促进在Airbnb团队内部的一致性和效率。尽管它主要...
### 大数据技术分享:Spark技术讲座与Airbnb的端到端机器学习平台 #### 大数据背景与挑战 在当今数字化时代,大数据已经成为企业决策的重要依据之一。随着数据量的爆炸性增长,如何高效地处理这些数据并从中提取有...
文件中提到的ReAir系统可能是指Airbnb内部开发的增量复制工具或系统。ReAir的目的可能是为了提高数据处理的效率,确保数据在多个集群或数据存储系统之间能够高效、实时地同步。 4. **统一流处理和批处理(Unified ...
1. **Airbnb**:构建了一个灵活的大数据平台,支持多种数据分析需求,包括用户行为分析、房源推荐等。 2. **美团**:利用大数据技术优化了外卖配送过程中的路线规划和配送效率。 3. **携程**:针对海量用户数据和高...
### Airbnb软件工程师面试题知识点概览 ...以上是基于给定文件的部分内容整理出的知识点概览,涵盖了从数据结构到算法设计等多个方面,旨在帮助准备Airbnb软件工程师面试的求职者进行全面而深入的学习和复习。
#### 三、案例分析:Airbnb的数据流处理实践 ##### 1. **状态管理实践** - **HBase State Store**:在Airbnb的实际应用中,HBase被用来作为状态存储层,其丰富的功能性和与Hadoop生态系统良好的集成性,使其成为...
Airbnb的发展可以分为三个阶段。第一阶段是2007年,Brian Chesky和他的同窗好友Joe Gebbia计划将阁楼出租出去,并建立了Airbnb的雏形。第二阶段是2008年,Airbnb适时地选择再度在公众面前高调曝光,一度获得了极高的...
tslint-config-airbnb, Airbnb JavaScript风格的TSLint配置 TSLint配置 Airbnb 一个用于Airbnb的TSLint配置安装npm install tslint-config-airbnb --save用法在 tslint.json 中:{ "ext
为了促进数据科学领域的知识共享和协作,AirBnB的数据科学家们创建了一个开放源码的策划知识共享平台,旨在分享他们的工作流程、工具和最佳实践。这个平台基于Python语言,充分体现了Python在数据分析领域的强大功能...
本次讲座主要围绕“Spark技术”与“Zipline——Airbnb的机器学习数据管理框架”两个核心内容展开,旨在为听众提供关于大数据处理及机器学习数据管理的最佳实践。 #### 二、Spark技术简介 Apache Spark是一款开源的...