今天Airbnb召开了第一次开放技术大会OpenAir,重点是数据驱动在airbnb开发过程中的实践,作为内部人士,我来给大家分享、总结一下3个airbnb开源大数据神器
Airpal
第一个神器叫Airpal,是airbnb内部最炙手可热的数据分析工具,目前在github上面有900多个star。
Airpal是建立在Facebook的Prestodb上的一个可视化分布式SQL查询引擎。Airbnb现在大概有1.5PB的数据。传统上是可以用hive查询,但Hive有以下几个缺点。
第一是对于一些小规模的query,map reduce的overhead太大,比如我就想看一张表的前10行,select * from * limit 10
Hive会触发一个map reduce job,然后半分钟过去了还在map阶段。。。而Airpal背后采用的prestodb则没有这个问题,并且Airpal提供对一个表的数据预览。
Hive的第二个缺点是对于非技术人士不大友好,而airpal是图形界面,只要会sql就可以使用,结果直接生成一个csv
文件。很多非技术部门,比如finance的分析员需要做大数据分析的时候,Airpal会非常方便。据我观察,在airbnb,数据科学家还是喜欢用命令行的hive,而非技术人士,或者需要做一些简单查询的工程师和产品经理,则多用airpal
Airpal还有个好处是可以直接和公司的LDAP相连,员工用LDAP登陆,可以直接设置相应的访问权限,使得全公司可以放心用一套数据分析系统
Aerosolve
Aerosolve是支撑Airbnb定价建议系统的机器学习引擎。
传统的机器学习引擎更像一个黑箱,很难知道是哪一个feature对最后的结果产生 了最大的影响。比如Airbnb上的房东设定价格后,我们不仅是希望提示这个价格是过高或过低(模型判断结果),而是希望给房东具体的原因,比如位置太偏,或者评价数不够多(feature的权重)。
比如下图就说明了评价数量以及三星评价数量对价格的影响。我们(惊奇)的发现,一个评价和15个评价的效果差不多,房东并不会因为有更多的评价而得到更多的订单,而3星评价甚至会起到副作用
Airflow
大数据的基础还是data pipeline。Airflow则是Airbnb内部发起、排序、监控data pipeline的工具。
转自http://www.sickcoder.com/airbnb-openair/
相关推荐
Superset是由Airbnb开发并开源的数据可视化工具,现在归Apache孵化器项目管理。它以Python为基础,更新速度快,界面美观。Superset的特点包括与Kylin的良好集成,但不支持快速复制图表,权限管理功能相对简单。尽管...
本次讲座主要围绕“Spark技术”与“Zipline——Airbnb的机器学习数据管理框架”两个核心内容展开,旨在为听众提供关于大数据处理及机器学习数据管理的最佳实践。 #### 二、Spark技术简介 Apache Spark是一款开源的...
Apache Superset是一款开源的数据可视化和BI工具,由Airbnb开源并维护。其主要特点包括: - **高度可定制的仪表板**:支持丰富的图表类型和自定义主题。 - **高级SQL支持**:允许用户直接编写SQL查询。 - **安全...
Apache Kylin是一款开源的OLAP(在线分析处理)引擎,专门设计用于Hadoop环境,能够处理PB级别的大数据,提供亚秒级查询速度。它采用预计算技术,构建Cube以优化查询性能,支持多种数据源如Hive、Kafka,并可将结果...
Presto在处理大数据和数据仓库方面的重要性不断增长,它不仅为组织提供了快速、易用、灵活的数据查询工具,而且支持数据分析师使用流行的SQL语言来进行数据分析,使得数据洞察的提取变得更加容易。通过其插件化的...
在这个阶段,互联网技术和工具被广泛应用于创新过程之中,比如社交媒体、开放式协作平台等。 - **典型案例**:维基百科、开源软件项目等都是创新2.0的成功案例,它们鼓励社区成员共同参与内容创作和技术开发。 **...