`

Airbnb开源的三个大数据工具

阅读更多

今天Airbnb召开了第一次开放技术大会OpenAir,重点是数据驱动在airbnb开发过程中的实践,作为内部人士,我来给大家分享、总结一下3个airbnb开源大数据神器

Airpal

第一个神器叫Airpal,是airbnb内部最炙手可热的数据分析工具,目前在github上面有900多个star。

Airpal是建立在Facebook的Prestodb上的一个可视化分布式SQL查询引擎。Airbnb现在大概有1.5PB的数据。传统上是可以用hive查询,但Hive有以下几个缺点。

第一是对于一些小规模的query,map reduce的overhead太大,比如我就想看一张表的前10行,select * from * limit 10 Hive会触发一个map reduce job,然后半分钟过去了还在map阶段。。。而Airpal背后采用的prestodb则没有这个问题,并且Airpal提供对一个表的数据预览。

Hive的第二个缺点是对于非技术人士不大友好,而airpal是图形界面,只要会sql就可以使用,结果直接生成一个csv文件。很多非技术部门,比如finance的分析员需要做大数据分析的时候,Airpal会非常方便。据我观察,在airbnb,数据科学家还是喜欢用命令行的hive,而非技术人士,或者需要做一些简单查询的工程师和产品经理,则多用airpal

Airpal还有个好处是可以直接和公司的LDAP相连,员工用LDAP登陆,可以直接设置相应的访问权限,使得全公司可以放心用一套数据分析系统

Aerosolve

Aerosolve是支撑Airbnb定价建议系统的机器学习引擎。

传统的机器学习引擎更像一个黑箱,很难知道是哪一个feature对最后的结果产生 了最大的影响。比如Airbnb上的房东设定价格后,我们不仅是希望提示这个价格是过高或过低(模型判断结果),而是希望给房东具体的原因,比如位置太偏,或者评价数不够多(feature的权重)。

比如下图就说明了评价数量以及三星评价数量对价格的影响。我们(惊奇)的发现,一个评价和15个评价的效果差不多,房东并不会因为有更多的评价而得到更多的订单,而3星评价甚至会起到副作用

Airflow

大数据的基础还是data pipeline。Airflow则是Airbnb内部发起、排序、监控data pipeline的工具。

 

转自http://www.sickcoder.com/airbnb-openair/

分享到:
评论

相关推荐

    大数据可视化BI工具,通幽洞微.docx

    Superset是由Airbnb开发并开源的数据可视化工具,现在归Apache孵化器项目管理。它以Python为基础,更新速度快,界面美观。Superset的特点包括与Kylin的良好集成,但不支持快速复制图表,权限管理功能相对简单。尽管...

    大数据技术分享 Spark技术讲座 Zipline - Airbnb的机器学习数据管理平台 共29页.pdf

    本次讲座主要围绕“Spark技术”与“Zipline——Airbnb的机器学习数据管理框架”两个核心内容展开,旨在为听众提供关于大数据处理及机器学习数据管理的最佳实践。 #### 二、Spark技术简介 Apache Spark是一款开源的...

    BI产品梳理

    Apache Superset是一款开源的数据可视化和BI工具,由Airbnb开源并维护。其主要特点包括: - **高度可定制的仪表板**:支持丰富的图表类型和自定义主题。 - **高级SQL支持**:允许用户直接编写SQL查询。 - **安全...

    大数据分析双剑合璧:Apache Kylin 和 Superset.docx

    Apache Kylin是一款开源的OLAP(在线分析处理)引擎,专门设计用于Hadoop环境,能够处理PB级别的大数据,提供亚秒级查询速度。它采用预计算技术,构建Cube以优化查询性能,支持多种数据源如Hive、Kafka,并可将结果...

    Presto-SQL-on-Everything.pdf

    Presto在处理大数据和数据仓库方面的重要性不断增长,它不仅为组织提供了快速、易用、灵活的数据查询工具,而且支持数据分析师使用流行的SQL语言来进行数据分析,使得数据洞察的提取变得更加容易。通过其插件化的...

    互联网革命下的创新创业与经济范式转变探究.docx

    在这个阶段,互联网技术和工具被广泛应用于创新过程之中,比如社交媒体、开放式协作平台等。 - **典型案例**:维基百科、开源软件项目等都是创新2.0的成功案例,它们鼓励社区成员共同参与内容创作和技术开发。 **...

Global site tag (gtag.js) - Google Analytics