本次 CommunityOverCode Asia 2024 的 AI 专题,将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践,现在就一起来看看吧!
专题介绍
CommunityOverCode Asia 2024
机器学习(ML)是对计算机算法的研究,它可以通过经验和数据的使用来自动改进。机器学习算法基于样本数据(称为训练数据)建立模型,以便在没有明确编程的情况下进行预测或决策。它在工业中有着广泛的应用场景,并发挥着越来越重要的作用。
适合本分论坛的三类 Topic 如下:
-
聚焦于机器学习的框架和基础库项目,包括 Mxnet,TVM,Mahout,singa,SystemML 等
-
基于传统 Apache 大数据存储和计算项目在机器学习场景下做特定的优化的,例如 Spark Mlib,FLink ML 等
-
基于 Apache 项目实现工业场景下的机器学习平台(例如 Airflow + Kafka + Cassandra + Spark 等)
出品人
CommunityOverCode Asia 2024
谭中意
CommunityOverCode Asia 2024
Apache 软件基金会成员,Apache brpc PMC member,资深开源专家。
堵俊平
CommunityOverCode Asia 2024
Datastrato 创始人兼首席执行官,前 LF AI & DATA 主chariman,Apache 软件基金会成员,Apache Hadoop、YuniKorn、Ozone 等多个项目的 Committer 和项目管理委员会成员,同时也是多个 ASF 项目的导师。
王臣汉
CommunityOverCode Asia 2024
OpenBayes 贝式计算创始人兼 CEO,曾就职于华特迪⼠尼互动媒体集团、AVOS Systems 等世界知名企业,中⽂语义理解基准 CLUE 基⾦会秘书⻓、天津⼤学⻉式计算联合研究中心副主任。
议程亮点
CommunityOverCode Asia 2024
7 月 28 日 14:00 - 17:45
演讲议题:LLM 时代数据基础设施的演进分享时间:7 月 28 日 14:00 - 14:30
议题介绍:
由 LLM(大型语言模型)驱动的数据可以使应用程序更高效、准确和个性化,人工智能已被广泛应用于自然语言处理、推荐系统和数据分析等各种场景,并取得了显著成果。大型模型可以更好地优化数据,而深度优化的数据可以更好地训练大型模型,LLM 和数据相互补充。
在本次演讲中,我们将介绍我们的开源项目 Gravitino 如何构建一个统一的元数据湖,通过 Single Source Of Truth 来管理数据团队和人工智能团队的所有元数据。这不仅填补了人工智能模型元数据管理的空白,还提供了 Java、Python 和 NodeJS 的客户端,使得来自不同部门的数据团队、人工智能团队和业务团队可以使用 Gravitino 在单一的真实数据源中管理他们的元数据。Gravitino 不仅填补了人工智能模型元数据管理的空白,还提供了 Java、Python 和 NodeJS 的客户端,使得来自不同部门的数据团队、人工智能团队和业务团队可以无缝地完成数据 ETL、数据清洗、特征工程、模型训练、模型发布以及应用程序和模型集成的整个过程,加速数据和人工智能的融合。
Gravitino 还提供统一的 IAM 权限管理和对来自多个数据源的异构(结构化/非结构化)数据的统一读写支持,以支持多云环境,使得人工智能团队可以充分利用公有和私有数据中心中的 GPU、存储、云服务等基础设施资源,并降低模型训练的成本和周期。演讲者还将分享小米、唯品会和其他互联网公司如何使用 Gravitino 来解决人工智能模型训练中的问题和挑战。
演讲嘉宾:
Xun Liu丨 Datastrato Co-Founder & COO
Xun Liu ,拥有二十年的软件开发经验,过去十年一直在大数据开发领域工作。他是 Apache 软件基金会的成员和孵化器导师,并孵化了 Apache 中的多个开源项目,同时也是 Apache Hadoop 和 Zeppelin 的 Committer 成员之一。Xun Liu 是 Datastrato 的联合创始人兼首席运营官,目前负责公司开源项目 Gravitino 的运营工作。
演讲议题:在 Apache 生态系统中增强 LLM 的可观测性:基于 OTel 和自动 Python 探针注入分享时间:7 月 28 日 14:30 - 15:00议题介绍:
在当前技术发展趋势中,人工智能中的大型模型已成为推动创新的重要力量。然而,这也导致对这些模型的可观察性和监控需求不断增加。在 Apache 生态系统中,作为新兴的开源项目,OpenTelemetry 提供了标准化的工具和接口,用于跨语言的遥测数据收集和分析,而自动探针注入技术的发展进一步简化了监控系统集成的过程。本主题将深入探讨如何利用 Apache 项目和 OpenTelemetry 以及自动探针注入技术,构建高效、灵活和可扩展的人工智能大型模型可观测性系统。
主题内容包括:
Apache 与人工智能可观测性:讨论 Apache 项目在构建人工智能大型模型可观测性架构方面的贡献,以及 Apache 生态系统如何促进该领域的创新和发展。
OpenTelemetry 的价值和应用:详细介绍 OpenTelemetry 在人工智能大型模型可观测性中的作用,包括如何用于收集、处理和分析遥测数据。
自动探针注入的革命:分析自动探针注入技术如何解决在大规模分布式人工智能系统中集成遥测系统的挑战,使开发人员和运维团队更方便地部署和管理监控工具。
综合策略和最佳实践:分享成功案例,展示如何将 Apache 项目、OpenTelemetry 和自动探针注入相结合,增强大型模型的可观测性,促进系统性能优化和故障诊断。
面对未来的挑战和机遇:讨论人工智能可观测性领域面临的挑战,并探讨 Apache 生态系统和开源社区如何共同推动技术进步和创新。
本主题旨在向参与者展示如何利用 Apache 生态系统中的资源和项目,实现对人工智能大型模型的高效可观测性,进一步支持人工智能应用的稳定性和可靠性,并为开源社区和企业提供实用的见解和策略。
演讲嘉宾:
Yanhong Li 丨Observability Research and Development Engineer
我是一名研发工程师,专注于大型模型的可观测性,是阿里云原生应用平台可观测性团队的一员。作为负责大型模型可观测性和 Python Agent 的核心成员,我负责大型模型和 Python Agent 的可观测性的研发工作。在这个领域,我进行了广泛的研究和实践工作,积累了丰富的专业知识,特别是在 Langchain 和 llama-index 等大型模型的可观测性研究方面。
演讲议题:基于 Gravitino 的小米数据和人工智能框架实践分享时间:7 月 28 日 15:00 - 15:30议题介绍:
随着数据和人工智能的整合日益紧密,对两者的统一管理成为企业内部面临的挑战。Databricks 通过 Unity Catalog 引入了一种商业产品,通过它可以桥接大数据和人工智能。然而,由于它是专有的,企业难以在内部实施这个解决方案。
在过去的几年中,小米已经统一了表格数据管理的元数据系统,带来了显著的好处。今年,我们将元数据管理扩展到了人工智能数据领域。借助 Gravitino,我们可以在一个统一的系统下管理非表格和表格数据,实现数据+人工智能的统一元数据。
大纲:
1)小米的业务特点和挑战
管理表格数据不仅包括 Hive 和 Iceberg ,还包括 MySQL 和 Oracle 等 OLTP 表。统一管理这些数据类型提高了内部效率。
2)数据 + 人工智能的综合需求
随着大型模型的普及,数据和人工智能的整合越来越受关注。统一的元数据对于整合数据 + 人工智能至关重要。我们将分享小米在数据+人工智能整合方面实施的要素。
3)基于 Gravitino 的统一元数据
小米如何基于 Gravitino 实现数据 + 人工智能的统一元数据管理。
4)基于统一元数据的在线开发平台
利用 Gravitino 强大的引擎插件和 PythonClient ,实现统一开发平台。我们将分享开发人员可以享受的便利性。
5)Gravitino 的未来计划
我们将分享 Gravitino 社区的未来计划。
关于 Gravitino:Gravitino 是由 Datastrato 开源的,正在准备捐赠给 Apache 基金会
演讲嘉宾:
Kang Zhou丨Xiaomi,Team Leader of Data Development Platform
小米的高级软件开发工程师,负责大数据平台的开发工作。Apache Kylin、Gravitino 的贡献者。
演讲议题:AI 无处不在:开源 + Wasm 在普及大型语言模型访问中的作用分享时间:7 月 28 日 15:45 - 16:15
议题介绍:
本次演讲重点探讨了通过开源大型语言模型(LLM)和 WebAssembly(Wasm)普及 AI,使其变得更加可访问和高效。
推理过程预计消耗了 AI 工作负载中超过 90% 的计算资源。Wasm 不仅降低了 AI 推理成本,还提升了大型语言模型(LLM)的部署和可访问性,使得可以在你的 PC 上编写 LLM 应用,并在各个环境中运行——从边缘设备到云端,从高端服务器到低功耗物联网设备,覆盖 CPU 和 GPU。我们将进行互动演示,展示如何在各种环境中部署开源 LLM,以及如何使用 Wasm 以简单步骤创建无服务器 LLM 应用。
我们还将讨论 Wasm 和 Wasm 运行时如何提供高性能和安全性,使 AI 模型和应用具有可移植性、可访问性、可靠性和安全性。
与会者将学习如何在自己的设备上运行开源 LLM,并将这些技术整合到他们自己的 AI 项目中。
演讲嘉宾:Miley Fu丨CNCF Ambassador, Founding member of open source runtime WasmEdgeCNCF 大使,开源运行时 WasmEdge 的创始成员, Miley 是一名开发人员倡导者,她热衷于授权开发人员构建和贡献开源。作为创始成员,她在 CNCF 沙盒中从事 WasmEdge 运行时工作超过5年,她在 KubeCon、KCD 深圳、CloudDay 意大利、DevRelCon、日本开源峰会、AWS 用户组、全球人工智能笔记、KubeDay 新加坡等地发表了演讲。Miley 撰写科技内容并组织开发活动,包括 KCD 深圳,开源博览会,WebAssembly 和 Rust meetup 在台北,新加坡,中国等。
演讲议题:RayII.Java — 基于 Java 的对 Project Ray 的全新设计和实现分享时间:7 月 28 日 16:15 - 16:45议题介绍:
Project Ray 是一个开源的分布式人工智能框架,在人工智能领域有着快速的发展。目前,它即将进入 3.x 开发阶段。Ray 最初是为高性能强化学习而设计的,但已经发展成为一个统一的计算框架,用于扩展人工智能和 Python 工作负载。Ray 也是训练像 ChatGPT 这样的大型语言模型的核心技术。
我们目前的研究工作主要是改进和扩展 Ray 的架构和实现,以适应不同的硬件和软件生态系统,包括对 Ray 的各种可能的重构。这个方向的最新探索是基于 Java 的 RayII.Java 的重新设计和实现,具体内容如下:
1)对当前 Ray 核心的设计和实现进行优缺点分析;
2)Graalvm 为中心的 RayII.Java 的整体思路和架构设计(使用 Python+Java 替代当前 Ray 项目中的 Python+C++ 软件层以及更多内容)以及我们的测试平台;
3)尝试将 RayII.Java 与 DJL 和 H2O 等知名 Java 框架在人工智能领域进行集成;
4)探索在更多异构硬件平台上(如 FPGA 和 NPU 等,目前 Ray 只支持 GPU )通过 RayII.Java 加速 Ray 应用程序的支持。
演讲嘉宾:Feng Li丨indie-developer曾在 Motorola、Samsung 等公司工作,现在是一名独立开发者。在各种平台上积累了超过十年的移动开发经验,并在过去几年专注于云和边缘基础设施领域。对技术创新具有浓厚的兴趣和实践能力,热衷于参与开源社区的各种活动,例如 IT 会议、技术分享,并为开源项目做出贡献。
演讲议题:京东算法可解释(观星)简介分享时间:7 月 28 日 16:45 - 17:15议题介绍:1、星空观测的数据基石
- 基于 Flink 和 ClickHouse 的实时数据链路构建
- 基于 Iceberg 和 Starrocks 的准实时数据链路构建
2、上层应用:推荐系统的排名解释
- 轨迹链接
- 调试链接
- 用户行为画像
- 用户画像和物品画像
3、上层应用:模型解释
使用的算法:
- Shapely 值
- Tree SHAP
- 信息增益等
京东在模型解释方面的应用:
- 全局特征重要性和排名
- 多个输入 SKU 的特征重要性比较
- 在 SPU/产品词/分类下,单个 SKU 特征竞争力的比较
4、上层应用:流程解释
- 用户行为动态线路分析
-
推荐系统指标构建
演讲嘉宾:Ying Zhang丨京东,算法开发工程师,Alink、TF on Flink Contributor架构师,Alink、DL on Flink 的贡献者。
演讲议题:利用大型语言模型(LLMs)和大数据,构建专业的人工智能代理。分享时间:7 月 28 日 17:15 - 17:45议题介绍:
人工智能正在快速发展,并因其出色的语言理解和交互能力而受到认可。将行业专业知识与大型语言模型(LLMs)的潜力相结合,以改变各个行业的方式日益受到关注,引起了技术和行业领域的注意。
演讲者将重点介绍如何使用代理(Agent)、检索增强型生成模型(RAG)、大型语言模型(LLMs)和工作流,来展示将大型语言模型与大数据(如 Apache Spark)相结合,以开发智能代理并解决常见行业挑战的方法。
演讲嘉宾:
Trista Pan丨Apache Member & Incubator Mentor, AWS Data Hero, Tencent Cloud TVP
她在大数据和云原生领域的专业知识使她成为全球科技会议上炙手可热的演讲嘉宾。她致力于促进人工智能社区的协作和知识共享,以推动数据基础设施和开源开发领域的发展。
她的论文《Apache ShardingSphere:一个全面的、可插拔的数据分片平台》于 2022 年在 ICDE 上发表。作为第一作者,她撰写了《Apache ShardingSphere 权威指南》一书,该书由 Packt 出版社于 2022 年出版。
扫码购票
CommunityOverCode Asia 2024
作为 Apache 软件基金会(ASF)的官方全球系列大会,每年的 CommunityOverCode Asia 都吸引着来自全球各个层次的参与者、社区共同探索 "明天的技术"。7 月 26 日至 28 日,即将强势来袭的 CommunityOverCode Asia 2024 上,大家可以近距离感受来自 Apache 项目的最新发展和新兴创新。
相关推荐
Black Hat Asia 2024 网络安全黑帽大会(脱敏)PPT汇总,34份。 Black Hat Asia 2024 网络安全黑帽大会,分析旨在领先于高级网络攻击者的最新技术;概述CISO与时俱进所需的更高水平的技能和策略;讨论维护主动数据...
StarRocks Summit Asia 2024峰会(脱敏)PPT合集,共27份。 2024中国技术发展趋势洞察 StarRocks Paimon在阿里LakeHouse的探索与实践 StarRocks助力首汽约车精细化运营 StarRocks在爱奇艺大数据场景的实践 ...
三、Data+AI 融合:聚焦实时大数据处理与人工智能的前沿融合,探讨如何利用 Flink 助力 AI 大模型的数据实时化升级。 四、生产实践:分享 Flink 在实际生产环境中的应用案例,包括不同行业、不同规模的企业如何利用 ...
在分析2018年亚洲消费电子展(CES Asia)的基础上,我们可以深入探讨智能家居与人工智能(AI)领域的最新发展和行业动态。以下知识点将涵盖从展会概况到各个品牌在智能家居领域的技术布局与创新。 1. 亚洲消费电子...
Apache Doris 助力企业实现数据智能化应用.pdf Apache Doris 向量检索引擎实现.pdf Apache Doris 在 Hadoop 生态圈中的角色定位.pdf Apache Doris 在任子行的应用实践.pdf Apache Doris 在区域医疗影像平台中的应用....
4. Asia USDCHF MM2.set, Asia USDJPY MM2.set, Asia GBPUSD MM2.set, Asia USDCAD MM2.set, Asia EURGBP MM2.set 这些是设置文件,每个对应不同的货币对(USDCHF, USDJPY, GBPUSD, USDCAD, EURGBP)。MM2可能代表...
此外,《Asia Conserved》还特别强调了社区参与的重要性,认为这是确保文化遗产得到长期有效保护的关键因素之一。 #### 三、主要内容及亮点 1. **获奖项目介绍**:书中详细列举了多个获奖项目,每个项目都有其独特...
Pulsar Summit Asia 2021(PPT汇总),共包含以下17份文档: Apache InLong 借助 Pulsar 打造一站式数据集成平台.pptx Apache Pulsar 2.9 版本新特性讲解.pptx Apache Pulsar with MQTT for Edge Computing.pdf ...
《Flink Forward Asia 2019:大数据流处理的深度探索》 Flink Forward Asia 2019 是一场聚焦于Apache Flink技术的盛会,汇集了全球顶尖的Flink专家和开发者,共同探讨这一分布式流处理框架的最新进展与应用实践。这...
### VSNL Intra Asia Submarine Cable System 评估报告 #### 概述 VSNL Intra Asia Submarine Cable System项目是一项重要的国际通信基础设施工程,旨在通过铺设海底光缆连接亚洲多个关键地区,以增强区域间的通信...
标题 "Asia1_AsiaAutomation_asia192.12._PLC_" 暗示了这是一款与亚洲自动化相关的软件或系统,其中涉及到特定版本的PLC(可编程逻辑控制器)技术。PLC是一种专为工业环境设计的数字运算操作电子系统,用于控制制造...
Wincc 7.0 SP3 ASIA 亚洲版破解文件及方法经过测试,完全可破解成功。 带西门子万能授权集软件。
长虹的人工智能家电已经被纳入CHiQLife解决方案中,实现基于全空间语音交互等人工智能技术的实时交互和响应。 方正智家与中国声谷携手亮相,以“SmartHomeSmartLife”为主题,打造基于HomeKit®技术的主题智能家居...
【Aspila Topaz PCPro ASIA v8.00】是一款专为NEC小交换机设计的配置和管理软件,适用于亚洲地区的网络环境。该软件版本8.00是NEC公司对这款产品的最新升级,旨在提升其功能性和稳定性,以满足不断变化的通信需求。...
unity 一个广泛的包(超过90个...资源商店49刀,仅作学习交流,若要商用,请前往Unity官方资源商店重新购资源以获得合法使用权https://assetstore.unity.com/packages/3d/environments/asia-far-east-environment-21298
WinCC V7.0+SP3 ASIA 是西门子推出的一款先进的监控和数据采集系统,主要用于工业自动化领域的可视化解决方案。这款软件集成了强大的人机界面(HMI)功能,可帮助用户监控和控制生产过程,提高效率和质量。硬件狗,...
4. ".Asia"域名的应用:目前已使用".Asia"域名的国际企业有:本田汽车(honda.asia)、ING集团(ing.asia)、汉沙航空(lufthansa.asia)、星展银行(dbs.asia)、Nike(nike.asia)、CNN Mobile(cnnmobile.asia)等。...
由于提供的文件信息内容较多,下面我将逐一详细介绍文件中所包含的知识点: 标题《西门子_WinCC V7.0 SP2 和 WinCC V7.0 SP2 ASIA 的更新 7.pdf》意味着该文件是西门子公司关于其产品WinCC(即“Windows Control ...
AI技术赋能的小豹AI翻译棒、小豹AI家教机器人、小豹AI电话手表、小豹AI单词宝等产品,说明了人工智能技术已经深入到人们的日常生活中,其应用正变得越来越广泛。这些产品结合AI技术,旨在解决特定问题或提供专业...