2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF,万众期待的功能终于支持啦,我怎么能不一试为快,今天就分享如何通过Studio进行Python udf开发。
前置条件
了解到,虽然功能发布,不过还在公测阶段,如果想要使用,还得申请开通:https://page.aliyun.com/form/odps_py/pc/index.htm。这里我就不介绍申请开通具体流程了。
环境准备
MaxCompute Studio支持Python UDF开发,前提需要安装python, pyodps和idea的python插件。
- 安装Python:可以Google或者百度搜索下如何安装。
- 安装pyodps:可以参考python sdk文档的安装步骤。即,在 Python 2.6 以上(包括 Python 3),系统安装 pip 后,只需运行下 pip install pyodps,PyODPS 的相关依赖便会自动安装。
- Intellij IDEA中安装Python插件。搜索Python Community Edition插件并安装
-
配置studio module对python的依赖。
-
- File -> Project structure,添加python sdk:
- File -> Project structure,添加python facets:
- File -> Project structure,配置module依赖python facets:
开发Python UDF
环境都准备好后,既可在对应依赖的module里创建进行python udf开发。
新建python脚本。
右键 new | MaxCompute Python,弹框里输入脚本名称,选择类型为python udf:
生成的模板已自动填充框架代码,只需要编写UDF的入参出参,以及函数逻辑:
本地调试
代码开发好后,可以在Studio中进行本地调试。Studio支持下载表的部分sample数据到本地运行,进行debug,步骤如下:
- 右键python udf类,点击”运行”菜单,弹出run configuration对话框。UDF|UDAF|UDTF一般作用于select子句中表的某些列,此处需配置MaxCompute project,table和column(元数据来源于project explorer窗口和warehouse下的example项目):
- 点击OK后,通过tunnel自动下载指定表的sample数据到本地warehouse目录(若之前已下载过,则不会再次重复下载,否则利用tunnel服务下载数据。默认下载100条,如需更多数据测试,可自行使用console的tunnel命令或者studio的表下载功能)。下载完成后,可以在warehouse目录看到下载的sample数据。这里用户也可以使用warehouse里的数据进行调试,具体可参考java udf开发中的关于本地运行的warehouse目录”部分)。
- 然后本地运行框架会根据指定的列,获取data文件里指定列的数据,调用UDF本地运行。
注册发布Python UDF
- 代码调试好后,将python脚本添加为MaxCompute的Resource:
注意此处选择的MaxCompute project必须是已经申请开通python udf的project。
- 注册python 函数:
- 在sql脚本中编辑MaxCompute sql试用python udf:
相关推荐
这些政策的实施对于推动大数据技术的创新应用,加速产业升级,以及优化公共服务等方面都具有重要意义。 总的来说,大数据产业政策分析揭示了全球范围内大数据政策的多元性和复杂性,为我国制定相关政策提供了参考和...
国外的大数据政策法规主要涉及美国、欧盟、英国、法国、日本、印度、澳大利亚等国家的大数据发展政策,它们从不同角度对大数据的发展进行了规划和指导。国内的大数据政策法规主要涉及国家和行业的政策、国家大数据...
五、全球加速服务CDN:阿里云的全球加速服务CDN提供了极速的响应速度、智能导航路径、骨干网络万兆网卡搭配SSD存储等功能,帮助客户快速地将内容分发到全球各个地区。 六、稳定高效的国际短信:阿里云的国际短信...
面对这些挑战,印度政府和业界正在积极探索新的发展方向,如加大对人工智能、大数据等前沿技术领域的投入,以确保印度在全球IT领域的领先地位。 #### 七、结论 《印度及其IT革命:全球文化网络》通过对印度软件...
例如,美国白宫发布的大数据白皮书强调了抓住大数据机遇的重要性,印度政府设立了数据识别局,而阿里巴巴集团等企业也在大数据领域取得了突破。 六、数据疆域理论体系的创新发展 文章强调了在大数据管辖视域下,...
大数据的发展历程可以追溯到2005年Hadoop项目的诞生,2008年美国知名计算机科学研究人员的认可,2009年印度政府建立生物识别数据库,2009年美国政府启动Data.gov网站,2010年肯尼斯·库克尔在《经济学人》上发表...
报告指出,随着2020年3月下旬全球新冠疫情的扩散,印度、越南、菲律宾、马来西亚、新加坡等东南亚国家采取了不同程度的封锁措施,这引发了市场对电子产业链可能遭受的冲击的关注。以下是报告中分析的关键点: 1. **...
在大数据发展现状和趋势分析中,白皮书聚焦于大数据核心产业链的分析,包括产业生态商业角色构成和商业模式分析,并且针对社会管理与公共服务、农业、制造业、电力及水务领域、通信与电子商务、交通运输、邮政、金融...
印度制药产业的快速发展离不开政府的产业政策引导。自1978年以来,印度政府推出了一系列药品政策,旨在保障基本药物的可及性、提高药品质量、鼓励合理用药和促进制药产业的发展。这些政策为产业提供了稳定的发展环境...
印度的IT产业发达 在全球化的浪潮中,印度的IT产业已经成为了一个不容忽视的重要力量。印度的IT业之所以能够发展壮大,得益于多种因素的综合作用,包括全球市场的需求、技术进步、成本优势以及政治经济环境的变化。...
《印度软件外包产业的发展对中国的借鉴》 随着全球产业转移的步伐加快,国际服务外包业务,尤其是软件外包,已经成为全球经济的重要推动力。据IDC数据显示,2013年全球软件服务市场规模达到6946.36亿美元,软件服务...
近年来,随着社交网络的爆发,大数据的概念进一步发展,2009年印度的全民数字ID系统就是大数据应用的一个典型案例,用于提升政府服务效率和社会管理。 大数据的应用涵盖了众多领域,如反恐分析、商业智能、医疗健康...
9. 数据基础设施建设:中国和印度等国家在大数据领域的硬件投资,尤其是数据中心相关的基础设施,为旅游大数据平台的构建提供了坚实的支撑。 在实施旅游大数据平台时,需要考虑的关键因素包括数据的采集、存储、...
上世纪90年代以来印度信息产业的总产值逐年增长,印度一跃成为世界第2软件大国,但同是人 口大国且经济实力更强的中国IT产业却远远落后,面临这样强劲的对手,中国如何发展自己的道路?本书通过对印度IT产业成功之路...
本文使用A指数研究了过去十年(1999年至2018年)印度和中国之间的产业内贸易(IIT)强度。 此外,该研究考察了国家之间商品贸易的贸易模式以及这些年来的变化。 该研究使用了99种商品的数据,并进行了十年的比较。 ...
Nakahara评印度IPCAExpo和当地PCB产业.pdf
印度软件外包产业的发展对中国的借鉴 计算机科学领域中,软件外包产业的发展对一个国家的经济发展具有非常重要的意义。印度是发展中国家承国际业务转移的佼佼者,现在已经成为全球最大的提供服务外包的国家。印度...