因为在一个linkedin的group中,经常收到一些相关话题的讨论组邮件。今天看到一个职位推荐信息,遂打开浏览,发现正是时下流行的data scicentist 。。。个人觉得其职位需求非常值得参考,转载如下:
Sr Data Scientist - NYC 写道
Sr Data Scientist - NYC
Fast growing online technology company seeks a seasoned, hands-on analytics professional to provide all of the company’s data mining & modeling activities, while playing an instrumental role in the development of data-related products and services.
You will:
- Develop and implement the company’s data mining and modeling activities in support of our clients’ online targeting and digital media marketing goals
- Develop and maintain ongoing data exploratory analyses against internal and client-provided data
- Support the business teams to solve complex segmentation and analysis challenges
- Conduct studies, tests and use advanced data mining & modeling techniques to build solutions that optimize the quality and performance of the company’s data
You have:
- 5 – 10 years relevant analytics and data mining & modeling work experience
- Proven ability to develop and execute sophisticated data mining & modeling solutions
- In depth knowledge of the advanced techniques and tools common to the data mining world such as KNIME, RapidMiner, and Weka; knowledge of R and machine learning techniques a very strong plus
- Strong attention to detail and excellent quantitative and qualitative analytical ability
- Strong experience in marketing analytics, including marketing response modeling and customer segmentation; experience with online media and targeting a big plus
- Working experience with relational database management system (RDBMS); with a strong knowledge of SQL
- High energy and enthusiasm to develop the next big thing in internet advertising; someone that can think out of the box, solving new and unique analytical challenges
- Advanced degree in statistics required
顺便再列举几个开源的数据挖掘系统/软件:
-
Orange
Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。
-
RapidMiner
RapidMiner, 以前叫 YALE (Yet Another Learning Environment), 其是一个给机器学习和数据挖掘和分析的试验环境,同时用于研究了真实世界数据挖掘。它提供的实验由大量的算子组成,而这些算子由详细的XML 文件记录,并被RapidMiner图形化的用户接口表现出来。RapidMiner为主要的机器学习过程提供了超过500算子,并且,其结合了学习方案 和Weka学习环境的属性评估器。它是一个独立的工具可以用来做数据分析,同样也是一个数据挖掘引擎可以用来集成到你的产品中。
- Weka
Weka 由Java开发的 Weka (Waikato Environment for Knowledge Analysis) 是一个知名机器学机软件,其支持几种经典的数据挖掘任务,显著的数据预处理,集群,分类,回归,虚拟化,以及功能选择。其技术基于假设数据是以一种单个文 件或关联的,在那里,每个数据点都被许多属性标注。 Weka 使用Java的数据库链接能力可以访问SQL数据库,并可以处理一个数据库的查询结果。它主要的用户接品是Explorer,也同样支持相同功能的命令 行,或是一种基于组件的知识流接口。
-
JHepWork
为科学家,工程师和学生所设计的 jHepWork 是一个免费的开源数据分析框架,其主要是用开源库来创建 一个数据分析环境,并提供了丰富的用户接口,以此来和那些收费的的软件竞争。它主要是为了科学计算用的二维和三维的制图,并包含了用Java实现的数学科 学库,随机数,和其它的数据挖掘算法。 jHepWork 是基于一个高级的编程语言 Jython,当然,Java代码同样可以用来调用 jHepWork 的数学和图形库。
- KNIME
KNIME (Konstanz Information Miner) 是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。它给了用户有能力以可视化的方式创建数据流或数据通道,可选择性 地运行一些或全部的分析步骤,并以后面研究结果,模型 以及 可交互的视图。 KNIME 由Java写成,其基于 Eclipse 并通过插件的方式来提供更多的功能。通过以插件的文件,用户可以为文件,图片,和时间序列加入处理模块,并可以集成到其它各种各样的开源项目中,比如:R 语言,Weka, Chemistry Development Kit, 和 LibSVM.
此前我只对WEKA有所了解,而且只是试用水平,没有用于实际项目中。
分享到:
相关推荐
A Data Scientist's Guide to Acquiring, Cleaning, and Managing Data in R 英文epub 本资源转载自网络,如有侵权,请联系上传者或csdn删除
Practical Statistics for Data Scientist
总的来说,《Think Like a Data Scientist》会引领读者踏上一个充满挑战和机遇的旅程,通过实例和实践教你如何运用数据科学的工具和技术,去洞察数据背后的秘密,从而解决实际问题并做出数据驱动的决策。无论是初学...
它拥有众多用于统计分析的包,如ggplot2用于创建高质量的图表,dplyr提供了一种直观的方式来操作数据,而tidyverse是一系列协同工作的包,可以简化整个数据分析流程。R Markdown则使得报告编写和分享变得简单,同时...
《Think Like a Data Scientist (2018)_datascience_data_python_fun51》这个压缩包文件,显然是一个关于数据科学的学习资源,其中包含了2018年出版的一本名为《Think Like a Data Scientist》的电子书。这本书的...
通过这些工作,数据科学家能够对项目有一个清晰的认识,从而避免后期可能出现的问题。 **1. 收集信息** - **目的**:理解业务背景,明确项目目标。 - **方法**:与利益相关者交流、阅读行业报告、调研市场趋势等。...
Facebook数据科学家职位是科技领域内最具吸引力的岗位之一,它要求应聘者具备数据分析、产品直觉、SQL编程以及与商业和关键利益相关者沟通等多重技能集。一般来说,这个职位更侧重于业务方面,而非工程方面,因此...
数据工程是数据科学项目的另一个重要组成部分,它关注于数据的清洗、转换、集成和存储。数据工程能力对于确保数据质量和可用性至关重要,因为只有经过恰当处理的数据才能为后续的分析提供坚实的基础。 此外,本书...
这是一个全面介绍数据科学各个方面的教程,涵盖了从数据收集、清洗、探索到建模、验证等所有步骤。这有助于数据科学家全面理解数据科学项目从头到尾的整个过程。 ### 5. 为 Hadoop 和大数据设计的合成变量 在处理大...
在DataCamp的“Data Scientist with Python Track”课程中,学员将深入学习Python编程语言以及其在数据分析中的应用。课程覆盖了从基础知识到高级概念的多个主题,旨在帮助初学者掌握Python编程技能,以及如何利用...
"data scientist book"这个标题表明这是一个关于数据科学的书籍集合,旨在帮助自学者提升技能。描述中提到“self transfer”,暗示这些资源可能涵盖从基础到高级的数据科学知识。 标签“scient”进一步确认了这是...
Beginning Data Science in R: Data Analysis, Visualization, and Modelling for the Data Scientist by Thomas Mailund English | 5 Apr. 2017 | ISBN: 1484226704 | 352 Pages | PDF | 6.46 MB Discover best ...
对于数据科学领域的每个新手来说,他们都希望基于这些功能了解数据科学家的平均工资。因此,该数据集用于了解和探索有关数据科学家薪水的更多信息,以及影响或增加单个数据科学家薪水的哪些特征。 sample_...
"Management Scientist"这一角色在IT行业中扮演着至关重要的角色,他们运用科学方法、技术和数据分析来解决复杂的管理问题,帮助企业做出更明智的决策。数据建模是Management Scientist的主要工作内容之一,它涉及到...
R is one of the most popular, powerful data analytics languages and environments in use by data scientists. Actionable business data is often stored in Relational Database Management Systems (RDBMS), ...
hw3data.zip homework2.pdf HW6.pdf web intelligence and big data--笔记 01_Unit_0-_Introduction2 01_0-0_Preamble.mp4 02_0-1_Revisiting_Turings_Test.mp4 03_0-2_Web-Scale_AI_and_Big_Data.mp4 04_0-3-1_Web_...
Udacity-Data-Scientist 创建该存储库是为了存放我为Udacity Data Scientist Nanodegree的不同项目创建的文件。1.数据科学博客文章在此项目中,对新加坡城市州的公寓转售价进行了分析。 转到此以获取更多信息。2....
分析数据功能,总结大数据知识,成为新的数据科学为。
《New Scientist》作为一个科学和技术领域的权威媒体平台,其组织结构相对复杂且专业分工明确。从给定的部分内容来看,我们可以看到多个层级的编辑团队: - **主编**:Jeremy Webb。 - **个人助理与办公室经理**:...