`
文章列表
    SparkR源于AMPLab,是将R易用性和Spark扩展性整合的一个探索。在这个前提之下,SparkR开发者预览版最早在2014年1月开源。随后的一年,SparkR在AMPLab得到了飞速发展,而在许多贡献者的努力下,SparkR在性能和可用性上得到了显著提升。最近,SparkR被合并到Spark项目,并在1.4版本中作为alpha组件发布。        SparkR DataFrames      在Spark 1.4中,SparkR 的核心组件是SparkR DataFrames——在Spark上实现的一个分布式data frame。data frame 是R中处理数 ...
     由于从事人工智能的工作,接下来打算分享一系列的以案例形式的人工智能、     数据分析的博客文章。欢迎大家持续关注。本次我来分享一个数据分析的案例    项目目标:              Boston Public Schools Geo数据是来自于Boston地区的公共学校的数据,具体描述了学校的坐标,名字,类型等。基于此数据,我们可以学习一些基本的Python数据分析的方法。例如,研究学校的分布情况,类型统计等。   数据集介绍:      数据集的介绍如下,其中比较重要的字段有X,Y坐标,ADDRESS地址,ZIPCODE,School类型     ...
会搬内容到CSDN,本博客也还保留  
最近在承接一个项目,碰到了PL/SQL的需求,于是查看了一下相关的文档。 在hive的主分支上,发送hplsql module,   Jira相关位置 https://issues.apache.org/jira/browse/HIVE-11055   2.0.0 出现,大家尽请期待!!!   更多精彩请关注微信 : 图灵搜索
     在大家平时使用MySQL的过程中,会有非常多的需求,如语句的审核、在执行等,这些都是DBA日常工作之一,所以出现了这样一个工具---Inception。     Inception可以做的工作远不止是一个自动化审核工 具,同时还具备执行,生成对影响数据的回滚语句(类似闪回的功能),这样一条龙服务的工具。Inception 目前为初级阶段,去哪网开源,大家可以关注。   项目地址:https://github.com/mysql-inception/inception       更多精彩请关注微信 : 图灵搜索    请大家使用中国第一个为程序员打造的搜索引擎:图灵搜索 ...
      Kill Bill 是一个开源的计费及支付平台。主要目的是对相关的支付平台等进行了整合。       官网:http://killbill.io/        有计划管理的订阅引擎,支持添加绑定多个订阅     计价赢钱,支持多种方式的账单     有状态改变路由的支付状态及,支持多种支付网关     插件架构,允许使用java或ruby根据你的业务逻辑增加更多的个性化功能     支持Java,Ruby,Python等多种语言       一般使用方式如下:          初始化      curl http://killbill.io ...
       Piwik是一个PHP和MySQL的开放源代码的Web统计软件. 它给你一些关于你的网站的实用统计报告,比如网页浏览人数, 访问最多的页面, 搜索引擎关键词等等… Piwik拥有众多不同功能的插件,你可以添加新的功能或是移除你不需要的功能,Piwik同样可以安装在你的服务器上面,数据就保存在你自己的服务器上面。你可以非常容易的插入统计图表到你的博客或是网站抑或是后台的控制面板中。安装完成后,你只需将一小段代码放到将要统计的网页中即可。      同时,做为一个开源项目软件,Piwik也鼓励开发人员对其功能进行扩展增强,他们将提供诸多便利来有助于你的二次开发工作。   ...
        Bootstrap 目前是比较流行的网站开发框架,今天我们来介绍几个Bootstrap的在线编辑器。    Bootply       Bootply被称为是Bootstrap的活动平台。它不但是一个Bootstrap的编辑器和生成器,同时也拥有非常广泛的代码库。该编辑器可以让你拖拽Bootstrap组件并可以编辑你自己的代码。 Bootply 同时也整合了其他流行的Bootstrap插件,微型代码库和框架。你也可以借助其他工具的使用像Font Awesome, jQuery + jQuery UI, Bootstrap Select, FuelUX, Angula ...
PS:我非常有幸请到一位IT女神,为我们分享自然语言处理的相关实践,希望大家踊跃使用图灵搜索或者关注图灵搜索微信平台,获取女神的第一手技术分享。   主题词提取算法LDA -- Latent Dirichlet Allocation   在自然语言处理中 ...
1. 首先,咱们先不拿大数据说事,先分析一下OLAP及OLTP。     OLAP: 联机分析处理(OLAP)系统是数据仓库系统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。     OLTP: 联机事务 ...
       RedisLive是一款用Python编写基于WEB的Redis图形监控工具     开源项目地址为:https://github.com/nkrode/RedisLive     官方文档: http://www.nkrode.com/article/real-time-dashboard-for-redis       RedisLive的原理很简单,就是通过监控脚本来利用Redis提供的MONITOR命令从被监控Redis实例中获取数据并存储到Redis的监控实例中来做数据分析。            安装:     先安装Python,setup-t ...
     React含义及特点     React 是一个 Facebook 和 Instagram 用来创建用户界面的 JavaScript 库,是为了解决一个问题:构建随着时间数据不断变化的大规模应用程序。即由数据驱动变化的UI组件。        传统的UI库,我们需要使用Ajax对后台进行数据获取,往往是主动型程序。即我们需要去拉取数据,而React.js是自动拉取型,相当于可以进行监听与自动渲染,并且速度比较快。   声明式 (Declarative):数据变化后,React 概念上与点击“刷新”按钮类似,但仅会更新变化的部分 构建可组合的组件:React 都是关 ...
        分布式系统是互联网系统的根基,但是只要谈到分布式系统,就会涉及到分布式系统的管理,本期老钱介绍一下Zookeeper。       Zookeeper目前是Hadoop 生态圈的热门项目,是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、名字服务、分布式同步、组服务等.      目前使用了Zookeeper的项目有Hadoop,HBase,Flume,Yarn等。主要用来做机器的管理及分布式锁服务,HA等。       系统模型如下:      每一个 ...
       日志管理:一直是IT管理的一个非常重要的模块,我们有非常多的日志采集工具,例如:Flume,本期咱们要介绍的是Logstash。(大数据里面经常要处理的就是日志)      Logstash 是一个应用程序日志、事件的传输、处理、管理和搜索的平台。我们可以用它来统一对应用程序日志进行收集管理,提供 Web 接口用于查询和统计。目前比较新的版本是1.5.2。      Logstash目前是ElasticSearch家族的一员,集搜索、可视化于一身。     Logstash结构如下:        所以从图中,大家可以到Redis是该系统的一个缓存(所以构建Re ...
       我本人是自然语言处理的从业者,同时也是非常非常热爱自然语言处理技术。所以分享一个我平常使用的工具-Word2vec.     Word2vec 是由Google开源,基于deep-learning 技术可以将单词转换成向量形式的工具。然后通过向量空间技术计算词的相似度。但是需要注意的是该模型其实更是一个神经网络模型,所以离这个Deep Learning 稍微差一些。     word2vec的官方地址:https://code.google.com/p/word2vec/,下载好代码后进行编译即可。     如果是中文,需要先找一个分词工具对词进行分词,可以用jie ...
Global site tag (gtag.js) - Google Analytics