资讯月刊下载
[行业应用] 漫谈千亿级数据优化实践:数据倾斜(纯干货)
0x00 前言 引用数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 郑重声明: 话题比较大,技术要求也比较高,笔者尽最大的能力来写出自己的理解,写的不对和不好的地方大家一起交流。 有些例子不是特别严谨,一些小细节对文 ...
[行业应用] 技术直播:大数据技术企业应用,实战hadoop!
写道 数据获取是大数据分析的基本功,那么到底数据该如何获取?本次直播将通过4个课时,让你学会如何获取数据,获取的数据怎么进行分析,以及最终该如何呈现。CSDN联合大数据实战专家徐培成老师共同出品,意在通过项目实例,让大家快速切入,重点讲解内容,让大家真正掌握。直播时间:4月12日开始起的每周三 晚上20:00开始,连续4周。直播平台:CSDN学院 下方微信群!主讲嘉宾:徐培成 IT十八掌创始人兼首 ...
[互联网] 【招募】大数据时代,Hadoop竟是最好的框架?
Hadoop的Logo是一头大象,其名字并不是一个缩写,而是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。 提到大数据,很多同学会想到Hadoop技术。大家都知道,Hadoop是Apache的一个开源项目,它是一 ...
[数据库] 链家网大数据平台枢纽——工具链
引用声明:本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序员》。 作者:吕毅,链家网平台架构师。目前负责链家网大数据平台,之前曾负责链家网基础服务平台建设。 责编:郭芮,关注大数据领域,寻求报道或投稿请联系guorui@csdn.net。 链家网于2015年成立大数据部门,开始构建基于Hadoop的技术体系,初期大数据部门以运营数据报表需求、公司核心指标需求为主。随着2 ...
[互联网] 【知识库专访】蒋守壮:Hive性能优化实战分享
【编者按】Hive作为Hadoop家族的重要一员,具有学习成本低,开发者可通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。在攒库中,Hive也不负众望,得到了非常高的票数。为此,CSDN知识库特邀社区专家蒋守壮(博客:http://blog.csdn.net/jiangshouzhuang)绘制了Hive技术图谱,帮助广大开发者更加系统、全面的学习直播技术 ...
[互联网] 15 个开源的顶级人工智能工具
AI是科技研究中最热门的方向之一。像 IBM、谷歌、微软、Facebook 和亚马逊等公司都在研发上投入大量的资金、或者收购那些在机器学习、神经网络、自然语言和图像处理等领域取得了进展的初创公司。考虑到人们对此感兴趣的程度,我们将不会惊讶于斯坦福的专家在人工智能报告中得出的结论:“越来越强大的人工智能应用,可能会对我们的社会和经济产生深远的积极影响,这将出现在从现在到 2030 年的时间段里。” ...
[开源软件] Github上最具影响力的组织机构排行
哪些组织机构是Github最具有影响力的,本文使用gh-impact工具评估得出了如下TOP 10名单前三名分别是:Google、Facebook、Apache。 1.Google 得分:185 2.Facebook 得分:147 3.Apache 得分:130 4.Microsoft 得分:104 5.Mozilla 得分:95 6.Codrops 得分:92 7.Twitter 得分:88 8 ...
[互联网] Docker生态到底会不会重蹈Hadoop的覆辙
昨天的一篇《Docker生态会重蹈Hadoop的覆辙吗?》刷屏微信朋友圈,文章从以下几个部分阐释Docker生态究竟会不会重蹈Hadoop的覆辙: Docker的兴起和Hadoop何其相似 大数据从狂热走向了理性 Hadoop生态圈的演进 Docker的生态圈 Docker公司的战略野心受生态圈狙击 Docker生态圈的演进 开源技术也需要商业的成功 Docker生态圈的推论 给准备Dock ...
[开源软件] logkafka - Apache Kafka的日志收集代理
logkafka是一个日志收集代理,可以按行收集日志文件并发送到kafka 0.8,每行为一条消息。 在生产环境部署之前请查看一下FAQ。 特性 通过zookeeper来管理日志收集相关配置 支持包含时间格式的日志路径 日志文件轮转 批量发送 压缩 (none, gzip, snappy) 消息正则过滤器 用户自定义分隔符 用户自定义监控 与其他日志聚合&监控工具的区别 与f ...
[开源软件] 盘点最受欢迎的十个开源大数据技术
引用 原文:Top 10 Big Data Technologies to Start Adopting Today! 作者:Tim Spann 翻译:王嘉怡 责编:仲培艺 大数据已然成为当今最热门的技术之一,正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术。 1.Hadoop——高效、可靠、可 ...
[数据库] 超越Spark100倍性能?!不科学呀,它是什么鬼?
2004年,Google的MapReduce论文揭开了大数据处理的时代,现如今,大数据的发展已达到惊人的速度,大数据技术深刻改变了世界。与此同时,各大数据库厂商在大数据这片蓝海里都想多分一杯羹,于是乎,各种数据库开发技术如雨后春笋般孕育而出。众所周知,大数据技术纷杂繁多,而Spark、Hive、Tez、RapidsDB这几款却深受开发者青睐,谈其性能各有千秋: Spark是由UC Berkele ...
[数据库] 如何让Hadoop支持优先级且性能可预测
引用让运行Hadoop的公司产品都能够确保高优先级任务按时完成。 Apache Hadoop近十年的成长证明,用开源技术处理与访问海量数据并不是什么炒作。然而,Hadoop的一个缺点是不可预测性。Hadoop不能确保企业的关键任务按时完成,也不能完全发挥集群的性能。 YARN(一种新的Hadoop资源管理器)能够实现任务抢占,为队列中的其它任务腾出调度空间。容量调度器与公平调度器可以通过静态 ...
[数据库] 实时流处理系统的用例
本文阐述了为什么比起Hadoop之类的知名技术,类似Apache Storm这样的系统更加有用。 让我们以经典的笔记本品牌实时情感分析(SENTIMENT ANALYSIS)为例,在进行观点分析时,处理流程应当如下图所示: 从类似Twitter、Facebook、电子商务网站之类的不同来源收集数据。 以一些“高吞吐量”这样的关键字为基础,我们筛选出了一些数据。 为不同来源的各条信息生成情感 ...
[开源软件] Apache六大尚未广为人知的大数据项目
引用原文地址:On the Rise: Six Unsung Apache Big Data Projects 作者:SAM DEAN 译者:吴洁 世界各地无数的组织,他们使用的数据现在日益庞大而复杂,使用传统的数据处理程序已无法再进行优化分析及获得洞察。而这正是的新一代的大数据应用程序要解决的问题。近期Apache软件基金会(ASF)又将一批有趣的开源大数据项目毕业为的Apache顶级项目。这意味 ...
[数据库] 2016年大数据在金融领域的10大趋势
2015 年对于银行和金融业公司来说是一个开局之年,在这一年中他们继续用大数据来帮助他们进行业务和组织架构的演进。现在,放眼2016年将要面对的,我们猜测金融服务公司为了利益最大化进而不断整合大数据环境而言,他们面前的路依旧漫长。 银行家们也正在起草大数据战略,制定入门和随后的用例。 对于银行来说,大数据主要还是围绕提高客户情商,减少风险,符合监管。在可见的未来处于第一梯队的大型金融集团都会继续围 ...
[数据库] Hadoop平台架构--硬件篇
还记得刚接触Hadoop的时候,还是1.x版本,硬是在自己的4GB内存上面弄了3个虚拟机 学习,条件有些艰苦,Hadoop测试集群搭建不需要太多考虑,随着毕业开始进入企业,在企业中实践Hadoop,特别是一定规模的集群,逐渐涉及到硬件资源,网络规划,操作系统,软件栈等一系列问题!对于一个没有经验的小白来说,还是比较复杂的,还好公司有linux大牛配合上我从各种技术网站博客吸收的微薄知识,从0开始搭建 ...
[编程语言] Java程序员在用的大数据工具,MongoDB稳居第一
据日前的一则大数据工具使用情况调查,我们知道了Java程序猿最喜欢用的大数据工具。 问题:他们最近一年最喜欢用什么工具或者是框架? 受访者可以选择列表中的选项或者列出自己的,本文主要关心的是大数据工具。上一篇Java调查包括下列内容: 开发语言 Web框架 应用服务器 数据库工具 SQL数据 大数据 开发工具 云供应商 现在,来看看维基百科上对大数据的定义: 引用大数据,广义上来说是一组量很 ...
[互联网] 最流行的六大数据模型工具
当今的商业决策对基于天的数据依赖越来越强烈。然而,正确而连贯的数据流对商业用户做出快速、灵活的决策起到决定性的作用。建立正确的数据流和数据结构才能保证最好的结果。这个过程叫做数据建模。为了避免认为错误并且加快进度,我们需要使用专业的软件来帮助我们建立数据逻辑模型和物理模型、生成DDL,并且能够生成报告来描述这个模型,同时分享给其他伙伴。本文列出的工具都是从Data to Value公司咨询顾问处精挑 ...
[企业架构] Cloudera旨在以Spark取代MapReduce作为默认Hadoop框 ...
Apache Spark内存计算框架更接近于Apache Hadoop,Cloudera今天宣布它正努力地使Spark取代默认的Hadoop数据处理框架。 “虽然IT公司将会继续添加其他数据处理框架叠加在Hadoop集群顶部,One Platinum Initiativ是一个以Spark取代MapReduce作为默认数据处理引擎的基本案。”Cloudera的产品营销总监Matt Brandwein ...