`
dingdingji
  • 浏览: 6285 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

预学习内容

阅读更多

zookeeper 

    zooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

redis 

    redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。

 
mongdb 

    MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引
kafka 

    Kafka是一个高吞吐量分布式消息系统。linkedin开源的kafka。 Kafka就跟这个名字一样,设计非常独特。首先,kafka的开发者们认为不需要在内存里缓存什么数据,操作系统的文件缓存已经足够完善和强大,只要你不搞随机写,顺序读写的性能是非常高效的。kafka的数据只会顺序append,数据的删除策略是累积到一定程度或者超过一定时间再删除。Kafka另一个独特的地方是将消费者信息保存在客户端而不是MQ服务器,这样服务器就不用记录消息的投递过程,每个客户端都自己知道自己下一次应该从什么地方什么位置读取消息,消息的投递过程也是采用客户端主动pull的模型,这样大大减轻了服务器的负担。Kafka还强调减少数据的序列化和拷贝开销,它会将一些消息组织成Message Set做批量存储和发送,并且客户端在pull数据的时候,尽量以zero-copy的方式传输,利用sendfile(对应java里的 FileChannel.transferTo/transferFrom)这样的高级IO函数来减少拷贝开销。
spark 

    Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。

    Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
flume-ng 

    Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
HAproxy 

    HAProxy提供高可用性、负载均衡以及基于TCP和HTTP应用的代 理,支持虚拟主机,它是免费、快速并且可靠的一种解决方案。HAProxy特别适用于那些负载特大的web站点,这些站点通常又需要会话保持或七层处理。HAProxy运行在当前的硬件上,完全可以支持数以万计的并发连接。并且它的运行模式使得它可以很简单安全的整合进您当前的架构中, 同时可以保护你的web服务器不被暴露到网络上。

    HAProxy实现了一种事件驱动单一进程模型,此模型支持非常大的并发连接数。多进程多线程模型受内存限制 、系统调度器限制以及无处不在的锁限制,很少能处理数千并发连接事件驱动模型因为在有更好的资源和时间管理的用户端(User-Space) 实现所有这些任务,所以没有这些问题。此模型的弊端是,在多核系统上,这些程序通常扩展性较差。这就是为什么他们必须进行优化以 使每个CPU时间片(Cycle)做更多的工作。

Nginx

    Nginx(发音同 engine x)是一款轻量级的Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,并在一个BSD-like 协议下发行。由俄罗斯的程序设计师Igor Sysoev所开发,供俄国大型的入口网站及搜索引擎Rambler(俄文:Рамблер)使用。其特点是占有内存少,并发能力强,事实上nginx的并发能力确实在同类型的网页服务器中表现较好,中国大陆使用nginx网站用户有:新浪网易、 腾讯等。
thrift 

    thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发。它结合了功能强大的软件堆栈和代码生成引擎,以构建在 C++, Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C#, Cocoa, JavaScript, Node.js, Smalltalk, and OCaml 这些编程语言间无缝结合的、高效的服务。
Avro

Avro是一个数据序列化的系统,它可以提供:
1 丰富的数据结构类型
2 快速可压缩的二进制数据形式
3 存储持久数据的文件容器
5 简单的动态语言结合功能,Avro和动态语言结合后,读写数据文件和使用RPC协议都不需要生成代码,而代码生成作为一种可选的优化只值得在静态类型语言中实现。

ElasticSearch

    ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。

 

hadoop 

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
hive 

    hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
HBase 

    HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构存储集群.

Mahout 

      Mahout 是机器学习和数据挖掘的一个分布式框架,区别于其他的开源数据挖掘软件,它是基于hadoop之上的; 所以hadoop的优势就是Mahout的优势。官网http://mahout.apache.org/ 上说的Scalable就是指hadoop的可扩展性。

 

Mahout用map-reduce实现了部分数据挖掘算法,解决了并行挖掘的问题。这里说的“解决”是一个初步的概念,很多算法由于各种原因是无法用map-reduce并行实现的。

Kettle (spoon) 

    Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

    R语言是主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman 开发(也因此称为R),现在由“R开发核心团队”负责开发。 R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。 R的语法是来自Scheme。
Gradle 

    Gradle 是以 Groovy 语言为基础,面向Java应用为主。基于DSL(领域特定语言)语法的自动化构建工具。

分享到:
评论

相关推荐

    ILA-DPD-master_DPD_dpd数字预失真_数字预失真_ILC_间接学习

    标题中的“ILA-DPD-master_DPD_dpd数字预失真_数字预失真_ILC_间接学习”指的是一项关于数字预失真技术的研究项目,其中“ILA”可能代表“间接学习算法(Indirect Learning Algorithm)”。这个项目专注于DPD...

    Android内容预加载View占位

    在Android开发中,"内容预加载View占位"是一种优化用户体验的重要技术,它涉及到如何高效地展示数据并减少用户等待时间。...学习并掌握预加载和占位技术,对于提升Android应用的整体质量和用户满意度至关重要。

    前端学习内容推荐

    ### 前端学习内容推荐 前端开发是Web开发中的一个重要组成部分,主要关注网页的用户界面部分。本文将根据提供的标题、描述、标签以及部分内容,详细介绍前端开发的学习路径,包括HTML、CSS和JavaScript等核心技能。...

    dpd_神经网络预失真_DPD_数字预失真_

    从标签“神经网络预失真 DPD 数字预失真”中,我们可以进一步理解这些论文的核心内容将围绕着如何利用神经网络技术来设计和优化DPD系统,以及DPD在实际数字通信系统中的应用。 压缩包内的文件名称暗示了论文的具体...

    基于pytorch的resnet预训练模型的迁移学习

    内容概要:基于pytorch的resnet预训练模型进行迁移学习 适用人群:做图像分类实验学习的新手,需要做图像二分类或者小分类的工具的使用者 内容:内容中详细的文档说明,即拆即用

    事件预检测

    文章内容提到了一篇研究论文“Multiple-Instance Ranking: Learning to Rank Images for Image Retrieval”,这篇论文的主要内容是对一组由同一关键词标注或索引的噪声图像集合进行学习,以学习排序模型并应用到新...

    ssd-pytorch-master[附带预训练权重可迁移学习].zip

    在压缩包内的"ssd-pytorch-master[附带预训练权重可迁移学习]"文件夹中,通常会包含以下内容: 1. 模型定义文件:定义SSD网络结构。 2. 数据处理模块:处理输入数据,如预处理、数据增强等。 3. 训练脚本:包含训练...

    预学深深深几许——巧设预学问题,驱动深度学习.pdf

    【专业指导】强调的是教师的专业素养和教学策略,包括准确把握学习内容的核心,设计有效的教学活动,以及根据学生反馈及时调整教学。在案例中,教师反思浅表的“一问一答”教学模式,寻求更深层次的教学方法,如探究...

    Pytorch深度学习实战天气图片识别(基于ResNet50预训练模型,超详细).zip

    Pytorch深度学习实战天气图片识别(基于ResNet50预训练模型,超详细).zip本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、...

    图像风格迁移预训练模型

    图像风格迁移预训练模型是一种基于深度学习的技术,它利用了生成对抗网络(GANs)的强大能力,能够将一张图片的内容保留下来,同时将其风格转换为另一张图片的风格。这一技术在艺术、设计以及视觉效果等领域有着广泛...

    ILA-DPD-master_DPD_dpd数字预失真_数字预失真_ILC_间接学习.zip

    ILA-DPD-master_DPD_dpd数字预失真_数字预失真_ILC_间接学习.zip 这个压缩包文件主要涉及的是数字预失真(DPD, Digital Predistortion)技术,这是一种在无线通信系统中广泛应用的技术,用于优化功率放大器(PA, ...

    ChatGPT技术的预训练方法与联合学习策略深入解析.docx

    ### ChatGPT技术的预训练方法与联合学习策略深入解析 #### 一、ChatGPT技术概述 ChatGPT作为一种先进的自然语言处理技术,在近年来取得了显著的发展与突破。该技术的核心在于利用深度学习方法实现高质量的自然语言...

    深度学习预训练库,集成各种经典backbone,基于OpenMMLab_MMPretrain库!!!.zip

    深度学习是一类模式分析方法的统称,就具体研究内容而言,主要涉及三类方法: [2] (1)基于卷积运算的神经网络系统,即卷积神经网络(CNN)。 [2] (2)基于多层神经元的自编码神经网络,包括自编码(Auto encoder...

    linux C++ 预编译

    通过解压并运行这个示例,你可以亲身体验预编译带来的效率提升,并学习如何在实际项目中应用这些技术。在实践中,可以结合阅读CMake的官方文档和C++的预处理器指南,进一步深入理解和掌握预编译在Linux C++项目中的...

    修正预训练偏差的数据集调整与迁移学习性能优化

    内容概要:本文探讨了在迁移学习过程中,预训练模型中的偏见(包括错误相关性和代表性不足)可能会传递到微调后的模型。研究指出,虽然预训练模型确实可以将一些偏见传递给下游任务,但通过对微调数据集进行适当的...

    飞桨端到端预训练模型与迁移学习工具-PaddleHub.pdf

    PaddleHub是百度推出的基于飞桨(PaddlePaddle)深度学习平台的一套工具集,它允许用户通过预训练模型的快速接入和迁移学习技术,实现端到端的AI应用开发。这大大简化了AI模型的训练和部署流程,使得开发者可以更加...

    m基于matlab的MIMO信道容量分析,对比了不同天线数量;非码本预编码SVD,GMD;码本预编码DFT,TxAA以及空间分集

    提供程序操作视频+word版说明文档 注意事项(仿真图预览可参考博主博客里面"同名文章...码本预编码DFT,TxAA以及空间分集SFBC和FSTD-SFBC算法编程学习 4.指向人群:本硕博等学习教研使用,企事业简单项目方案验证参考

    基于深度学习的内容算法研究综述.pptx

    基于深度学习的内容算法研究综述 随着互联网的快速发展,海量的信息使得用户获取到自己所需内容的效率越来越低。为了解决这个问题,基于深度学习的内容算法被越来越多的研究和应用。本次演示对基于深度学习的内容...

Global site tag (gtag.js) - Google Analytics