大数据的架构体系是什么,大数据架构有哪些?应该如何理解?

请详细解释一些

BI系统,大概的架构图如下:

大数据的架构体系是什么,大数据架构有哪些?应该如何理解?

核心的模块是Cube,Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作。大部分BI系统都基于关系型数据库,关系型数据库使用SQL语句进行操作,但是SQL在多维操作和分析的表示能力上相对较弱,所以Cube有自己独有的查询语言MDX,MDX表达式具有更强的多维表现能力,所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山,大多数的数据库服务厂商直接提供了BI套装软件服务,轻易便可搭建出一套Olap分析系统。

以Hadoop体系为首的大数据分析平台:

Hadoop体系的生态圈也不断的变大,目前围绕Hadoop体系的大数据架构大概有以下几种:

传统大数据架构

大数据的架构体系是什么,大数据架构有哪些?应该如何理解?

其定位是为了解决传统BI的问题,简单说,数据分析的业务没有发生任何变化,依然保留了ETL的动作,将数据经过ETL动作进入数据存储。

适用场景:

数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。

流式架构

大数据的架构体系是什么,大数据架构有哪些?应该如何理解?

在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。

适用场景:

预警,监控,对数据有有效期要求的情况。

Lambda架构

大数据的架构体系是什么,大数据架构有哪些?应该如何理解?

Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性,因此Lambda最外层有一个实时层和离线层合并的动作,此动作是Lambda里非常重要的一个动作,大概的合并思路如下:

大数据的架构体系是什么,大数据架构有哪些?应该如何理解?

适用场景:

同时存在实时和离线需求的情况。

Kappa架构

大数据的架构体系是什么,大数据架构有哪些?应该如何理解?

Kappa架构在Lambda 的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

适用场景:

和Lambda类似,改架构是针对Lambda的优化。

Unifield架构

大数据的架构体系是什么,大数据架构有哪些?应该如何理解?

Unifield架构更激进,将机器学习和数据处理揉为一体,从核心上来说,Unifield依旧以Lambda为主,不过对其进行了改造,在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后,新增了模型训练部分,并且将其在流式层进行使用。同时流式层不单使用模型,也包含着对模型的持续训练。

适用场景:

有着大量数据需要分析,同时对机器学习方便又有着非常大的需求或者有规划。

相关:

舆情大数据系统架构设计与实现:https://www.toutiao.com/i6537119210336682510/

大数据架构的分析应用:https://www.toutiao.com/i6613946595891216910/

大数据的架构体系是什么,大数据架构有哪些?应该如何理解?

深圳大数据培训机构有哪些?

深圳大数据培训机构有哪些? 大数据的架构体系是什么,大数据架构有哪些?应该如何理解?

我表弟在黑马程序员学的大数据,不过现在还没就业,😂

大数据平台的软件有哪些?

大数据的架构体系是什么,大数据架构有哪些?应该如何理解?

这个要分好几块来讲,首先我要说明的是大数据项目也是要有很多依赖的模块的。每个模块的软件不一样,下面分别聊一下。

一、大数据处理

这个是所谓大数据项目中最先想到的模块。主要有spark,hadoop,es,kafka,hbase,hive等。

当然像是flume,sqoop也都很常用。

这些软件主要是为了解决海量数据处理的问题。软件很多,我只列几个经典的,具体可以自行百度。

二、机器学习相关

大部分大数据项目都和机器学习相关。因此会考虑到机器学习的一些软件,比如说sklearn,spark的ml,当然还有自己实现的代码。

三、web相关技术

大部分项目也都跑不了一个web的展示,因此web就很重要的,java的ssh,python的django都可以,这个看具体的项目组习惯了。

四、其它

还有一些很常用的东西,个人感觉不完全算是大数据特定使用范围。反正我在做大数据项目的时候也都用到了。

比如说数据存储:redis,mysql。

数据可视化:echart,d3js。

图数据库:neo4j。

再来说说大数据平台的软件或者工具:

1、 数据库,大数据平台类,星环,做Hadoop生态系列的大数据平台公司。Hadoop是开源的,星环主要做的是把Hadoop不稳定的部分优化,功能细化,为企业提供Hadoop大数据引擎及数据库工具。

2、 大数据存储硬件类,浪潮,很老牌的IT公司,国资委控股,研究大数据方面的存储,在国内比较领先。

3、 云计算,云端大数据类,阿里巴巴,明星产品-阿里云,与亚马逊AWS抗衡,做公有云、私有云、混合云。实力不差,符合阿里巴巴的气质,很有野心。

4、 数据应用方面这个有很多,比如帆软旗下的FineReport报表系统和FineBI大数据分析平台等。

帆软是商业智能和数据分析平台提供商,从报表工具到商业智能,有十多年的数据应用的底子,在这个领域很成熟,目前处于快速成长期,但是很低调,是一家有技术有实力而且对客户很真诚的公司。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 xxx@163.com 举报,一经查实,本站将立刻删除。

发表评论

登录后才能评论