想学大数据需要什么基础,大数据主要学习什么内容？有什么要求和条件？

走失彗星 • 2022-02-11 10:38:58 • 投稿

作为一名IT从业者，同时也是一名计算机专业的教育工作者，我来回答一下这个问题。

首先，当前大数据的知识体系还是比较庞大的，随着大数据技术生态的逐渐成熟和完善，大数据领域也逐渐形成了更多的岗位细分，从事不同的岗位细分方向则需要学习不同的知识。

　　大数据分析工具OurwayBI采用Node.js。Node.js是一个Javascript运行环境(runtime)，它实际上是对GoogleV8引擎进行了封装。V8引擎执行Javascript的速度非常快，利用基于时间序列的内存计算技术，减少与数据库的交互，可大大提升效率。操作指引更易上手：OurwayBI为了让用户不进行任何培训即可掌握常用操作，设置了操作指引，智能引导用户逐步掌握基本操作及各项技巧。整个产品的UI进行了大量细节优化，以增加使用者的美观要求与使用体验等。

　　奥威BI轻松实现大屏监控，满足各种大屏可视化应用场景！

　　不论是内部战情观察，还是外部成果展示，不论是会议室，还是生产现场，透过大屏监控，企业关键数据一览无遗！

　　包括数十种酷炫图表，支持文本、图片、视频等，不论单块或拼接LED屏幕，不论大小，都可以任意布局，完美自适应。

　　大屏可视化可实现实时刷新，不论是双11实时交易状况，还是生产现场，都可以及时监控、及时预警。

Flume和Kafka有一部分功能是相同的，但是整体来看，两者的差别还是很大的；它们使用的场景有所不同，但是可以相互配合使用。

Flume

简单的说，Flume是分布式日志收集系统，它把各个服务器上的日志收集起来，传送到制定的地方，比如传送到HDFS中。

Kafka

Kafka的定位是分布式消息中间件，自带存储，提供push和pull存取数据功能。

使用场景

在实际应用中，系统实时产生的日志需要最后进入HDFS，但是生产上的日志数量会有波动，比如由于访问量的增加，导致突然之间产生大量的日志，这时候可能会导致日志写入HDFS失败，所以这时候可以先把日志数据写入到Kafka中，再由Kafka导入到HDFS中。

总结：在日志采集系统中，把Kafka当做日志缓存更加合适，Flume做数据采集，因为它可以定制很多数据源，减少开发量，所以Flume和Kafka可以配合起来一起工作。

整体的流程是这样的:

服务器上的日志Kafka-->HDFS-->离线计算

服务器上的日志Kafka-->Storm

希望我的回答能够帮助到你！

Kafka是如何保证数据可靠性和一致性？

什么是可靠性

对于消息系统来说，所谓可靠性就是指消息可以从生产者（producer）准确的送达到消费者（consumer）。可靠性保证有三个层次：

At most once 最多一次。消息可能会丢失，但是决不重复。
At least once 至少一次。消息决不丢失，但可能会重复。
Exactly once 恰好一次。这是最完美的，既不丢失，也不重复。

如果要可靠的准确的传达消息，需要生产者程序，消息系统和消费者程序相互合作。

什么是一致性

对于消息系统来说，一致性是指，如果一个消费者c1读到消息m1的offset是x，那么之后的任何消费者读到的offset是x的消息一定也是c1。

可以参看我的一个视频《分布式系统中的强一致性和弱一致性》

Kafka如何保证可靠性和一致性

如果要可靠的准确的传达消息，需要生产者程序，消息系统和消费者程序相互合作。

生产者程序 Producer

生产者需要确认消息成功送达kafka的服务区broker，并且得到broker的返回消息，确认消息已经提交（commit）。如果没有成功返回需要重发，直到发送成功。

详细的配置解释，可以参考我的头条文章《Kafka的可靠性保证 - 生产者的配置》

Kafka服务器集群 Cluster

Kafka的服务器是一个集群，集群中至少需要包含3个以上的节点。通过主从备份可以保证不丢消息。只要提交的消息就保证不丢。

详细的配置解释，可以参考我的头条文章《Kafka的一致性保证》

消费者程序 Consumer

消费者从Kafka读取消息以后要妥善处理。所谓妥善处理，就是完成自己获取这一条消息的目标，比如生成一条业务数据存入数据库，或者发送消息到其他的系统。

消费者需要准确的维护offset，也就是消费到哪一条消息了。如果维护不好，就会导致丢消息或者重复消费。可以参考我的头条动画视频《[动画] 如何设计可靠的Kafka的消费者程序 - exactly once》。

详细的配置解释，可以参考我的头条文章《Kafka的可靠性保证 - 消费者的配置》

本人，@小马过河Vizit，专注于分布式系统原理和实践分享。希望利用动画生动而又准确的演示抽象的原理。欢迎关注。

关于我的名字。小马过河Vizit，意为凡事像小马过河一样，需要自己亲自尝试，探索才能获得乐趣和新知。Vizit是指Visualize it的缩写。一图胜千言，希望可以利用动画来可视化一些抽象的原理。

赞 (0)

走失彗星投稿者

0 0

投稿

狙击手幽灵战士3支线任务攻略,狙击手幽灵战士3awas的家人任务怎么过？

：先打死右边塔上那个人,注意别被发现了260m的距离有点难度,打死之后回来瞄准左边屋里那个, 飞机就会来了。飞过的时候借助飞机声音掩盖打死。"...

北海道的冬天
2022-03-07
可以玩java游戏的按键手机,安卓手机怎么才能玩以前在按键机上玩的JAVA小游戏？

以前在诺基亚上玩的游戏你好，我回答一下。安卓手机是可以玩java游戏的，下载一个模拟器就可以了。安卓8.0能安装java模拟器吗？能运行吗？安卓8.0能够运行JAVA模拟器(J2ME)。需要这样一个软件J2ME Loader，可在Googl...

卡夫卡的熊
2022-02-22 • 投稿
网页怎么查看源代码,为什么网页都可以查看源代码？

只是你以为你看到的是源代码而已。这一句话已经答完了其实。你现在从钱包里掏出一张人民币，现在这张人民币的各种信息你都可以想办法检查出来。但是，你能造得出一张人民币么？你不能。除非你有专门的机器，专门的纸...

恩莉尔的裙摆
2022-02-16 • 投稿
图片做成word文档怎么做,怎样将word文档的部分内容（流程图）制作成图片？

1、新建一个空白文档，点击word工具栏上的“插入-图片-自选图形”进行流程图绘制，绘制流程图时要在绘图画布内进行，绘制好之后也不能移出绘图画布，并且不能删除绘图画布，否则下面的方法就没用了2、绘制好流程图之后...

十八闲客
2022-03-04 • 投稿
区块链应该怎么做,区块链怎么做？求教？

区块链概念比较大，简单来说，区块链是集成分布式数据存储、点对点传输、共识机制、加密算法的技术，它本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易...

北极甜虾
2022-03-03 • 投稿
excel中求平均值的公式和函数,excel的求平均值，函数公式是什么？

我是号：Excel小技巧的小编，分享一些办公常用的技能，希望有我的分享，能提高大家的工作效率，如果觉得文章对你有用，请在下方点个赞，让小编高兴下，如果没有解决你的问题，请给我留言，我们进一步探讨在Excel中，...

走失彗星
2022-02-28 • 投稿

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 xxx@163.com 举报，一经查实，本站将立刻删除。

发表评论

登录后才能评论