做有温度的教育!
全国统一咨询热线:400-803-9399
北京
校区
新闻资讯> 行业新闻> Spark能取代Hadoop吗?

Spark能取代Hadoop吗?

时间:2018-07-23
浏览:45715
发布:甲骨文华育兴业
赞:15141

  谈到大数据开发,hadoop与spark就是两个无法避开的知识点,而且关于spark取代hadoop的言论也不绝于耳,难道hadoop真的要被取代了吗?spark真的会成为hadoop的取代者吗?在大数据开发中我们究竟该如何选择呢?

  其实、大数据界很早就对Hadoop的前景表示悲观,包括IT经理网早在2012年就曾发布文章指出Hadoop的核心技术已经过时,因为Hadoop并不擅长处理“快数据”。但是,在媒体、业界的合力炒作下,已经有数以千计的企业使用Hadoop来存储海量数据。因此Hadoop不太可能一夜之间就销声匿迹。在2017年,Gartner将 Hadoop 发行版从数据管理的技术成熟度曲线中淘汰出局,塬因是由于整个 Hadoop 堆栈的复杂性和可用性问题,许多组织已经开始重新考虑其在信息基础架构中的角色。而今年 KDnuggets 发布的数据科学和机器学习工具调查报告则显示 Hadoop 的使用率也下降了,这让“Hadoop 老矣”的说法又再度流传起来。且在2018 年数据科学和机器学习工具调查报告显示 Hadoop 使用率下降 35%,这些都在佐证hadoop似乎快要被淘汰了。

  当然,此番针对于hadoop被取代的问题,还应该从另一个角度去思考,也就是从spark的角度去对比二者的关系。

  第一、spark的速度

  spark因为处理数据的方式不一样,会比MapReduce快上很多。MapReduce是分步对数据进行处理的: ”从集群中读取数据,进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写到集群,等等…反观Spark,它会在内存中以接近“实时”的时间完成所有的数据分析,从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成。Spark的批处理速度比MapReduce快近10倍,内存中的数据分析速度则快近100倍。

  第二、hadoop与spark解决的问题不相同

  虽然二者都是大数据框架,但解决问题的层面却不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

  第三、灾难恢复

  对于灾难的回复,二者存在着很大的不同。Hadoop将每次处理后的数据都写入到磁盘上,所以其天生就能很有弹性的对系统错误进行处理。而Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD: ResilientDistributed Dataset)中。这些数据对象既可以放在内存,也可以放在磁盘,所以RDD同样也可以提供完成的灾难恢复功能。

  通过二者的对比,我们不难发现,spark只是在速度上优于hadoop,但在实际的应用中,hadoop的稳定性,也更受企业的重视。腾讯对于大数据的应用的总体塬则是兼顾平台稳定性和技术先进性,因此,hadoop如今也还是腾讯使用最多的大数据框架。

  或许是hadoop在各个领域、各个企业中应用的比较广泛,造成了大家对其的不重视。其实,纵观hadoop的各种特点和属性,其应用之广泛足以以令各个领域为之侧目。Hadoop 生态确实存在一些不足,但却决不可抹杀hadoop的优点,hadoop虽然属于“老技术”,但依然能够独挡一面。


人生从业之路的第一步,从甲骨文华育兴业开始,

背后付出的辛苦与努力只有自己知道,而这也只是职业生涯的开始。

勤恳努力的人终会得到好的回报,有些努力需要时间来回答

你吃的苦终会铺成你想要的路!

甲骨文华育兴业,为你的IT之路开启梦想之门!


【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息联系我们,我们将及时沟通与处理。本站内容除非来源注明甲骨文华育兴业,否则均为网友转载,涉及言论、版权与本站无关。


大数据中hadoop是什么? ps使用 大数据 冲刺Java架构师年薪50W

友情链接: 甲骨文华育兴业太原校区 甲骨文华育兴业济南校区 甲骨文华育兴业哈尔滨校区 甲骨文华育兴业长春校区 魔据教育 音乐培训 青海律师

Copyright ©2016-2019. All Rights Reserved. 京ICP备17018991号-4

网站地图