做有温度的教育!
全国统一咨询热线:400-803-9399
北京
校区
新闻资讯> 行业新闻> 大数据技术中hadoop总结及hdfs的读写流程

大数据技术中hadoop总结及hdfs的读写流程

时间:2018-06-01
浏览:3172
发布:
赞:618

甲骨文华育兴业专注IT技术,重磅推出因材施教,分级教学模式,现已为万千学子成就IT之梦!依托有力的技术团队支持携手高校大数据共建,为社会输送高端IT人才!这次就谈谈大数据技术中的hadoop和hdfs读写流程!

一、hadoop简介

hadoop是一个适合海量数据存储和计算的分布式基础框架,其起源于google三篇论文。其中,hadoop2.x的版本中,概括起来可分为三大核心或四大模块。三大核心是指:hdfs(分布式文件系统)、yarn(任务调度和资源管理)、mapreduce(分布式离线计算框架);而四大模块除了包括上述的三个核心组件外,外加一个hadoop common组件(其为三大核心组件提供基础工具,如配置工具configuration、远程过程调用rpc工具、序列化机制等)

二、hadoop的存储机制

 hadoop框架中,包含一个用于存储海量数据的分布式文件系统;即HDFS。其中与HDFS的存储文件相关的节点主要包括:client(客户端)、namenode(名称节点)、datanode(数据节点),其中,client用于发送读写文件请求;namenode用于处理客户端发来的IO请求以及维护元数据,而datanode用于存储数据并定期向namenode发送存储在本地的块报告信息

甲骨文华育兴业hadoop的存储机制

三、hdfs写数据流程

(1)客户端向namenode发送写数据的请求【命令:hdfs dfs -put 要上传文件的路径  存储在hdfs上的路径】

(2)namenode收到客户端的请求后,首先会检测元数据的目录树;判断待上传的文件是否已存在,如果已存在,则拒绝client的上传。如果不存在,则响应客户端可以上传。

(3)客户端收到可以上传的响应后,会把待上传的文件切块(hadoop2.x默认块大小为128M);然后再次给namenode发送请求,上传第一个block块。

(4)namenode收到客户端上传block块的请求后,首先会检测其保存的datanode信息,确定该文件块存储在那些节点上;最后,响应给客户端一组datanode节点信息。

甲骨文华育兴业大数据

(5)客户端根据收到datanode节点信息,首先就近与某台datanode建立网络连接;然后该datanode节点会与剩下的节点建立传输通道,通道连通后返回确认信息给客户端;表示通道已连通,可以传输数据。

(6)客户端收到确认信息后,通过网络向就近的datanode节点写第一个block块的数据;就近的datanode收到数据后,首先会缓存起来;然后将缓存里数据保存一份到本地,一份发送到传输通道;让剩下的datanode做备份。

(7)第一个block块写入完毕,若客户端还有剩余的block未上传;则客户端会从(3)开始,继续执行上述步骤;直到整个文件上传完毕。

四、hdfs读数据流程

甲骨文华育兴业

 (1)客户端发送读数据请求给namenode【命令:hdfs dfs -get hdfs文件路径】

(2)namnode收到请求后,会检测元数据;判断读取的文件是否存在。存在,则响应客户端该文件保存在那些datanode节点上。

(3)客户端收到可以读文件的响应后,根据拿到的datanode节点信息;会与每个datanode节点建立网络连接,然后读取保存在每个datanode节点的block块数据。

(4)客户端会将从网络中读取的数据保存到缓存中,然后保存到本地磁盘。


人生从业之路的第一步,从甲骨文华育兴业开始,

背后付出的辛苦与努力只有自己知道,而这也只是他们职业生涯的开始。

勤恳努力的人终会得到最好的回报,有些努力需要时间来回答

你吃的苦终会铺成你想要的路!

甲骨文华育兴业,为你的IT之路开启梦想之门!


【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息联系我们,我们将及时沟通与处理。本站内容除非来源注明甲骨文华育兴业,否则均为网友转载,涉及言论、版权与本站无关。

大数据中hadoop是什么? ps使用 大数据 冲刺Java架构师年薪50W

友情链接: 教育培训 甲骨文华育兴业太原校区 甲骨文华育兴业济南校区 甲骨文华育兴业哈尔滨校区 甲骨文华育兴业长春校区 魔据教育 音乐培训 青海律师

Copyright ©2016-2019. All Rights Reserved. 京ICP备17018991号-4

网站地图