这篇文章主要介绍“什么是Hadoop”,在日常操作中,相信很多人在什么是Hadoop问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”什么是Hadoop”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!2011年的时候我们在百度搜索Hadoop相关的问题每天只有零星几个,2015年再去百度搜索Hadoop已经有800多万个问题,而如今已然已经过亿了,Hadoop已成为大数据必备的基础设施了。Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。近年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。那么到底什么是Hadoop?它有什么作用?它的基础架构是怎么样的?今天就Hadoop的这些基本概念来做一次简单的梳理。一、Hadoop是什么?Hadoop是一个由Apache基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是大数据技术中的基石。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。二、Hadoop能解决什么问题1、海量数据存储HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(High throughput)来访问数据,适合那些有着超大数据集(large data set)的应用程序,它由n台运行着DataNode的机器组成和1台(另外一个standby)运行NameNode进程一起构成。每个DataNode 管理一部分数据,然后NameNode负责管理整个HDFS 集群的信息(存储元数据)。2、资源管理,调度和分配Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统 一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨 大好处。三、Hadoop组件架构是什么样的看过了Hadoop 的基本介绍之后。我们来了解HDFS 和 YARN的核心架构和原理,先上HDFS框架图:看完上面的图之后,先来思考几个问题:1、元数据信息是什么,NameNode是如何维护元数据的,元数据信息如何保障一致性?2、NameNode Active 和 standby 之间是如何切换并始终保 香港云主机持一个ActiveNode?再来看YARN框架图:上图描述了YARN的一个任务的提交和资源分配流程,在整个过程中涉及到如下的组件:ResourceManeger:负责所有资源的监控、分配和管理,并处理客户端请求,启动和监控AppMaster,NodeManagerNodeManager:单个节点上的资源管理和任务管理,处理ResourceManager,AppMaster 的命令AppMaster:负责某个具体应用程序的调度和协调,为应用程序申请资源,并对任务进行监控Container:YARN中的一个动态资源分配的概念,其拥有一定的内存,核数。通过上面的内容,可以对Hadoop 的一些基本框架有一些简单的印象了。之后在使用的时候可以对照上面的结构图和Hadoop 官网或者社区进行深入理解。到此,关于“什么是Hadoop”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注开发云网站,小编会继续努力为大家带来更多实用的文章!
这篇“vuejs6中v-else指令有什么用”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“vuejs6中v-else指令有什么用”文章吧。代码如…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。