欢迎来到阿里云授权服务中心典名科技有限公司!咨询电话:023-66887777 18623333330

微信
手机版
网站地图

Hadoop的常用命令以及安全模式属性说明

2021-09-08 13:48:02 投稿人 : admin 围观 : 257 次 0 评论

“Hadoop的常用命令以及安全模式属性说明”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Hadoop的常用命令以及安全模式属性说明”吧!

namenode(hdfs)+jobtracker(mapreduce)可以放在一台机器上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上,一个目录对应一个磁盘),namenode存储目录需要格式化,datanode存储目录不需要格式化,启动时自动创建
同一个datanode上的每个磁盘上的块不会重复,不同datanode之间的块才可能重复

一些文件的说明:

1、dfs.hosts 记录即将作为datanode加入集群的机器列表
2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表
3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表
4、master 记录运行辅助namenode的机器列表
5、slave 记录运行datanode和tasktracker的机器列表
6、hadoop-env.sh 记录脚本要用的环境变量,以运行hadoop
7、core-site.xml hadoop core的配置项,例如hdfs和mapreduce常用的i/o设置等
8、hdfs-site.xml hadoop守护进程的配置项,包括namenode、辅助namenode和datanode等
9、mapred-site.xml mapreduce守护进程的配置项,包括jobtracker和tasktracker
10、hadoop-metrics.properties 控制metrics在hadoop上如何发布的属性
11、log4j.properties 系统日志文件、namenode审计日志、tasktracker子进程的任务日志的属性 

未标题-1.jpg

 

一、hdfs守护进程的关键属性

1、fs.default.name 类型:uri 默认值:file:/// 说明:默认文件系统,uri定义主机名称和namenode的rpc服务器工作的端口号,默认是8020,在core-site.xml中配置
2、dfs.name.dir 类型:以逗号分隔的目录名称 默认值:${hadoop.tmp.dir}/dfs/name 说明:namenode存储永久性的元数据的目录列表,namenode在列表上的各个目录中均存放相同的元数据文件
3、dfs.data.dir 类型:以逗号分隔的目录名称 默认值:${hadoop.tmp.dir}/dfs/data 说明:datanode存放数据块的目录列表,各个数据块分别存于某个目录中
4、fs.checkpoint.dir 类型:以逗号分隔的目录名称 默认值:${hadoop.tmp.dir}/dfs/namesecondary 说明:辅助namenode存放检查点的目录列表,在所列的各个目录中分别存放一份检查点文件副本

二、mapreduce守护进程关键属性

1、mapred.job.tracker 类型:主机名和端口 默认值:local 说明:jobtracker的rpc服务器所在的主机名称和端口号,如果设为默认值local,则运行一个mapreduce作业时,jobtracker即时以处理时模式运行(换言之,用户无需启动jobtracker;实际上试图在该模式下启动jobtracker会引发错误)
2、mapred.local.dir 类型:逗号分割的目录名称 默认值:${hadoop.tmp.dir}/mapred/local 说明:存储作业中间数据的一个目录列表,作业终止时,数据被清除
3、mapred.system.dir 类型:uri 默认值:${hadoop.tmp.dir}/mapred/system 说明:在作业运行期间存储共享文件的目录,相对于fs.default.name
4、mapred.tasktracker.map.tasks.maximum 类型:int 默认值:2 说明:在任一时刻,运行在tasktracker之上的map任务的最大数
5、mapred.tasktracker.reduce.tasks.maximum 类型:int 默认值:2 说明:在任一时刻,运行在tasktracker之上的reduce任务的最大数
6、mapred.child.java.opts 类型:string 默认值:-xmx200m 说明:jvm选项,用于启动运行map和reduce任务的tasktracker子进程,该属性可以针对每个作业进行设置,例如,可以设置jvm的属性,以支持调试
7、mapred.child.ulimit 限制由tasktracker发起的子进程的最大虚拟内存(单位千字节),该值设置一定要大于6设置项的值

三、rpc服务器属性

1、dfs.datanode.ipc.address 默认值:0.0.0.0:50020 说明:datanode的rpc服务器的地址和端口
2、mapred.job.tracker 默认值:local 说明:被设为主机名称和端口号时,该属性指定jobtracker的rpc服务器地址和端口,常用的端口号时8021
3、mapred.task.tracker.report.address 默认值:127.0.0.1:0 说明:tasktracker的rpc服务器地址和端口号,tasktracker的子jvm利用它和tasktracker通信,在本例中,可以使用任一空闲端口,因为服务器仅对会送地址隐藏,如果本机器没有会送地址,则需变更默认设置
datanode也运行tcp/ip服务器以支持块传输,默认由dfs.datanode.address设定,默认值是0.0.0.0:50010

四、http服务器属性

1、mapred.job.tracker.http.address 默认值:0.0.0.0:50030 说明:jobtracker的http服务器地址和端口
2、mapred.task.tracker.http.address 默认值:0.0.0.0:50060 说明:tasktracker的http服务器地址和端口
3、dfs.http.address 默认值:0.0.0.0:50070 说明:namenode的http服务器地址和端口
4、dfs.datanode.http.address 默认值:0.0.0.0:50075 说明:datanode的http服务器地址和端口
5、dfs.secondary.http.address默认值:0.0.0.0:50090 说明:辅助namenode的http服务器地址和端口
可以选择某一个网络接口作为各个datanode和tasktracker的ip地址(针对http和rpc服务器)。相关属性项包括dfs.datanode.dns.interface和mapred.tasktracker.dns.interface,默认值都是default


五、安全模式属性说明
1、dfs.replication.min 类型:int 默认值:1 说明:设置最小副本级别,成功执行写操作所需要创建的最少副本数目(也就是最小复本级别)
2、dfs.safemode.threshold.pct 类型:float 默认值:0.999 说明:在namenode退出安全模式之前,系统中满足最小复本级别(由上一个选项定义)的块的比例,将这项值设为0或更小的比例会令namenode无法启动安全模式,设为高于1则永远不会退出安全模式
3、dfs.safemode.extension 类型:int 默认值:30000 说明:在最小复本条件(由上一个选项定义)满足之后,namenode还需要处于安全模式的时间(以毫秒为单位),对于小型集群(十几个节点),这项值可以设为0

 
core-site.xml个别设置说明:

1、io.file.buffer.size 设置缓冲区大小,默认4kb(64kb 128kb)
2、fs.trash.interval 设置回收站中的文件保留多久后删除,以分钟为单位,默认值是0,表示回收特性无效。该回收功能是用户级特性,启用后,每个用户都有自己独立的回收站目录,即home目录下的.trash目录,恢复时只要从该目录找到被删除的文件,将其移除就可以了。hdfs会自动删除回收站中的文件,其它文件系统不具备这个功能,需要使用下列命令自行删除 hadoop fs -expunge

hdfs-site.xml个别设置说明:

1、dfs.block.size 设置hdfs块大小,默认64mb (128mb 256mb)
2、dfs.balance.bandwidthPerSec 设置均衡器在不同节点之间复制数据的带宽

dfs.datanode.du.reserved 设置保留空间的大小,以供其它程序使用,以字节为单位
fs.checkpoint.period 设置辅助namenode每隔多久创建检查点,以秒为单位
fs.checkpoint.size 设置当编辑日志(edits)大大小达到多少mb时,创建检查点,系统每5分钟检查一次编辑日志大小
dfs.datanode.numblocks 设置datanode一个目录存放多少个块时,就重新创建一个子目录
dfs.datanode.scan.period.hours 设置datanode块扫描的周期,默认三周(504小时)扫描一次

 
hadoop命令:

1、hadoop fs -mkdir /user/username 创建用户
2、hadoop fs -chown user:user /user/username 设置权限
3、hadoop dfsadmin -setSpaceQuota 1t /user/username 限制空间容量
4、hadoop dfsadmin -saveNamespace 创建检查点,将内存中的文件熊映射保存为一个新的fsimage文件,重置edits文件,该操作仅在安全模式下执行
5、hadoop dfsadmin -safemode get 查看namenode是否处于安全模式
6、hadoop dfsadmin -safemode wait 在脚本中执行某条命令前namenode先退出安全模式
7、hadoop dfsadmin -safemode enter 进入安全模式
8、hadoop dfsadmin -safemode leave 离开安全模式
9、hadoop dfsadmin -report 显示文件系统的统计信息,以及所连接的各个datanode的信息
10、hadoop dfsadmin -metasave 将某些信息存储到hadoop日志目录中的一个文件中,包括正在被复制或删除的块信息,以及已连接的datanode列表
11、hadoop dfsadmin -refreshNodes 更新允许连接到namenode的datanode列表
12、hadoop dfsadmin -upgradeProgress 获取有关hdfs升级的进度信息或强制升级
13、hadoop dfsadmin -finalizeUpgrade 移除datanode和namenode的存储目录上的旧版数据
14、hadoop dfsadmin -setQuota 设置目录中包含的文件和子目录的个数的配额
15、hadoop dfsadmin -clrQuota 清理指定目录的文件和子目录个数的配额
16、hadoop dfsadmin -clrSpaceQuota 清理指定的空间大小配额
17、hadoop dfsadmin -refreshServiceAcl 刷新namenode的服务级授权策略文件
18、hadoop fsck / 检查hdfs中文件的健康状况,该工具会查找那些所有datanode中均缺失的块以及过少或过多复本的块
19、hadoop fsck /user/tom/part-007 -files -blocks -racks files选项显示文件名称,大小,块数量,健康状况;block选项描述文件中各个块的信息,每个块一行;racks选项显示各个块的机架位置和datanode的地址
使Datanode节点datanodename退役     bin/hadoop dfsadmin -decommission datanodename

解决主nemenode重启较慢的方法:(使用 -importCheckpoint选项启动辅助namenode,可将辅助namenode用作新的主namenode)

1、辅助namenode请求主namenode停止使用edits(记录操作日志的文件)文件。暂时将新记录写操作记录到一个新文件中
2、辅助namenode从主namenode获取fsimage(元数据永久检查点文件)和edits文件(采用http get)
3、辅助namenode将fsimage文件载入内存,逐一执行edits文件中的操作,创建新的fsimage文件
4、辅助namenode将新的fsimage文件发送回主namenode(使用http post)
5、主namenode用从辅助namenode接收的fsimage文件替换旧的fsimage文件,用步骤一所产生的edits文件替换旧的edits文件,同时,还更新fstime文件来记录检查点执行的时间

 
均衡器程序:
start-balancer.sh -threshold 参数指定阀值(百分比格式),默认值是10%,任何时刻,集群中都只能运行一个均衡器,均衡器在不同节点之间复制数据是有带宽限制的,默认值是1mb/s

版权声明:本站部分文章内容、图片来源于网友推荐、互联网收集整理而来,仅供大家学习参考,不代表本站立场,如有侵权,请联系站长,我们会第一时间处理!本站原创内容未经允许不得转载,或转载时需注明出处:典名科技资讯门户

相关文章

  • 如何查看linux的8080端口是否被占用
    如何查看linux的8080端口是否被占用

    在linux中,可以利用netstat命令查看8080端口是否被占用,该命令用于显示网络的状态,语法为“netstat -tln | grep 8080”;若返回的结果为空,表示8080端口没有被占用,若返回的结果不为空,表示该端口被占用。...

    2022-05-18 11:11:46
  • linux如何查看有多少个文件
    linux如何查看有多少个文件

    这篇文章主要介绍了linux如何查看有多少个文件的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇linux如何查看有多少个文件文章都会有所收获,下面我们一起来看看吧。在linux中,可用ls命令查看有多少个文件,...

    2022-05-18 11:11:45
  • linux中vim如何不显示行号
    linux中vim如何不显示行号

    这篇文章主要介绍了linux中vim如何不显示行号的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇linux中vim如何不显示行号文章都会有所收获,下面我们一起来看看吧。在linux中,vim可用“:set no...

    2022-05-18 11:11:45
  • linux如何查看有几个用户登录
    linux如何查看有几个用户登录

    本文小编为大家详细介绍“linux如何查看有几个用户登录”,内容详细,步骤清晰,细节处理妥当,希望这篇“linux如何查看有几个用户登录”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。查看方法:1、利用w命令,该命...

    2022-05-18 11:11:44
  • linux中sudo和su有哪些区别
    linux中sudo和su有哪些区别

    本篇内容介绍了“linux中sudo和su有哪些区别”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!区别:1、sudo是以root用户方式执行...

    2022-05-18 11:11:44
  • linux中当前目录如何表示
    linux中当前目录如何表示

    这篇文章主要介绍“linux中当前目录如何表示”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“linux中当前目录如何表示”文章能帮助大家解决问题。在linux中,当前目录使用小数点“.”来表示;li...

    2022-05-18 11:11:44
  • linux中rm删除不释放空间怎么解决
    linux中rm删除不释放空间怎么解决

    这篇文章主要介绍“linux中rm删除不释放空间怎么解决”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“linux中rm删除不释放空间怎么解决”文章能帮助大家解决问题。解决方法:1、利用“lsof |...

    2022-05-18 11:11:43
  • uclinux和linux的区别有哪些
    uclinux和linux的区别有哪些

    这篇文章主要讲解了“uclinux和linux的区别有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“uclinux和linux的区别有哪些”吧!区别:1、uclinux采用存储器的分页管...

    2022-05-18 11:11:43
  • 高防御服务器租用需要注意什么?攻击类型有哪些?
    高防御服务器租用需要注意什么?攻击类型有哪些?

      许多企业在选择服务器的时候,会优先选择高防御的服务器,这种服务器防御能力强,可以保护企业的数据安全。那么高防御服务器租用需要注意什么?攻击类型有哪些?一起听听的回答吧!   一、什么是高防服务器?   高防服务器主要是指独立单个硬防防御...

    2022-05-17 09:40:01
  • 虚拟服务器是什么 虚拟服务器租用价格是多少
    虚拟服务器是什么 虚拟服务器租用价格是多少

      现在很多人都在使用虚拟服务器,相比与实体服务器来说,虚拟服务器的使用费用更低廉。接下来就和大家一起来了解虚拟服务器是什么,虚拟服务器租用价格是多少。  虚拟服务器是什么   虚拟服务器可以说是一种使用于互联网的技术,这种技术是非常的节约...

    2022-05-17 09:40:01
发表评论