在上篇blog中提到了HDFS的功能扩展点:Service plugin,它存在于NameNode和DataNode中。HDFS赋予它们可以操作这两个大对象的能力,这也完全提供我们在HDFS上进行开发的机会。这些开发可以是对HDFS现有功能的补充与完善,也可以是基于HDFS之上的扩展。但server plugin可以知道当前用户正在操作哪些文件么?不知道
现在我们有这样的需求:需要HDFS提供file notification - 也就是订阅方可以在HDFS上订阅监控某个文件或目录,如果文件或目录有更改,订阅方可以及时得到来自HDFS的通知。类似的功能需求在大部分应用系统都会支持,所以我们也会试着来完善HDFS的这个功能。
所有与文件相关的操作都是来自client,这些操作通过NameNode提供的RPC接口进行数据处理。我们最先应该想到的是在哪里可以获得所有与client交互的请求呢?client端显然不现实:1. 它是临时的,不能长期提供服务; 2. 某个文件可被多个client操作,不能完全拦截用户操作。除client之外,NameNode肯定是可以完成需求的,但怎样修改是改动少,最稳妥的方式呢?我想到了NameNode端的RPC server,它持有NameNode instance,然后在每次RPC请求到达时,根据这个instance做方法调用,在这里我们就可以偷梁换柱,用我们想要的代理层来替代真实的NameNode,既可以做正常的方法调用转发,也可以实现我们的需求。
在RPC server与NameNode之间加入这样一层“锲子”,它静态代理着所有对NameNode的请求(当然也有从DataNode来的请求,不过我们不处理它,因为我们想要的只要与HDFS文件或目录相关的操作),然后在背后把请求的参数拦截下来,做异步处理,尽量不要影响NameNode的处理效率。
在NameNode中加入这个Proxy,RPC server就只会认为它是NameNode
//NameNode.java
NameNodeProxy nnProxy = new NameNodeProxy(this);
this.server = RPC.getServer(NamenodeProtocols.class, nnProxy,
socAddr.getHostName(), socAddr.getPort(),
handlerCount, false, conf,
namesystem.getDelegationTokenSecretManager());
对于用户的这些文件操作请求,我们可以对它这样做。把请求代理到真正的NameNode,拦截请求参数,与订阅信息比对,如果匹配就通知订阅方
//NameNodeProxy.java
public void create(String src,
FsPermission masked,
String clientName,
EnumSetWritable<CreateFlag> flag,
boolean createParent,
short replication,
long blockSize) throws IOException {
nameNode.create(src, masked, clientName, flag, createParent, replication, blockSize);
putRequestToQueue(src, "create");
}
private List<Operation> operationQueue;
private void putRequestToQueue(String src, String cmd) {
Operation op = new Operation(src, cmd);
operationQueue.add(op);
}
这层代理同时也是一个契机,为我们分析用户操作打开一扇窗。你想分析下当前HDFS中哪些目录或哪些文件是热点文件/目录,那么你知道怎么做的。
就简单说到这吧,上述的HDFS版本是0.21,用的代码是伪代码。大家有任何想法,欢迎提出,谢谢!
- 大小: 50.4 KB
分享到:
相关推荐
第1章 HDFS HA及解决方案 1.1 HDFS系统架构 1.2 HA定义 1.3 HDFS HA原因分析及应对措施 1.3.1 可靠性 1.3.2 可维护性 1.4 现有HDFS HA解决方案 1.4.1 Hadoop的元数据备份方案 1.4.2 Hadoop的SecondaryNameNode方案 ...
其中一个问题是报but there is no HDFS_NAMENODE_USER defined. Aborting operation. Starting datanodes 直接解决 在Hadoop安装目录下找到sbin文件夹 在里面修改四个文件 1、对于start-dfs.sh和stop-dfs.sh文件,...
详细讲解了Hdfs中NameNode节点的配置,备份和恢复,以及secondNamenode的配置
NULL 博文链接:https://bnmnba.iteye.com/blog/2322332
安装gem install webhdfs用法WebHDFS :: Client 对于客户端对象接口: require 'webhdfs'client = WebHDFS::Client.new(hostname, port)# or with pseudo username authenticationclient = WebHDFS::Client.new...
False ) hdfs_namenode_host - HDFS NameNode 的主机名(默认: localhost ) hdfs_namenode_port - HDFS NameNode 的端口(默认: 8020 ) hdfs_disks - HDFS DataNode 上可用的磁盘列表(默认值: [] ) hdfs_...
该文档来自2013中国大数据技术大会上,Member of the Project Management Committee at Apache Hadoop,Nicholas关于《HDFS: What is New in Hadoop 2》主题的演讲。
利用Zookeeper对HDFS中Namenode单点失败的改进方法,鲁阳,郑岩,在大数据时代分布式处理的已经成为潮流,而Hadoop是一种应用十分广泛的分布式处理框架。但在Hadoop的使用中,Namenode的单点失败问题一�
一个HDFS文件或目录比如/parent/child可以表示成hdfs://namenode:namenodeport/parent/child,或者更简单的/parent/child(假设你配置文件中的默认值是namenode:namenodeport)。大多数FS Shell命令的行为和对应的...
(1)第一次启动 NameNode 格式化后,创建 fsimage 和 edits 文件 (2)客户端对元数据进行增删改的请求 (3)NameNode 记录操作
在12月1日“Hadoop生态系统”主题分论坛,华为电信与核心网产品线BigData团队的架构师Uma Maheshwara Rao G,负责HDFS项目整体技术开发。对电信领域有深刻理解,从2010年起从事HDFS开发,是HDFS的核心设计人员。他的...
大家都知道HDFS的架构由NameNode,SecondaryNameNode和DataNodes组成,其源码类图如下图所示:正如上图所示,NameNode和DataNode继承了很多的protocol用于彼此间的通信,其实nameNode还实现了...实现了ClientProtocol...
一个HDFS文件或目录比如/parent/child可以表示成 hdfs://namenode:namenodeport/parent/child,或者更简单的/parent/child(假设你配置文件中的 默认值是namenode:namenodeport)。大多数FS Shell命令的行为和对应的...
本书专注于Hadoop 分布式文件系统(HDFS)的主流HA 解决方案,内容包括:HDFS 元数据解析、Hadoop 元数据备份方案、Hadoop Backup Node 方案、AvatarNode 解决方案以及最新的HA 解决方案Cloudrea HA Name Node 等。...
NameNode职责
最新的hdfs namenode主备安装文档,详细,命令只需要copy执行即可