HDFS 读流程分为 Client 、 Namenode 和 Datanode 三端的子流程。
Client 端
先看一段简单的客户端读文件代码:
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://ip:port"), conf);
FSDataInputStream dataIn = null;
try {
dataIn = fs.open(new Path("/test/file.data"));
int dataBytes = dataIn.read(); // 一种读法
IOUtils.copyBytes(dataIn, System.out, 1024, false); // 另一种读法
} finally {
IOUtils.closeStream(dataIn);
}
与 POSIX 文件系统类似,HDFS 文件的读取流程也是 open -> read -> close 。
open 文件
其中 open 的输入是文件路径,输出是 FSDataInputStream 。
FSDataInputStream
FSDataInputStream 继承自 DFSInputStream ,主要维护了读相关的信息,如客户端配置、文件块和缓存策略等。
LocatedBlocks
LocatedBlocks 主要维护了待读文件所对应的所有数据块 LocatedBlock ,包含数据块状态和数据副本所在的 DN 等。通过 RPC 调用从 Namenode 查询而来。
namenode.getBlockLocations(src,start,length,client);
read 文件
read 的输入有三个:(final byte buf[], int off, int len)。
主要分为如下几步实现:
定位数据块
由于分级被分割为一组数据块,所以要通过输入的偏移找到对应的数据块,其核心是一个二分查找。
Collections.binarySearch(blocks,key,comp);
findBlock:154, LocatedBlocks (org.apache.hadoop.hdfs.protocol)
fetchBlockAt:562, DFSInputStream (org.apache.hadoop.hdfs)
getBlockAt:546, DFSInputStream (org.apache.hadoop.hdfs)
blockSeekTo:681, DFSInputStream (org.apache.hadoop.hdfs)
选择 DN
对于多副本的情况,从 Namenode 查询到的 Block 所有副本所在的 DN 是按照一定顺序排列的(默认按照客户端的网络拓扑距离排序),此时客户端选择第一个 DN 即可。在读取数据包时,如果发生传输异常,则将当前的 DN 通过 addToLocalDeadNodes 方法记为死节点,然后重试选取下一个 DN。这个重试逻辑是在 readWithStrategy 方法中实现的。
<init>:1792, DFSInputStream$DNAddrPair (org.apache.hadoop.hdfs)
getBestNodeDNAddrPair:1141, DFSInputStream (org.apache.hadoop.hdfs)
chooseDataNode:1045, DFSInputStream (org.apache.hadoop.hdfs)
chooseDataNode:1028, DFSInputStream (org.apache.hadoop.hdfs)
blockSeekTo:692, DFSInputStream (org.apache.hadoop.hdfs)
readWithStrategy:900, DFSInputStream (org.apache.hadoop.hdfs)
数据块读取器 BlockReader
BlockReader 中包含建立与 DN 的网络链接和数据包接收器。
创建网络链接:
newConnectedPeer:3112, DFSClient (org.apache.hadoop.hdfs)
nextTcpPeer:824, BlockReaderFactory (org.apache.hadoop.hdfs.client.impl)
getRemoteBlockReaderFromTcp:749, BlockReaderFactory (org.apache.hadoop.hdfs.client.impl)
build:382, BlockReaderFactory (org.apache.hadoop.hdfs.client.impl)
getBlockReader:770, DFSInputStream (org.apache.hadoop.hdfs)
数据包接收器中维护了一系列的数据包处理方法,如数据包接受,包头解析分片等。
<init>:78, PacketReceiver (org.apache.hadoop.hdfs.protocol.datatransfer)
<init>:103, BlockReaderRemote (org.apache.hadoop.hdfs.client.impl)
newBlockReader:439, BlockReaderRemote (org.apache.hadoop.hdfs.client.impl)
getRemoteBlockReader:865, BlockReaderFactory (org.apache.hadoop.hdfs.client.impl)
getRemoteBlockReaderFromTcp:752, BlockReaderFactory (org.apache.hadoop.hdfs.client.impl)
build:382, BlockReaderFactory (org.apache.hadoop.hdfs.client.impl)
getBlockReader:770, DFSInputStream (org.apache.hadoop.hdfs)
读取和校验数据
由于数据包包含了若干数据 chunk 和所对应的 checksum,因此读取和校验操作是前后依次执行的。
具体的读取是在 PacketReceiver 的 doRead 方法中完成的,先读取数据包长度,然后取数据包全部数据,最后通过 reslicePacket 方法将数据包数据分片为 Header、Data 和 Checksum。
read:161, SocketInputStream (org.apache.hadoop.net)
readChannelFully:258, PacketReceiver (org.apache.hadoop.hdfs.protocol.datatransfer)
doReadFully:209, PacketReceiver (org.apache.hadoop.hdfs.protocol.datatransfer)
doRead:171, PacketReceiver (org.apache.hadoop.hdfs.protocol.datatransfer)
receiveNextPacket:102, PacketReceiver (org.apache.hadoop.hdfs.protocol.datatransfer)
readNextPacket:189, BlockReaderRemote (org.apache.hadoop.hdfs.client.impl)
read:148, BlockReaderRemote (org.apache.hadoop.hdfs.client.impl)
readFromBlock:120, ByteArrayStrategy (org.apache.hadoop.hdfs)
readBuffer:842, DFSInputStream (org.apache.hadoop.hdfs)
readWithStrategy:909, DFSInputStream (org.apache.hadoop.hdfs)
read:1016, DFSInputStream (org.apache.hadoop.hdfs)
read:100, DataInputStream (java.io)
一个数据包的结构如下,其中DATA 段为真正数据内容,默认最大长度65536,也可以由 io.file.buffer.size 指定更大长度:
PLEN HLEN HEADER CHECKSUMS DATA
32-bit 16-bit <protobuf> <variable length>
一个数据包读取完成后,通过 checksum.verifyChunkedSums 方法,对 Data 和 Checksum 逐 chunk 校验,chunk 默认大小为512B。
verifyChunked:391, DataChecksum (org.apache.hadoop.util)
verifyChunkedSums:383, DataChecksum (org.apache.hadoop.util)
readNextPacket:218, BlockReaderRemote (org.apache.hadoop.hdfs.client.impl)
read:148, BlockReaderRemote (org.apache.hadoop.hdfs.client.impl)
readFromBlock:120, ByteArrayStrategy (org.apache.hadoop.hdfs)
readBuffer:842, DFSInputStream (org.apache.hadoop.hdfs)
readWithStrategy:909, DFSInputStream (org.apache.hadoop.hdfs)
read:1016, DFSInputStream (org.apache.hadoop.hdfs)
read:100, DataInputStream (java.io)
对于读取数据时发生校验错误,将对应的节点和数据块记为坏块后,通过 reportCheckSumFailure 方法向 Namenode 汇报。
对于读取数据时发生IO错误,则会尝试重试当前 DN 的链路读取,如果还是错误,则选取下一 DN。
在接受完所有的数据内容后,最后会读取一个空尾包,代表读取操作正式结束。这个空尾包通过 readTrailingEmptyPacket 方法读取,里面没有数据内容,只有一个代表结尾的标记,其作用也就是进一步的确认读取完成。如果没有结尾标记,则代表读取预期与数据传输不一致,将抛出IO异常。
close 文件
close 实际上就是把之前 open 返回的 FSDataInputStream 对象关闭掉,此处不多说了。
Namenode 端
查询文件元数据
在整个读流程中,NN 端负责提供指定文件的所有块信息。 在 getBlockLocations 方法中,先找到指定文件的inode,然后调用 inode.getBlocks 获取。
inode.getBlocks
createLocatedBlocks:2095, BlockManager (org.apache.hadoop.hdfs.server.blockmanagement)
getBlockLocations:178, FSDirStatAndListingOp (org.apache.hadoop.hdfs.server.namenode)
getBlockLocations:2123, FSNamesystem (org.apache.hadoop.hdfs.server.namenode)
getBlockLocations:766, NameNodeRpcServer (org.apache.hadoop.hdfs.server.namenode)
拿到所有的数据块信息后,对于多副本的情况,还要做一个排序,按照网络拓扑的距离,离客户端近的排前面,远的排后面。
sortByDistance:979, NetworkTopology (org.apache.hadoop.net)
sortByDistance:936, NetworkTopology (org.apache.hadoop.net)
sortLocatedBlock:547, DatanodeManager (org.apache.hadoop.hdfs.server.blockmanagement)
sortLocatedBlocks:466, DatanodeManager (org.apache.hadoop.hdfs.server.blockmanagement)
sortLocatedBlocks:2222, FSNamesystem (org.apache.hadoop.hdfs.server.namenode)
getBlockLocations:2205, FSNamesystem (org.apache.hadoop.hdfs.server.namenode)
getBlockLocations:766, NameNodeRpcServer (org.apache.hadoop.hdfs.server.namenode)
Datanode 端
建立传输链路
作为响应客户端的读取请求的内应,DataXceiver 负责与客户端建立网络传输链路。DataXceiver 对象构造后,会作为一个后台线程执行,负责接收客户端读请求,构造对应的数据块读取处理对象BlockSender。
<init>:149, DataXceiver (org.apache.hadoop.hdfs.server.datanode)
create:139, DataXceiver (org.apache.hadoop.hdfs.server.datanode)
run:220, DataXceiverServer (org.apache.hadoop.hdfs.server.datanode)
run:748, Thread (java.lang)
读取和发送数据
在读取本地文件流程中,涉及如下几个主要数据结构和子流程:
数据块发送器 BlockSender
BlockSender 负责提供数据块的读取、校验和发送全套服务。DataXceiver 线程启动后即开始接收来自客户端的读请求,读请求中包含了BlockSender 的主要构造参数,如block、offset 和length 等。
在BlockSender 的构造过程中完成了一系列的流程,主要包含输入输出流的构造、数据块文件和checksum 文件的检查等。
正式的发送数据包在 doSendBlock 方法中完成,如下:
while (endOffset > offset && !Thread.currentThread().isInterrupted)) {
manageOsCache();
long len = sendPacket(pktBuf, maxChunksPerPacket, streamForSendChunks,
transferTo, throttler);
offset += len;
totalRead += len + (numberOfChunks(len) * checksumSize);
seqno++;
}
上面在客户端读流程中也提到了,一个 packet 分为header、checksum 和data 三部分。在DN 端分为两批发送,第一批是header 和checksum,第二批是data。
// 第一批次发送header 和所有checksum
sockOut.write(buf, headerOff, dataOff - headerOff);
// 第二批次发送所有data
fileIoProvider.transferToSocketFully(
ris.getVolumeRef().getVolume(), sockOut, fileCh,
blockInPosition, dataLen, waitTime, transferTime);
header 记录packet 长度和data 长度等简单信息,这些长度都是通过计算得来,比较简单。
checksum 是通过文件的方式与数据块文件结对记录到本地磁盘的,因此需要按需读取。
readChecksumFully:90, ReplicaInputStreams (org.apache.hadoop.hdfs.server.datanode.fsdataset)
readChecksum:656, BlockSender (org.apache.hadoop.hdfs.server.datanode)
sendPacket:565, BlockSender (org.apache.hadoop.hdfs.server.datanode)
doSendBlock:781, BlockSender (org.apache.hadoop.hdfs.server.datanode)
data 部分采用零拷贝的方式发送,不需要像checksum 那样显示的读取,零拷贝的封装在FileChannelImpl 中实现。
transferToDirectlyInternal:428, FileChannelImpl (sun.nio.ch)
transferToDirectly:493, FileChannelImpl (sun.nio.ch)
transferTo:605, FileChannelImpl (sun.nio.ch)
transferToFully:223, SocketOutputStream (org.apache.hadoop.net)
transferToSocketFully:278, FileIoProvider (org.apache.hadoop.hdfs.server.datanode)
sendPacket:596, BlockSender (org.apache.hadoop.hdfs.server.datanode)
doSendBlock:781, BlockSender (org.apache.hadoop.hdfs.server.datanode)
在当前数据块的所有数据包读取并发送完成后,还要额外发送一个空尾包,确认发送结束。
sendPacket(pktBuf, maxChunksPerPacket, streamForSendChunks,
transferTo, throttler);
out.flush();
至此,HDFS 的读流程梗概梳理完成。