第21章 其他文件系统
附录 D. OpenPGP 密钥
18.15.高可用性存储(HAST)

18.15. 高可用性存储(HAST)

高可用性是商业应用的主要要求之一,而高可用性的存储是这种环境中的一个关键组成部分。在 FreeBSD 中,高可用性存储(HAST)框架允许在由 TCP/IP 网络连接的几台物理上分离的机器上透明地存储相同的数据。HAST 可以被理解为基于网络的 RAID1(镜像),并且类似于 GNU/Linux® 平台中使用的 DRBD® 存储系统。与 FreeBSD 的其他高可用性功能(如 CARP )相结合,HAST 使得建立一个高可用性的存储集群成为可能,它可以抵抗硬件故障的发生。
以下是 HAST 的主要特点:
  • 可以用来掩盖本地硬盘上的 I/O 错误。
  • 与文件系统无关,因为它可以与 FreeBSD 支持的任何文件系统一起工作。
  • 高效和快速的重新同步,因为只有在一个节点停机期间被修改的块才会被同步。
  • 可以在已经部署的环境中使用,以增加额外的冗余度。
  • 与 CARP 、 Heartbeat 或其他工具一起,它可以用来建立一个强大而持久的存储系统。
读完本节后,你会了解:
  • 什么是 HAST,它是如何工作的,以及它提供哪些功能。
  • 如何在 FreeBSD 上设置和使用 HAST。
  • 如何整合 CARP 和 devd(8) 来建立一个强大的存储系统。
在阅读本节之前,你应该:
HAST 项目由 FreeBSD 基金会赞助,并得到了 http://www.omc.net/ 和 http://www.transip.nl/ 的支持

18.15.1 HAST操作

HAST 在两台物理机之间提供同步的块级复制:主节点和辅助节点。这两台机器一起被称为一个集群。
由于 HAST 在主-次配置中工作,它只允许集群节点中的一个在任何特定时间处于活动状态。主节点,也叫活动节点,是一个将处理所有 I/O 请求的 HAST 管理的设备。次要节点是自动从主要节点同步的。
HAST 系统的物理组件是主节点上的本地磁盘,以及远程的次要节点上的磁盘。
HAST 在块级上同步运行,使它对文件系统和应用程序透明。HAST 在 /dev/hast/ 中提供了常规的 GEOM 提供者,供其他工具或应用程序使用。使用 HAST 提供的设备和原始磁盘或分区之间没有区别。
每个写入、删除或刷新操作都通过 TCP/IP 发送到本地磁盘和远程磁盘。每个读操作都是从本地磁盘提供的,除非本地磁盘不是最新的或发生 I/O 错误。在这种情况下,读取操作被发送到辅助节点。
HAST 试图提供快速的故障恢复。出于这个原因,在一个节点的故障后减少同步时间是很重要的。为了提供快速的同步,HAST 管理一个磁盘上的 dirty extents bitmap,并且只在常规的同步过程中同步这些bitmap,但初始同步除外。
有许多方法来处理同步问题。HAST 实现了几种复制模式来处理不同的同步方法:
  • memsync :这种模式下,当本地写操作完成,远程节点确认数据到达时,但在实际存储数据之前,报告写操作完成。远程节点上的数据将在发送确认后直接存储。这种模式旨在减少延迟,但仍然提供良好的可靠性。这种模式是默认的。
  • fullsync :当本地写和远程写都完成时,这种模式报告写操作已经完成。这是最安全和最慢的复制模式。
  • async :这种模式在本地写操作完成后报告为完成。这是最快速和最危险的复制模式。它只应该在复制到远方节点时使用,因为其他模式的延迟太高。

18.15.2. HAST配置

HAST框架由几个部分组成:
  • hastd(8) 守护进程,提供数据同步。当这个守护进程被启动时,它将自动加载geom_gate.ko
  • 用户区管理工具,hastctl(8)
  • hast.conf(5) 配置文件。这个文件在启动 hastd 之前必须存在。
如果用户希望在内核中静态地建立 GEOM_GATE 支持,则应在自定义的内核配置文件中加入这一行,然后按照配置 FreeBSD 内核 的说明重建内核:
1
options GEOM_GATE
Copied!
下面的例子描述了如何在主-次操作中配置两个节点,使用 HAST 在两者之间复制数据。这些节点将被称为 hasta ,其 IP 地址为 172.16.0.1hastb ,其IP地址为 172.16.0.2 。两个节点将有一个相同大小的专用硬盘 /dev/ad6 用于 HAST 操作。HAST 池,有时被称为资源或 /dev/hast/ 中的GEOM提供者,将被称为 test
HAST 的配置是使用 /etc/hast.conf 完成的。这个文件在两个节点上应该是相同的。最简单的配置是:
1
resource test {
2
on hasta {
3
local /dev/ad6
4
remote 172.16.0.2
5
}
6
on hastb {
7
local /dev/ad6
8
remote 172.16.0.1
9
}
10
}
Copied!
更多高级配置请参考 hast.conf(5)
提示:
如果在 /etc/hosts 或本地 DNS 中定义的主机是可解析的,也可以在远程语句中使用主机名。
如果配置存在于两个节点上,就可以创建 HAST 池。在两个节点上运行这些命令,将初始元数据放到本地磁盘上并启动 hastd(8):
1
# hastctl create test
2
# service hastd onestart
Copied!
注意:
不可能用现有的文件系统使用 GEOM 提供者,也不可能将现有的存储转换为 HAST 管理的池。这个程序需要在提供者上存储一些元数据,而在现有的提供者上将没有足够的所需空间可用。
一个 HAST 节点的主要次要角色是由管理员或像 Heartbeat 这样的软件使用 hastctl(8) 选择的。
在主节点hasta上发出这个命令:
1
# hastctl role primary test
Copied!
在二级节点 hastb 上运行这个命令:
1
# hastctl role secondary test
Copied!
通过在每个节点上运行 hastctl 来验证结果:
1
# hastctl status test
Copied!
检查输出中的 status 行。如果它显示 degraded ,说明配置文件出了问题。它应该在每个节点上显示 complete ,意味着节点之间的同步已经开始。当 hastctl status 报告说有 0 字节的 dirty范围时,同步就完成了。
下一步是在 GEOM 提供者上创建一个文件系统并挂载它。这必须在主节点上完成。创建文件系统可能需要几分钟时间,这取决于硬盘的大小。这个例子在 /dev/hast/test 上创建了一个 UFS 文件系统:
1
# newfs -U /dev/hast/test
2
# mkdir /hast/test
3
# mount /dev/hast/test /hast/test
Copied!
如果 HAST 框架被正确配置,最后一步是确保HAST在系统启动时自动启动。添加这一行到 /etc/rc.conf 即可:
1
hastd_enable="YES"
Copied!

18.15.2.1. 故障转移配置

这个例子的目标是建立一个强大的存储系统,它可以抵御任何特定节点的故障。如果主节点发生故障,副节点就会被无缝地接管,检查和挂载文件系统,并继续工作,不会丢失任何一点数据。
为了完成这项任务,通用地址冗余协议(CARP)被用来在 IP 层提供自动故障转移。CARP 允许同一网段的多个主机共享一个IP地址。根据“通用地址冗余协议( CARP )”中提供的文档,在集群的两个节点上设置 CARP 。在这个例子中,每个节点将有自己的管理 IP 地址和 172.16.0.254 的共享 IP 地址。集群的主要 HAST 节点必须是主要的 CARP 节点。
在上一节中创建的 HAST 池现在已经准备好被导出到网络上的其他主机。这可以通过 NFS 或 Samba 导出,使用共享 IP 地址 172.16.0.254 来完成。唯一没有解决的问题是在主节点发生故障时的自动故障转移。
在CARP接口开启或关闭时,FreeBSD 操作系统会生成 devd(8) 事件,从而可以观察 CARP 接口的状态变化。CARP 接口上的状态变化表明其中一个节点失败或重新上线了。这些状态变化事件使运行一个脚本成为可能,该脚本将自动处理 HAST 故障切换。
为了捕捉 CARP 接口上的状态变化,在每个节点上的 /etc/devd.conf 中添加这个配置:
1
notify 30 {
2
match "system" "IFNET";
3
match "subsystem" "carp0";
4
match "type" "LINK_UP";
5
action "/usr/local/sbin/carp-hast-switch primary";
6
};
7
8
notify 30 {
9
match "system" "IFNET";
10
match "subsystem" "carp0";
11
match "type" "LINK_DOWN";
12
action "/usr/local/sbin/carp-hast-switch secondary";
13
};
Copied!
注意:
如果系统运行的是FreeBSD 10或更高版本,用 CARP 配置的接口名称替换 carp0
在两个节点上重新启动 devd(8) 以使新配置生效。
1
# service devd restart
Copied!
当指定的接口状态因开启或关闭而改变时,系统会产生一个通知,允许 devd(8) 子系统运行指定的自动故障切换脚本,/usr/local/sbin/carp-hast-switch 。关于这个配置的进一步说明,请参考 devd.conf(5)
下面是一个自动故障转移脚本的例子:
1
#!/bin/sh
2
3
# Original script by Freddie Cash <[email protected]>
4
# Modified by Michael W. Lucas <[email protected]>
5
# and Viktor Petersson <[email protected]>
6
7
# The names of the HAST resources, as listed in /etc/hast.conf
8
resources="test"
9
10
# delay in mounting HAST resource after becoming primary
11
# make your best guess
12
delay=3
13
14
# logging
15
log="local0.debug"
16
name="carp-hast"
17
18
# end of user configurable stuff
19
20
case "$1" in
21
primary)
22
logger -p $log -t $name "Switching to primary provider for ${resources}."
23
sleep ${delay}
24
25
# Wait for any "hastd secondary" processes to stop
26
for disk in ${resources}; do
27
while $( pgrep -lf "hastd: ${disk} \(secondary\)" > /dev/null 2>&1 ); do
28
sleep 1
29
done
30
31
# Switch role for each disk
32
hastctl role primary ${disk}
33
if [ $? -ne 0 ]; then
34
logger -p $log -t $name "Unable to change role to primary for resource ${disk}."
35
exit 1
36
fi
37
done
38
39
# Wait for the /dev/hast/* devices to appear
40
for disk in ${resources}; do
41
for I in $( jot 60 ); do
42
[ -c "/dev/hast/${disk}" ] && break
43
sleep 0.5
44
done
45
46
if [ ! -c "/dev/hast/${disk}" ]; then
47
logger -p $log -t $name "GEOM provider /dev/hast/${disk} did not appear."
48
exit 1
49
fi
50
done
51
52
logger -p $log -t $name "Role for HAST resources ${resources} switched to primary."
53
54
logger -p $log -t $name "Mounting disks."
55
for disk in ${resources}; do
56
mkdir -p /hast/${disk}
57
fsck -p -y -t ufs /dev/hast/${disk}
58
mount /dev/hast/${disk} /hast/${disk}
59
done
60
61
;;
62
63
secondary)
64
logger -p $log -t $name "Switching to secondary provider for ${resources}."
65
66
# Switch roles for the HAST resources
67
for disk in ${resources}; do
68
if ! mount | grep -q "^/dev/hast/${disk} on "
69
then
70
else
71
umount -f /hast/${disk}
72
fi
73
sleep $delay
74
hastctl role secondary ${disk} 2>&1
75
if [ $? -ne 0 ]; then
76
logger -p $log -t $name "Unable to switch role to secondary for resource ${disk}."
77
exit 1
78
fi
79
logger -p $log -t $name "Role switched to secondary for resource ${disk}."
80
done
81
;;
82
esac
Copied!
简而言之,当一个节点成为主节点时,脚本会采取这些行动:
  • 将另一个节点上的 HAST 池提升为主池。
  • 检查 HAST 池下的文件系统。
  • 挂载该池。
当一个节点成为次级节点时:
  • 解除HAST池的挂载。
  • 将HAST池降级为次级。
警告:
这只是一个作为概念证明的脚本例子。它并不能处理所有可能的情况,可以以任何方式进行扩展或改变,例如,启动或停止所需的服务。
提示:
在这个例子中,使用了一个基础的 UFS 文件系统。为了减少恢复所需的时间,可以使用支持日志的 UFS 或 ZFS 文件系统来代替。
更详细的信息和更多的例子可以在以下网站找到: http://wiki.FreeBSD.org/HAST.

18.15.3. 故障排除

HAST 的工作一般应该没有问题。然而,就像任何其他软件产品一样,可能有的时候它不能像预期的那样工作。问题的来源可能是不同的,但经验法则是确保集群的节点之间的时间是同步的。
当排除 HAST 的故障时,hastd(8) 的调试级别应该通过 hastd -d 来增加。这个参数可以指定多次以进一步提高调试级别。也可以考虑使用 -F,它在前台启动 hastd

18.15.3.1. 从“大脑分裂”中恢复过来

当集群的节点无法相互通信,而两个节点都被配置为主节点时,就会出现分脑。这是一个危险的情况,因为它允许两个节点对数据进行不兼容的修改。这个问题必须由系统管理员手动纠正。
管理员必须决定哪个节点有更重要的变化,或者手动执行合并。然后,让 HAST 对有破损数据的节点执行完全同步。要做到这一点,在需要重新同步的节点上发出这些命令:
1
# hastctl role init test
2
# hastctl create test
3
# hastctl role secondary test
Copied!