企业备份系统建设规划,这几个关键问题如何解决?

对于每一个企业来讲,数据备份都是必不可少的一项关键性工作,它直接决定着企业能够应对什么样的数据威胁以及相应解决方案的灵活度和有效性。但是在 IT 飞速发展的今天,每一个企业的应用系统在不断增加,数据类型在不断的多样化,数据的量级也在不断的扩展。在这种形势下,如何能把备份系统规划的科学合理并且高效化是作为 IT 建设者必须考虑的问题。本文通过大量的调研分析总结抽象出备份系统规划时必须考虑的几个关键性问题,并针对每一个问题进行分析和论述,提出解决思路。希望能给企业进行备份系统建设、改造或者升级的项目带来一些启示和帮助。

1. 如何确定备份对象及备份策略

近些年来,企业的数据逐渐呈现多元化格局,从数据的模型层面可以分为结构化数据、半结构化数据、非结构化数据。从企业 IT 功能层面又可以将常见数据列为如下几类:

  1. 1、关系型数据库中保存的二维表数据。

  2. 2、非关系型数据库中的文档、 JSON 、键值等类型数据。

  3. 3、以文字方式记录的文本、 PDF 、 XML 等文件形式的数据。

  4. 4、以二进制方式记录形成的图片、网页等数据。

  5. 5、以视频流方式记录形成的媒体类数据。

作为企业来讲,确定备份哪些数据对象,需要从数据重要性、数据量、数据特点等若干方面去评估。从企业业务角度评估的话,那么数据库保存的数据一定是最重要的,尤其是关系型数据库里面的二维表数据。其次需要根据行业特点以及具体的业务系统重要性来评估非结构化数据的重要性。比如对于金融行业来讲,记录业务过程的一些影像类数据可能在业务审核过程中经常被调出查阅,这些数据虽然没有结构化数据那么重要但是也是业务环节当中必不可少的元素,其重要性相对业务视频类以及安防类视频数据会高很多。但是如果是媒体行业的话,那么视频类数据的重要性恰恰是支撑其业务的核心数据,其重要程度不言而喻。那么如何来决定哪些数据需要备份,以什么样的策略备份?

首先,我们需要确定数据的重要性程度。本文通过结果导向的思路从以下维度来分析企业数据的重要性,最终决定哪些数据需要备份,哪些数据可以不备份,哪些数据需要根据企业的实际投资战略情况来决定。首先我们假定一个结果,那就是某个应用系统的某类型数据由于硬件故障或者其他原因导致数据丢失掉了。那么就看企业对该结果的容忍程度,假设不能容忍,那么就没什么好商量的了,肯定要做备份。接下来,最重要的事情是我们如何定义数据备份的策略,包括备份的频度、备份的模式、归档的档期等等一系列备份作业元素。这部分内容需要考虑到数据本身的量级、数据的具体类型、极端条件下对数据恢复时间及数据丢失量的容忍程度、数据备份系统以及备份介质本身的性能特性、业务发展的规模及趋势判断等等。本文从以下几个原则来进行评估:

以上是对备份对象的确定以及如何把握具体的备份策略的分析和描述,具体细节及关键方法在接下来的章节会有详细的剖析和介绍。


2. 如何选择备份架构的问题

2.1 备份系统涉及到的关键对象

所谓备份系统中的一些关键对象包括:备份软件、备份介质、备份管理服务器、备份作业服务器、备份路径等。这些关键元素共同组成了一个完成的备份系统。

  1.  备份软件:常用的备份软件包括 IBM TSM 、 EMC Networker 、 SYMANTIC NBU 等。

  2.  备份介质:常用的备份介质包括带库、 EMC DATADomain 、常规存储等。

  3.  备份管理服务器:对备份作业进行配置调度并且保存备份元数据的集中管理节点。

  4.  备份作业服务器:具体执行备份作业的备份服务器。

  5.  备份路径:每一个备份作业从客户端采集数据到备份介质的整个路径。

2.2 基于容灾功能的备份架构

一般的企业可能只需要进行本地备份即可,但是对于某些行业尤其是金融行业,备份要求比较高,需要采用主数据中心和备数据中心联动的高可用备份架构。

整体架构从上到下分为三层:备份客户端层、备份控制层以及数据存储层。中间通过网络(以太网络或者是光纤网络)相连接。红色线表示控制信息流向,蓝色线表示备份过程中的数据流向。

2.3 备份架构高可用性分析

整个备份系统的高可用性是由每一个部分服务的高可用配置来保障的,主要包括备份控制层、备份存储介质层以及跨数据中心级别的高可用架构配置。下面我们分别来做剖析:


3. 如何解决非结构化数据备份的问题

3.1 非结构化数据备份面临的困境

对于存储在传统 NAS 文件系统上的文件类数据,如果用通用的备份方法只能通过文件复制的方式来实现其全量和增量备份。但是随着日积月累的非结构化数据增长,这类数据可能会从 TB 级别发展到 10TB 甚至 PB 级别。这类数据存储组织的方式是文件系统的树目录形式,随着数据的增加,其目录的深度和规模也会呈现剧增趋势。备份软件在扫描文件目录的时候会变得非常非常慢,最终导致备份作业慢到超过备份窗口的程度。

3.2 业务管理层面的解决方案

如果从业务管理层面来解决该问题的话,那么就是要让备份作业在一定时间段内保持在合理的数据量范围之内,也就是说要形成合理的多级数据缓存,根据数据使用频度建立多级转储以及归档体系。保障使用频度高的数据在日常备份作业范围内,合理归档使用频率非常低的历史数据。拿金融行业的票据、信贷类系统来说,我们可以将合理业务周期内的非结构化数据存在在一级缓存当中,保障业务复核阶段的数据读取;将业务周期外的非结构化数据转储到二级 NAS 平台上,保障近期内可能使用到的业务场景;将较长周期之前的数据定义为离线数据,归档到归档存储设备当中。备份仅仅涉及到归档之前的数据。这样既可以保障数据存取的性能,又能保障备份作业的长期稳定性,最终保障备份系统整体的安全稳定。

3.3 技术管理层面的解决方案

通过 3.1 章节对问题的原因分析,我们知道导致备份无法进行的原因在于备份软件对于庞大文件系统目录的扫描时间过长。那么顺着这个思路,如果我们在备份的时候能避免去扫描整个文件系统目录,而是通过别的方式来完成备份,就可以解决这个问题。通过调查研究我们发现目有两种方法可以实现:

1) 传统 NAS 的快照方式。对于传统的 NAS 存储来讲,快照是非常普遍的功能,通过 NAS 本身的快照复制,我们可以不用扫描文件系统目录,仅仅基于某一个时刻点的快照,进行卷级别的复制实现全量备份;通过块儿级别的对比实现增量备份,因为 NAS 设备底层还是基于块儿设备实现的。当然这种技术需要对存储本身的快照功能有非常强的依赖性。

2) 分布式 NAS 存储的日志记录方式。某些基于分布式技术实现的 NAS 存储可以对外提供日志操作的接口,也就是说对文件数据的增加和更新会记录到存储本身的底层日志当中,那么我们仅仅需要调用日志比对的接口就可以快速找到更新的目录和文件,仅仅需要扫描更新的部分做增量的复制来完成备份。

以上的两种技术方案需要我们在做备份规划之前的选型阶段对不同的备份软件及存储介质等进行深度调研和分析,尽可能科学合理组合实现以上解决方案。


江苏国骏信息科技有限公司 苏ICP备17037372号-2 电话:400-6776-989; 0516-83887908 邮箱:manager@jsgjxx.com