“企业级存储,构建新一代企业级数据中心” 演讲嘉宾:IBM系统与科技事业部存储平台总经理 Andrew Monshaw先生 侯淼:尊敬的各位来宾,尊敬的各位客户,尊敬的各位IBM合作伙伴的朋友们大家早上好。首先我谨代表IBM公司,代表IBM系统存储平台,欢迎各位参加2008 IBM企业信息架构论坛。今天这个论坛我们将以信息为中心,将以系统存储技术为主线,向各位介绍信息构架新的理念以及我们在企业数据中心所提倡的存储构架。在大会开始之前,我先介绍一下今天重要的演讲来宾。 首先,我要介绍来自IBM美国总公司的IBM全球系统存储总经理Andrew Monshaw先生;IBM系统与科技事业部大中华区总经理全球IBM副总裁姜锡岫先生;IBM全球存储专家、系统与科技事业部大中华区存储平台客户方案支持总监Guenter Lange先生;在这几年,以信息科技主线,以存储技术为主题的很多活动都在展开,可以说存储行业也是现在整个IT非常热的行业,在稍候我会给大家放映一个短片,介绍IBM系统存储过去几年的历史、今天以及未来。最后,我再次代表IBM事业部存储平台欢迎今天参加论坛,同时预祝各位渡过愉快的时光。 主持人:非常感谢侯淼先生精彩的致词。 (现场放映短片) 主持人:有请IBM大中华区副总裁及系统与科技事业部总经理姜锡岫先生致开幕辞。有请姜锡岫先生。 姜锡岫:各位尊敬的客户、媒体朋友、合作伙伴早上好。 首先,再次代表IBM很感谢各位来宾今天早上和一整天与我们很好的讨论。刚才有两个短片,介绍IBM对于存储市场的重视,有关心IBM从今年年初开始到现在的朋友都知道,IBM举办了很多不同的活动,我们想推广的理念就是我们为下一代数据中心基础架构对未来的IT发展非常非常重要。我们希望通过不同的演讲,我们在今年年初在新一代New Enterprise Data Center的介绍以及今天以我们存储为中心的会议,看到未来5-10年在IT行业里面有很大的改变,这个改变让我们所有在座各位的合作伙伴以及同业有一个很大的挑战。 对于成本和服务方面面临着很大的挑战,我们怎么可以通过网络与系统方面有不同成本上升的同时,我们过去可能非常重视搭建IT基础架构,我们怎么把一个项目,怎么把一个行业关键应用运用起来的同时,如何保持业务的连续性与安全性。 各种企业对法规遵守越来越重视。国家越来越重视节能耗电,数据中心现在放很多不同的服务器存储之后,我们怎么达到国家的要求。我相信现在未来5-10年里面我们怎么面对这个挑战是非常重要的。 作为IBM来说,我们认为企业数据处理有一个新的理念,我们介绍了新的企业级数据中心,我们在服务器方面,在年初公告了我们的主机z10,4月份我们公告了UNIX操作系统里面新的系统Power6,今天我们希望能够跟在座的各位、以及媒体朋友合作伙伴以及专业客户分享一下我们所谓数据存储产品线上能够带来下一代新的方向和企业的方向,我们认为这种新的趋势对我们来说非常非常重要,我们有非常好的产品线,今天我们邀请到全国最好的专家来到中国,共同跟我们的客户做一个非常好的研讨。同时,我们怎么能够快速提供更好的服务给客户,我们的业务发展一定与IT发展绑在一块儿,通过IT能力提升我们的业务。这是我们下一代未来的企业数据中心。 对于IBM来说,我们从来没有放弃过最重要的事情,就是我们的技术,就是我们对硬件研发方面,我们有不同的硬件和软件技术,我们不断提升在这个线路上对这个行业以及对信息产业的支持,我们有很多不同的产品线,我们有不同的服务器以及存储产品,今天我们集中讨论我们的存储产品。再往上走有不同的应用,因为我们有核心的技术,除了我们的产品以外,最重要的是我们有核心的应用。我们认为在中国未来5-10年新的企业级数据中心会带来很新的进步,这是IBM以及整个同业认为的我们会创造新的机会。 回到存储方面,刚刚上来大家看到,IBM非常重视存储产品线,我们从50多年前开拓第一台我们所谓的磁盘到今天为止DS8000,我们在中国地区拿到很多的认同、合作伙伴的支持以及媒体朋友大力帮助下,我们有很好的业绩。所以你看到在过去50年,我们不断研发,不断创新我们的技术,所以到今天我们非常感谢在全球来说存储份额保持第一名,我们有超过50亿的销售额,全球有170多个国家都在使用我们的存储,1000多家业务合作伙伴推广我们的产品,全球有5000多个存储专业员工负责推广存储技术给客户。全世界不同研究所对存储客的研发,不管是硬件还是软件。在业界来说,不管在整体存储也好,还是在我们的带库也好都保持份额第一名。 今天在这里,可以说在中国地区我们会不断投入技术力量支持客户发展存储产业,希望今天有一个很好的一天,能够跟合作伙伴以及我们专家客户以及媒体朋友有一个很好的沟通。 回到大中华地区和中国地区,我们很感谢客户的支持,在存储方面来说,我们除了是第一名供应商以外,大中华地区连续四年保持市场份额第一名,我们不断发展我们的产品线,不断提升研发能力以及提供更好的产品给中国市场同时,我们再次代表IBM团队感谢客户给我们第一名的位置,谢谢大家。 除了这个份额以外,希望今天我们可以给大家一个非常重要的信息,我们为下一代新的企业级数据中心,除了服务器存储,IBM肯定是全力提供最好的产品、最好的服务与最好的应用给我们的客户,我希望IBM为未来新的信息产业做更多的贡献。从整个系统与科技事业部来说,我们有一个很重量级的贵宾来到这里,就是IBM系统与科技事业部存储平台总经理 Andrew Monshaw先生。我们为下一代的新的存储发展方向做一个启动。 Andrew Monshaw:非常感谢,各位早上好。非常感谢大家光临今天的活动。在下面几个小时里面,我们会有一个非常重要的探讨是围绕着信息基础架构的,这是针对新的企业级数据中心的话题。 我们发布了新的企业级数据中心(在今年年初发布),主要是面向像你们这样的客户,包括大的和小的客户,如何去应对你们目前所面临的问题,我可以从结果来说,我们在座的一些客户、一些业务伙伴,这些问题对你们来说非常重要。所以我会在下面30、40分钟里面给你们讲解一下IBM的愿景,关于企业级数据中心以及支撑的信息基础架构,以及我们拥有的能力,还有一些理念,你们如何能够启动它。 我的同事会跟你们详细地介绍关于产品、服务和解决方案,我们还有其他的能力——让它变为一种现实的能力。非常重要的一点是现在有成百上千的厂商都准备参与到信息基础架构的空间,这里面有非常重要的一点,就是谁能够使得整体完整的理念汇总起来,以及谁来进行实施?谁能够帮助你们从目前的状态发展到今后的情况,基于行业来发展。跟你们来分享一下,也并不只是一开始跟你们一起的变革在我们所看到所面临的。首先有这样一些对数据中心的压力,能够有这样一些运行的动力,包括成本、复杂性还有可扩展性、安全性、可靠性。 有很多问题是数据中心和IT专业人员所面对的,我们经常面对企业业务的一些问题,但是数据增长、发展的速度也是前所未有的。这样一些部署和应用也是前所未有的,以及并购所带来的复杂性也是前所未有的。在此之上数据中心还会进一步给它更大的压力,因为业务部门要求IT部门给他们提供更多的价值。我几年前见到过一家大的银行,他们想更多的保存有关信用卡交易的信息,提高他们业务的价值,我见到它中国的一些CIO还有业务的开发,还有来自于一些电信运营商的,要怎么搞清楚如何提高每天发布的上亿的短信息的价值,IT基础设施目前能不能满足目前业务运行的要求,是否能够给它提供业务的价值。 Andrew Monshaw:我们一系列的产品和解决方案都针对这些信息新的应用,不管像Google、Yahoo这些公司如何构建自己的基础设施,以及你们如何充分利用这样的优势,一整套这样托管的服务也正来自于传统的参与者和一些非传统的参与者,这些能力你们是想充分掌握的,什么是虚拟化呢?虚拟化是关于什么呢?针对那些在大型主机领域,你们想扩大这样一种虚拟化,存储虚拟化并不是一个新的理念,已经有四年的历史了。还有很多新的公司,已经把虚拟化进行了实现,包括基础设施虚拟化都是跟存储相关的虚拟化,你们如何能够应对它,如何能够给这些桌面系统到移动装置、移动手机PDA以及黑莓系统提供这样一些服务,包括一些Web的内容。你们的业务部门正在有这些要求,有能力能够访问这样一些信息,而且是可以在任何时间、任何地方,通过任何设备去访问,所以基础信息的复杂性也是前所未有的。 所有这些问题融合在一起,目前Gartner的研究,已经确定全球所有70、80%的数据中心都需要进行改变,包括IT组建的考虑,所有这些都是处于这上面的,所有存储的信息怎么应对这样一些能耗问题,他们在耗费大量的能耗,这些耗费是很高的,在数据中心里面能耗已经不够用了,太大了。以上这些问题都是以前没有碰到过的,都是需要处理得,所以我们需要重新设置一些架构。 存储方面容量如何?我们现在面临着前所未有的增长率,我的观念是如果你可以能够来存储的话,需要有足够的存储能量,这里面还没有一个对人们想存储数据量的顶端上限,并不只是传统的块状的数据,每年的结构性数据增长32%左右,非结构化数据增长率是63%左右,被复制的增长率是49%左右。由于有法律的遵从性我必须存储这些数据,因为业务价值我们也必须存储这样的数据。由于我们的预算都是增长很慢的,我要给存储方面提出很高的挑战,这是对数据中心以及基础设施带来更大的压力。所以它要求我们要有一个全新的模式,是一个高效的模式,我们把它叫做新的企业数据中心的模式,这个模式都是围绕着虚拟化,都是基于服务的交付以及有能力应对庞大的对数据中心灵活性的要求。所以,我想跟你们共同看看各个方面,因为今天其他的时间我们都要花在在里面每一个领域里更加详细的细节。这里我们要满足最基本的要求,要满足企业级数据中心最基本的要求,还有安全、信息的有序性在数据中心里面,以便于处理你们所面对的负载,下面是关于安全性和业务的连续性和永续性,如果数据不是在你所需要的时候提供出来就没有任何意义,我们应该有能力、任何地方所有的时间要保证这些数据,还有一系列的业务设置,如何衡量它的有效性,作为IT的专业人员,你们如何能够说服你的业务部门你们需要进行进一步投资在IT基础设施上。 通常IT基础设施只是在出现什么问题的时候才得到这样一些情况,你想让人们了解这方面所创建的一些价值,你可以能够在这个基础上进行进一步的投资。下面在任何地方,并不只是企业对社会的职责,还有能耗的限制,有大量的应用、传统的方式来建立基础设施已经不再是一种可持续性的了。 关于虚拟化,我想跟你们更加详细探讨一下其中的每一点。首先是关于信息基础架构,这是关于构建一个具有弹性、安全、连续的基础设施,基础设施如果在它需要的时候发生问题就没有任何意义了。基础设施如果支付不起的话,如果你只是针对高峰时期的应用也是不行的。基于Web的基础设施来说,它必须在节假日期间也能够被使用,可能其他时间流量很小,如果你只是针对峰值的要求构建是不行的。对于那些运行IT基础设施,必须有这样一种弹性应该有这样一些要求。 这就是关于并不只是单个来运行,这就是总体化、全面的、综合的解决方案,都是一些基于标准的解决方案能够来解决你的问题。而且是集成全整合的,比如有一个客户讲过,基础设施不那么复杂,自己能做。现在在我们进行几次并购之后,一个非常复杂、异构的基础设施的时候就不是自己核心所管理的,也不能够把越来越不同的小的厂商集中在一起,就是从各自解决观念解决是不行的,不考虑到基础设施其他方面是不行的。这就是为什么这种愿景、这种理念把什么都综合在一起的话,是一个核心的能力,是你们应该充分利用的,你们应该看到IBM厂商是能够被你们利用的厂商,你们把时间花在基础设施的业务方面,让我们把时间保证它是一种综合、完整、集成开放标准的,给你们提供灵活性的,我想给你们看一些数据,包括我们领先的硬件、领先的存储服务,以及领先软件的公司,我们有这样的能力让你们充分的利用。 Andrew Monshaw: 然后是业务的安全性和永续性,比如关于加密的问题。尽管有很多跟客户探讨的时候加密都是跟他们探讨的焦点。但其实这是端到端的问题,从数据的安全到访问的安全都涉及到。这是一个非常好的案例,这是一家小的针对性的答案,对出现的问题的领域进入市场门槛很低,这就是为什么有成百上千的竞争对手在这个领域,他们比较狭隘的解决方案能够对你的问题提出解决办法,然而我们从加密上学到了什么?这里面基于很多器件、装置的解决方案,在美国还涉及到一些隐私的问题,一些磁带被偷窃或者丢失,里面有很多隐私信息,在中国比如个人身份证的号码,在美国是社保的号码都属于隐私信息,这会给人们带来一些影响,所以这就是为什么身份非常重要。有一些生产设备的厂商说,我可以解决这个问题,可以把存在磁带上加密,实际上问题并不是加密,本身加密是一个行业的标准,现在的问题是什么呢?就是密钥的管理,密钥的管理可以在软件、主机上或者网络上做,但是针对不同客户的要求,实际上他们有更好的答案,我们会告诉你们,针对小的厂商,他们可以自己来编写代码放在服务器上,他们不会真正考虑所谓关于密钥的管理,他们只会考虑卖一些产品,真正的问题不能给你们解决,不能给你们提供领先的理念。 你们怎么启动这些工作呢?在业务的连续性来说,有这样一种架构师部署什么是端到端的架构,再下一步就是把你虚拟化,能够让抽象的应用放在物理架构上实现,能够有灵活性,接下来就是进行整合。我可以肯定有很多人都需要登录到多个屏幕上了解基础设施里面有什么东西,它们相互之间并不能沟通,所以你并不能够得到你所需要的效率,你还会涉及到很多管理上的费用,这些费用都可以在统一的管理下加以统一。 最后,通过我们真正好的架构和一个基于策略的工作,给它加以自动化。我相信作为IT的专业人士,你们的时间和你们的团队时间应该花在在什么地方为企业带来价值,而不是任务,因为你没有资金,我们所说的其他的事情对于IT人士的要求是巨大的,因此你们需要把钱应用好,把它变为价值,这就是你需要做的。 业务推动的管理,我们做了一个研究,对300个CIO做了一些调查,IBM做的调查主要是了解这些CIO重视什么?其中涉及到三个主要的问题,就是业务战略的调整问题,你是否有足够的IT基础设施来支持你的业务战略,我要在新的市场发展业务,但是部署新的IT设施收集信息,我想这是不符合我们的战略。然后,IT是否得到适当的管理,最后,你作为IT专业人士是否能够表明建立基础设施的价值,企业是否了解它的价值。像我刚才说的,往往IT基础设施就像一个电网一样,你们需要的是能量,你们需要的是这个企业需要能够介绍IT基础设施为企业带来的价值。你有预算或者有资金预算的时候你需要得到业务的支持,而不是进一步削减你的IT预算。如何来实现呢?我们需要一定的评估,还有一个管理程序让你能够了解这一切。让你能够把这一点向所有业务进行传播,让你能够采取正确的行动。 Andrew Monshaw: 更多的是有关基础设施的效率和效益的问题,我们取消它的复杂性,把它简化,而且在基础设施上部署一系列的测量工具、测量系统,保证你能够从投资中获得最大的价值。我还要谈到绿色问题,它在我们这个领域,确实是至关重要的。当今的基础设施不是很有效的,很多基础服务器使用量只有10%,很多分布式存储设施运行的效率也只有10%。因此,我们现在具有巨大的机遇,能够从基础设施中获得更大的效益,而且可以部署一些更小的基础设施。因此,如果大家考虑一下我们有关存储架构部署结构的话,很多人认为这是一个不断运转的磁盘,把它作为一个唯一的结构。但是我可以告诉大家,实际上70%的企业数据都是由磁带来存档,而不是在磁盘上存档的,如果大家把75%的公司数据放在磁盘上的话,我想我们就没有足够的能源和电力了。因此,我们需要一个更小的基础设施,我们可以充分利用软件的功能以及各种不同的基础设施的能力,比如磁盘、磁带,充分利用这种磁带、磁盘以及现有的一些技术,而且我们可以管理这样的存储服务。 当然,我们有很多方法可以实现这一点,但是实际上它的经济效益是非常显著的。我们有一个非常简单的例子,就是总体拥有成本的问题。有两个结构,我给大家举个例子来表明,比如说有250个TB的数据,每年增长率是25%,增长很多人达到更高的数据量,因此我们在座的人数据存储只有25%,人数不是很多,就这个论点表明把所有的数据放在一个数据中心,一个转得很慢而且很便宜的磁盘上,10年后可能只有650万这样的费用,但是现在确实给我们提供一些优势,因为在磁盘上比其他的方式更容易访问这些信息,如果我们把尽可能多的信息放在磁带上,我们有软件知道这些信息如何在磁盘和磁带上根据我们的需要和政策进行分布和存储,我想可能会花200万美元就可以,价格会减少60%的费用,很多节省下来的资金实际上都来自于电能还有散热。因此,一个绿色的数据中心并不仅仅是磁带或者我们需要采取对社会上更加负责的办法,同时也是我们经济效益和我们能力的展现。 部署结构性的做法包括可以利用现有的所有基础设施来做到,真正为你带来巨大的资金方面的节约,在这一点上,我们还要建设一下虚拟化的问题,把它作为最后一个办法对于在新的企业级数据中心中的信息基础设施的做法,虚拟化会给你一个更好的应用和信息的可用性,理念就是让你能够直接存取与应用直接相关的数据,我们有了虚拟化,这样你的信息的分享不是在一个存储而是多个存储可以在不同类型的磁盘上或者是阵列的厂商上都可以运行,因此虚拟化在过去几年都得到了充分的证明。现在有很多人使用VM在Intel服务器上做了什么,或者用微软在Intel服务器中做了什么。我们可以在访问数据的时候可以分层进行存储,可以来自不同厂商设备商进行存储,都可以进行访问,这样可以使我们的讨论更加合理,在这里面的产品是非常成功的,对客户来说带来了巨大的价值,我们要取消有关基础物理设施带来的限制,现在我们不再面临这个问题了,把数据进行拷贝、搬运,以及从各种系统中进行转移,虚拟化可以在各种应用之间、物理设备之间提供提取数据,这样的应用可能是非常大的磁盘。因此,这是一个巨大的优势。 另外,绿色环保我们也说了基础设施的利用率,就是你可以进行调配,因此你可以获得巨大的效益,你现有的资产可以获得巨大的效益和使用效率。 最后,它可以解决有关复杂性的问题,当然有很多的厂商、也有很多的部署,你需要进行一定的整合,我想这对于非常紧张得IT工作人员来说是一种解脱,每次有工具你需要学习、了解基础设施,把这些放在一起,到底哪个工具来做什么,而其他的工具又不能进行连接,我想这就是一种现实复杂性。同时你也很难向你的头来解释这些复杂性,但是这确实是现实的。 为什么IBM选择虚拟化技术呢?我们在这个行业里面是领先的,超过40年的虚拟化技术经验,业界率先推出领先的主机虚拟化磁带系统,业界领先的磁盘快虚拟化系统,全面的虚拟化技术。而且我们还进行了大量的投资,以保证我们能够继续有能力帮助你们来解决你们的基础设施的需要,我想这是一个新型的企业数据中心,并不是说让你们自己建立基础设施就不管了,这是不可能的。IBM每年花60亿美元从事研发,而且我们现在仍然每年在收购20到30家公司,因为基础设施的需求是非常大的,我们需要继续把世界级的能力带进来。 我想实际上信息基础设施已经到了一个转折点。因此,我们决定,我们真正的注重信息基础设施,过去两年我们一直这样,我们收购了很多公司用于数据的复制。我们现在讨论的是我们如何存储少一点,而且存储得更加有用。比如你的同事会发给10个同事幻灯片,你按一个键就可以向所有人进行回复,我们现在有五十、上百、上千的备份,上千个文件在你的基础设施中进行运行。复制是否有用,在今后几年在业界所有公司中都会成为一个标准。我们买了一家DILIGENT公司,XIV它是下一代的架构,大家会听到关于XIV的消息。还有网格的存储,这是可以扩展性能的,可以得到保证。而且它不断地进行运转,无论是什么情况,还有Web2.0,可以适用于所有基础设施,这样你可以进行扩展,同时又可以保证获得相应的可靠和容余,还有不可替代性的特点,这是行业中不可比拟的,我们不是6个9,而是9个9的可靠性。这是下一代的基础架构,我相信,在今后几年将会成为标准。 综上所述,我现在给大家展现一个远景,下一代企业数据中心是什么样的,我们讲了信息基础设施的需要,是真正能实现企业级数据中心的远景,IBM有这样的能力帮助你们实现新的数据中心,同时你们可以应用,这主要是针对基础设施所设置的。我们知道,对你们来说,只要是正确的,我们就可以给你们提供,并不是只是我们所销售的产品而不管你的问题是什么。这不是IBM的价值观,IBM的价值观是非常广泛的,一系列的价值产品组合是符合开放标准的,而且有一系列的服务和业务能力来支持的。实际上我们有很多的经过培训的业务合作伙伴,我感谢大家在这里听我的演讲,也感谢各位光临今天的会议,希望在今后几个小时,我们会详细介绍一些细节。到底在基础设施背后是什么,这样你们就可以有自信,你们可以相信IBM永远和你们在一起,我们有新的想法,同时你们会有新的了解,你们也会知道今后的道路是什么。 在非常复杂的空间中,你们明确了方向,谢谢各位。 主持人:非常感谢Andrew Monshaw先生的精彩演讲,有请IBM全球存储专家、系统与科技事业部大中华区存储平台客户方案支持总监Guenter Lange先生,介绍未来存储科技的发展。有请Guenter Lange先生。 Guenter Lange:各位早上好,我感到非常兴奋、振奋,能有机会跟各位讲一讲IBM存储技术,它的趋势以及发展方向,让我们继续看到市场的调查还有来自IDC的结论。这里面我们能够期待一种什么样的发展趋势,关于数据的增长,到2010年的数据,差不多比06年增长了7倍,这些增长来自什么地方?这不仅是传统的行业、日常的工作,我们还出现一些新的应用,包括像阿里巴巴 互动的公司,包括视频点播还有视频安全监控,包括医学成像,还有搜索的一些归档,这都是叫做所谓非结构化的工作负载,我们听到并不只是按照这样一些介质还有档案的存储,我们也看到一些归档的增长和发展,我们非常希望帮助你们应对存储发展。你们需要的一些功能和特性我们都会提供,会帮助你们管理运营成本,这都是我们应该做的。 下面阐述一下IBM解决方案的产品组合,包括提供服务的组合,我们可以想你们提供以它为基础,我们会帮助你们管理那些传统的业务日常的运行,我们有解决方案,还有一些地方能够优化你的IT基础设施。你们需要遵从政府的规章制度,要降低风险,我们还要考虑到潜在的高的可用性包括容灾等等的要求,我们还要考虑整个增长的业务发展的灵活性, 你们知道,我们并不只是有一个产品,我们需要按照你的要求去满足,你可以从非常广泛产品家族里面选择,从入门级的甚至DS3000一直到中端DS4000系列,到高端产品DS8000系列,包括SAN控制器,我们会讲一些SAN控制器的好处。我们后来持续地让它DS8000成为一种高端产品,来向你们阐述一下我们在去年第四季度发布的所谓的版本三、发布三,有一些新的功能在里面,来支持新的驱动器,这是我们所需要的。我现在跟你们来阐述一下我们正在努力,再一次提供新的功能来支持新的硬盘驱动器,这是在市场上所提供的,我们再来做一些新的存储技术,因为现在驱动器越来越大,我们会做一些技术保护它,我们会提供一些新的功能,你们听到过DS8000会继续发展。 下面是SAN卷控制器,是关于帮助你们管理你们的环境。SAN的卷控制器可以把它考虑成可以增强你的功能,你可以管理运行的成本,SAN是一种工具你可以使用它在现有的装置提高到一个层次。每一个单个的设备能不能作为一个整体的实体来管理。我们有很多SAN的卷控制器在市场上,我们有一些经验可以给提高提供,来帮助你们管理这个系统。你知道它的优势是什么吗?你的这些员工可以使用这样一个设备类型,只有一个这样的驱动器就够了,还有管理界面,可以得到先进拷贝的功能,这都是在卷控制器上的好处。 还有一些非常简单的观点说一下,你可以通过简单的工具和指令管理不同厂商的设备,我们来帮助你随着时间推移管理越来越多的模块。你听说过XIV,就是去年底我们收购的一家公司,这是新的存储技术,是一种高端的技术,你可以进行扩展,随着时间、随着你的企业发展去增长,不要任何中断的,负载是平衡在所有系统上面的。这是一张图表(见图),你可以进行扩展,你可以随着你的增长简单地添加一些模块就可以。 我们有一个XIV的市场,在这个产品的市场上在韩国、美国都有一些不同的应用,我们开始部署,我想今年后半年会很快出现在中国市场上,DS8000并不只是这些,这实际上只是对我们产品有一个增强。我们有哪些应用来使用呢?应用在什么地方呢?包括归档档案方面就可以使用,还有互动的Web,还有服务于供应商,他们想增长、想发展,所以他们可以满足很多的客户,还有数字媒体,对于你们的开发、测试,如果你是一个软件的厂商、一个软件的提供商,它可以帮助你。还有群集的计算,这是一种新的存储设备,它可以帮助你们涉及不同的市场。这都是在2008年后半年会推向市场的。 Guenter Lange: 还有NAS,对于一些公司,有一些数据中心或者一些分支机构,你们也许在存储上一些自由能力,同时要降低IT支出和管理,从总部去做可以做一些备份。我们有一个非常完整的NAS产品组合,这都是基于你不断的发展,基于你的业务不断地增长,随着你的企业增长而增长,这是非常好的事情。对于NAS来说是这样的,你有所有的功能性,你可以享受到高端产品的功能性,包括RAID和拷贝,都是非常好的工具可以选择。特别是得从直连存储到虚拟化到网络附加存储都是来自于同一个厂商。 下面讲讲磁带系统,按照目前的经验,归档方面这个会发挥更大的作用,这是中国的经验。我们有很多联盟,比如美国公司、欧洲的一些公司,我们会看到有很多政府要求归档都是上磁带的,你们听到过关于数据的重复性,这会变成一种情况,使得我们磁带产品很快地发挥作用,所以产品系列在磁带来说有同样的战略,就是跟我们的磁带存储一样,随着时间的推移,你可以能够依赖于这样一些磁带驱动器的可靠性、自动化还有虚拟化。 我们有很多安装的情况,包括虚拟的磁带产品,你还可以有这样一些非常先进的拷贝功能通过虚拟的磁带产品,这也并不只是最新的一种技术,也是基于我所知道的某些我们竞争对手已经开始采用我们这样一些标准,我们正在投资到磁带技术上,让你们来了解我们有将近5000名工程师在围绕着这样一种存储来开发,我们在全球有16个开发设施,其中有两个在中国。我们继续在这里帮助你们,根据我们所投资的内容去发展,包括存储和网络。这里面取决于你的需求,你的基础设施的情况,你来选择我们所提供的产品,你们有什么样的业务,你们有入门级、中端、企业级的产品,你们可以选择有高的可用性的企业级的产品,这是产品组合,或者选择一些入门级的,都是按照你的企业情况所选择。对于你的数据中心来说,如果选择网络存储,IBM可以成为这样一个提供商。 下面是基础设施的管理,我们有很多的Tivoli的存储,我们可以给你们提供,你们也可以买,来进入到数据中心的管理中,帮助你们管理你们的数据中心。Tivoli有存储的产品,帮你自动化流程,基础设施库包括一些配置的Manager,可以配置管理你的任务,IBM TotalStorage Productivity Center,如果你可以实现它的话,你会充分利用你的存储设备,你会发现有这样一些拓扑图,有这样一种基础设施。最后,你会发现你会真正进入到SAN的矩阵里面,这是非常令人振奋的可以实施的工具。 下面是业务的连续性,这是我们的产品,我们提供所有这些先进的功能,包括时间点的拷贝,还有磁带的这些拷贝,我们IBM Tivoli Starage Manager,还有很多激动人心的存储产品,我们还有地理分布开放群集并行系统,可以帮助你管理更高的可用性,如果你的一个中心有问题的话,你可以继续运行,可以自动切换到另外一个地点,有更高的可用性。我们在这方面做了很大的投资,某些竞争对手也是可以提供的,但是他们在这方面没有太多的投资,他们比较愿意从IBM购买这种许可证,因为这是一个标准,我们来帮助他们,我们给他们提供。但是不要相信实施起来很容易,许可证并不只是放在机器上的代码,而是需要花一些时间研发的,但是由你们决定选择谁的产品,那是你们的自由,像一些协议,实施起来是要花时间的。 还有拷贝服务,这样一些可用性的工具,所谓的异步镜像,在欧洲标准之间,有高可用性的存储,还有容灾的地点,在欧洲有一个委员会叫巴塞尔,他们向欧洲提出建议协议,你会看到会随着时间的推移,其他国家会遵守的,这针对一些银行、保险业等等一些重要行业来说,如果你需要这种高可用性的话,或者有一个什么地区要发生灾难的话,你必须要具备高可用性,需要有这样一个容灾的系统。如果你依赖于这些数据可用的话,除了高可用性之外,如果发生灾难怎么办?怎么去做?容灾就是我们整个城域网的系统。还有生命周期维护管理,我们还有一些介绍。 Guenter Lange: 我们还有一些工具帮助你们能够有这样一种透明性,就是你归档的是什么东西,如果还是需要的话,你是否可以腾出一些空间,做这样一种空间的管理。提到数据保持、保留,有这样一些法律的要求,你们可能是需要能够在一些媒介上,就是有些东西是不能重复写入的,叫做不可擦涂,不可重写,需要有这些一些文献、有这样一些解决方案,这些都可以从IBM来获取。还有生命周期管理、留存是一个集中的解决方案,因为几个客户要求我们,如果我们自己来实施是否太复杂了?我们需要一个捆绑的产品,叫做DR550,这个做起来非常容易,你可以自己进行管理,而且不用太费劲。Tivoli的存储管理器刚才讲到了,是一个很好的归档工具,这里有一些工具也可以来使用,就是从我们实施和管理来说都可以进行相应的管理。还有相应的服务,我非常自豪我们可以提供端到端的服务,从咨询还有设计要实施,如果愿意的话,我们有相应的产品进行外包,或者为你们进行运行,这些都可以从IBM获得。 数据迁移是非常著名的服务,我们可以帮助你们重新转移数据,你的数据中心可以进行迁移,可以不断地进行整合、迁移。IBM有相应的工具帮助你们进行迁移,而不会打断你们的业务,这样我们可以提供相应的服务,你们可以进行选择。在客户合作方面,只是给大家讲一下我们去年做什么,我们在去年第一季度有750个有关如何进行分析、节省资金等等、提高数据中心的效率的服务协议,我们有一万个IT的优化合作,还有面向服务架构等等,这只是给大家一个概念,到底我们在背后能够提供什么?我们有一系列的已经验证的服务,你们是可以完全依赖的。 这是一个先进的工具,作为IBM对于你们来说能带来什么样的效益,因为你们是真正的实施者,我们对数据中心进行分析,我们致力于这方面,而且我们有这样的责任,而且我们可以做到,因此我们可以对人员进行培训,分析数据中心,从中你们可以受益,可以看到到底对你们有什么好处,传统的数据中心,平均要有三年,大概有50%的能源只是用于环境的,比如电能、散热等等,而实际上真正IT使用方面只有45%的能源,因此在这45%当中,其中17%是用于供电、存储等等,而不是用于处理,实际上这30%只是来应用于处理器的,因此在这应用处理器的30%中18%是闲置的,你并没有有效地使用,在最好的情况下,只有20%运用一些资源或者进行复制,这是最好的情况。我给大家讲一下为什么,因为如果我们有这样一个分布式的系统,要真正有效地使用实际上只有5-12%,因此,我们所提供的服务可以帮助你们来分析你们到底处于什么样的情况,提供一些建议,我们如何能够优化你的数据中心。 大家考虑一下,如果有了新的设备是否是一个好的选择,最终我们需要的是“你们需要更少的能源,可以自己管理自己的运行”,几年前我在欧洲的时候,实际上IT花费的1%是应用于能源的,现在已经增长到10%了,这10%实际上还应用于能源,而不是自由地进行投资,更好地进行控制。如果不这样做的话,我想他如果不做点什么,这个费用会越来越高。因此,我们所提供的这些产品可以帮助你们分析数据中心,我们把它变成一个环保的数据中心,而且我们已经这样做了,我们可以减少排放,同时我们也可以节省成本,大家从中可以选择,你们从中也可以受益。刚才我讲了,我们的优势就是我们已经有这样的专家进行培训了,而不仅仅停留在纸面上,我们已经做了。这是我想给大家传递的信息,你们可以依赖IBM,我们在这里,如果你们相信我们,我们在这里就是要帮助你们,我们有相应的产品可以保护你们,而且为你们进行未来的规划。谢谢。 主持人:非常感谢Guenter Lange先生的精彩演讲,有请IBM全球科技服务部中国区业务连续和灾难恢复解决方案专员魏威先生,做构建可靠的新一代企业的灾备中心的演讲,有请魏威先生。 魏威:大家好,我叫魏威,是IBM负责业务联系和灾难服务解决方案的专员,下面的时间由我来给大家介绍一下如何构建一个灾备中心,或者业务连续性的服务中心,它实际上本身是数据中心的一种,IBM对于业务连续性方面有没有相应的措施和保障。首先解释两个名词,一个叫做IBM灾难恢复中心,它实际上本身是一个数据中心,数据中心拥有权是IBM的,而客户把自己的服务器也好,自己的业务系统也好都托管给IBM的灾备中心,由IBM进行运维,这样的灾备中心在IBM叫做IBM的灾难恢复中心,在全球IBM一共有154个这样的灾备中心,非常非常多,而在中国目前在中国有四家,在北京、天津、上海和深圳各有相应的灾难恢复中心。 还有一个名词叫IBM灾难恢复外包服务,IBM灾难恢复外包服务又称IBM灾备外包服务,是指客户将自己的灾备系统托管到IBM的灾备中心,由IBM为客户提供灾备数据中心运维管理,在发生灾难时,IBM为客户提供专业的灾难恢复服务,使客户的业务得以持续运营。IBM灾难恢复外包服务主要有共享模式和专用模式两种服务。今年灾情比较多,也比较严重,这样更需要有一套完整的、可靠的灾难恢复中心。 我们看看为什么我们需要一个灾备外包的服务,或者客户为什么不自己去建造灾备中心,而把自己的灾备系统托付给IBM,看一看简单的原因。事实上建设一个完整的灾备系统也好或者灾备中心也好,需要有很多方面的考虑、很多方面的步骤,这个模型实际上已经完全地诠释了IBM在建设一个灾备系统或者灾备中心所需要的各个步骤、各个方面。从中我们可以看出其中有一个非常关键的地方就是基础设施这块,客户自己做这块的话成本非常非常高。2007年是房价飞涨的年代,早在2003年也就是非典前的时候,在北京买到一平方米的住宅面积也就花4000、5000差不多,到2007年的时候可能会达到两万、三万甚至更高的价格,如果客户自己建一个灾备中心,势必要拿到一块地皮,现在地皮非常贵,或者自己买房子、机房,机房价格也是非常非常高的,所以拥有的成本会非常高。而且从现在开始,房价并没有涨到顶头,还在飞速发展,我们感觉到现在只是一个暂时的停顿过程,随着中国经济的蓬勃发展,以后的房价肯定会越来越高,这一点毋庸置疑。如果客户自己拥有灾备中心,很可能很多的钱就投入到房子上。 从另外一个角度来讲,能源也越来越紧缺,全球会因为能源爆发很多冲突甚至战争,我们能源越来越紧缺,电力也越来越紧缺,早在80年代起,我们的数据中心的耗电量并不是我们考虑的问题之一,因为那时候一台服务器只有两、三颗CPU,内存也很少,几兆到几十兆,那时候我们的耗电量非常小,所以耗电量并不惊人,但是如今一台服务器几十颗CPU、上百颗CPU,存储以及磁盘,还有很多机械转动都需要电力,我们就举了一个非常好的例子,在国外有某个大企业一年的用电量相当于斯里兰卡全年的用电量60亿度,非常非常惊人,所以你会发现系统庞大的话,我们的电费以及我们空调开支会占我们很大一块,将近1/3,这是另外一个成本,就是客户自己建设灾备中心的话,这是另外一笔费用。 再一方面就是人员方面,实际上,灾备中心一点不比我们业务中心或者生产中心简单,因为除了有生产中心一套相应的一模一样、一对一的东西以外,还有很多需要维护的流程、人员。原来我们讲的CS结构非常简单,那个系统非常简单,两台服务器,两个管理员,一个管数据库,一个管网络,两个管理员就够了。现在加上网络、安全体系等等各种各样的产品,需要我们的管理员分门别类的有不同的能力和知识,一个人肯定不能满足这些要求的,我们肯定会招很多很多人,造成运维的团队非常大。每年可能还得培训这些管理员学习相应的知识,这些人一旦培训出来,也变成人才了,也是各个IT公司非常紧缺的人才,会被挖走。所以每年花几十万为员工进行培训,但是很有可能是留不住人才的。各位如果是CIO的话,到时候会感叹“人心散了,队伍不好带了…”,培养出来的人才全部都被挖走。 我们可以看出,现在对于一个企业来讲,一个CIO建设一个灾备中心会面临着哪些方面的困难?我们总结认为三个方面的困难:第一方面就是巨大的机房费用,我们建设一个机房灾备中心地皮费用非常大,一次性投资就占了很大的费用;第二方面是细水长流的投资,就是每年惊人的能耗和空调支出;第三方面是非常庞大的IT运维团队,每年的培训以及支出,这批人不好留住,流动性比较大。综上所述,如果企业自己负担建设灾备中心的话,实际上困难是非常非常大的。 魏威: 我们现在建设一个灾备中心的话,是不是我们可以拍脑袋说建设成什么样的就建设成什么样的,并不是。国家有相关的法律法规,各行各业有相关的规定,我们在建设的时候,可以看各行各业以及国标都是怎么说的。首先看一下国家标准,这叫做《重要信息系统灾难恢复指南》,这是原来的原稿,当时是一个指南,《信息系统灾难恢复规范》从2007年11月1号开始指南变成规范升级为国标,不管是外资企业还是自己的公司在中国做生意建设灾备。中国国标阐述了6级灾难恢复体系,主要是靠灾备手段或者是业务系统手段的多少来划分,灾备手段或者保护业务系统能力越强,你的等级就越高,相反,如果保护业务手段非常简陋,你的等级就越低,你们可以简单看看这六个等级是怎么划分的或者怎么规定的。 第一级,基本支持。一周进行一次全备份,把生产系统不管用什么样的存储和服务器备份出来,把备份的磁带介质运送到场外存放。这是完成了国标第一级标准。 第二级,凡是拿红字标出来的都是比上一级多出来的部分(见图),我们可以关注红字部分,除了一周一次全备份而且把备份拿到场外存放之外,还要配备相应的部分数据处理设备,还要配备部分网络设备,还要有相应的通讯设备,最重要的是要有相应的作息。如果进行灾难恢复,要有相应的办公区域或者是相应的作息用以灾难恢复,如果完成这个,我们就完成了国标的第二级。 第三级,同样关注红色部分(见图),原来至少一周做一次全备份,现在要求至少一天做一次全备份,备份的密集程度更高,要求每天多次利用通讯网络将关键数据定时往远端传输,这样势必从生产中心到灾备中心会增加网络,要有备份能力和相应通讯能力。 第四级,要求更高,第三级之前要求部分数据处理设备,现在要求全部数据处理设备,而且还要在容灾中心要求7×24小时运作,必须配备相应管理人员在里面运维灾备系统和中心。 第五级,同样关注一下红字部分(见图),多出来将采用远程数据复制技术,将数据实时复制到灾备中心,原来我们都是说定时,一天备几次,两次、三次靠自己定,如果达到国标第五级要求有实时复制技术,包括IBM存储等实时数据技术。还需要具备集中切换能力,发生灾难的话,有能力从生产中心自动切换到灾备中心。 第六级,零数据丢失和远程集群支持。生产中心是什么样的数据,如果发生灾难的话,在灾备中心一定要保持跟你生产中心同样的数据,不能有一点数据的丢失,这叫零数据丢失。在发生灾难的时候,我们肯定会丢失一部分数据,而丢失的数据,从做容灾系统来讲,叫做RPO,就是你丢失了多长时间的数据,如果允许丢失一个小时的数据,RPO就是小于一个小时,另外一个叫RTO,就是发生灾难以后恢复业务系统花费多长时间,这叫RTO。在国标第六级规定RTO是零,不允许数据丢失,这是目前来讲最高级别。 下面看看国标,可以把国标当成一把六米长的尺子,并没有规定必须达到哪一级。事实上大家没有从上面看到要达到国标哪一级,只是给你一把尺子。各行各业会根据这把尺子制定相应的规范,我们可以看看各行各业的法律法规,这是有强制效应的,要求你达到国标第几级。走在前端的是金融行业,凡是跟钱打交道的客户,对于法律法规和数据安全性要求非常高。银行业在去年或者前年都相应的由银监会颁布了两个指引和法规,是跟灾备系统相关的,去年股市非常火,证监会也颁布了相应的法律法规,而且保监会在去年年底的时候有一个征求意见稿,但是到了今年年初已经把它作为正式指引发布出来了,大家可以看看。 像银行业的条款,像《商业银行操作风险管理指引》,把红字部分着重看看(见图),需要有应急和业务连续性方案,就是指我们经常说的容灾的演练、容灾的灾难恢复的整个计划。另外,它是怎么规定一个重大事件的呢?在两个或者两个以上就算重大事件,今年的冰灾绝对是超重大事件,地震肯定是两个以上的数据中心都瘫痪了,这都是超重大事件,如果一个省、一个数据中心的话,不能超过六个小时的中断,如果超过六个小时中断同样要上报银监会,银监会要记录下来。从第25条的第5小条可以看到,银监会规定商业银行必须有灾难恢复和业务连续性方案,灾难恢复计划,还要定期检查全面性。所谓定期检查全面性,IBM有一套完整的灾难恢复计划,如果按照我们那个项目完整去做,肯定能够保证做到灾备系统的全面性。 魏威: 我们可以看看银行的另外一个指引规定了什么,第29条:省域以下的数据中心(省级直辖市级别),至少要实现数据异地备份和异地保存。大家想想针对国标可以达到第几级?刚才我们都讲了,至少要达到第二级。如果是省域数据中心或者是全国性的数据中心实现的是异地数据的实施、备份,而且像全国数据中心的话,还要实施数据灾备,这对应国标的第五级,要求达到一个是国标的第二级以上,一个是第五级以上。 从证监会来讲,颁布的法规是非常非常严格的,因为我们大家知道,证券实时交易要求非常强,一天就几个小时的交易时间,而且交易量非常大,最近每天可能都是两千亿人民币的金额。像证监会要求有相应的灾难恢复计划,而且后面非常明确的规定,像第一条规定,要求建设国标第五级,比较高的级别,而且我刚才解释了RPO、RTO什么意思,一个是丢失多长时间的数据,一个是恢复系统需要多长时间,要求非常高,目前达到这种要求非常不容易,如果我们自己做的话,达到这个要求是非常困难的。 从保险业来讲,今年刚发布的指引,从3月21日开始执行,它实际上着重提出了自建灾备中心,还有一个共建灾备中心,还有一个是外包,今天着重谈的是IBM的外包服务。保监会针对国标提出了自己相应的法规要求,比如第一类是最高级、最严格的业务系统,要求达到国标第四级的标准;第二类要求国标第三级标准;第三类业务系统可能是最不重要的系统,要求达到国标第二级就可以了。这是针对国标保监会一一对应的业务系统要达到什么样的要求。对于建设的机房应该有相应保密措施、保密资质,要求我们做完灾备以后,要求每年至少要演练一次,而且每三年至少要重新审计一次,至少每三年我们要重新地去做一下灾备咨询的项目,做一下相应的服务。 以上看了国标六米的尺子,看了相应各行各业针对自己的特点制定自己是几米高,定下了相应的法律法规。我们看一下IBM外包服务是否能够满足国标的等级。(见图),这是IBM在中国四个灾备中心的外景图,北京、天津、上海、深圳,北京在亦庄经济技术开发区,大家有兴趣可以跟相应的销售联系,可以到实地进行参观。天津市在天津经济技术开发区,离即将开通的北京到天津的高速铁路非常近。上海的灾备中心也远离市区,上海的灾备中心建设的非常高级,,安全设施做的非常好,周边的设施非常完全,没有不稳定的因素。深圳在南山区。 我们可以看看拍摄的实景图,虽然不能亲临现场,可以看看机房实景图,这是运维中心的走廊,会经过严格安保措施以后才可以进去。机房走线非常规矩,因为我们给客户做了很多项目,很多客户对于机房维护不是特别理想,因为经常会有新的需求,一进机房就像蜘蛛网,在IBM运维中心没有这样的情况。这是监控中心,由7×24小时轮班监控人员进行系统维护和管理。如果断电或者出现毛病都由UPS电源电池进行后备电源处理,如果停电的时候,UPS撑不住还有柴油发电机组进行临时供电。这是IBM灾备中心硬件条件,是相当不错的。 软件方面,所谓软服务,为客户提供两种模式的服务,一种模式叫做共享式灾备服务,另一种是灾备式灾备服务,共享式灾备服务就是很多客户把自己的灾备系统托付给IBM灾备中心,IBM灾备中心有相应的服务器、磁盘阵列、网络设备、交换机等等,这些与其他客户共享,如果你托付给我们选用共享模式是共享的,如果发生灾难,我们要根据客户的优先级,根据相应的情况判断给谁用灾备中心。我们在签合同的时候、考虑这种客户的时候尽量把大家分散开,而不是在一个区域,一旦发生灾难大家都抢资源会出现问题。共享式的灾备服务我们是经过严格评测的。 专用模式不存在这个问题,专用模式客户把灾备系统、服务器、存储、网络设备托付给IBM,放到灾备中心去,同样租用里面设备,比如IBM i系列服务器,x系列服务器和p系列的,可以租用,也可以自带,放到灾备中心,由IBM统一运维。如果选择共享模式,平时是怎么运维的呢?(见图),前面是客户分享中心,如果客户选用共享模式,不到IBM灾备中心,除了年度演练测试,其他情况不去,只是在本地运维这些方面的东西,定时备份出磁带、光盘、磁盘,只要有备份介质就没问题,把这些备份介质拉到专门保护数据的地方存放(场外存放),现在有很多这样的公司,在亦庄就有相应的存放磁带或者专门保护存储介质的公司。 IBM的工作人员负责IBM灾备中心日常运维,这是共享模式,如果我们发生灾难了,第一,IBM客户灾备项目经理打电话通知IBM灾备项目经理,IBM灾备项目经理会紧急把IBM灾备项目小组调集在一起开会,同时客户这边也应该赶快去通知存放磁带、存放灾备介质的地方赶快取带子,IBM进行紧急配置,因为这些是共享设备,平时并不是用作灾难恢复用的,一旦发生灾难需要简单处理或者非常快速的处理、配置,配置好灾备中心。客户把磁带备份介质运到灾备中心区,客户进驻灾备中心进行恢复,恢复完以后可以对外提供服务,这是一个共享模式的服务。 我们可以看看,共享模式的服务可以达到国标第几级?在中国做生意必须满足中国的国标,第一级是基本支持,基本可以达到,磁带运到场外存放;第二级备用场地支持也可以达到;第三级要求定时批量往灾备中心存数据是达不到的。如果高于国标第二级可以选用下面这个专用模式,日常运维这是客户的生产中心,会定时或者实时将数据往IBM灾备中心传数据,因为IBM可以提供给大家共享设备或者租用设备,或者是客户自己的设备直接放到IBM灾备中心。客户监控团队会通过IBM给大家开放的端口访问IBM灾备中心进行运维服务,IBM运维团队对整个灾备中心进行运维,这是平时的运维模式。如果发生灾难,怎么办?同样客户打电话给IBM灾备中心项目经理,IBM灾备中心项目经理紧急召开相应的会议,但不需要进行过多的配置,因为这些东西是客户专属模式、专用模式,客户直接进入灾备中心、进行恢复服务,直接对外提供业务访问。如果选择专用业务模式,业务恢复时间RTO是非常非常短的。 同样看看这个模式到底适合国标几级,从第一级到第六级专用模式都可以达到和满足,但是为什么第一级和第二级是灰色呢?因为如果你只想达到国标第二级就够了,建议您选择共享模式,因为造价低、实惠,模式也方便。如果高于第二级,没办法就要选择专用模式了,这是对于中国国标来讲,我们提供相应外包服务达到国标任何一个级别。我们可以看看灾难恢复中心对于客户来讲有什么好处,或者我们的优势在哪,我们可以看到,我们的场地品质是相当高的,而且安全性相当好,相对于周边的生活环境非常便利,北京是在地震带,但是北京南边来讲是地震比较少的地方,亦庄中心就是在南边。全球55个国家有154个灾备中心,中国占4个灾备中心。另外,全球有13万的技术专业的队伍为大家做全球化的服务,具备支持同时多家发生灾害的能力,全球支持体系,130000专业人员分布于164国家或地区,像9·11有很多客户系统是通过IBM灾备中心进行恢复的,我们现在每年超过四万次的演练,如果做过灾备项目或者以前听说过、参与灾备项目服务,会知道每一次演练会多么复杂的过程,四万次的灾备演练是什么规模,大家可以想象一下。 后面是我们相应的联系方式,如果大家有需要的话,可以与我们的会务组联系。我的讲话到此结束,谢谢大家。 倪敦: 第一个主要就是以前的解决方案,今年4月份为了满足数据管理的需求,收购了FilesX这是新的数据备份解决方案的系列产品,并不是单一的工具。FilesX是以前的数据保护都是基于时间点进行备份,比如每天晚上进行数据备份,备份窗口下多长时间可以完成,这就会遇到DR方面讲的问题,就是普通软件级的数据备份,只能满足前三级容灾的要求,当我们发生故障的时候,因为是昨天晚上备份,数据丢失时间RTO是一天以上,因为要做一个长时间的restore到一天的时间。这样的话,把数据存储的时间由一天缩短到一个小时,甚至更短。所以FilesX就是一个非常主要的数据保护解决方案。 有几大特点,第一是Disc到Disc的备份,符合很多用户要求。FilesX并不是基于应用和操作系统来看的,是基于数据传输底层数据I/O判断的,发生变化的时候,自动就会把I/O传输到备份服务器上,所以能够做到数据块发生变化就自动保存下去。FilesX还有一个特点就是当我的数据发生灾难的时候,恢复的时候,恢复操作刚一开始,卷一开始的时候所有的数据都可以进行访问,就像普通的恢复好的磁盘阵列一样都可以使用。因为FilesX有一个技术当你访问这部分磁盘的话,这部分数据没有完全恢复过去的时候,FilesX会自动把I/O自动转移到一个中心上,从中心上直接把I/O发出去,通过FILESX的技术,业务系统就是可用的。数据备份的发展方向,这是我们IBM data protection的方案。 第二部分就是数据今天主要的存储架构解决方案,我们现在主要看的就是第一个解决存储架构解决方案的异构性,能够满足中国数据中心满足不同企业、不同厂家的磁盘阵列进行统一管理。第二能够做一个存储架构的管理平台,能够实现存储管理的拓扑、事件、故障以及报告这部分的管理。同时能够根据客户的需求定制管理的解决方案,定制出根据客户的业务需求实现的业务方式,并不是装上去之后我只提供几种功能,如果客户需求超出这种功能就不能够实现,不是这样的过程。 第三部分就是生命周期管理,包括ROM、DR550这一系列解决方案。 我今天重点介绍一下第二部分存储架构解决方案,从这里面我们看到,解决方案主要是从基于ISM,主要从三个层次来看,第一个是解决方案的可视化,第二个是解决方案的可控化、第三个是解决方案的自动化。所谓可视化能够把系统之间的相互之间的关联关系清晰检测出来,检测出状态。可控化就是能够把现在所有存储的设备和架构很好地组合在一起,能够满足业务系统运维的运行需求,这部分一方面包括物理的,磁盘阵列、交换机等等,另一方面包括虚拟的,存储的管理流程,以及服务。自动化是指我们现在建设的存储系统、存储中心必须是一个灵活的、可变化的系统,这是指存储系统构建敏捷性的存储系统。当业务系统上新的业务系统、提出新的业务管理的需求时,现有的存储中心、存储系统能够很方便地自动调整它的方向,支撑新的业务系统的变化,这就是自动化的问题。 下面我详细讲一下我们存储管理的解决方案。作为IBM存储架构管理解决方案核心就是IBM TotalStorage Productive Center (TPC),这个解决方案是一系列的产品构成的,作为现在的TPC有两大部分,一部分是TPC Stantard,这是一个标准的存储架构管理的平台,能够实现存储的资源管理、故障监控、性能管理、事件管理。第二部分是TPC专门做大型数据中心、做DR数据复制和远程的管理,作为存储架构管理,这点比较清晰。 倪敦:这是我们做的一个项目的例子,在这个例子中,我们可以看到,作为一个完整的存储架构管理,首先包括存储资产管理,概述方面: 第一部分存储资产管理,包括磁盘阵列、交换机、镜像磁盘阵列的状态,同时报警出现在主要设备发生的主要的重要事件、主要违反的事件有哪些, 第三部分是存储变更管理,作为IT管理变更管理是很关键的一块,如果不能很好地做变更管理,经常发生一些不可控关键性的故障,现在整个IT运维发生的故障70%,都是在变更过程中发生的人为操作。所以我们必须考虑存储的变更管理。 第四部分就是性能分析,很关键,当存储系统建设之后,我必须怎么样评估它日常运维的状态,哪些可能是一些瓶颈,哪些运行的状态很好,基于存储系统要做性能分析、负载分析。后端还包括我们做的DR,不仅包括生产中心的存储系统监控,同时还包括容灾中心这些镜像存储系统的监控,如果不能很好地监控镜像存储系统,可能灾难发生的时候,我们会发现镜像数据错误的,比如I/O的峰值造成问题,当灾难发生的时候会造成整个数据的不可用。 下面我们分几个部分来看一下TPC如何实现存储管理的解决方案:第一部分,我们的存储拓扑管理必须能够形成分层、深入的拓扑的分层。在这个过程中,我们必须能够生成从服务器、交换机、磁盘阵列再深入到每一个磁盘阵列的卷,这样一个磁盘的拓扑。在这里我们看到,这是我们的基于交换机的拓扑的关系。第二部分是我们从交换机端口到服务器的连接关系。第三部分看到分层次Inside到磁盘阵列内部的分层次的内部磁盘阵列划分的连接状态。 第二部分在整个的存储拓扑管理中,不仅能够生成这种拓扑,同时要生成关联关系,不能单独看到这个层次,要看到层次之间的连接以及可能带来的问题。在这里面我们要构建端到端的拓扑的连接状态,在这里我们可以看到,从我们服务器数据通道通过哪个HPA卡连接到哪个交换机的端口,同时连接到磁盘阵列控制器的端口,以及连接到哪一个磁盘卷组,在这样的过程中,随时点击查询到每一个状态信息,分析磁盘阵列数据访问通道中所运行的状态。(见图),这是我们通过TPC能够实现的,比如我们选中一个服务器,在这里可以直接看到逻辑卷是哪些,卡是哪些,交换机,磁盘的记忆卡是哪些,这样可以由针对性的从复杂的数据中心,比如十几个高端阵列有几百台服务器,选择哪个服务器可以把它单独连接状态列出来,查询和监控它的状态,同时看到实时的性能状态,这样很容易就分析出数据传输通道中性能的瓶颈,还有故障高发期在哪个阶段,可以提前预测发现可能在哪个阶段发生问题。当问题没有发生之前,我提前就会把一些设备更换或者重新划分一些区,重新做一些卡,重新划分出一些存储空间,这样提前解决可能会发生的存储故障。 底下还有类似事件窗口的东西,可以把所有数据传输通道都显示出来。在这里面我们可以看到,为什么TPC能够实现异构的存储管理?其核心就是基于现在开放的XMi-S的标准,TPC是完全按照XMi-S标准设计的平台,2003年的时候管理的系统很少,2008年所有主流厂商都支持SMIS新的设备。这样基于TPC可以很容易地进行数据中心的管理,我们可以看到在这个架构中右边是我们所要管理的设备,现在主流设备无论是磁盘阵列、存储交换机都是基于SMIS管理存储的,像基于SMP管理的存储方式很难更加深入全面管理存储系统了。在SMIS有四个点,这四个点从磁盘阵列、设备进行关联,同时根据CIMOM查询信息,通过CIMOM和XMi-S来传输。 下面,我们看到作为性能管理这块,因为以前刚开始上存储管理的时候,很多客户非常关心性能管理,其实性能管理只是整个存储管理中的一小部分,关注于性能管理很难做一个非常完整的存储管理。这边我们看到通过TPC做性能管理能够实现从磁盘阵列到Subsystem到端口以及违规事件,这样一个详细的管理,通过采样频率和持续时间定期收集数据,同时免费带一个DB2和Tivoli储存起来,这样可以根据我们的需要随时把它调出来,生成相关历史状态的报告,做一个对比分析,尤其在做项目中客户很喜爱做的是不同磁盘之间的对比分析,或者不同磁盘阵列中的对比分析,或者同一个磁盘阵列在某一个时间点的对比分析。尤其在一个大型的数据中心中,很关键的就是可能它的卷,它的信息会有上千条,这样的话我们通过TBC很关键的改变做出选出其中很重要的或者性能高峰或者很关心的设备,在这里面TPC能够生成由高到低或者是TOP10,或者是TOP25这样一个报表,这样能够使系统管理员每天发现系统管理中最关键的性能瓶颈或者已经达到关键点的设备的状态。 这里面我们可以首先生成典型指标的性能能负载Top报告,同时我们查询对比他们之间的状态,这样同时跟业务部门的专家相沟通,比如在某一个时刻业务系统是否有一些特殊的需求,某一时刻业务系统是否做过一些批处理的工作,这样可以看出高峰期是正常还是异常的,如果是异常的话,经过下一步的操作,我们看怎么调整我们的存储系统。基于TPC我们能够生成所有基于存储系统的关键性的性能报告,包括基于控制器,包括主要存储信息的性能的报告。 我们看到,在IBM的存储架构解决方案中,有一个很大的优势就是异构性,在这里可以看到不仅包括IBM磁盘阵列,包括主要的第三方厂家的磁盘阵列。在第三方磁盘阵列方面也不存在很大的困难,同时在存储架构管理中很关键的一点是能够进行带库的管理,生成带库的逻辑拓扑图,带库管理是很大的问题,比如有几千盘磁带的带库,通过带库的控制面板,很难查询出来5000盘带子处于哪些槽位,一目了然的生成一个列表,看它的状态是怎么样的,这些带子什么型号的,十几个驱动器状态怎么样,微码是多少,哪些需要升级哪些不需要升级,这样通过TpC还包括一个带库的管理,直接生成带库的逻辑拓扑,把整个的存储管理构成完整的拓扑,不存在逻辑管理的孤岛。 在这里我们看到,作为存储管理,刚才讲的拓扑、它的性能以及异构的管理,但是作为所有系统管理中,最核心的一点就是事件管理,因为无论是我们的网络管理、业务管理、服务器、应用监控管理核心都是把我们的状态转化成相关的事件,把事件汇总进行关联分析,对存储管理中面临的都是相同的问题。基于TPC的存储架构解决方案,可以把主要的存储事件生成出来并发到事件管理平台,包括磁盘阵列事件、交换机事件、违规违例的事件,通过集成比如通过Tivoli标准的事件管理平台,而通过高低端结合的新方式,第一能够高速处理所有的事件,因为每天存储管理的事件有上万条,系统管理人员每天看上万条根本发现不了其中的关系,第二就是做事件的关联分析,把相关联的事件故障组合在一起,生成一个故障事件,这样的话,可以使系统管理员把每天上万条事件缩减到几十条关键性事件,根据事件处理我们的问题就可以了。 第二,TPC支持通过SNMP的方式把Trap发出去,把现有的事件管理平台,TPC把事件发过去,在这个管理平台上做集成。根据我们的经验,一般作为存储管理来说,会单独选择一个事件管理平台,在这个平台上做存储事件分析,把关联事件分析完发到IT事件管理中心,比如系统管理的总的IT的服务器例子。 TPC很关键,可以把报告状态、信息、性能集中在一起,当我们看到这个报告里面,直接点性能状态表,就可以查询某一时段的性能,同时进行关联的分析。这方面TPC对于IBM存储设备不仅包括监视功能、监管功能,同时还有一个控制的功能,在TPC里面有一个Content manager,可以实现基于IBM磁盘阵列,DS系列,无论是高端低端,可以基于我们对Zone的划分,同时做一个性能的推荐。这样的话,安装了TPC之后,尤其是以IBM为主的数据中心,通过一个界面就可以完成一个管理到控制的所有功能,在后面的案例中会提及。 在TPC里面还有一个很关键的功能,就是涉及到存储的配置管理,TPC能够直接生成存储的配置列表,包括所也的磁盘阵列,什么型号的?哪个厂家的?号码是什么?哪个卡是什么牌子的?磁盘是什么样子的?在TPC里面都可以看出来,另外一方面同时还跟踪配置的变更,这样的话定期生成配置变更的列表,在这里面可以让我们看到系统的变更是哪些,TPC还有一个新的功能,在3.3版本里面能够生成配置变更的拓扑图,绿色是没有变更的系统,粉红色是已经发生的变更系统,在系统管理员看拓扑的时候,或者是我们没有控制住的偶发的变更,直接点击上去可以查到变更事件,可以直接发现对系统带来严重故障我们难以控制的状态的变化。这种情况很正常,比如系统管理员获得了授权,没在你的授权下就进行了变更管理,虽然变更对他来说会有意义,但是会给整个系统中造成故障,比如有的客户在代扣备份系统,直接把代机升级了,实际上在备份软件这边要做一个Mapping,整个数据就停止了。可能会造成相连接的HBA卡或者配置的变更,没有同时做变更的话,就会造成系统的严重故障。 在这里TPC还能够直接生成相关的配置的违例违规的检测,可以定期帮我们的系统做扫描,如果在数据里面直接输入变更管理规范的话,可以直接把违反变更的状态所做的事情直接扫描出来,并生成一个新的报告。同时TPC还能够帮助我们做容量的分析和统计,这在我们系统建设完以后进行长期运行的时候是很关键的,比如像我们提的数据生命周期管理,ILM,哪些数据生命周期状态怎么样,TPC可以直接帮我们生成一个数据的访问频次统计,比如分析出哪些数据一年以上没有访问,哪些数据一天访问十几次,我可以直接看出哪些数据一年没有访问马上采用archive等方式把它从盘中拿掉,哪些访问量很高,哪些容量不断增长,比如直接油低端换到高端阵列上。 同时能够帮我们做容量的分析和预测,这对于系统的二期和升级设计很关键,因为我们往往做升级设计的时候,我们没有一个很科学、实际的数据告诉你,比如一开始统计,平均每年增长30%,但我哪个业务系统增长很多,有的业务系统增长100%,有的业务每年不增长还减少,我们需要科学地统计设计出优化的存储系统。TPC本身带有一个报告系统,能生成300多个报告,能够输出出来,生成月报表、日报表、周报表,但是一般情况下系统管理员查询就够了,后面往往会根据客户的需求,因为TPC管理数据全部存储到内部关系数据库上,通过数据库可以做报表二次开发满足客户所有管理的需求。这是TPC应用环境部署的例子,这个就不多讲了,但我要讲的问题是作为存储架构管理不是简单的一个Tools一个工具完成的,作为TPC来说,跟网管的工作一样,包括监控服务器,包括Agent,这样,对于大型磁盘阵列管理,还要做一个判断,判断现有的Agent能够管理所有的磁盘阵列。后面做的项目,有的大的数据中心一个就分2000多个卷,通过一个Agent可能只能管理两台服务器,两个磁盘阵列4000多个卷。如果有八台以上的话,就要部署多Agent的状态。所以在部署这种系统的话,一开始就要做详细的科学设计。 实际上回过头来看,作为IBM存储架构管理,有几大优点:第一,它是完整的存储平台,能够实现存储系统的整合管理;第二,率先采取XMI-S进行统一存储管理,支持异构存储设备和支持未来所有存储管理的需要;第三,不仅实时发生发现管理故障,同时还能够通过管理系统预测存储系统可能发生的问题,把我们发生的故障和灾难提前解决。 我简单介绍在中国主要的案例,在中国建设银行数据中心,这是建行主机的存储系统,核心业务系统,所以主要的业务系统都运行在数据中心中,主机业务系统中支撑的系统是包括由十几台IBM高端磁盘阵列组成的,这还是结构比较单一,但是由于它多次扩展,包括型号不太一样,包括老的到新的DS8000不同型号都包括在里面,还有以前的8台现在的4台测试磁盘阵列,每个磁盘阵列都在2000卷以上,这样在管理上都会遇到问题,存储容量超过500个TB,高端核心业务系统的存储容量超过500TB,500端口SAN交换机,建行不允许宕机,在这个过程中很有意思,管理效率很高,只有一个运维人员管理整个数据中心系统运维。 前年刚开始谈的时候发现存储运维有很多需要解决的问题:第一,发生存储故障的时候不能得到实时报警,无法即时响应处理,很多时候都是故障发生后业务人员告诉你这个有问题了,你来看一看吧。刚才讲了由于很多Call Home的功能,银行是不被允许的,厂家没有办法远距离解决问题。第二,没有进行有效的存储性能监控,当现有的系统购买了很多存储系统以后,有一个问题,存储系统状态如何?能否满足我半年以后、一年以后业务系统的支撑要求。另外,有没有系统的瓶颈,客户在这方面比较担心。还有没法有一个很好的统计报告的系统不仅对系统管理员,尤其是对行里面的领导生成一个总结:这个月的存储系统非常稳定,下个月也没有问题,没有这样一个系统,对整个存储运维造成了很大的麻烦。 我们根据建行在存储管理方面的需求,设计了一套TPC存储管理系统,这个是我们在建行实施的TPC的管理架构,这是一期的架构,底下是Maimframe的系统,当时是八台主要的核心服务器,在这当中安装了4个CIMOM Agent采用两个卷的信息,TPC服务器作为存储管理的平台,收集所有存储管理的信息。第二,集中事件处理,因为我在存储管理中不仅管理磁盘,发生故障还要把交换机的信息,交换机的事件,相关的带库的事件都输入在一起,包括事件的服务器,以及事件处理得服务器。同时转发到建行的总控中心里面去,包括性能中心和报表的服务器。在存储解决中实现了故障和事件管理,存储的拓扑管理,存储的整体评估以及整体的分析,资产情况的管理,每周每月的定期报告。根据专家的分析和讨论,在上这个系统的时候,评估了很长时间,在测试机上做了一个样本采集,经过一个月、两个月采集以后,分析出核心的建行比较关注的指标。TPC能够采集的指标有好几十个,其中这10个比较关键,所以我们做了这样的一个定制,这里面还包括了事件管理,从这里面还可以看到开发,把事件转化成建行能够理解的信息状态。 CCB现在已经成为亚太区很重要的案例,所以在很多的网站都发表了,这个项目的实施也是分了三个阶段,也花了相当长的时间,最后帮助客户在存储管理中遇到的问题。 作为IBM存储架构管理解决方案,能够从三点:第一,可视化。能够发现存储管理状态所有的状态,采集它所有的信息;第二,通过可控化方式。能够实现配置管理、变更管理、故障管理分析以及存储健康状况评估分析;第三,能够实现自动化。不仅是自动化生成存储运维报告,能够与存储流程解决方案整合在一起。今天上午专家讲过,IBM有Storege process manager,能够自动化地帮助我们做存储运维,第三通过可视、可控进行自动化的存储运维。 谢谢大家。 主持人:非常感谢倪敦先生的精彩演讲,今天上午的会议到此结束。 |