一、 应用单位
新疆油田公司勘探开发研究院地球物理研究所(以下简称新疆石油地物所),位于新疆首府乌鲁木齐,是集石油地震勘探数据处理、资料解释及地质综合研究和计算机软件开发为一体的高科技单位。2006年中油股份公司为改善勘探环境,对新疆油田PC集群地震处理系统进行了扩充。目前该所已拥有1000多个计算节点1900多个CPU的PC集群地震处理系统、56个CPU的SGI Origin 2000并行计算机系统、200多套高性能图形工作站,数据存储系统总容量达到了180TB。多台万兆高效交换机进行互联,使新疆油田公司物探技术水平继续保持在世界领先水平。被称为中国西北地区最具影响力的地震资料处理解释中心。
二、 项目背景
新疆石油地物所肩负的石油勘探地震资料处理工作的主要原理是,通过人工的方式产生地震信号(放炮),然后将地下地质的地震信号,通过地面感应器提取后,利用大型计算机或机群(Cluster)(包括刀片服务器集群和普通服务器集群)通过专业的Paradigm epos 3 .0、 CGG geocluster 4.1等多套处理软件系统和一套完整的叠前时间、深度偏移系统,进行资料的处理工作,形成地下的构造以及成像,从而掌握地下的油气构造,为石油钻井提供更加可靠的勘探数据。针对新疆应用服务器管理方面,具体需求主要体现在以下几个方面:
大量勘探地震资料处理系统的快速部署。勘探地震资料处理往往需要使用大量的计算节点并行执行,虽然新疆油田公司地球物理研究所现有地震处理软件可以完成计算任务在这些节点上的自动分发,但与之匹配的操作系统以及相关配置信息的部署工作却依然难以统一、快速的完成,这极大地增加了系统管理人员的负担与启动计算任务所需的准备时间。
计算资源的调度与充分利用。石油地震资料的处理带有鲜明的阶段特征,每一阶段的处理内容、计算规模以及系统要求都截然不同,这些系统层面的差异导致计算资源无法被充分的调度以满足不同任务不同阶段的计算需求,而固定每个节点计算任务的使用模式又无法对计算资源进行充分的利用。
降低管理与维护成本。虽然兼具高性能与高可靠性的SAN或NAS设备已经广泛应用于存储领域,然而PC集群所装备本地磁盘却远远无法达到与之匹配的可用性,磁盘以及磁盘相关的散热装置损坏已成为大规模集群管理与维护的主要负担,而硬件Raid以及全光纤SAN连接的成本也无法被计算集群所接受。
节省能源消耗。供电保障、冷却和总体能源消耗已成为国内外超大型数据中心的主要成本负担与发展瓶颈之一,缩短部署、调度甚至等待的时间,将从最大程度上提升系统单位能耗下的有效计算能力,同时可以尽可能的降低对机房供电保障和冷却系统的负担。
异构系统的支持。目前集群存储系统只支持Linux客户端、很少有支持其他系统客户端。
随着新疆石油地物所计算规模的不断扩大,更有效的快速部署、调度与高可靠性方案将成为充分利用计算资源、降低能耗与维护成本的自然诉求,异构平台的支持、海量存储环境的高可用性,是保障计算环境高效、稳定工作的基础。
三、 解决方案
下图是根据新疆石油地物所目前环境进行针对客户的需求的bladmin存储管理服务器实施图
Bladmin架构的新疆石油地物所网络拓扑图
通过Bladmin网络存储的新型计算环境管理系统,使用低成本的千兆以太网络直接启动计算节点,并且采用IP SAN技术储存服务器中的系统数据。
Bladmin由管理服务器、网络存储设备和计算节点(服务器节点集群包括:刀片服务器集群、塔式服务器集群、机架式服务器集群)等硬件通过高速互联网络连接而成,并在该系统中运行Bladmin系统管理软件。管理服务器和网络存储设备可以共用一台物理机,我们统称为存储管理服务器。
本系统提供集中、可靠、安全、稳定的数据存储功能,并实现大量计算节点的快速部署、角色的动态切换、节点监控等模块功能。
在本系统中:
网络硬盘:网络中的所有存储资源统一存放在存储管理服务器上,形成一个大的虚拟存储池,存储管理服务器将该存储池中的存储空间按需分割成任意大小,供集群计算节点使用。每个空间称为一块“网络硬盘”。服务安装在网络硬盘上,集群计算节点通过网络,可以把网络硬盘映射成为本地硬盘,通过运行硬盘上的服务来满足计算节点的使用需求。
服务(操作系统以及应用软件的组合):存放在相应的网络硬盘上(网络硬盘都集中存放在存储管理服务器上);
计算节点启动后,Bladmin把网络硬盘映射成为计算节点的本地硬盘使用;
存储管理服务器完成整个系统内部运转的监控管理任务,并为其提供统一的存储池。
四、 用户价值
五、 应用效益
新疆石油地物所通过使用bladmin系统,通过按需分配、快速部署、灵活切换调度、时时监控等功能,不仅使新疆石油地物所的计算作业成功率提高了一倍,而且在管理和维护方面真正起到了快捷方便的功效。对人员来说,减短了大量的工作任务;对长期使用的节点来说,本地硬盘的节省间接的提高了计算节点的寿命,节省了损坏造成的成本控制;对提高工作效率来说,充分体现了省时省力;对资源的分配上,使各个节点的使用率大幅度提升;对快速转换来说,部署功能快捷、方便、按需分配体现的淋漓尽致。