• 邮编:215600
  • 地址:张家港市长兴中路科技新城
平台概况

张家港江苏科技大学产业技术研究院

高性能计算集群公共服务平台

1.背景

张家港江苏科技大学产业技术研究院主要面向张家港冶金新材料、现代装备制造业、新能源等产业和第三产业,为张家港市主要支柱产 业和企业提供综合性服务的公共技术平台,它将就张家港市在发展现代化装备制造及服务产业过程中的需求,集中江苏科技大学现有的各级科研基地的资源和优势,打造在冶金工程、新材料 、现代装备制造及服务业等领域的研发平台和培养专业技术人才、高层次科技创新人才的学习平台,为张家港市实现产业结构调整、发展高附加值产业经济及低碳型经济等提供重要的支撑。

为了更好满足张家港当地企业未来科学计算的需要以及苏理工教学研究的需要,充分利用互联网的特点,实现异地 计算,方便快捷,资源共享。特建设张家港江苏科技大学产业技术研究院高性能计算集群系统。

2.方案

本高性能计算集群系统按照张家港市范围内“10年不落后”的标准设计,同时兼顾环境、硬件、软件、 服务的综合指标。以面向工程科学高性能计算平台的总体建设为目标,涵盖计算机科学与技术、流体、材料、机械、管理、汽车与力学软件工程等主要工程学科,为开展各学科前沿科学研究 、跨学科科学研究、产品性能分析、模拟实验、培育新型交叉学科提供科研实验平台支持,紧扣计算密集型高性能计算、数据密集型高性能数据处理和计算与存储资源合理调度等主要环节, 突出重点,资源共享,提升综合性;强化科研实验平台、科研实验支撑环境。

项目主要是建立由计算密集型的高性能计算子模块、数据密集型的大数据处理子模块、资源调度与管理子模块和工程科学软件服务子模 块4个方面综合构筑的面向工程科学高性能云计算平台。总体建设费用为175万,2014年12月5号已完成全部招标工作,预计2015年3月可投入使用。平台基于22nm制程工艺的全新英特尔®微 体系架构(代码IvyBridge)的英特尔®至强®E5-2600v2和E7-4800v2系列处理器的浪潮天梭TS10000高性能集群系统,整体运算能力为5.45TFlops(万亿次)。整套方案由8台双路普通计 算节点,1台机架胖计算节点,1台GPU机架节点,1台登录节点,1台管理及IO节点,KVM视频切换系统和网络设备组成,计算节点采用56Gbps Infiniband互联,整套集群通过千兆管理网络互联 ,为了系统的管理和使用,集群部署了RedHat 企业版Linux操作系统,高性能计算服务平台软件Cluster Engine,集群部署软件TSDM,备份还原软件睿捷以及集群并行环境和编译调试环境等 。

各个科研实验模块之间,能根据业务和数据流等内容需求的不同,有机组合模块内容,满足计算机科学与技术、流 体、材料、管理、汽车与力学等学科科研人员对科研实验平台的需求。其中计算机辅助工程(CAE,Computer Aided Engineering)是本次项目的应用重点之一,是用计算机辅助求解复杂工程 和产品结构强度、刚度、屈曲稳定性、动力响应、热传导、三维多体接触、弹塑性等力学性能的分析计算以及结构性能的优化设计等问题的一种近似数值分析方法。CAE从60年代初在工程上开 始应用到今天,现已成为工程和产品结构分析中(如航空、航天、机械、土木结构等领域)必不可少的数值计算工具,同时也是分析连续介质力学各类问题的一种重要手段。在中国,CAE软件 的行业领导者为Ansys,是由世界上最大的有限元分析软件公司之一的美国ANSYS公司开发,考虑到该技术的先进性,张家港当地的相关人才的稀缺,本次项目特别增加与ansys公司合作成立了 “张家港江苏科技大学产业技术研究院ansys联合培训中心”,为张家港当地培养CAE高级专业人才。

具体项目分为以下三个部分:

一、机房基础建设部分

本项目位置为研究院3楼326房间,面积32平方米,包含防雷、不间断电源、空气调节、气体消防、门禁、环境监控、地板、隔断、灯光 等11个子项目。机房整体设计从研究院高性能计算集

群使用需求出发,整体符合《电子计算机房设计规范》室内装修要 求。平面布置图如下:

二、 高性能计算集群硬件平台部分

本项目建设方案从产品的适用性、先进性、合理性、可扩展性出发,充分考虑研究院、张家港校区、张家港当地企业的需求,经过近6个月的考察比较,收集 了近500兆的相关材料,先后修改了近30次配置方案最终形成。主要包含以下配置:

序号

名称

型号及技术参数

单位

数量

1

计算节点

(浪潮NF5270M3)

CPU:2颗Intel XeonE5-2692v2;

内存:64G ECC Registered DDR3 1866(8*8G);

硬盘:300GB 3.5" 15Krpm SAS;

8

2

登陆节点(浪潮NF5270M3)

CPU:2颗Intel Xeon E5-2620v2;

内存:64G ECC Registered DDR3 1866(8*8G);

硬盘:2*300GB 3.5" 15Krpm SAS;

1

3

管理存储节点

(浪潮NF5270M3)

CPU:2颗Intel Xeon E5-2620v2;

内存:64G ECC Registered DDR3 1866(8*8G);

硬盘:2*300GB 3.5" 15Krpm SAS;

1

4

四路胖计算节点

(浪潮NF8460M3)

CPU:4颗Xeon E5-4830v2系列处理器;

内存:256G ECC Registered DDR3 1866(16*16G);

硬盘:2*300GB 3.5" 15Krpm SAS;

1

5

GPU服务器

(浪潮NF5280M3)

CPU:2颗Intel Xeon E5-2620v2

内存:64G ECC Registered DDR3 1866(8*8G);

硬盘:2*300GB 3.5" 15Krpm SAS;

1

6

安全加固模块

(浪潮SSR)

1能实现内核级文件/目录强访问控制,允许对文件/目录配置用户或进程以读、写、禁止访问等权限访问的安全策略。
2能实现内核级注册表强访问控制,允许对注册表项配置进程以读、写等权限访问的安全策略

3能实现内核级进程强访问控制,允许对进程配置进程以读内存、写内存、复制句柄、终止进程等权限的安全策略

4能实现内核级服务强访问控制,能够阻止新增的服务及驱动在系统中的加载,阻止已安装服务的启动类型的更改

5能实现内核级帐户强访问控制,能够阻止对系统帐户的破环,如新增帐户、删除帐户等
6完善的日志管理,能够记录违规日志和操作日志并对日志进行分析导出报
7文件完整性检测,通过记录和对比指定目录中所有文件的基本属性及内容校验和来进行完整性检测,以识别哪些文件被篡改
8服务完整性检测,通过记录和对比系统中所有服务的基本属性及内容校验和来进行完整性检测,以识别哪些服务被篡改

1

7

机柜系统(浪潮TS4220)

与计算节点服务器同一品牌19″、42U工业标准服务器专用机柜,机柜深度达到1100MM以上,采用9折型钢材,保证机柜载重性,最高静载1000kg以上;

2

8

KVM

(ATTEN 16口)

16口数字式KVM切换器一台,1U折叠控制台,包含≥17寸液晶显示器、鼠标、键盘及上架套件;

1

9

千兆网络

(锐捷S2952G-E)

48端口千兆以太网交换机,可支持万兆上联;

1

10

Infiniband高速网络

(Mellanox MSX6025F)

Mellanox1U 机架式交换机,全线速无阻塞,全冗余风扇电源;36 个端口,每端口带宽56Gb/s,4.032Tb/s交换容量;

1

11

存储系统方案

(浪潮AS500H)

与计算节点服务器同一品牌,机架式光纤存储系统,导轨上架;

全冗余风扇电源,支持SSD;
标配2个控制器,采用Active-Active工作方式,有专用的XOR校验芯片;
标配8个8Gb FC,支持千兆主机接口;
支持12盘位或24盘位扩展柜;配置12个900GB 2.5" 10Krpm SAS硬盘;支持RAID0,1,5,6,10,50,60;
双存储处理器;配备控制器后备电池,72小时;
配置8GB高速缓存;
支持基于存储端的快照、本地复制、远程镜像、动态磁盘资源池,支持分层存储软件模块等功能;

1

系统拓扑图如下:

三、 配套软件

硬件的效用需要软件来发挥,没有软件的硬件就是“废铁”,本次根据应用需求和经费情况,配置软件如下:

1.PERA ANSYS 软件V15.0

序号

名称

型号规格

数量

原产地制造商名称

说明

1

PERA ANSYS 软件V15.0

ANSYS Research Mechanical

1task

安世亚太

ANSYS软件科研版

2

PERA ANSYS 软件V15.0

ANSYS  Research   FLUENT

安世亚太

3

PERA ANSYS 软件V15.0

ANSYS  Research  HPC

12个

安世亚太

ANSYS软件并行计算模块

4

PERA ANSYS 软件V15.0

ANSYS Academic Teaching Introductory(25tasks)

25task

安世亚太

ANSYS软件教学版

2.高性能计算集群管理平台、编译软件、并行系统软件

序号

名称

说明

1

集群软件

(浪潮 天梭)

作业管理模块:支持脚本提交、命令提交、模板提交;支持查看作业状态及结果;支持停止、删除、启动、查看图形化作业;支持回填、资源预 留、公平共享等多种策略,并支持自定义策略;
历史监控模块:查看过去某段时间的节点CPU,内存,网络的运行走势图;
实况信息监控:监控当前半小时内各节点的CPU及网络带宽的走势图;
实时动态信息:实时监控集群中各节点的CPU利用率,内存利用率,网络带宽信息;
报警模块:提供详细报警信息列表、报警参数设置、报警阈值设置;支持邮件报警,短信报警,web界面报警;
文件管理模块:支持文件的上传、下载操作,支持在线复制、粘贴、删除、打包、重命名、新建、打开等操作;
物理视图模块:可通过物理视图展示整体视图,监控机柜中各节点状态;可通过物理视图直接对节点进行远程桌面、远程shell、报警信息、显示节点运行情况、开关机等操作;
提供中文操作手册;

支持用户自定义计费;

支持Web portal提交作业功能扩展,提供ansys、Abaqus、MATLAB的应用软件开发相应的portal,同时Web portal支持个 性化定制;

通过网络同时给集群中的节点安装操作系统;
支持多种操作系统和多种机型的同时部署,各个节点的安装互不影响;
采用B/S架构,通过浏览器(IE,FireFox等)进行操作,可以有效的缩短集群部署的时间和工作量,提高工作效率;
在部署操作系统的同时可部署系统中的应用软件支持磁盘或分区的备份还原;
一次可支持多个磁盘、分区备份还原;
支持Windows和Linux全系列操作系统;
可升级实现跨平台的网络备份还原功能;
支持磁盘或分区的克隆;
克隆功能实现与文件系统无关,支持各种操作系统;

2

编译软件

Intel编译、调试软件 ;
Intel C++/Fortran 编译器;
数学库:MKL、ACML、BLAS、LAPACK、ScaLAPACK、FFTW等;
GCC编译器

3

并行系统

MPICH:千兆消息传递并行库;
MVAPICH2:万兆/IB消息传递并行库;

Lustre:支持infiniband RDMA
OpenMPI:高性能消息传递库;