ANSYS Mechanical是美国ANSYS公司的旗舰产品之一,已经有41年的商业化历史,是目前全球范围内最受欢迎的大型通用有限元分析软件之一。在近十几年间,运行ANSYS Mechanical的主流硬件平台,已经完成了由曾经辉煌一时的RISC类芯片的Unix工作站,逐步向X86(64)芯片的PC工作站的迁移。HP Z800顶级工作站代表当今桌面系统的最高水准,提供了丰富的配置选项。本文通过ANSYS Mechanical对系统资源需求的角度,阐述如何将HP Z800图形工作站配置成完美运行ANSYS Mechanical的桌面系统。
1.高内存带宽、高QPI带宽、高主频CPU打造最强心脏
作为计算机的心脏,CPU的选择至关重要。HP Z800可配备1100的电源,支持2颗130瓦当今性能最强劲的英特尔至强5600系列CPU。其中6核最高可配置到3.46Ghz的X5690,4核最高可配置到3.6Ghz的X5687。如果费用预算有限,则建议选择不低于X5650(6核2.66Ghz)或X5667(4核3.06Ghz),因为这两款及以上型号CPU的QPI总线带宽才支持6.4GT/s。较低型号的CPU仅支持5.86GT/s或更低的QPI总线带宽。E5645(6核2.4Gh)或E5649(6核2.53Ghz)这两款CPU的QPI总线带宽虽然是5.86GT/s,但仍然可配置DDR-3 1333Mhz的内存,每个CPU的内存带宽仍然可达32Gb/s。其价格上具有优势。
至于选择4核还是6核,要根据可使用的ANSYS Mechanical的许可证(License)情况而确定。相同价格的4核与6核相比,4核的主频要高一些,而6核整体理论浮点计算性能高一些(毕竟多了50%计算核心)。如果1台HP Z800可用的ANSYS Mechanical的许可证(License)只支持8个并行进程(分布式)或线程(共享式),例如只有1个商业版的ANSYS HPC PACK,选择2颗4核CPU平均每个核能获得更高的内存带宽和更高的主频。如果有2个或以上HPC PACK或10个以上的ANSYS HPC,允许12个核并行求解,则推荐选择2颗6核的方案。
总之,运行ANSYS Mechanical应选择高内存带宽、高QPI带宽、高主频的CPU。
2.大容量、高带宽内存提升求解性能
ANSYS Mechanical不仅要作复杂3D有限元模型的图形处理,还要进行高性能并行浮点运算。内存的容量的大小,不仅决定能求解多大规模的有限元模型,而且对于特定的模型,还将决定其使用的内存模式,从而决定求解性能。
ANSYS Mechanical缺省的求解器是Sparse Direct Solver(稀疏矩阵直接求解器)。其缺省的内存模式optimal out-of-core,求解过程中自动根据内存容量确定存放到内存和磁盘中数据的比例。对于特定的题目,内存越大,求解过程中读写磁盘越少,求解时间越短。如果内存足够大,可使用in-core模式,求解过程中将数据全部放在内存中,尽可能避免磁盘的读写,从而成倍地提升求解速度。Optimal out-of-core模式内存占用大约每百万自由度1GB,而in-core模式则要10GB!如果发现ANSYS Mechanical求解过程中,磁盘灯一直狂闪,而CPU占用率却非常低,很可能是内存不足,求解过程中花费太多时间在磁盘读写上,造成求解性能不高。因此在选配ANSYS Mechanical工作站时,增大内存容量是首先要满足的。HP Z800工作站安装了可以实现高速数据传送的12个DDR3内存插槽,最大可以扩展到192 GB内存。
以下是对in-core和optimal out-of-core的求解性能的简单对比。一个25万自由度的线性静力的ANSYS Mechanical问题。以前运行在只有2GB内存的Windows 32位系统上,求解这个问题的内存模式只能是optimal out-of-core,ANSYS Mechanical统计的有效I/O率只有48MB/s,因为求解过程中持续读写硬盘,Sparse求解器完成时间要5.7分钟。后来增加了内存到8GB,并更换为64位Windows系统,有效I/O率猛增到2818MB/s,求解时间缩短到100秒(不到两分钟),只有原来的不到1/3!因为内存的增大,其求解内存模式变为in-core。
对于内存还有要考虑是内存带宽,尤其是平均到每个核上的内存带宽。英特尔至强处理器自5500系列以后,将内存控制器设计到处理器上。也就是说双路系统如果只安装一颗5500或5600的处理器,将有一半的内存插槽无法使用,这与以前的5100到5400系列的FSB架构完全不同。每个5500或5600系列处理器有3个内存通道。对于双路的HP Z800工作站,只有将6个内存通道的都插满容量相同的双面DDR3内存,才能获得均衡的、最大的内存带宽。也就是说内存容量应该是6的倍数,例如12GB(6X2GB)、24GB(12X2GB或6X4GB)、48GB(12X4GB或6X8GB)、96GB(12X8GB)或192GB(12X16GB, 1066Mhz),而不是以前的8/16/32/64/128GB内存。如果求解的题目的规模在1千万自由度(300万节点)以下的线性静力问题,用96(12X8)GB内存就应该能使用in-core模式。如果求解更大规模的题目,可以考虑上单条16GB的内存,但内存的频率要降低到1066Mhz,还要考虑系统功率是否能承受,比如已经选择了130W的处理器或GPU卡等。
总之,运行ANSYS Mechanical应选择容量尽可能大、带宽尽可能高而且均衡的内存配置。
3.高性能磁盘I/O缩短求解时间
上述对内存需求的分析,是针对最基本的线性静力问题的。如果遇到非线性或动力学问题,其对内存的需求一般会增加百分之几十到几倍。即便是线性静力问题,几千万自由度(上千万节点)甚至上亿的装配问题也已经非常普遍,尤其是最近一些年流行的从CAD直接导入CAE中、直接划分网格,省略大量人工时间重新建模、简化模型的工作,同时导致有限元模型的求解规模越来越大。尤其在求解模态(系统自振频率)等动力学问题时,缺省使用Block Lanczos算法,即使用in-core模式,对磁盘的持续反复读写也在所难免。因此提升磁盘的持续读写性能,同样是缩短ANSYS Mechanical整体求解时间的有效手段。
HP Z800可选的磁盘类型有SATA, SAS和SSD。其中SATA硬盘的单盘容量最高,可达2TB,但其持续读写性能较低,建议应该尽量避免用SATA硬盘做ANSYS Mechanical工作目录。SAS硬盘中的15K RPM的持续读写性能要高于10K RPM,单块SAS 15K的硬盘最大容量也可达600GB。
HP Z800工作站还提供了磁盘阵列的选项。其中对于ANSYS Mechanical求解最有意义的应该是RAID 0选项,用多块硬盘组成条带(Stripped)可成倍提升磁盘读写性能。但RAID 0中的任意一块硬盘的损坏,将造成整个RAID0分区的破坏,因此RAID 0不适合做系统盘,只适合做工作目录,求解结束后,建议尽快将文件备份到非RAID 0分区。
SSD可提供比SAS 15K硬盘更高的持续读写速率。可用多块SSD配置成RAID 0,作为Windows操作系统的虚拟内存(或Linux系统的swap)和ANSYS Mechanical的工作目录。以下在一台HP Z800工作站上用4块HP 160GB SATA X25-M配置成RAID 0作为ANSYS Mechanical工作目录,在求解ANSYS V13cg-2标准测试算例,与普通单块SATA 7200 RPM硬盘相比可缩短高达30%的求解时间。
总之,运行ANSYS Mechanical应选择SAS 15K, SSD或RAID 0(非系统分区)等高持读写速率的磁盘系统作为工作目录。
4.CPU+GPU加速运算带来成倍性能提升
ANSYS Mechanical 是全球范围内第一款支持GPU计算的商业有限元分析软件。目前支持NVIDIA Tesla系列(如C2050/2070等)和NVIDIA Quadro 6000。HP Z800工作站最多可支持2块TESLA C2050或C2070。以下是我们在一台HP Z800上测试的结果。
这台HP Z800的配置为:2颗Intel Xeon X5680, 3.33Ghz, 6C,1块NVIDIA Tesla C2070, 64GB(4x8GB+8x4GB) DDR3 1333 Reg. ECC内存, 4XIntel X-25M SSD RAID 0, Windows Server 2008 R2, CUDA 3.2。应用软件为ANSYS 13.0 for Windows x64,测试算例为V13sp-5, Turbine, Sparse solver, symmetric matrix, 2,100K DOFs, static, nonlinear, structural analysis with 1 iteration。
从测试结果来看,使用2个CPU核时,1个GPU带来近3倍的性能;使用8个CPU核时,1个GPU带来近1.57倍的加速;使用12个CPU核时,1个GPU带来近1.36倍的性能。
对于ANSYS Mechanical商业用户,如果有ANSYS HPC PACK,允许运行8个CPU核计算的同时可附加1个GPU加速计算,可带来50%的性能提升,已经是相当可贵了。对于ANSYS Academic用户,每个ANSYS Mechanical计算任务允许4个CPU核计算的同时附加1个GPU计算。上述算例用ANSYS 14.0 Preview 2运行4个CPU核附加GPU,可获得近2.37倍的性能,GPU加速效果更明显。
NVIDIA Quadro 6000不仅可提供顶级的图形处理性能,其6GB的GDDR5显存,还非常适合ANSYS Mechanical的GPU求解。比如在ANSYS Mechanical前后处理时可用GPU做复杂模型的图形处理,而在求解时则用于加速求解,达到一卡两用的效能。需要注意的是Quadro 6000进行GPU计算时,可能造成图形操作缓慢,如果在求解时也需要同进进行其他模型的图形操作(例如Workbench支持后台求解),则建议配置一块中高端的图卡(例如NVIDIA Quadro 2000/4000/5000)再加一块C2050/2070。
总之,ANSYS支持GPU计算,加速效果非常明显。
综上所述,CPU、内存、磁盘和GPU是决定ANSYS Mechanical计算性能的4个关键因素,而Z800作为惠普工作站旗舰机型,其在设计之初就将如CPU、内存等关键部件的协作性能调配到最佳。除此之外,惠普Z800在稳定性、兼容性以及可扩展性上亦表现非凡。其内部模块设计方便管理升级,独特的液冷及优化排风系统满足长时间开机运算的环保及降噪要求。安世亚太将继续与惠普工作站一起,根据ANSYS Mechanical对系统资源的需求的特性、分析求解的问题的种类和规模、资金预算等诸多因素,结合最新的技术,为不同用户配置适合自身需求的“完美”的工作站整体解决方案。
免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删