当前位置：服务支持 > 软件文章 > ANSYS Fluent并行效率低：原因与解决方案

ANSYS Fluent并行效率低：原因与解决方案

阅读数 857

经常有小伙伴在使用Fluent并行求解大规模计算时，发现虽然硬件配置很高，但时并行计算的效率却很低，processors数量调大调小都不管用，为此搞得焦头烂额。今天就针对这种问题进行一些科普，希望小伙伴们在读过之后，可以亲自设置一下，让自己的Fluent算例都快得飞起。

文章内容主要分为以下部分：Fluent并行计算基本概念、Hwloc的概念、并行效率低的原因及解决方案，以及一些其他提高并行效率的手段。

1. Fluent并行计算的基本概念

Fluent 并行计算就是利用多个计算节点(处理器)同时进行计算。并行计算可将网格分割成多个子域, 子域的数量是计算节点的整数倍(如16个子域可以对应1、4、8个计算节点)。每个子域(或子域的集合)就会“居住”在不同的计算节点上。

图1. Fluent并行求解通信过程

如图1中所示，Fluent在并行求解过程中，实际启动了多个相互通信的进程：Cortex（人机交互进程），Host进程（主节点进程）和若干计算节点进程（Compute node进程）。其中，Host进程并不存储任何网格和物理场数据，多数情况下，它只是将Fluent人机交互进程Cortex的指令进行解释并分发给各个计算节点进程；而计算节点存储网格和物理场数据，在接到Host进程分发的指令后，进行矩阵计算，他们之间存在一种虚拟的数据链接，是通过MPI来相互传递数据的。

大家注意，这里的计算节点并不是硬件物理意义上的计算节点，而是Fluent为了区分Host进程，而定义的一种与其功能有所区别的进程（专门用来计算）。

由于流体计算量通常都很大，所以我们可以想象得到Fluent计算节点进程的计算量非常繁重（每个进程要负责相当庞大数量网格的计算），因此最为理想的模式是：为每一个计算节点进程分配一个专享的CPU物理核心（Core）。

2. Hwloc的概念

便携式硬件位置hwloc（Portable Hardware Locality）软件包提供了便携式抽象（跨操作系统，版本，体系结构等）现代体系结构的分层拓扑结构，包括NUMA内存节点，共享缓存，处理器插槽，处理器内核和处理单元（逻辑处理器或“线程”）。它也聚集各种系统属性，例如缓存和内存信息。

Hwloc主要是旨在帮助应用程序收集有关现代的信息计算硬件，以便相应有效地利用它。例如，两个紧密协作的任务最好是放在共享缓存的内核上以便提升速度。

3. 并行效率低的原因及解决方案

3.1. 问题1：有小伙伴在Fluent启动界面设置的并行计算节点进程数大于他所实际拥有的物理核数，计算时发现并行效率很慢。

原因：并行节点数大于实际物理核心数，会使得每个计算进程就像馋嘴的娃娃，都想独享某个CPU物理核这块蛋糕，结果最后谁也不能完全占有，所以每个计算进程都变得非常缓慢。

解决方案：将并行节点数设成稍低于实际物理核心数。

3.2. 问题2：Fluent的计算节点进程数小于计算机的物理核心数，但并行速度却非常慢，同时，可以监控到CPU使用率非常低。

原因：Hwloc错误导致MPI无法将并行进程绑定到唯一核上，最终多个进程使用同一个核，从而导致计算效率低。

解决方案：