许可优化
产品
解决方案
服务支持
关于
软件库
当前位置:服务支持 >  软件文章 >  Fluent计算CPU与内存瓶颈问题:解决方案大揭秘

Fluent计算CPU与内存瓶颈问题:解决方案大揭秘

阅读数 4
点赞 0
article_banner

测试环境

配置一 e5-2680v2 cpuz 跑分3945,内存频率 4 * 1866MHz

配置二 i7-10700 ,cpuz跑分5600,内存频率 1 * 2666MHz

配置三 i5-9400f ,cpuz跑分2500,内存频率 2 * 2400MHz

配置四 笔记本i5-8300H ,跑分略低9400f,内存频率2*2666MHz

测试结果一、实际测试fluent 计算速度配置一是配置二的2倍;测试结果二、配置一是配置三的1.4倍(换算一下,配置三约为配置二的1.43倍);配置一内存读写约为配置二的3倍;结果四,配置四计算速度是配置三的0.88倍

结果(以配置二为速度标准1.0)

一二三四:2.0,1.0,1.43,1.26

结论

  1. 配置二显然达到内存瓶颈

2. 根据测试结果一,估测四通道的内存性能损失在25%左右

3. 根据测试结果二,性能损失越21%,估计是CPU存在瓶颈

4. 根据测试结果一,假设双通道内存性能损失15%, 2 * 3300 MHz 就可以追平 4 * 1866MHz内存性能,但是i7-10700是e5-2680v2跑分的1.42倍,所以预测内存甚至可以上到 2 * 4600MHz而不达到CPU瓶颈,也就是说在家用PC平台上i7或者r7几乎不存在CPU瓶颈的问题,毕竟ddr4内存能保证在gear1或不分频的条件下是几乎无法达到4600MHz

进一步的分析

借用CFD online 论坛的一些测试结果

没有找到这张图的内存频率数据,但是推测应该是非高频ddr4内存(毕竟要保证标准统一)。可见5600x开4核心时,CPU已经被内存限制了发挥,预计5600x使用ddr4 高频内存条3800 - 4000MHz左右时,能在4核心时差不多追平 EPYC 7302

这里9800x的数据有些奇怪,同是四通道内存,却比线程撕裂者 的水平一大截,理论上来说,这两个平台的性能不会有太大差距,因为都会受到内存瓶颈问题。推测酷睿x或者线程撕裂者在四通道高频内存的加持下可以最高开到 8 核心并行追平7302,8核心之后将会继续遇到内存瓶颈问题,开更多的核心数计算速度继续提升的空间也不大

最后给一些配置建议

1-4k预算

至强e5-26xxv2系列,支持4通道服务器ddr3内存,低价位的天花板,配双路4k之内拿的下来

6-10k

这价位还上不了线程撕裂者,但是可以上x299+10900x或者更好的10980xe等,我记得这板子内存是四通道ddr4还能超4000以上的。如果真能上4通道的4000Mhz频率,估计性能可以超过8通道的2400Mhz水平的服务器主板

15k以上

试试amd线程撕裂者,或者双路服务器主板(霄龙 志强金牌 等系列),这些工作站/服务器配起来直接上8通道内存主板,内存插满128甚至256g,算个几千万不在话下(不过对于小数量网格的感觉就是杀鸡焉用牛刀了)

更新:根据CFD online版主的推荐,线程撕裂者将被四通道内存极大的限制计算速率,一般来说,四通道内存对应的CPU核数不应该超过10-12,超过就可能导致性能浪费,所以不论低价位还是高价位,低价四通道/高价八通道的至强和霄龙系列的cpu都是最优选择,如果兼顾单核高频性能,则推荐x99或者x299主板可使用的酷睿x系列cpu,比如i9 10900x,该系列主板支持四通道内存,受内存瓶颈影响较小,但是仍然不建议买超过12核心以上的CPU

其他的一些建议和冷知识

1.对于一定数量网格的case,开并行数越多,提升效果越小,举例来说开1,2,4,6,8并行的效率可能是单核的1.0,1.9,3.5,5.0,6.0倍(实际受到本机内存带宽影响),如果触发到本机的内存瓶颈,那再多核数也几乎带来不了什么影响,一般建议网格/核心数的值在10-30w左右,对于一般的小数量网格case,核心频率(单核心性能)比多核性能更重要,大数量网格情况则相反

2.如果电脑还有别的工作要做,并行线程不要开满,至少留一个,不然电脑卡成ppt,现在cpu基本全是超线程,开满和开满-1基本上没有什么影响

测试一下午得出的一些结论

3.不要用到超线程算fluent,最佳并行数甚至可能小于核心数

4.当迭代次数很快时(1s达到10步),IO成为瓶颈之一,report间隔放大,速度最快能提升百分之几百

2022.5.24补一个自用i9-10900x的测试

配置10900x,4通道ddr4 4000MHz 8g内存,cpuz多核跑分5891,对比e5-2680v2,4通道 ddr3 1866MHz内存,cpuz多核3934。

结果,10900x cpu性能是至强的1.497倍,内存性能理论上是2.14倍,20线程运行fluent 170w网格case,计算速度是1.665倍。可知,2680v2仍然受到内存瓶颈的限制,否则计算速度的提升应该不会高于cpu多核性能的提升,但对于10900x,有可能触及了cpu瓶颈,毕竟10900x除了四通道之外在当下并不算一个优秀的cpu


免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删
相关文章
QR Code
微信扫一扫,欢迎咨询~

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 155-2731-8020
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

手机不正确

公司不为空