<html><head><meta http-equiv="Content-Type" content="text/html charset=us-ascii"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">Hey all,<div class=""><br class=""></div><div class="">I have an odd behaviour of how threads are divided between OMP and MPI for gromacs 2017 git master (25.08.).</div><div class=""><br class=""></div><div class="">Following setup: CentOS 7, 2x8core Xeon <b class="">v4</b>, HT enabled, <b class="">1x1080</b> GPU and compiling with gcc 4.8.5, -DGMX_GPU=ON, hwloc installed</div><div class=""><br class=""></div><div class="">If I run something CPU only with -nb cpu , it picks 1 MPI x 32 OMP threads and I get the following fatal error:</div><div class=""><br class=""></div><div class=""><div class=""><font face="Roboto-Regular" size="1" class="">Fatal error:</font></div><div class=""><font face="Roboto-Regular" size="1" class="">Your choice of 1 MPI rank and the use of 32 total threads leads to the use of</font></div><div class=""><font face="Roboto-Regular" size="1" class="">32 OpenMP threads, whereas we expect the optimum to be with more MPI ranks</font></div><div class=""><font face="Roboto-Regular" size="1" class="">with 1 to 6 OpenMP threads. If you want to run with this many OpenMP threads,</font></div><div class=""><font face="Roboto-Regular" size="1" class="">specify the -ntomp option. But we suggest to increase the number of MPI ranks</font></div><div class=""><font face="Roboto-Regular" size="1" class="">(option -ntmpi).</font></div></div><div class=""><br class=""></div><div class="">If I run the same system with CPU+GPU, it picks 1 MPI x 32 OMP threads and works.</div><div class=""><br class=""></div><div class="">If I do the exact same on a 2x8 core Xeon <b class="">v3</b>, HT enabled, <b class="">2xTitanX</b> GPU, also compiling with -DGMX_GPU=ON. Running this with or without -nb cpu gives 8 MPI x 4 OMP and works. No errors.</div><div class=""><br class=""></div><div class="">Compiling gromacs with -DGMX_GPU=OFF gives for both machines 32 MPI x 1 OMP threads and is working.</div><div class=""><br class=""></div><div class="">Does anyone have a clue what causes the different behaviour on the 2 machines? Is it single vs. dual gpu? And moreover why do I get that fatal error? And why is there a different MPI/OMP configuration depending on compiling with or without gpu support, but in both cases running on cpu only?</div><div class=""><br class=""></div><div class="">I did not file a bug report on redmine, but could also do. Any hints appreciated!</div><div class=""><br class=""></div><div class=""><br class=""></div><div class="">cheers, Johannes</div></body></html>