<span style="font-family: Arial;">Only OpenMP ALONE can be significantly faster than MPI. This you can, obviously, only do one a single node. On a single node, mixed MPI + OpenMP can also be faster than MPI alone, but probably not on old hardware. But you say you are using two nodes, in which case MPI alone is nearly always fasyer, except at the scaling limit.<br><br>cheers,<br><br>Berk<br><br><br>----- Reply message -----<br>From: &quot;Jochen Hub&quot; &lt;jhub@gwdg.de&gt;<br>To: &quot;Discussion list for GROMACS development&quot; &lt;gmx-developers@gromacs.org&gt;<br>Subject: [gmx-developers] Oversubscribing on 4.62 with MPI / OpenMP<br>Date: Sun, Apr 28, 2013 11:06<br><br></span><br><br><br>Am 4/25/13 2:09 PM, schrieb Berk Hess:<br>&gt; Hi,<br>&gt;<br>&gt; This question is of general use, so it should have been posted to<br>&gt; gmx-users.<br>&gt;<br>&gt; Szilard correctly me that sometimes hybrid parallelization can actually<br>&gt; be faster,<br>&gt; especially with Intel.<br><br>Do you (or does Sziliard) recall on which Intel machines you observed <br>OpenMP threads that are faster than MPI processes? I ask since the <br>OpenMP parallelization was 34% (!) slower on the somewhat outdated <br>Harpertowns that I tested. (see my past post, 100k Atoms on 2 8-core nodes).<br><br>Cheers,<br>Jochen<br><br><br>&gt;<br>&gt; I will make add a table with the possible parallelization combinations<br>&gt; to the acc.+par. page,<br>&gt; with links to a benchmark page, where we put up some comparisons.<br>&gt; To do this, we need the force calculation order patch, currently waiting<br>&gt; in gerrit,<br>&gt; which will improve the performance without PME nodes.<br>&gt;<br>&gt; Cheers,<br>&gt;<br>&gt; Berk<br>&gt;<br>&gt; On 04/25/2013 10:03 AM, Jochen Hub wrote:<br>&gt;&gt; Many thanks, Berk, for clarifying this.<br>&gt;&gt;<br>&gt;&gt; Cheers,<br>&gt;&gt; Jochen<br>&gt;&gt;<br>&gt;&gt; Am 4/25/13 9:52 AM, schrieb hess@kth.se:<br>&gt;&gt;&gt; Hi,<br>&gt;&gt;&gt;<br>&gt;&gt;&gt; It allows for further scaling, when the domain decomposition is limiting<br>&gt;&gt;&gt; the number of MPI ranks.<br>&gt;&gt;&gt; It can be faster, especially on hundreds of cores.<br>&gt;&gt;&gt; We need it with GPUs.<br>&gt;&gt;&gt; OpenMP alone can be significantly faster than MPI alone.<br>&gt;&gt;&gt;<br>&gt;&gt;&gt; Cheers,<br>&gt;&gt;&gt;<br>&gt;&gt;&gt; Berk<br>&gt;&gt;&gt;<br>&gt;&gt;&gt;<br>&gt;&gt;&gt; ----- Reply message -----<br>&gt;&gt;&gt; From: &quot;Erik Marklund&quot; &lt;erikm@xray.bmc.uu.se&gt;<br>&gt;&gt;&gt; To: &quot;Discussion list for GROMACS development&quot;<br>&gt;&gt;&gt; &lt;gmx-developers@gromacs.org&gt;<br>&gt;&gt;&gt; Subject: [gmx-developers] Oversubscribing on 4.62 with MPI / OpenMP<br>&gt;&gt;&gt; Date: Thu, Apr 25, 2013 09:47<br>&gt;&gt;&gt;<br>&gt;&gt;&gt;<br>&gt;&gt;&gt; Hi,<br>&gt;&gt;&gt;<br>&gt;&gt;&gt; Please remind me why we allow for mixed OpenMP+MPI even though it is<br>&gt;&gt;&gt; always slower. It ought to be more complicated to maintain code that<br>&gt;&gt;&gt; allows such mixing.<br>&gt;&gt;&gt;<br>&gt;&gt;&gt; Best,<br>&gt;&gt;&gt; Erik<br>&gt;&gt;&gt;<br>&gt;&gt;&gt; On 25 Apr 2013, at 09:43, &quot;hess@kth.se &lt;mailto:hess@kth.se&gt;&quot;<br>&gt;&gt;&gt; &lt;hess@kth.se &lt;mailto:hess@kth.se&gt;&gt; wrote:<br>&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; Hi<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; Yes, that is expected.<br>&gt;&gt;&gt;&gt; Combined MPI+ OpenMP is always slower than either of the two, except<br>&gt;&gt;&gt;&gt; close to the scaling limit.<br>&gt;&gt;&gt;&gt; Two OpenMP threads give the least overhead, especially with<br>&gt;&gt;&gt;&gt; hyperthreading. Although turning of hyperthreading is then probably<br>&gt;&gt;&gt;&gt; faster.<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; Cheers,<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; Berk<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; ----- Reply message -----<br>&gt;&gt;&gt;&gt; From: &quot;Jochen Hub&quot; &lt;jhub@gwdg.de &lt;mailto:jhub@gwdg.de&gt;&gt;<br>&gt;&gt;&gt;&gt; To: &quot;Discussion list for GROMACS development&quot;<br>&gt;&gt;&gt;&gt; &lt;gmx-developers@gromacs.org &lt;mailto:gmx-developers@gromacs.org&gt;&gt;<br>&gt;&gt;&gt;&gt; Subject: [gmx-developers] Oversubscribing on 4.62 with MPI / OpenMP<br>&gt;&gt;&gt;&gt; Date: Thu, Apr 25, 2013 09:37<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; Am 4/24/13 9:53 PM, schrieb Mark Abraham:<br>&gt;&gt;&gt;&gt; &gt; I suspect -np 2 is not starting a process on each node like I suspect<br>&gt;&gt;&gt;&gt; &gt; you think it should, because all the symptoms are consistent with<br>&gt;&gt;&gt;&gt; that.<br>&gt;&gt;&gt;&gt; &gt; Possibly the Host field in the .log file output is diagnostic here.<br>&gt;&gt;&gt;&gt; &gt; Check how your your MPI configuration works.<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; I fixed the issue with the mpi call. I make sure, that only one MPI<br>&gt;&gt;&gt;&gt; process is started per node (mpiexec -n 2 -npernode=1 or -bynode) . The<br>&gt;&gt;&gt;&gt; oversubscription warning does not appear, so everything seems fine.<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; However, the performance is quite poor with MPI/OpenMP. Example:<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; (100 kAtoms, PME, Verlet, cutoffs at 1nm nstlist=10)<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; 16 MPI processes: 6.8 ns/day<br>&gt;&gt;&gt;&gt; 2 MPI processes, 8 OpenMP threads pre MPI process: 4.46 ns/day<br>&gt;&gt;&gt;&gt; 4 MPI / 4 OpenMP each does not improve things.<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; I use an icc13, and I tried different MPI implementations (Mvapich 1.8,<br>&gt;&gt;&gt;&gt; openmpi 1.33)<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; Is that expected?<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;&gt; Many thanks,<br>&gt;&gt;&gt;&gt; Jochen<br>&gt;&gt;&gt;&gt;<br>&gt;&gt;&gt;<br>&gt;&gt;&gt;<br>&gt;&gt;&gt;<br>&gt;&gt;<br>&gt;<br><br>-- <br>---------------------------------------------------<br>Dr. Jochen Hub<br>Computational Molecular Biophysics Group<br>Institute for Microbiology and Genetics<br>Georg-August-University of Göttingen<br>Justus-von-Liebig-Weg 11, 37077 Göttingen, Germany.<br>Phone: +49-551-39-14189<br>http://cmb.bio.uni-goettingen.de/<br>---------------------------------------------------<br>-- <br>gmx-developers mailing list<br>gmx-developers@gromacs.org<br>http://lists.gromacs.org/mailman/listinfo/gmx-developers<br>Please don&#39;t post (un)subscribe requests to the list. Use the <br>www interface or send it to gmx-developers-request@gromacs.org.<br>