<p>
        Hello GROMACS developers,
</p>
<p>
        <br>
</p>
<p>
        I'm using GROMACS 2020.1 on a node with 2 Intel(R) Xeon(R) Gold 6142 CPUs and 4 NVIDIA Tesla V100-PCIE-32GB GPUs.
</p>
<p>
        With the command line as follows:
</p>
<p>
        &nbsp;&nbsp;&nbsp; gmx mdrun -s p16.tpr -o p16.trr -c p16_out.gro -e p16.edr -g p16.log -pin on -ntmpi 4 -ntomp 6 -nb gpu -bonded gpu -pme gpu -npme 1
</p>
<p>
        I got the following performance results:
</p>
<p>
        </p><p>
                &nbsp;&nbsp;&nbsp;&nbsp; R E A L&nbsp;&nbsp; C Y C L E&nbsp;&nbsp; A N D&nbsp;&nbsp; T I M E&nbsp;&nbsp; A C C O U N T I N G
        </p>
        <p>
                On 3 MPI ranks doing PP, each using 6 OpenMP threads, and<br>
on 1 MPI rank doing PME, using 6 OpenMP threads
        </p>
        <p>
                &nbsp;Computing:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Num&nbsp;&nbsp; Num&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Call&nbsp;&nbsp;&nbsp; Wall time&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Giga-Cycles<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Ranks Threads&nbsp; Count&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (s)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; total sum&nbsp;&nbsp;&nbsp; %<br>
-----------------------------------------------------------------------------<br>
&nbsp;Domain decomp.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 15.290&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 715.584&nbsp;&nbsp; 6.4<br>
&nbsp;DD comm. load&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 245&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.008&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.377&nbsp;&nbsp; 0.0<br>
&nbsp;DD comm. bounds&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 48&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.003&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.151&nbsp;&nbsp; 0.0<br>
&nbsp;Send X to PME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 9.756&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 456.559&nbsp;&nbsp; 4.1<br>
&nbsp;Neighbor search&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 12.184&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 570.190&nbsp;&nbsp; 5.1<br>
&nbsp;Launch GPU ops.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 400002&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 17.929&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 839.075&nbsp;&nbsp; 7.5<br>
&nbsp;Force&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3.912&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 183.082&nbsp;&nbsp; 1.6<br>
&nbsp;Wait + Comm. F&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 40001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 4.229&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 197.913&nbsp;&nbsp; 1.8<br>
&nbsp;PME mesh *&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 16.733&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 261.027&nbsp;&nbsp; 2.3<br>
&nbsp;PME wait for PP *&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 162.467&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2534.449&nbsp; 22.7<br>
&nbsp;Wait + Recv. PME F&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 18.827&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 881.091&nbsp;&nbsp; 7.9<br>
&nbsp;Wait PME GPU gather&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2.896&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 135.522&nbsp;&nbsp; 1.2<br>
&nbsp;Wait Bonded GPU&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.003&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.122&nbsp;&nbsp; 0.0<br>
&nbsp;Wait GPU NB nonloc.&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 15.328&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 717.330&nbsp;&nbsp; 6.4<br>
&nbsp;Wait GPU NB local&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.175&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 8.169&nbsp;&nbsp; 0.1<br>
&nbsp;Wait GPU state copy&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 160000&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 26.204&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1226.327&nbsp; 11.0<br>
&nbsp;NB X/F buffer ops.&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 798003&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 7.023&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 328.655&nbsp;&nbsp; 2.9<br>
&nbsp;Write traj.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 21&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.182&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 8.540&nbsp;&nbsp; 0.1<br>
&nbsp;Update&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6.685&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 312.856&nbsp;&nbsp; 2.8<br>
&nbsp;Comm. energies&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 40001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6.684&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 312.796&nbsp;&nbsp; 2.8<br>
&nbsp;Rest&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 31.899&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1492.851&nbsp; 13.3<br>
-----------------------------------------------------------------------------<br>
&nbsp;Total&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 179.216&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 11182.921 100.0<br>
-----------------------------------------------------------------------------<br>
(*) Note that with separate PME ranks, the walltime column actually sums to<br>
&nbsp;&nbsp;&nbsp; twice the total reported, but the cycle count total and % are correct.<br>
-----------------------------------------------------------------------------
        </p>
        <p>
                &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Core t (s)&nbsp;&nbsp; Wall t (s)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (%)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Time:&nbsp;&nbsp;&nbsp;&nbsp; 4301.031&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 179.216&nbsp;&nbsp;&nbsp;&nbsp; 2399.9<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (ns/day)&nbsp;&nbsp;&nbsp; (hour/ns)<br>
Performance:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 96.421&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.249
        </p>
        <p>
                <br>
        </p>
        <p>
                Using two nodes and the following command:
        </p>
        <p>
                &nbsp; gmx_mpi mdrun -s p16.tpr -o p16.trr -c p16_out.gro -e p16.edr -g p16.log -ntomp 6 -nb gpu -bonded gpu -pme gpu -npme 1
        </p>
        <p>
                I got these results:
        </p>
        <p>
                <br>
        </p>
        <p>
                </p><p>
                        &nbsp;&nbsp;&nbsp;&nbsp; R E A L&nbsp;&nbsp; C Y C L E&nbsp;&nbsp; A N D&nbsp;&nbsp; T I M E&nbsp;&nbsp; A C C O U N T I N G
                </p>
                <p>
                        On 6 MPI ranks doing PP, each using 6 OpenMP threads, and<br>
on 1 MPI rank doing PME, using 6 OpenMP threads
                </p>
                <p>
                        &nbsp;Computing:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Num&nbsp;&nbsp; Num&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Call&nbsp;&nbsp;&nbsp; Wall time&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Giga-Cycles<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Ranks Threads&nbsp; Count&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (s)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; total sum&nbsp;&nbsp;&nbsp; %<br>
-----------------------------------------------------------------------------<br>
&nbsp;Domain decomp.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 8.477&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 793.447&nbsp;&nbsp; 3.7<br>
&nbsp;DD comm. load&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 256&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.005&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.449&nbsp;&nbsp; 0.0<br>
&nbsp;DD comm. bounds&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 60&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.002&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.216&nbsp;&nbsp; 0.0<br>
&nbsp;Send X to PME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 32.588&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3050.168&nbsp; 14.1<br>
&nbsp;Neighbor search&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6.639&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 621.393&nbsp;&nbsp; 2.9<br>
&nbsp;Launch GPU ops.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 400002&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 14.686&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1374.563&nbsp;&nbsp; 6.4<br>
&nbsp;Comm. coord.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 198000&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 36.691&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3434.263&nbsp; 15.9<br>
&nbsp;Force&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2.913&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 272.694&nbsp;&nbsp; 1.3<br>
&nbsp;Wait + Comm. F&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 32.024&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2997.400&nbsp; 13.9<br>
&nbsp;PME mesh *&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 77.479&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1208.657&nbsp;&nbsp; 5.6<br>
&nbsp;PME wait for PP *&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 119.009&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1856.517&nbsp;&nbsp; 8.6<br>
&nbsp;Wait + Recv. PME F&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 14.328&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1341.122&nbsp;&nbsp; 6.2<br>
&nbsp;Wait PME GPU gather&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 11.115&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1040.397&nbsp;&nbsp; 4.8<br>
&nbsp;Wait Bonded GPU&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.003&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.279&nbsp;&nbsp; 0.0<br>
&nbsp;Wait GPU NB nonloc.&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 27.604&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2583.729&nbsp; 11.9<br>
&nbsp;Wait GPU NB local&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.548&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 51.333&nbsp;&nbsp; 0.2<br>
&nbsp;NB X/F buffer ops.&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 796002&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 11.095&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1038.515&nbsp;&nbsp; 4.8<br>
&nbsp;Write traj.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 21&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.105&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 9.851&nbsp;&nbsp; 0.0<br>
&nbsp;Update&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3.498&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 327.440&nbsp;&nbsp; 1.5<br>
&nbsp;Comm. energies&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 40001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2.947&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 275.863&nbsp;&nbsp; 1.3<br>
-----------------------------------------------------------------------------<br>
&nbsp;Total&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 198.094&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 21631.660 100.0<br>
-----------------------------------------------------------------------------<br>
(*) Note that with separate PME ranks, the walltime column actually sums to<br>
&nbsp;&nbsp;&nbsp; twice the total reported, but the cycle count total and % are correct.<br>
-----------------------------------------------------------------------------
                </p>
                <p>
                        &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Core t (s)&nbsp;&nbsp; Wall t (s)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (%)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Time:&nbsp;&nbsp;&nbsp;&nbsp; 8319.867&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 198.094&nbsp;&nbsp;&nbsp;&nbsp; 4200.0<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (ns/day)&nbsp;&nbsp;&nbsp; (hour/ns)<br>
Performance:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 87.232&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.275
                </p>
                <p>
                        <br>
                </p>
                <p>
                        I'm curious about the "Wait GPU NB nonloc" and "Wait GPU NB local" part, which you can see in both cases, the wall time of wait GPU NB local is very short but that of nonloc is pretty long, and&nbsp;the wall time of Force in both cases is much shorter than that of Wait GPU NB nonloc. Could you please give an explanation of the these&nbsp;timing terms? And&nbsp;I'd appreciate it very much if&nbsp;you&nbsp;can give some&nbsp;suggestions of reducing the time consumption of that waiting!
                </p>
                <p>
                        <br>
                </p>
                <p>
                        Sincerely,
                </p>
                <p>
                        Zhang
                </p>
                <p>
                        <br>
                </p>
                <p>
                        <br>
                </p>