<p>
        <br>
Hello Berk,
</p>
<p>
        <br>
</p>
<p>
        Thanks for your reply! I want to&nbsp;ask&nbsp;one more question. As the wall time of&nbsp;Wait GPU NB noloc is relatively long&nbsp;while that of Force and Wait&nbsp;GPU NB local is very short,&nbsp;does it means&nbsp;that the communation between&nbsp;a CPU and&nbsp;its nolocal GPUs slows down the running?&nbsp;Or in other words, the force kernel is fast, it's the hardware connecting&nbsp;CPUs&nbsp;and GPUs&nbsp;or&nbsp;their topological structure&nbsp;that restricts the performance?
</p>
<p>
        <br>
</p>
<p>
        Sincerely,
</p>
<p>
        Zhang<br>
&nbsp;
</p>
<blockquote class="ReferenceQuote" style="padding-left: 5px; margin-right: 0px; margin-left: 5px; border-left-color: rgb(182, 182, 182); border-left-width: 2px; border-left-style: solid;" name="replyContent">
        -----原始邮件-----<br>
<b>发件人:</b><span id="rc_from">"Berk Hess" &lt;hess@kth.se&gt;</span><br>
<b>发送时间:</b><span id="rc_senttime">2020-04-14 16:52:51 (星期二)</span><br>
<b>收件人:</b> gmx-developers@gromacs.org<br>
<b>抄送:</b> <br>
<b>主题:</b> Re: [gmx-developers] Which part of runtime cost does "Wait GPU NB nonloc" and "Wait GPU NB local" actually count?<br>
<br>
        <div class="moz-cite-prefix">
                Hi,<br>
<br>
Those timers report the time the CPU is waiting for results to
      arrive from the local and non-local non-bonded calculations on the
      GPU. When the CPU has few or no forces to compute, this wait time
      can be a large part of the total run time.<br>
<br>
Cheers,<br>
<br>
Berk<br>
<br>
On 2020-04-14 10:37 , 张驭洲 wrote:<br>
        </div>
        <blockquote cite="mid:2613d5c7.808f.17177d626f5.Coremail.zhangyuzhou15@mails.ucas.edu.cn" type="cite">
                <p>
                        Hello GROMACS developers,
                </p>
                <p>
                        <br>
                </p>
                <p>
                        I'm using GROMACS 2020.1 on a node with 2 Intel(R) Xeon(R)
        Gold 6142 CPUs and 4 NVIDIA Tesla V100-PCIE-32GB GPUs.
                </p>
                <p>
                        With the command line as follows:
                </p>
                <p>
                        &nbsp;&nbsp;&nbsp; gmx mdrun -s p16.tpr -o p16.trr -c p16_out.gro -e p16.edr
        -g p16.log -pin on -ntmpi 4 -ntomp 6 -nb gpu -bonded gpu -pme
        gpu -npme 1
                </p>
                <p>
                        I got the following performance results:
                </p>
                <p>
                        <br>
                </p>
                <p>
                        &nbsp;&nbsp;&nbsp;&nbsp; R E A L&nbsp;&nbsp; C Y C L E&nbsp;&nbsp; A N D&nbsp;&nbsp; T I M E&nbsp;&nbsp; A C C O U N T I N
        G
                </p>
                <p>
                        On 3 MPI ranks doing PP, each using 6 OpenMP threads, and<br>
on 1 MPI rank doing PME, using 6 OpenMP threads
                </p>
                <p>
                        &nbsp;Computing:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Num&nbsp;&nbsp; Num&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Call&nbsp;&nbsp;&nbsp; Wall time&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        Giga-Cycles<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Ranks Threads&nbsp; Count&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (s)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; total
        sum&nbsp;&nbsp;&nbsp; %<br>
-----------------------------------------------------------------------------<br>
&nbsp;Domain decomp.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 15.290&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        715.584&nbsp;&nbsp; 6.4<br>
&nbsp;DD comm. load&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 245&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.008&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        0.377&nbsp;&nbsp; 0.0<br>
&nbsp;DD comm. bounds&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 48&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.003&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        0.151&nbsp;&nbsp; 0.0<br>
&nbsp;Send X to PME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 9.756&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        456.559&nbsp;&nbsp; 4.1<br>
&nbsp;Neighbor search&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 12.184&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        570.190&nbsp;&nbsp; 5.1<br>
&nbsp;Launch GPU ops.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 400002&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 17.929&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        839.075&nbsp;&nbsp; 7.5<br>
&nbsp;Force&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3.912&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        183.082&nbsp;&nbsp; 1.6<br>
&nbsp;Wait + Comm. F&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 40001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 4.229&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        197.913&nbsp;&nbsp; 1.8<br>
&nbsp;PME mesh *&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 16.733&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        261.027&nbsp;&nbsp; 2.3<br>
&nbsp;PME wait for PP *&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 162.467&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        2534.449&nbsp; 22.7<br>
&nbsp;Wait + Recv. PME F&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 18.827&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        881.091&nbsp;&nbsp; 7.9<br>
&nbsp;Wait PME GPU gather&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2.896&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        135.522&nbsp;&nbsp; 1.2<br>
&nbsp;Wait Bonded GPU&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.003&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        0.122&nbsp;&nbsp; 0.0<br>
&nbsp;Wait GPU NB nonloc.&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 15.328&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        717.330&nbsp;&nbsp; 6.4<br>
&nbsp;Wait GPU NB local&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.175&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        8.169&nbsp;&nbsp; 0.1<br>
&nbsp;Wait GPU state copy&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 160000&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 26.204&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        1226.327&nbsp; 11.0<br>
&nbsp;NB X/F buffer ops.&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 798003&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 7.023&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        328.655&nbsp;&nbsp; 2.9<br>
&nbsp;Write traj.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 21&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.182&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        8.540&nbsp;&nbsp; 0.1<br>
&nbsp;Update&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6.685&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        312.856&nbsp;&nbsp; 2.8<br>
&nbsp;Comm. energies&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 40001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6.684&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        312.796&nbsp;&nbsp; 2.8<br>
&nbsp;Rest&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 31.899&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        1492.851&nbsp; 13.3<br>
-----------------------------------------------------------------------------<br>
&nbsp;Total&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 179.216&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        11182.921 100.0<br>
-----------------------------------------------------------------------------<br>
(*) Note that with separate PME ranks, the walltime column
        actually sums to<br>
&nbsp;&nbsp;&nbsp; twice the total reported, but the cycle count total and %
        are correct.<br>
-----------------------------------------------------------------------------
                </p>
                <p>
                        &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Core t (s)&nbsp;&nbsp; Wall t (s)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (%)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Time:&nbsp;&nbsp;&nbsp;&nbsp; 4301.031&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 179.216&nbsp;&nbsp;&nbsp;&nbsp; 2399.9<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (ns/day)&nbsp;&nbsp;&nbsp; (hour/ns)<br>
Performance:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 96.421&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.249
                </p>
                <p>
                        <br>
                </p>
                <p>
                        Using two nodes and the following command:
                </p>
                <p>
                        &nbsp; gmx_mpi mdrun -s p16.tpr -o p16.trr -c p16_out.gro -e
        p16.edr -g p16.log -ntomp 6 -nb gpu -bonded gpu -pme gpu -npme 1
                </p>
                <p>
                        I got these results:
                </p>
                <p>
                        <br>
                </p>
                <p>
                        <br>
                </p>
                <p>
                        &nbsp;&nbsp;&nbsp;&nbsp; R E A L&nbsp;&nbsp; C Y C L E&nbsp;&nbsp; A N D&nbsp;&nbsp; T I M E&nbsp;&nbsp; A C C O U N T I N
        G
                </p>
                <p>
                        On 6 MPI ranks doing PP, each using 6 OpenMP threads, and<br>
on 1 MPI rank doing PME, using 6 OpenMP threads
                </p>
                <p>
                        &nbsp;Computing:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Num&nbsp;&nbsp; Num&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Call&nbsp;&nbsp;&nbsp; Wall time&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        Giga-Cycles<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Ranks Threads&nbsp; Count&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (s)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; total
        sum&nbsp;&nbsp;&nbsp; %<br>
-----------------------------------------------------------------------------<br>
&nbsp;Domain decomp.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 8.477&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        793.447&nbsp;&nbsp; 3.7<br>
&nbsp;DD comm. load&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 256&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.005&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        0.449&nbsp;&nbsp; 0.0<br>
&nbsp;DD comm. bounds&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 60&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.002&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        0.216&nbsp;&nbsp; 0.0<br>
&nbsp;Send X to PME&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 32.588&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        3050.168&nbsp; 14.1<br>
&nbsp;Neighbor search&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6.639&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        621.393&nbsp;&nbsp; 2.9<br>
&nbsp;Launch GPU ops.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 400002&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 14.686&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        1374.563&nbsp;&nbsp; 6.4<br>
&nbsp;Comm. coord.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 198000&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 36.691&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        3434.263&nbsp; 15.9<br>
&nbsp;Force&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2.913&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        272.694&nbsp;&nbsp; 1.3<br>
&nbsp;Wait + Comm. F&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 32.024&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        2997.400&nbsp; 13.9<br>
&nbsp;PME mesh *&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 77.479&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        1208.657&nbsp;&nbsp; 5.6<br>
&nbsp;PME wait for PP *&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 119.009&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        1856.517&nbsp;&nbsp; 8.6<br>
&nbsp;Wait + Recv. PME F&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 14.328&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        1341.122&nbsp;&nbsp; 6.2<br>
&nbsp;Wait PME GPU gather&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 11.115&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        1040.397&nbsp;&nbsp; 4.8<br>
&nbsp;Wait Bonded GPU&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.003&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        0.279&nbsp;&nbsp; 0.0<br>
&nbsp;Wait GPU NB nonloc.&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 27.604&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        2583.729&nbsp; 11.9<br>
&nbsp;Wait GPU NB local&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.548&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        51.333&nbsp;&nbsp; 0.2<br>
&nbsp;NB X/F buffer ops.&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 796002&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 11.095&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        1038.515&nbsp;&nbsp; 4.8<br>
&nbsp;Write traj.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 21&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.105&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        9.851&nbsp;&nbsp; 0.0<br>
&nbsp;Update&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp; 200001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3.498&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        327.440&nbsp;&nbsp; 1.5<br>
&nbsp;Comm. energies&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 40001&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2.947&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        275.863&nbsp;&nbsp; 1.3<br>
-----------------------------------------------------------------------------<br>
&nbsp;Total&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 198.094&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        21631.660 100.0<br>
-----------------------------------------------------------------------------<br>
(*) Note that with separate PME ranks, the walltime column
        actually sums to<br>
&nbsp;&nbsp;&nbsp; twice the total reported, but the cycle count total and %
        are correct.<br>
-----------------------------------------------------------------------------
                </p>
                <p>
                        &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Core t (s)&nbsp;&nbsp; Wall t (s)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (%)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Time:&nbsp;&nbsp;&nbsp;&nbsp; 8319.867&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 198.094&nbsp;&nbsp;&nbsp;&nbsp; 4200.0<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (ns/day)&nbsp;&nbsp;&nbsp; (hour/ns)<br>
Performance:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 87.232&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0.275
                </p>
                <p>
                        <br>
                </p>
                <p>
                        I'm curious about the "Wait GPU NB nonloc" and "Wait GPU NB
        local" part, which you can see in both cases, the wall time of
        wait GPU NB local is very short but that of nonloc is pretty
        long, and&nbsp;the wall time of Force in both cases is much shorter
        than that of Wait GPU NB nonloc. Could you please give an
        explanation of the these&nbsp;timing terms? And&nbsp;I'd appreciate it
        very much if&nbsp;you&nbsp;can give some&nbsp;suggestions of reducing the time
        consumption of that waiting!
                </p>
                <p>
                        <br>
                </p>
                <p>
                        Sincerely,
                </p>
                <p>
                        Zhang
                </p>
                <p>
                        <br>
                </p>
                <p>
                        <br>
                </p>
<br>
                <fieldset class="mimeAttachmentHeader">
                </fieldset>
<br>
        </blockquote>
<br>
</blockquote>