<div dir="ltr"><div><div>This issue appears to not be a GROMACS problem so much as a problem with &quot;huge pages&quot; that is</div><div>triggered by PME tuning. PME tuning creates a large data structure for every cutoff that it tries, which</div><div>is replicated on each PME node. These data structures are not freed during tuning, so memory usage</div><div>expands. Normally it is still too small to cause problems. With huge pages, however, I get errors from<br></div><div>&quot;libhugetlbfs&quot; and very slow runs if more than about five cutoffs are attempted.</div><div><br></div><div>Sample output on NERSC Cori KNL with 32 nodes. Input system size is 248,101 atoms.<br></div><div><br></div><div>step 0<br>step 100, remaining wall clock time:    24 s<br>step  140: timed with pme grid 128 128 128, coulomb cutoff 1.200: 66.2 M-cycles<br>step  210: timed with pme grid 112 112 112, coulomb cutoff 1.336: 69.6 M-cycles<br>step  280: timed with pme grid 100 100 100, coulomb cutoff 1.496: 63.6 M-cycles<br>step  350: timed with pme grid 84 84 84, coulomb cutoff 1.781: 85.9 M-cycles<br>step  420: timed with pme grid 96 96 96, coulomb cutoff 1.559: 68.8 M-cycles<br>step  490: timed with pme grid 100 100 100, coulomb cutoff 1.496: 68.3 M-cycles<br>libhugetlbfs [nid08887:140420]: WARNING: New heap segment map at 0x10001200000 failed: Cannot allocate memory<br>libhugetlbfs [nid08881:97968]: WARNING: New heap segment map at 0x10001200000 failed: Cannot allocate memory<br>libhugetlbfs [nid08881:97978]: WARNING: New heap segment map at 0x10001200000 failed: Cannot allocate memory<br></div><div><br></div><div>Szilárd, to answer to your questions: This is the verlet scheme. The problem happens during tuning, and</div><div>no problems occur if -notunepme is used. In fact, the best performance thus far has been with 50% PME</div><div>nodes, using huge pages, and &#39;-notunepme&#39;.<br></div></div><div><div><div><div><div><div class="gmail_extra"><br></div><div class="gmail_extra"><br></div><div class="gmail_extra">John</div><div class="gmail_extra"><br></div><div class="gmail_extra"><div class="gmail_quote">On Wed, Sep 13, 2017 at 6:20 AM, Szilárd Páll <span dir="ltr">&lt;<a href="mailto:pall.szilard@gmail.com" target="_blank">pall.szilard@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Forking the discussion as now we&#39;ve learned more about the issue Åke<br>
is reporting and it is quiterather dissimilar.<br>
<br>
On Mon, Sep 11, 2017 at 8:09 PM, John Eblen &lt;<a href="mailto:jeblen@acm.org" target="_blank">jeblen@acm.org</a>&gt; wrote:<br>
&gt; Hi Szilárd<br>
&gt;<br>
&gt; No, I&#39;m not using the group scheme.<br>
<br>
 $ grep -i &#39;cutoff-scheme&#39; md.log<br>
   cutoff-scheme                  = Verlet<br>
<br>
&gt; The problem seems similar because:<br>
&gt;<br>
&gt; 1) Deadlocks and very slow runs can be hard to distinguish.<br>
&gt; 2) Since Mark mentioned it, I assume he believes PME tuning is a possible<br>
&gt;     cause, which is also the cause in my situation.<br>
<br>
Does that mean you tested with &quot;-notunepme&quot; and the excessive memory<br>
usage could not be reproduced? Did the memory usage increase only<br>
during the tuning or did it keep increasing after the tuning<br>
completed?<br>
<br>
&gt; 3) Åke may be experiencing higher-than-normal memory usage as far as I know.<br>
&gt;     Not sure how you know otherwise.<br>
&gt; 4) By &quot;successful,&quot; I assume you mean the tuning had completed. That doesn&#39;t<br>
&gt;     mean, though, that the tuning could not be creating conditions that<br>
&gt; causes the<br>
&gt;     problem, like an excessively high cutoff.<br>
<br>
Sure. However, it&#39;s unlikely that the tuning creates conditions under<br>
which the run proceeds after the after the initial tuning phase and<br>
keeps allocating memory (which is more prone to be the source of<br>
issues).<br>
<br>
I suggest to first rule our the bug I linked and if that&#39;s not the<br>
culprit, we can have a closer look.<br>
<br>
Cheers,<br>
--<br>
Szilárd<br>
<br>
&gt;<br>
&gt;<br>
&gt; John<br>
&gt;<br>
&gt; On Mon, Sep 11, 2017 at 1:09 PM, Szilárd Páll &lt;<a href="mailto:pall.szilard@gmail.com" target="_blank">pall.szilard@gmail.com</a>&gt;<br>
&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt; John,<br>
&gt;&gt;<br>
&gt;&gt; In what way do you think your problem is similar? Åke seems to be<br>
&gt;&gt; experiencing a deadlock after successful PME tuning, much later during<br>
&gt;&gt; the run, but no excessive memory usage.<br>
&gt;&gt;<br>
&gt;&gt; Do you happen to be using the group scheme with 2016.x (release code)?<br>
&gt;&gt;<br>
&gt;&gt; Your issue sounds more like it could be related to the the excessive<br>
&gt;&gt; tuning bug with group scheme fixed quite a few months ago, but it&#39;s<br>
&gt;&gt; yet to be released (<a href="https://redmine.gromacs.org/issues/2200" rel="noreferrer" target="_blank">https://redmine.gromacs.org/i<wbr>ssues/2200</a>).<br>
&gt;&gt;<br>
&gt;&gt; Cheers,<br>
&gt;&gt; --<br>
&gt;&gt; Szilárd<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; On Mon, Sep 11, 2017 at 6:50 PM, John Eblen &lt;<a href="mailto:jeblen@acm.org" target="_blank">jeblen@acm.org</a>&gt; wrote:<br>
&gt;&gt; &gt; Hi<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; I&#39;m having a similar problem that is related to PME tuning. When it is<br>
&gt;&gt; &gt; enabled, GROMACS often, but not<br>
&gt;&gt; &gt; always, slows to a crawl and uses excessive amounts of memory. Using<br>
&gt;&gt; &gt; &quot;huge<br>
&gt;&gt; &gt; pages&quot; and setting a high<br>
&gt;&gt; &gt; number of PME processes seems to exacerbate the problem.<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; Also, occurrences of this problem seem to correlate with how high the<br>
&gt;&gt; &gt; tuning<br>
&gt;&gt; &gt; raises the cutoff value.<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; Mark, can you give us more information on the problems with PME tuning?<br>
&gt;&gt; &gt; Is<br>
&gt;&gt; &gt; there a redmine?<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; Thanks<br>
&gt;&gt; &gt; John<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; On Mon, Sep 11, 2017 at 10:53 AM, Mark Abraham<br>
&gt;&gt; &gt; &lt;<a href="mailto:mark.j.abraham@gmail.com" target="_blank">mark.j.abraham@gmail.com</a>&gt;<br>
&gt;&gt; &gt; wrote:<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; Hi,<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; Thanks. Was PME tuning active? Does it reproduce if that is disabled?<br>
&gt;&gt; &gt;&gt; Is<br>
&gt;&gt; &gt;&gt; the PME tuning still active? How many steps have taken place (at least<br>
&gt;&gt; &gt;&gt; as<br>
&gt;&gt; &gt;&gt; reported in the log file but ideally from processes)?<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; Mark<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; On Mon, Sep 11, 2017 at 4:42 PM Åke Sandgren<br>
&gt;&gt; &gt;&gt; &lt;<a href="mailto:ake.sandgren@hpc2n.umu.se" target="_blank">ake.sandgren@hpc2n.umu.se</a>&gt;<br>
&gt;&gt; &gt;&gt; wrote:<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; My debugger run finally got to the lockup.<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; All processes are waiting on various MPI operations.<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; Attached a stack dump of all 56 tasks.<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; I&#39;ll keep the debug session running for a while in case anyone wants<br>
&gt;&gt; &gt;&gt;&gt; some more detailed data.<br>
&gt;&gt; &gt;&gt;&gt; This is a RelwithDeb build though so not everything is available.<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; On 09/08/2017 11:28 AM, Berk Hess wrote:<br>
&gt;&gt; &gt;&gt;&gt; &gt; But you should be able to get some (limited) information by<br>
&gt;&gt; &gt;&gt;&gt; &gt; attaching a<br>
&gt;&gt; &gt;&gt;&gt; &gt; debugger to an aldready running process with a release build.<br>
&gt;&gt; &gt;&gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt;&gt; &gt; If you plan on compiling and running a new case, use a release +<br>
&gt;&gt; &gt;&gt;&gt; &gt; debug<br>
&gt;&gt; &gt;&gt;&gt; &gt; symbols build. That should run as fast as a release build.<br>
&gt;&gt; &gt;&gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt;&gt; &gt; Cheers,<br>
&gt;&gt; &gt;&gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt;&gt; &gt; Berk<br>
&gt;&gt; &gt;&gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt;&gt; &gt; On 2017-09-08 11:23, Åke Sandgren wrote:<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; We have, at least, one case that when run over 2 nodes, or more,<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; quite<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; often (always) hangs, i.e. no more output in md.log or otherwise<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; while<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; mdrun still consumes cpu time. It takes a random time before it<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; happens,<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; like 1-3 days.<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; The case can be shared if someone else wants to investigate. I&#39;m<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; planning to run it in the debugger to be able to break and look at<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; states when it happens, but since it takes so long with the<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; production<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; build it is not something i&#39;m looking forward to.<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt; On 09/08/2017 11:13 AM, Berk Hess wrote:<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;&gt; Hi,<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;&gt; We are far behind schedule for the 2017 release. We are working<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;&gt; hard<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;&gt; on<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;&gt; it, but I don&#39;t think we can promise a date yet.<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;&gt; We have a 2016.4 release planned for this week (might slip to next<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;&gt; week). But if you can give us enough details to track down your<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;&gt; hanging<br>
&gt;&gt; &gt;&gt;&gt; &gt;&gt;&gt; issue, we might be able to fix it in 2016.4.<br>
&gt;&gt; &gt;&gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; --<br>
&gt;&gt; &gt;&gt;&gt; Ake Sandgren, HPC2N, Umea University, S-90187 Umea, Sweden<br>
&gt;&gt; &gt;&gt;&gt; Internet: <a href="mailto:ake@hpc2n.umu.se" target="_blank">ake@hpc2n.umu.se</a>   Phone: <a href="tel:%2B46%2090%207866134" value="+46907866134" target="_blank">+46 90 7866134</a> Fax: <a href="tel:%2B46%2090-580%2014" value="+469058014" target="_blank">+46 90-580 14</a><br>
&gt;&gt; &gt;&gt;&gt; Mobile: <a href="tel:%2B46%2070%207716134" value="+46707716134" target="_blank">+46 70 7716134</a> WWW: <a href="http://www.hpc2n.umu.se" rel="noreferrer" target="_blank">http://www.hpc2n.umu.se</a><br>
&gt;&gt; &gt;&gt;&gt; --<br>
&gt;&gt; &gt;&gt;&gt; Gromacs Developers mailing list<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; * Please search the archive at<br>
&gt;&gt; &gt;&gt;&gt; <a href="http://www.gromacs.org/Support/Mailing_Lists/GMX-developers_List" rel="noreferrer" target="_blank">http://www.gromacs.org/Support<wbr>/Mailing_Lists/GMX-developers_<wbr>List</a><br>
&gt;&gt; &gt;&gt;&gt; before<br>
&gt;&gt; &gt;&gt;&gt; posting!<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; * Can&#39;t post? Read <a href="http://www.gromacs.org/Support/Mailing_Lists" rel="noreferrer" target="_blank">http://www.gromacs.org/Support<wbr>/Mailing_Lists</a><br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; * For (un)subscribe requests visit<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; <a href="https://maillist.sys.kth.se/mailman/listinfo/gromacs.org_gmx-developers" rel="noreferrer" target="_blank">https://maillist.sys.kth.se/ma<wbr>ilman/listinfo/gromacs.org_gmx<wbr>-developers</a><br>
&gt;&gt; &gt;&gt;&gt; or send a mail to <a href="mailto:gmx-developers-request@gromacs.org" target="_blank">gmx-developers-request@gromacs<wbr>.org</a>.<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; --<br>
&gt;&gt; &gt;&gt; Gromacs Developers mailing list<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; * Please search the archive at<br>
&gt;&gt; &gt;&gt; <a href="http://www.gromacs.org/Support/Mailing_Lists/GMX-developers_List" rel="noreferrer" target="_blank">http://www.gromacs.org/Support<wbr>/Mailing_Lists/GMX-developers_<wbr>List</a> before<br>
&gt;&gt; &gt;&gt; posting!<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; * Can&#39;t post? Read <a href="http://www.gromacs.org/Support/Mailing_Lists" rel="noreferrer" target="_blank">http://www.gromacs.org/Support<wbr>/Mailing_Lists</a><br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; * For (un)subscribe requests visit<br>
&gt;&gt; &gt;&gt; <a href="https://maillist.sys.kth.se/mailman/listinfo/gromacs.org_gmx-developers" rel="noreferrer" target="_blank">https://maillist.sys.kth.se/ma<wbr>ilman/listinfo/gromacs.org_gmx<wbr>-developers</a><br>
&gt;&gt; &gt;&gt; or<br>
&gt;&gt; &gt;&gt; send a mail to <a href="mailto:gmx-developers-request@gromacs.org" target="_blank">gmx-developers-request@gromacs<wbr>.org</a>.<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; --<br>
&gt;&gt; &gt; Gromacs Developers mailing list<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; * Please search the archive at<br>
&gt;&gt; &gt; <a href="http://www.gromacs.org/Support/Mailing_Lists/GMX-developers_List" rel="noreferrer" target="_blank">http://www.gromacs.org/Support<wbr>/Mailing_Lists/GMX-developers_<wbr>List</a> before<br>
&gt;&gt; &gt; posting!<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; * Can&#39;t post? Read <a href="http://www.gromacs.org/Support/Mailing_Lists" rel="noreferrer" target="_blank">http://www.gromacs.org/Support<wbr>/Mailing_Lists</a><br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; * For (un)subscribe requests visit<br>
&gt;&gt; &gt; <a href="https://maillist.sys.kth.se/mailman/listinfo/gromacs.org_gmx-developers" rel="noreferrer" target="_blank">https://maillist.sys.kth.se/ma<wbr>ilman/listinfo/gromacs.org_gmx<wbr>-developers</a><br>
&gt;&gt; &gt; or<br>
&gt;&gt; &gt; send a mail to <a href="mailto:gmx-developers-request@gromacs.org" target="_blank">gmx-developers-request@gromacs<wbr>.org</a>.<br>
&gt;&gt; --<br>
&gt;&gt; Gromacs Developers mailing list<br>
&gt;&gt;<br>
&gt;&gt; * Please search the archive at<br>
&gt;&gt; <a href="http://www.gromacs.org/Support/Mailing_Lists/GMX-developers_List" rel="noreferrer" target="_blank">http://www.gromacs.org/Support<wbr>/Mailing_Lists/GMX-developers_<wbr>List</a> before<br>
&gt;&gt; posting!<br>
&gt;&gt;<br>
&gt;&gt; * Can&#39;t post? Read <a href="http://www.gromacs.org/Support/Mailing_Lists" rel="noreferrer" target="_blank">http://www.gromacs.org/Support<wbr>/Mailing_Lists</a><br>
&gt;&gt;<br>
&gt;&gt; * For (un)subscribe requests visit<br>
&gt;&gt; <a href="https://maillist.sys.kth.se/mailman/listinfo/gromacs.org_gmx-developers" rel="noreferrer" target="_blank">https://maillist.sys.kth.se/ma<wbr>ilman/listinfo/gromacs.org_gmx<wbr>-developers</a> or<br>
&gt;&gt; send a mail to <a href="mailto:gmx-developers-request@gromacs.org" target="_blank">gmx-developers-request@gromacs<wbr>.org</a>.<br>
&gt;<br>
&gt;<br>
<span class="gmail-m_7075310555345551884m_7161326610723356472HOEnZb"><font color="#888888">&gt;<br>
&gt; --<br>
&gt; Gromacs Developers mailing list<br>
&gt;<br>
&gt; * Please search the archive at<br>
&gt; <a href="http://www.gromacs.org/Support/Mailing_Lists/GMX-developers_List" rel="noreferrer" target="_blank">http://www.gromacs.org/Support<wbr>/Mailing_Lists/GMX-developers_<wbr>List</a> before<br>
&gt; posting!<br>
&gt;<br>
&gt; * Can&#39;t post? Read <a href="http://www.gromacs.org/Support/Mailing_Lists" rel="noreferrer" target="_blank">http://www.gromacs.org/Support<wbr>/Mailing_Lists</a><br>
&gt;<br>
&gt; * For (un)subscribe requests visit<br>
&gt; <a href="https://maillist.sys.kth.se/mailman/listinfo/gromacs.org_gmx-developers" rel="noreferrer" target="_blank">https://maillist.sys.kth.se/ma<wbr>ilman/listinfo/gromacs.org_gmx<wbr>-developers</a> or<br>
&gt; send a mail to <a href="mailto:gmx-developers-request@gromacs.org" target="_blank">gmx-developers-request@gromacs<wbr>.org</a>.<br>
</font></span></blockquote></div><br></div></div></div></div></div></div></div>