<html>
<head>
<style>
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
FONT-SIZE: 10pt;
FONT-FAMILY:Tahoma
}
</style>
</head>
<body class='hmmessage'><div style="text-align: left;">Hi,<br><br>Putting<br>#define DEBUG<br>at the beginning of src/gmxlib/smalloc.c will print all mallocs/reallocs of more than 1MB<br>including where they are allocated.<br><br>If the blocks causing the leaks are large this will do it.<br>Otherwise you will have to decrease the size limit for printing.<br><br>Berk<br></div><br><br><br><hr id="stopSpelling">&gt; Date: Wed, 1 Oct 2008 14:41:17 +0200<br>&gt; From: spoel@xray.bmc.uu.se<br>&gt; To: gmx-users@gromacs.org<br>&gt; Subject: Re: [gmx-users] Possible bug in parallelization, PME or        load-balancing        on Gromacs 4.0_rc1 ??<br>&gt; <br>&gt; Berk Hess wrote:<br>&gt; &gt; <br>&gt; &gt; Hi,<br>&gt; &gt; <br>&gt; &gt; Your PME nodes seem to be running one order of magnitude slower than <br>&gt; &gt; they should.<br>&gt; &gt; This could be explained by a memory usage problem, which is indicated by <br>&gt; &gt; the out<br>&gt; &gt; of memory error.<br>&gt; &gt; <br>&gt; &gt; I am running systems on 8 cores for 24 hours and the memory usage stays <br>&gt; &gt; constant<br>&gt; &gt; after the first few steps.<br>&gt; &gt; I have no clue what the problem could be.<br>&gt; &gt; I am also looking into a dynamic load balancing problem which only seems <br>&gt; &gt; to happen<br>&gt; &gt; on the Cray XT4 and for which I, up till now, also have no clue what <br>&gt; &gt; could cause this.<br>&gt; <br>&gt; Actually I have experienced similar things. I'm now running a 4000 atom <br>&gt; system on 8 cores in a single node, and each core has 425 Mb allocated <br>&gt; after 30 minutes. The resident memory (RSS according to top) is only 12 <br>&gt; Mb which looks much more reasonable. Is there an easy way to test for <br>&gt; memory leaks?<br>&gt; <br>&gt; &gt; <br>&gt; &gt; What compiler (and version) are your using?<br>&gt; &gt; <br>&gt; &gt; Berk<br>&gt; &gt; <br>&gt; &gt; <br>&gt; &gt;  &gt; Date: Tue, 30 Sep 2008 18:22:44 +0200<br>&gt; &gt;  &gt; From: st01397@student.uib.no<br>&gt; &gt;  &gt; To: gmx-users@gromacs.org<br>&gt; &gt;  &gt; Subject: RE: [gmx-users] Possible bug in parallelization, PME or <br>&gt; &gt; load-balancing on Gromacs 4.0_rc1 ??<br>&gt; &gt;  &gt; CC: gmx3@hotmail.com<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; I have some (hopefully) clarifying commments to my previous post now:<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; First to answer your question regarding pme.c. My compilation was done<br>&gt; &gt;  &gt; from v. 1.125<br>&gt; &gt;  &gt; ------------<br>&gt; &gt;  &gt; Line 1037-<br>&gt; &gt;  &gt; if ((kx&gt;0) || (ky&gt;0)) {<br>&gt; &gt;  &gt; kzstart = 0;<br>&gt; &gt;  &gt; } else {<br>&gt; &gt;  &gt; kzstart = 1;<br>&gt; &gt;  &gt; p0++;<br>&gt; &gt;  &gt; }<br>&gt; &gt;  &gt; ------<br>&gt; &gt;  &gt; As you can see the p0++; line is there.<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; Now here are some additional points:<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; On Mon, 29 Sep 2008, Bjørn Steen Sæthre wrote:<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; &gt; The only Error message I can find is the rather cryptic::<br>&gt; &gt;  &gt; &gt;<br>&gt; &gt;  &gt; &gt; NOTE: Turning on dynamic load balancing<br>&gt; &gt;  &gt; &gt;<br>&gt; &gt;  &gt; &gt; _pmii_daemon(SIGCHLD): PE 4 exit signal Killed<br>&gt; &gt;  &gt; &gt; [NID 1412]Apid 159787: initiated application termination<br>&gt; &gt;  &gt; &gt;<br>&gt; &gt;  &gt; &gt; There are no error's apart from that.<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; &gt; Furthermore I can now report that this error is endemic in all my sims<br>&gt; &gt;  &gt; &gt; using harmonic position restraints in GROMACS 4.0_beta1 and GMX<br>&gt; &gt;  &gt; &gt; 4.0_rc1.<br>&gt; &gt;  &gt; &gt;<br>&gt; &gt;  &gt; &gt; About core dumps. I will talk to our HPC staff, and get back to you <br>&gt; &gt; with<br>&gt; &gt;  &gt; &gt; something more substantial I hope.<br>&gt; &gt;  &gt; &gt;&gt;<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; OK, I have gotten some info from our HPC staff, they checked another <br>&gt; &gt; job of<br>&gt; &gt;  &gt; mine which crashed in the exact same fashion, with the exact same <br>&gt; &gt; starting<br>&gt; &gt;  &gt; run-topology and node configuration.<br>&gt; &gt;  &gt; They found some more info in the admin's log:<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; &gt; Hi,<br>&gt; &gt;  &gt; &gt; this job got an OOM (out of memory), which is only recorded in the<br>&gt; &gt;  &gt; &gt; system logs, not available directly to users:<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; &gt; [2008-09-29 17:18:18][c11-0c0s1n0]Out of memory: Killed process 8888<br>&gt; &gt;  &gt; &gt; (parmdrun).<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; I can also add that I have been able to stabilize the engine, by <br>&gt; &gt; altering the<br>&gt; &gt;  &gt; cut-offs and lowering the total PME-load of the run, at the expense <br>&gt; &gt; of far<br>&gt; &gt;  &gt; greater computational inefficiency.<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; That is I went from unstable &lt; to stable &gt; as in the following diff on<br>&gt; &gt;  &gt; the mdp-files:<br>&gt; &gt;  &gt; -----------------------------<br>&gt; &gt;  &gt; 21c21<br>&gt; &gt;  &gt; &lt; rlist = 0.9<br>&gt; &gt;  &gt; ---<br>&gt; &gt;  &gt; &gt; rlist = 1.0<br>&gt; &gt;  &gt; 24c24<br>&gt; &gt;  &gt; &lt; rcoulomb = 0.9<br>&gt; &gt;  &gt; ---<br>&gt; &gt;  &gt; &gt; rcoulomb = 1.0<br>&gt; &gt;  &gt; 26c26<br>&gt; &gt;  &gt; &lt; rvdw = 0.9<br>&gt; &gt;  &gt; ---<br>&gt; &gt;  &gt; &gt; rvdw = 1.0<br>&gt; &gt;  &gt; 28,30c28,31<br>&gt; &gt;  &gt; &lt; fourier_nx = 60<br>&gt; &gt;  &gt; &lt; fourier_ny = 40<br>&gt; &gt;  &gt; &lt; fourier_nz = 40<br>&gt; &gt;  &gt; ---<br>&gt; &gt;  &gt; &gt; fourier_nx = 48<br>&gt; &gt;  &gt; &gt; fourier_ny = 32<br>&gt; &gt;  &gt; &gt; fourier_nz = 32<br>&gt; &gt;  &gt; 35c36<br>&gt; &gt;  &gt; ------------------------------<br>&gt; &gt;  &gt; That is, the PME-workload went from 1/2 of nodes to 1/3 of them since <br>&gt; &gt; I was<br>&gt; &gt;  &gt; using exactly the same startup configuration ---------------------<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; This however, while enhancing stability, the output rate slowed down<br>&gt; &gt;  &gt; appreciably. And as shown in the log output, the reason is clear:<br>&gt; &gt;  &gt; ------------------------------------------------------------<br>&gt; &gt;  &gt; Making 2D domain decomposition 8 x 4 x 1<br>&gt; &gt;  &gt; starting mdrun 'Propane-hydrate prism (2x2x3 UC)'<br>&gt; &gt;  &gt; 2000000 steps, 4000.0 ps.<br>&gt; &gt;  &gt; Step 726095: Run time exceeded 3.960 hours, will terminate the run<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; Step 726100: Run time exceeded 3.960 hours, will terminate the run<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; Average load imbalance: 26.7 %<br>&gt; &gt;  &gt; Part of the total run time spent waiting due to load imbalance: 1.5 %<br>&gt; &gt;  &gt; Average PME mesh/force load: 9.369<br>&gt; &gt;  &gt; Part of the total run time spent waiting due to PP/PME imbalance: 57.5 %<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; NOTE: 57.5 % performance was lost because the PME nodes<br>&gt; &gt;  &gt; had more work to do than the PP nodes.<br>&gt; &gt;  &gt; You might want to increase the number of PME nodes<br>&gt; &gt;  &gt; or increase the cut-off and the grid spacing.<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; Parallel run - timing based on wallclock.<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; NODE (s) Real (s) (%)<br>&gt; &gt;  &gt; Time: 5703.000 5703.000 100.0<br>&gt; &gt;  &gt; 1h35:03<br>&gt; &gt;  &gt; (Mnbf/s) (GFlops) (ns/day) (hour/ns)<br>&gt; &gt;  &gt; Performance: 29.593 8.566 60.600 0.396<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; gcq#0: Thanx for Using GROMACS - Have a Nice Day<br>&gt; &gt;  &gt; -----------------------------------------------<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; One thing more is odd here though.<br>&gt; &gt;  &gt; In the startup script I allocated 4 hours, and set -maxh 4:<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; -----------------------------------------------<br>&gt; &gt;  &gt; #PBS -l walltime=4:00:00,mppwidth=48,mppnppn=4<br>&gt; &gt;  &gt; cd /work/bjornss/pmf/structII/hydrate_annealing/heatup_400K_2nd<br>&gt; &gt;  &gt; source $HOME/gmx_latest_290908/bin/GMXRC<br>&gt; &gt;  &gt; aprun -n 48 parmdrun -s topol.tpr -maxh 4 -npme 16<br>&gt; &gt;  &gt; exit $?<br>&gt; &gt;  &gt; -----------------------<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; why the wallclock inconsistency (ie. wallclock is 1:35:03 which does not<br>&gt; &gt;  &gt; correspond to the note of 3.96 hours exceeded.)<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; I hope this is helpful in resolving the issue brought up originally. <br>&gt; &gt; (Might<br>&gt; &gt;  &gt; there be a possible memory leak somewhere?)<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; Regards<br>&gt; &gt;  &gt; Bjørn<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; PhD-student<br>&gt; &gt;  &gt; Insitute of Physics &amp; Tech.- University of Bergen<br>&gt; &gt;  &gt; Allegt. 55,<br>&gt; &gt;  &gt; 5007 Bergen<br>&gt; &gt;  &gt; Norway<br>&gt; &gt;  &gt;<br>&gt; &gt;  &gt; Tel(office): +47 55582869<br>&gt; &gt;  &gt; Cell: +47 99253386<br>&gt; &gt;  &gt; _______________________________________________<br>&gt; &gt;  &gt; gmx-users mailing list gmx-users@gromacs.org<br>&gt; &gt;  &gt; http://www.gromacs.org/mailman/listinfo/gmx-users<br>&gt; &gt;  &gt; Please search the archive at http://www.gromacs.org/search before <br>&gt; &gt; posting!<br>&gt; &gt;  &gt; Please don't post (un)subscribe requests to the list. Use the<br>&gt; &gt;  &gt; www interface or send it to gmx-users-request@gromacs.org.<br>&gt; &gt;  &gt; Can't post? Read http://www.gromacs.org/mailing_lists/users.php<br>&gt; &gt; <br>&gt; &gt; Express yourself instantly with MSN Messenger! MSN Messenger <br>&gt; &gt; &lt;http://clk.atdmt.com/AVE/go/onm00200471ave/direct/01/&gt;<br>&gt; &gt; <br>&gt; &gt; <br>&gt; &gt; ------------------------------------------------------------------------<br>&gt; &gt; <br>&gt; &gt; _______________________________________________<br>&gt; &gt; gmx-users mailing list    gmx-users@gromacs.org<br>&gt; &gt; http://www.gromacs.org/mailman/listinfo/gmx-users<br>&gt; &gt; Please search the archive at http://www.gromacs.org/search before posting!<br>&gt; &gt; Please don't post (un)subscribe requests to the list. Use the <br>&gt; &gt; www interface or send it to gmx-users-request@gromacs.org.<br>&gt; &gt; Can't post? Read http://www.gromacs.org/mailing_lists/users.php<br>&gt; <br>&gt; <br>&gt; -- <br>&gt; David van der Spoel, Ph.D., Professor of Biology<br>&gt; Molec. Biophys. group, Dept. of Cell &amp; Molec. Biol., Uppsala University.<br>&gt; Box 596, 75124 Uppsala, Sweden. Phone:        +46184714205. Fax: +4618511755.<br>&gt; spoel@xray.bmc.uu.se        spoel@gromacs.org   http://folding.bmc.uu.se<br>&gt; _______________________________________________<br>&gt; gmx-users mailing list    gmx-users@gromacs.org<br>&gt; http://www.gromacs.org/mailman/listinfo/gmx-users<br>&gt; Please search the archive at http://www.gromacs.org/search before posting!<br>&gt; Please don't post (un)subscribe requests to the list. Use the <br>&gt; www interface or send it to gmx-users-request@gromacs.org.<br>&gt; Can't post? Read http://www.gromacs.org/mailing_lists/users.php<br><br /><hr />Express yourself instantly with MSN Messenger! <a href='http://clk.atdmt.com/AVE/go/onm00200471ave/direct/01/' target='_new'>MSN Messenger</a></body>
</html>