<html>
<head>
<style>
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
FONT-SIZE: 10pt;
FONT-FAMILY:Tahoma
}
</style>
</head>
<body class='hmmessage'><div style="text-align: left;">Hi,<br><br>I have to correct myself.<br><br>The PME fix is in the 4.0 rc2 release, but was not in the CVS.<br>Now it is also in CVS.<br><br>So you can try changing the line, or you can download 4.0 rc2.<br><br>Berk<br></div><br><br><hr id="EC_stopSpelling">From: gmx3@hotmail.com<br>To: gmx-users@gromacs.org<br>Subject: RE: [gmx-users] Possible bug in parallelization,        PME or        load-balancing on Gromacs 4.0_rc1 ??<br>Date: Tue, 30 Sep 2008 10:10:15 +0200<br><br>

<meta http-equiv="Content-Type" content="text/html; charset=unicode">
<meta name="Generator" content="Microsoft SafeHTML">
<style>
.ExternalClass .EC_hmmessage P
{padding:0px;}
.ExternalClass body.EC_hmmessage
{font-size:10pt;font-family:Tahoma;}
</style>

<div style="text-align: left;">Hi,<br><br>In 4.0 rc1 there is a bug in PME.<br>Erik mailed that this has been fixed in 4.0 rc2, but actually this is not the case.<br>The fix was in the head branch of CVS, but not in the release tree.<br>I have committed the fix now.<br></div><br>Could you check if the crash is due to this?<br>After line 1040 of src/mdlib/pme.c p0++; has to be added:<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if ((kx&gt;0) || (ky&gt;0)) {<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; kzstart = 0;<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; } else {<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; kzstart = 1;<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; p0++;<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br><br>Berk.<br><br><br><hr id="EC_stopSpelling">&gt; Subject: RE: [gmx-users] Possible bug in parallelization,        PME or        load-balancing on Gromacs 4.0_rc1 ??<br>&gt; From: st01397@student.uib.no<br>&gt; To: gmx-users@gromacs.org<br>&gt; Date: Mon, 29 Sep 2008 19:50:57 +0200<br>&gt; <br>&gt; The only Error message I can find is the rather cryptic::<br>&gt; <br>&gt; NOTE: Turning on dynamic load balancing<br>&gt; <br>&gt; _pmii_daemon(SIGCHLD): PE 4 exit signal Killed<br>&gt; [NID 1412]Apid 159787: initiated application termination<br>&gt; <br>&gt; There are no error's apart from that.<br>&gt; This may not be very helpful, but I googled this particular error and<br>&gt; came up with another massively parallel code: Gadget2, also doing domain<br>&gt; decomposition, and this link:<br>&gt; <br>&gt; http://www.mpa-garching.mpg.de/gadget/gadget-list/0213.html<br>&gt; <br>&gt; Furthermore I can now report that this error is endemic in all my sims<br>&gt; using harmonic position restraints in GROMACS 4.0_beta1 and GMX<br>&gt; 4.0_rc1. <br>&gt; (I have yet to check if it remains an issue without restraints, but I<br>&gt; strongly suspect it does:  I did some earlier sims on a gmx version<br>&gt; downloaded from CVS on 20/08/08 when the DD scheme was just barely<br>&gt; implemented, seeing similar unexplained crashes.) <br>&gt; <br>&gt; I thus have some reasons to think it has to do with the new<br>&gt; domain-decomposition implementation.<br>&gt; <br>&gt; About core dumps. I will talk to our HPC staff, and get back to you with<br>&gt; something more substantial I hope.<br>&gt; I guess I could recompile gmx for the Totalview debugger, and give you<br>&gt; some debugging information from that. Would this be helpful?? <br>&gt; <br>&gt; Would it be helpful to give you diagnostics from  running mdrun<br>&gt; verbosely or with the -debug flag??<br>&gt; <br>&gt; If you think it beneficial I can also provide the config.log.<br>&gt; <br>&gt; My configscript is really quite minimal:<br>&gt; ------------------------<br>&gt; ! /bin/bash<br>&gt; export LDFLAGS="-lsci"<br>&gt; export CFLAGS="-march=barcelona -O3"<br>&gt; <br>&gt; ./configure --prefix=$HOME/gmx_latest_290908 --disable-fortran<br>&gt; --enable-mpi --without-x --without-xml --with-external-lapack<br>&gt; --with-external-blas --program-prefix=par  CC=cc  MPICC=cc<br>&gt; ---------------------------------<br>&gt; <br>&gt; I am using fftw-3.1.1, the gcc-4.2.0 quadcore-edition compiler.<br>&gt; Cray's optimized XT LibSci 10.3.0 blas/lapack routines<br>&gt; and Cray's optimized MPI library (based on MPICH2 I believe)<br>&gt; <br>&gt; I will get back to you with more soon<br>&gt; <br>&gt; Regards and thanks<br>&gt; Bjørn<br>&gt; <br>&gt; &gt; <br>&gt; &gt; <br>&gt; &gt; Can you produce core dump files?<br>&gt; &gt; <br>&gt; &gt; Berk<br>&gt; &gt; <br>&gt; <br>&gt; &gt; &gt; PBS .o: <br>&gt; &gt; &gt; Application 159316 exit codes: 137<br>&gt; &gt; &gt; Application 159316 exit signals: Killed<br>&gt; &gt; &gt; Application 159316 resources: utime 0, stime 0<br>&gt; &gt; &gt; --------------------------------------------------<br>&gt; &gt; &gt; Begin PBS Epilogue hexagon.bccs.uib.no<br>&gt; &gt; &gt; Date: Mon Sep 29 12:32:54 CEST 2008<br>&gt; &gt; &gt; Job ID: 65643.nid00003<br>&gt; &gt; &gt; Username: bjornss<br>&gt; &gt; &gt; Group: bjornss<br>&gt; &gt; &gt; Job Name: pmf_hydanneal_heatup_400K<br>&gt; &gt; &gt; Session: 10156<br>&gt; &gt; &gt; Limits: walltime=05:00:00<br>&gt; &gt; &gt; Resources:<br>&gt; &gt; &gt; cput=00:00:00,mem=4940kb,vmem=22144kb,walltime=00:20:31<br>&gt; &gt; &gt; Queue: batch<br>&gt; &gt; &gt; Account: fysisk<br>&gt; &gt; &gt; Base login-node: login5<br>&gt; &gt; &gt; End PBS Epilogue Mon Sep 29 12:32:54 CEST 2008<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; PBS .err:<br>&gt; &gt; &gt; _pmii_daemon(SIGCHLD): PE 0 exit signal Killed<br>&gt; &gt; &gt; [NID 702]Apid 159316: initiated application termination.<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; As proper electrostatics is crucial to my modeling I am using PME<br>&gt; &gt; which<br>&gt; &gt; &gt; comprises a large part of my calculation cost: 35-50%<br>&gt; &gt; &gt; In the most extreme case, I use the following startup-script<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; run.pbs:<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; #!/bin/bash<br>&gt; &gt; &gt; #PBS -A fysisk<br>&gt; &gt; &gt; #PBS -N pmf_hydanneal_heatup_400K<br>&gt; &gt; &gt; #PBS -o pmf_hydanneal.o<br>&gt; &gt; &gt; #PBS -e pmf.hydanneal.err<br>&gt; &gt; &gt; #PBS -l walltime=5:00:00,mppwidth=40,mppnppn=4<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; cd /work/bjornss/pmf/structII/hydrate_annealing/heatup_400K<br>&gt; &gt; &gt; source $HOME/gmx_latest_290908/bin/GMXRC<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; aprun -n 40 parmdrun -s topol.tpr -maxh 5 -npme 20<br>&gt; &gt; &gt; exit $?<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; <br>&gt; &gt; &gt; Now, apart from a significant reduction in the system dipole moment,<br>&gt; &gt; &gt; there are no large changes in the system, nor significant<br>&gt; &gt; translations<br>&gt; &gt; &gt; of the molecules in the box.<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; I enclose the md.log and my parameter file. The run-topology<br>&gt; &gt; (topol.tpr)<br>&gt; &gt; &gt; can be found at:<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; http:/drop.io/mdanneal<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; if anyone wants to try and replicate the crash on their local<br>&gt; &gt; cluster,<br>&gt; &gt; &gt; they are welcome.<br>&gt; &gt; &gt; If after such trials are attempted the error persists, I am willing<br>&gt; &gt; to<br>&gt; &gt; &gt; post a bug on bugzilla.<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; <br>&gt; &gt; &gt; If more information is needed I will try to provide it upon request<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; <br>&gt; &gt; &gt; Regards and thanks for bothering<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; -- <br>&gt; &gt; &gt; ---------------------<br>&gt; &gt; &gt; Bjørn Steen Saethre <br>&gt; &gt; &gt; PhD-student<br>&gt; &gt; &gt; Theoretical and Energy Physics Unit<br>&gt; &gt; &gt; Institute of Physics and Technology<br>&gt; &gt; &gt; Allegt, 41<br>&gt; &gt; &gt; N-5020 Bergen<br>&gt; &gt; &gt; Norway<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; Tel(office) +47 55582869 <br>&gt; &gt; &gt; <br>&gt; &gt; &gt; <br>&gt; &gt; <br>&gt; &gt; <br>&gt; &gt; ______________________________________________________________________<br>&gt; &gt; Express yourself instantly with MSN Messenger! MSN Messenger<br>&gt; &gt; _______________________________________________<br>&gt; &gt; gmx-users mailing list    gmx-users@gromacs.org<br>&gt; &gt; http://www.gromacs.org/mailman/listinfo/gmx-users<br>&gt; &gt; Please search the archive at http://www.gromacs.org/search before posting!<br>&gt; &gt; Please don't post (un)subscribe requests to the list. Use the <br>&gt; &gt; www interface or send it to gmx-users-request@gromacs.org.<br>&gt; &gt; Can't post? Read http://www.gromacs.org/mailing_lists/users.php<br>&gt; <br>&gt; _______________________________________________<br>&gt; gmx-users mailing list    gmx-users@gromacs.org<br>&gt; http://www.gromacs.org/mailman/listinfo/gmx-users<br>&gt; Please search the archive at http://www.gromacs.org/search before posting!<br>&gt; Please don't post (un)subscribe requests to the list. Use the <br>&gt; www interface or send it to gmx-users-request@gromacs.org.<br>&gt; Can't post? Read http://www.gromacs.org/mailing_lists/users.php<br><br><hr>Express yourself instantly with MSN Messenger! <a href="http://clk.atdmt.com/AVE/go/onm00200471ave/direct/01/" target="_blank">MSN Messenger</a>
<br /><hr />Express yourself instantly with MSN Messenger! <a href='http://clk.atdmt.com/AVE/go/onm00200471ave/direct/01/' target='_new'>MSN Messenger</a></body>
</html>