<html>
<head>
<style>
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
FONT-SIZE: 10pt;
FONT-FAMILY:Tahoma
}
</style>
</head>
<body class='hmmessage'><div style="text-align: left;">Hi,<br><br>You really do not have any error or warning messages at the end of your log<br>file, stdlog or stderr?<br><br>Up to now there has been only one report of problems.<br>This is on a cray xt4, where some dlb jobs (with initial empty cells)<br>stop at step 10 with the error message that some cell dimensions have become 0.<br>Unfortunately I can not reproduce this on an x86_64 linux machine.<br>So we will have to do some xt4 debugging.<br><br>Can you produce core dump files?<br><br>Berk<br></div><br><br><br><hr id="stopSpelling">&gt; From: st01397@student.uib.no<br>&gt; To: gmx-users@gromacs.org<br>&gt; Date: Mon, 29 Sep 2008 15:21:34 +0200<br>&gt; CC: <br>&gt; Subject: [gmx-users] Possible bug in parallelization,        PME or load-balancing on Gromacs 4.0_rc1 ??<br>&gt; <br>&gt; I am running some annealing trials on a Cray XT4. And although the<br>&gt; throughput is impressive, I have severe difficulties with stability of<br>&gt; the code.<br>&gt; For my relatively small system of ~7500 atoms the engine typically crash<br>&gt; after ~500k steps.<br>&gt; <br>&gt; I am using the bleeding-edge CVS version: mdrun.c (1.141) (the newest<br>&gt; one after Erik L.'s recent patch of the PME code) <br>&gt; <br>&gt; I configure and compile on the compute nodes exclusively (not the<br>&gt; frontend) and the only compiler warning(s) I get are of the type:<br>&gt; <br>&gt; "warning: Using 'getpwuid' in statically linked applications requires <br>&gt; at runtime the shared libraries from the glibc version used for linking"<br>&gt; <br>&gt; After compile though, the code executes and runs for ~20mins, producing<br>&gt; sound data before stalling.<br>&gt; <br>&gt; The error logs are very short and quite uniformative.<br>&gt; <br>&gt; PBS .o: <br>&gt; Application 159316 exit codes: 137<br>&gt; Application 159316 exit signals: Killed<br>&gt; Application 159316 resources: utime 0, stime 0<br>&gt; --------------------------------------------------<br>&gt; Begin PBS Epilogue hexagon.bccs.uib.no<br>&gt; Date:             Mon Sep 29 12:32:54 CEST 2008<br>&gt; Job ID:           65643.nid00003<br>&gt; Username:         bjornss<br>&gt; Group:            bjornss<br>&gt; Job Name:         pmf_hydanneal_heatup_400K<br>&gt; Session:          10156<br>&gt; Limits:           walltime=05:00:00<br>&gt; Resources:<br>&gt; cput=00:00:00,mem=4940kb,vmem=22144kb,walltime=00:20:31<br>&gt; Queue:            batch<br>&gt; Account:          fysisk<br>&gt; Base login-node:  login5<br>&gt; End PBS Epilogue  Mon Sep 29 12:32:54 CEST 2008<br>&gt; <br>&gt; PBS .err:<br>&gt; _pmii_daemon(SIGCHLD): PE 0 exit signal Killed<br>&gt; [NID 702]Apid 159316: initiated application termination.<br>&gt; <br>&gt; As proper electrostatics is crucial to my modeling I am using PME which<br>&gt; comprises a large part of my calculation cost: 35-50%<br>&gt; In the most extreme case, I use the following startup-script<br>&gt; <br>&gt; run.pbs:<br>&gt; <br>&gt; #!/bin/bash<br>&gt; #PBS -A fysisk<br>&gt; #PBS -N pmf_hydanneal_heatup_400K<br>&gt; #PBS -o pmf_hydanneal.o<br>&gt; #PBS -e pmf.hydanneal.err<br>&gt; #PBS -l walltime=5:00:00,mppwidth=40,mppnppn=4<br>&gt; <br>&gt; cd /work/bjornss/pmf/structII/hydrate_annealing/heatup_400K<br>&gt; source $HOME/gmx_latest_290908/bin/GMXRC<br>&gt; <br>&gt; aprun -n 40 parmdrun -s topol.tpr -maxh 5 -npme 20<br>&gt; exit $?<br>&gt; <br>&gt; <br>&gt; Now, apart from a significant reduction in the system dipole moment,<br>&gt; there are no large changes in the system, nor significant translations<br>&gt; of the molecules in the box.<br>&gt; <br>&gt; I enclose the md.log and my parameter file. The run-topology (topol.tpr)<br>&gt; can be found at:<br>&gt; <br>&gt; http:/drop.io/mdanneal<br>&gt; <br>&gt; if anyone wants to try and replicate the crash on their local cluster,<br>&gt; they are welcome.<br>&gt; If after such trials are attempted the error persists, I am willing to<br>&gt; post a bug on bugzilla.<br>&gt; <br>&gt; <br>&gt; If more information is needed I will try to provide it upon request<br>&gt; <br>&gt; <br>&gt; Regards and thanks for bothering<br>&gt; <br>&gt; -- <br>&gt; ---------------------<br>&gt; Bjørn Steen Saethre <br>&gt; PhD-student<br>&gt; Theoretical and Energy Physics Unit<br>&gt; Institute of Physics and Technology<br>&gt; Allegt, 41<br>&gt; N-5020 Bergen<br>&gt; Norway<br>&gt; <br>&gt; Tel(office) +47 55582869 <br>&gt; <br>&gt; <br><br /><hr />Express yourself instantly with MSN Messenger! <a href='http://clk.atdmt.com/AVE/go/onm00200471ave/direct/01/' target='_new'>MSN Messenger</a></body>
</html>