Hi,<br><br>print_time writes to stderr so if it really get stuck in there I would think it has to do with wrong stderr redirection. Could you verify that it really is stuck on the head node by trying to step in the debugger? Also try to change where the stderr is written to.<br>
<br>Roland<br><br><div class="gmail_quote">On Sun, Dec 6, 2009 at 10:03 AM, Michael Shirts <span dir="ltr">&lt;<a href="mailto:michael.shirts@virginia.edu">michael.shirts@virginia.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hi, all-<br>
<br>
I&#39;m getting a weird MPI stall with the git master repository version.<br>
I compiled with with debugging on and double precision, running on a 8<br>
processor MacPro.<br>
After running for 10 min or so parallelized 8 ways, it appears to<br>
stall.  Attaching a debugger to the threads to see where it&#39;s stuck,<br>
the backtrace on the head node was (removing arguments for clarity)<br>
<br>
#0  0x907fb29a in write$NOCANCEL$UNIX2003 ()<br>
#1  0x907fb1f2 in _swrite ()<br>
#2  0x907fb11f in __sflush ()<br>
#3  0x907ffcfc in __swbuf ()<br>
#4  0x90838e92 in fputc ()<br>
#5  0x000c2dfd in print_time (out=0xa00c7690, runtime=0xbfffd5e0,<br>
step=44600, ir=0x1017e00, cr=0x9004e0) at sim_util.c:164<br>
#6  0x00019215 in do_md  at md.c:2316<br>
#7  0x00013138 in mdrunner  at md.c:216<br>
#9  0x0001b9cc in main (argc=14, argv=0xbffff3a0) at mdrun.c:518<br>
<br>
And for the other nodes;<br>
<br>
#0  0x907c536a in swtch_pri ()<br>
#1  0x90832e65 in sched_yield ()<br>
#2  0x00a05515 in mca_pml_ob1_send ()<br>
#3  0x00710445 in MPI_Sendrecv ()<br>
#4  0x00048fe4 in dd_sendrecv_rvec (dd=0x91dc00, ddimind=0,<br>
direction=1, buf_s=0x1034c00, n_s=333, buf_r=0xd22f38, n_r=360) at<br>
domdec_network.c:115<br>
#5  0x00029c32 in dd_move_x (dd=0x91dc00, box=0x9260fc, x=0xd21000) at<br>
domdec.c:657<br>
#6  0x000c3f77 in do_force  at sim_util.c:521<br>
#7  0x00017478 in do_md  at md.c:1794<br>
#8  0x00013138 in mdrunner at md.c:687<br>
#9  0x00011cbb in mdrunner_threads  at md.c:216<br>
#10 0x0001b9cc in main (argc=14, argv=0x9184e0) at mdrun.c:518<br>
<br>
Any other observations of this?  Has this been seen on other MacPros?<br>
With debugging on?<br>
<br>
Best,<br>
~~~~~~~~~~~~<br>
Michael Shirts<br>
Assistant Professor<br>
Department of Chemical Engineering<br>
University of Virginia<br>
<a href="mailto:michael.shirts@virginia.edu">michael.shirts@virginia.edu</a><br>
(434)-243-1821<br>
<font color="#888888">--<br>
gmx-developers mailing list<br>
<a href="mailto:gmx-developers@gromacs.org">gmx-developers@gromacs.org</a><br>
<a href="http://lists.gromacs.org/mailman/listinfo/gmx-developers" target="_blank">http://lists.gromacs.org/mailman/listinfo/gmx-developers</a><br>
Please don&#39;t post (un)subscribe requests to the list. Use the<br>
www interface or send it to <a href="mailto:gmx-developers-request@gromacs.org">gmx-developers-request@gromacs.org</a>.<br>
</font></blockquote></div><br><br clear="all"><br>-- <br>ORNL/UT Center for Molecular Biophysics <a href="http://cmb.ornl.gov">cmb.ornl.gov</a><br>865-241-1537, ORNL PO BOX 2008 MS6309<br>