Dear GMX Users,<br><div class="gmail_quote">I have been running gromacs-4.0.2 and gromacs-4.0_rc3 in parallel on various 8-cores-per-node and 16-cores-per-node 64-bit linux clusters. While I am able to run mpi without any problems on a single node (8 or 16 processes, respectively), when running larger jobs on more than one node I invariably get a crash either immediately or after several hours of correct simulation output. Below are errors and compile options/details. The nodes seem to stop communicating and stop producing output after some time even if I use mpirun -q 0. These were mostly small simulations (40 angstrom cubic box containing peptide(s) and water). Thanks, Ron Hills<br>



<br><font size="-1">setenv CC icc<br>setenv CXX icc<br>setenv F77 ifort #intel ifort 10.1.021 or 10.1.017<br>setenv MPICC &quot;mpicc -cc=icc&quot;&nbsp; #using Pathscale/Qlogic &quot;InfiniPath&quot; InfiniBand MPI or mvapich2-1.2-intel-ofed-1.2.5.5 or mvapich/1.0<br>



setenv MPIF77 &quot;mpif77 -fc=ifort&quot;<br><br></font>
&gt; ***immediate error after job submission:<br>
<div>&gt; tr029:36.Hardware problem: {[RXE EAGERTID Memory Parity]}<br>
</div><div>&gt; tr024:14.ips_proto_connect: Couldn&#39;t connect to<br>
&gt; 172.17.19.29(LID=0x0025:2.0). Time elapased 00:00:30. Still trying...<br>
&gt; tr025:16.MPID_Key_Init: rank &nbsp;16 (tr025): Detected Connection timeout:<br>
&gt; 172.17.19.29 (rank 32,33,34,35,36,37,38,39)<br>
<br>&gt; ***termination after 30hrs running correctly on 8x8=64 cores:<br>
&gt; tr019:33.PIO Send Stall after at least 2.10M failed send attempts<br>
&gt; (elapsed=54232.018s, last=2119242.641s, pio_stall_count=1)<br>
&gt; (TxPktCnt=21654082263,RxPktCnt=21662363713) PIO Send Bufs port 1 with 8 bufs<br>
&gt; from<br>
&gt; 8 to 15. PIO avail regs: &nbsp;&lt;0&gt;=(4145041114514105) &nbsp;&lt;1&gt;=(1010545410441100)<br>
&gt; &lt;2&gt;=(15555554) &nbsp;&lt;3&gt;=(0) &nbsp;&lt;4&gt;=(0) &nbsp;&lt;5&gt;=(0) &nbsp;&lt;6&gt;=(0) &nbsp;&lt;7&gt;=(0) . PIO shadow<br>
&gt; regs: &nbsp;&lt;0&gt;=(41505001ebae4050) &nbsp;(err=23)<br>
&gt; mdrun_mpi:14064 terminated with signal 11 at PC=61329f SP=7fbfffcd00.<br>
&gt; Backtrace:<br>
&gt; /uufs/<br>
&gt; <a href="http://hec.utah.edu/common/vothfs/u0636784/gromacs-4.0_rc3/tlrd/bin/mdrun_mpi%5B0x61329f%5D" target="_blank">hec.utah.edu/common/vothfs/u0636784/gromacs-4.0_rc3/tlrd/bin/mdrun_mpi[0x61329f]</a><br>
&gt; MPIRUN.tr012: 26 ranks have not yet exited 60 seconds after rank 37 (node<br>
&gt; tr019) exited without reaching MPI_Finalize().<br>
&gt; MPIRUN.tr012: Waiting at most another 60 seconds for the remaining ranks to<br>
&gt; do a clean shutdown before terminating 26 node processes<br>
<br>&gt; ***error from a coworker:<br>
</div>&gt; mdrun_mpi:27203 terminated with signal 11 at PC=469daa SP=7fbfffe080.<br>
&gt; &nbsp;Backtrace:<br>
&gt; /scratch/tr/zzhang/workgmx/<div>T4L/job/mdrun_mpi(do_pme+0x2f8e)[0x469daa]<br>
&gt; /scratch/tr/zzhang/workgmx/T4L/job/mdrun_mpi(force+0x6be)[0x443d4e]<br>
&gt; /scratch/tr/zzhang/workgmx/T4L/job/mdrun_mpi(do_force+0xb7b)[0x47d3f1]<br>
&gt; /scratch/tr/zzhang/workgmx/T4L/job/mdrun_mpi(do_md+0x19c4)[0x42b360]<br>
&gt; /scratch/tr/zzhang/workgmx/T4L/job/mdrun_mpi(mdrunner+0xc15)[0x4297b5]<br>
&gt; /scratch/tr/zzhang/workgmx/T4L/job/mdrun_mpi(main+0x2ad)[0x42ccd1]<br>
&gt; /lib64/tls/libc.so.6(__libc_start_main+0xdb)[0x2a96a5e40b]<br>
&gt; /scratch/tr/zzhang/workgmx/T4L/job/mdrun_mpi[0x41781a]<br>
&gt; MPIRUN.tr082: 15 ranks have not yet exited 60 seconds after rank 12 (node<br>
&gt; tr086) exited without reaching MPI_Finalize().<br>
&gt; MPIRUN.tr082: Waiting at most another 60 seconds for the remaining ranks to<br>
&gt; do a clean shutdown before terminating 15 node processes<br><font size="-1"><br>***Using mpirun -q 0 I get the following errors after completing 460,000 dynamics steps with no errors:<br>tr006:6.PIO
Send Stall after at least 2.10M failed send attempts (elapsed=272.699s,
last=2462705.468s, pio_stall_count=1) (TxPktCnt=5960586432,RxPktCnt=5963056955)
PIO Send Bufs port 3 with 8 bufs from 32 to 39. PIO avail regs:&nbsp;
&lt;0&gt;=(1455444101454155)&nbsp; &lt;1&gt;=(4100140514101400)&nbsp;
&lt;2&gt;=(45100000)&nbsp; &lt;3&gt;=(0)&nbsp; &lt;4&gt;=(0)&nbsp; &lt;5&gt;=(0)&nbsp;
&lt;6&gt;=(0)&nbsp; &lt;7&gt;=(0) . PIO shadow regs:&nbsp;
&lt;1&gt;=(405541050145ebff)&nbsp; (err=23)<br>
tr037:39.PIO Send Stall after at least 2.10M failed send attempts
(elapsed=278.602s, last=4999304.123s, pio_stall_count=1)
(TxPktCnt=61756904051,RxPktCnt=61772810688)
PIO Send Bufs port 1 with 8 bufs from 0 to 7. PIO avail regs:&nbsp;
&lt;0&gt;=(504400541150401)&nbsp; &lt;1&gt;=(5044450510455544)&nbsp;
&lt;2&gt;=(14155155)&nbsp; &lt;3&gt;=(0)&nbsp; &lt;4&gt;=(0)&nbsp; &lt;5&gt;=(0)&nbsp;
&lt;6&gt;=(0)&nbsp; &lt;7&gt;=(0) . PIO shadow regs:&nbsp;
&lt;0&gt;=(500415154014fbfe)&nbsp; (err=23)</font><br></div>
</div>