I am using 3.3.2 and 3.3.1 and I get the following problem with both of them.<br><br>If I run replica exchange on &gt;4 processors (2 and 4 are fine), the simulations finish, but mpi gives the following errors, thus the job never terminates
<br><br><br>this is the end of my log file<br><br>-----------------------------------------------------------------------<br><br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; NODE (s)&nbsp;&nbsp; Real (s)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (%)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Time: 158483.430 159636.000&nbsp;&nbsp;&nbsp;&nbsp; 99.3<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1d20h01:23<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (Mnbf/s)&nbsp;&nbsp; (MFlops)&nbsp;&nbsp; (ns/day)&nbsp; (hour/ns)<br>Performance:&nbsp;&nbsp;&nbsp;&nbsp; 18.919&nbsp;&nbsp;&nbsp; 818.029&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2.726&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 8.805<br>p13_15442:&nbsp; p4_error: Timeout in establishing connection to remote process: 0
<br>p12_15407:&nbsp; p4_error: Timeout in establishing connection to remote process: 0<br>Broken pipe<br>p11_2364:&nbsp; p4_error: Timeout in establishing connection to remote process: 0<br>p9_20588:&nbsp; p4_error: Timeout in establishing connection to remote process: 0
<br>p10_2329:&nbsp; p4_error: Timeout in establishing connection to remote process: 0<br>Broken pipe<br>Broken pipe<br>Broken pipe<br>Broken pipe<br>p6_24137:&nbsp; p4_error: Timeout in establishing connection to remote process: 0<br>
p7_24172:&nbsp; p4_error: Timeout in establishing connection to remote process: 0<br>Broken pipe<br>Broken pipe<br><br><br>I have tried installing on three different clusters, using different versions of mpich and they all do this.&nbsp; BUT, I do not get the error if I am running a single simulation on 8 processors, I only get this problem when I run replica exchange.&nbsp; Any ideas what is going on?&nbsp; I&#39;m also including my submission script, perhaps I am missing something, but I&#39;m just not seeing it
<br><br>#!/bin/bash<br>#<br>#$ -N switch_less<br>#$ -pe mpich 8<br>#$ -cwd<br>#$ -j y<br>#$ -S /bin/bash<br>#<br>#$ -l h_rt=00:05:00<br><br>MPIDIR=/opt/mpich/intel/bin/<br>MDDIR=/soft/linux/pkg/gromacs-3.3.1/bin<br>SYSTEM=free
<br><br><br>INDEX=0<br>for T in 80 82 84 86 87 88 89 90<br>do<br>sed &quot;s/TTTT/$T/g&quot; MDRUN &gt; mdrun.$INDEX.mdp<br><br>$MDDIR/grompp \<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -f mdrun.$INDEX \<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -c $SYSTEM.gro \<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -p $SYSTEM.top \
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -po mdout.$INDEX \<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -o $SYSTEM$INDEX.tpr<br>let &quot;INDEX += 1&quot;<br><br>done<br><br>if test $NSLOTS -eq $INDEX<br>then<br>$MPIDIR/mpirun -v -np $NSLOTS -machinefile $TMPDIR/machines \<br>&nbsp; -nolocal $MDDIR/mdrun-mpi -v \
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -np $NSLOTS \<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -multi $NSLOTS \<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -replex 50 \<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -s $SYSTEM.tpr \<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -o $SYSTEM \<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -c $SYSTEM.out \<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -g $SYSTEM \<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -e $SYSTEM \<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -x $SYSTEM
<br>else<br><br>echo &#39;wrong number of nodes for the number of replicas&#39;<br>fi<br><br><br>I have tried using the -debug option when running gromacs, but I can&#39;t tell what is going on with it.&nbsp; Is there something I should look for in the debug logfile?
<br><br>thanks<br><br>-Paul<br>