Could someone tell me what tell the below error<br><br>Getting Loaded...<br>Reading file MD_100.tpr, VERSION 4.5.4 (single precision)<br>Loaded with Money<br><br><br>Will use 30 particle-particle and 18 PME only nodes<br>This is a guess, check the performance at the end of the log file<br>
[ib02:22825] *** Process received signal ***<br>[ib02:22825] Signal: Segmentation fault (11)<br>[ib02:22825] Signal code: Address not mapped (1)<br>[ib02:22825] Failing at address: 0x10<br>[ib02:22825] [ 0] /lib/x86_64-linux-gnu/libpthread.so.0(+0xf030) [0x7f535903e03$<br>
[ib02:22825] [ 1] /usr/lib/openmpi/lib/openmpi/mca_pml_ob1.so(+0x7e23) [0x7f535$<br>[ib02:22825] [ 2] /usr/lib/openmpi/lib/openmpi/mca_pml_ob1.so(+0x8601) [0x7f535$<br>[ib02:22825] [ 3] /usr/lib/openmpi/lib/openmpi/mca_pml_ob1.so(+0x8bab) [0x7f535$<br>
[ib02:22825] [ 4] /usr/lib/openmpi/lib/openmpi/mca_btl_sm.so(+0x42af) [0x7f5353$<br>[ib02:22825] [ 5] /usr/lib/libopen-pal.so.0(opal_progress+0x5b) [0x7f535790506b]<br>[ib02:22825] [ 6] /usr/lib/libmpi.so.0(+0x37755) [0x7f5359282755]<br>
[ib02:22825] [ 7] /usr/lib/openmpi/lib/openmpi/mca_coll_tuned.so(+0x1c3a) [0x7f$<br>[ib02:22825] [ 8] /usr/lib/openmpi/lib/openmpi/mca_coll_tuned.so(+0x7fae) [0x7f$<br>[ib02:22825] [ 9] /usr/lib/libmpi.so.0(ompi_comm_split+0xbf) [0x7f535926de8f]<br>
[ib02:22825] [10] /usr/lib/libmpi.so.0(MPI_Comm_split+0xdb) [0x7f535929dc2b]<br>[ib02:22825] [11] /usr/lib/libgmx_mpi_d.openmpi.so.6(gmx_setup_nodecomm+0x19b) $<br>[ib02:22825] [12] mdrun_mpi_d.openmpi(mdrunner+0x46a) [0x40be7a]<br>
[ib02:22825] [13] mdrun_mpi_d.openmpi(main+0x1256) [0x407206]<br>[ib02:22825] [14] /lib/x86_64-linux-gnu/libc.so.6(__libc_start_main+0xfd) [0x7f$<br>[ib02:22825] [15] mdrun_mpi_d.openmpi() [0x407479]<br>[ib02:22825] *** End of error message ***<br>
--------------------------------------------------------------------------<br>mpiexec noticed that process rank 36 with PID 22825 on node ib02 exited on sign$<br>--------------------------------------------------------------------------<br>
<br><br>I&#39;ve obtained it when I&#39;ve tried to use my system on multi-node station ( there is no problem on single node). Does this problem with the cluster system or something wrong with parameters of my simulation?<br>
<br><br>JAmes<br><br><div class="gmail_quote">15 อมาิม 2012šว. 15:25 ะฯฬฺุฯืมิลฬุ James Starlight <span dir="ltr">&lt;<a href="mailto:jmsstarlight@gmail.com">jmsstarlight@gmail.com</a>&gt;</span> ฮมะษำมฬ:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Mark, Peter,<br><br><br>I&#39;ve tried to do .tpr file on my local CPU and launch only<br><br>mpiexec -np 24 mdrun_mpi_d.openmpi -v -deffnm MD_100<br><br>on the cluster with 2 nodes.<br><br>I see my job as working but when I&#39;ve checking the MD_100.log (attached) file there are no any information about simulation steps in that file ( when I use just one node I see in that file step-by-step progression of my simulation like below wich was find in the same log file for ONE NODE simulation ):<br>

<br>Started mdrun on node 0 Thu Mar 15 11:22:35 2012<br><br>šššššššššš Stepšššššššššš Timešššššššš Lambda<br>ššššššššššššš 0ššššššš 0.00000ššššššš 0.00000<br><br>Grid: 12 x 9 x 12 cells<br>šš Energies (kJ/mol)<br>šššššš G96Angleššš Proper Dih.š Improper Dih.ššššššššš LJ-14šššš Coulomb-14<br>

ššš 1.32179e+04ššš 3.27485e+03ššš 2.53267e+03ššš 4.06443e+02ššš 6.15315e+04<br>ššššššš LJ (SR)ššššššš LJ (LR)š Disper. corr.šš Coulomb (SR)šš Coul. recip.<br>ššš 4.12152e+04šš -5.51788e+03šš -1.70930e+03šš -4.54886e+05šš -1.46292e+05<br>

šššš Dis. Rest. D.R.Viol. (nm)šššš Dih. Rest.ššššš Potentialššš Kinetic En.<br>ššš 2.14240e-02ššš 3.46794e+00ššš 1.33793e+03šš -4.84889e+05ššš 9.88771e+04<br>šš Total Energyš Conserved En.ššš Temperature Pres. DC (bar) Pressure (bar)<br>

šš -3.86012e+05šš -3.86012e+05ššš 3.11520e+02šš -1.14114e+02ššš 3.67861e+02<br>šš Constr. rmsd<br>ššš 3.75854e-05<br><br>šššššššššš Stepšššššššššš Timešššššššš Lambda<br>šššššššššš 2000ššššššš 4.00000ššššššš 0.00000<br><br>

šš Energies (kJ/mol)<br>šššššš G96Angleššš Proper Dih.š Improper Dih.ššššššššš LJ-14šššš Coulomb-14<br>ššš 1.31741e+04ššš 3.25280e+03ššš 2.58442e+03ššš 3.51371e+02ššš 6.15913e+04<br>ššššššš LJ (SR)ššššššš LJ (LR)š Disper. corr.šš Coulomb (SR)šš Coul. recip.<br>

ššš 4.16349e+04šš -5.53474e+03šš -1.70930e+03šš -4.56561e+05šš -1.46485e+05<br>šššš Dis. Rest. D.R.Viol. (nm)šššš Dih. Rest.ššššš Potentialššš Kinetic En.<br>ššš 4.78276e+01ššš 3.38844e+00ššš 9.82735e+00šš -4.87644e+05ššš 9.83280e+04<br>

šš Total Energyš Conserved En.ššš Temperature Pres. DC (bar) Pressure (bar)<br>šš -3.89316e+05šš -3.87063e+05ššš 3.09790e+02šš -1.14114e+02ššš 7.25905e+02<br>šš Constr. rmsd<br>ššš 1.88008e-05<br><br>end etc...<br><br><br>

<br>What&#39;s wrong can be with multi-node computations?<br><br><br>James<br><br><br><div class="gmail_quote">15 อมาิม 2012šว. 11:25 ะฯฬฺุฯืมิลฬุ Mark Abraham <span dir="ltr">&lt;<a href="mailto:Mark.Abraham@anu.edu.au" target="_blank">Mark.Abraham@anu.edu.au</a>&gt;</span> ฮมะษำมฬ:<div>
<div class="h5"><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div>On 15/03/2012 6:13 PM, Peter C. Lai wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Try separating your grompp run from your mpirun:<br>
You should not really be having the scheduler execute the grompp. Run<br>
your grompp step to generate a .tpr either on the head node or on your local<br>
machine (then copy it over to the cluster).<br>
</blockquote>
<br></div>
Good advice.<div><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
(The -p that the scheduler is complaining about only appears in the grompp<br>
step, so don&#39;t have the scheduler run it).<br>
</blockquote>
<br></div>
grompp is running successfully, as you can see from the output<br>
<br>
I think &quot;mpiexec -np 12&quot; is being interpreted as &quot;mpiexec -n 12 -p&quot;, and the process of separating the grompp stage from the mdrun stage would help make that clear - read documentation first, however.<span><font color="#888888"><br>


<br>
Mark</font></span><div><div><br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
<br>
On 2012-03-15 10:04:49AM +0300, James Starlight wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Dear Gromacs Users!<br>
<br>
<br>
I have some problems with running my simulation on multi-modes station wich<br>
use open_MPI<br>
<br>
I&#39;ve launch my jobs by means of that script. The below example of running<br>
work on 1 node ( 12 cpu).<br>
<br>
#!/bin/sh<br>
#PBS -N gromacs<br>
#PBS -l nodes=1:red:ppn=12<br>
#PBS -V<br>
#PBS -o gromacs.out<br>
#PBS -e gromacs.err<br>
<br>
cd /globaltmp/xz/job_name<br>
grompp -f md.mdp -c nvtWprotonated.gro -p topol.top -n index.ndx -o job.tpr<br>
mpiexec -np 12 mdrun_mpi_d.openmpi -v -deffnm job<br>
<br>
All nodes of my cluster consist of 12 CPU. When I&#39;m using just 1 node on<br>
that cluster I have no problems with running of my jobs but when I try to<br>
use more than one nodes I&#39;ve obtain error ( the example is attached in the<br>
gromacs.err file as well as mmd.mdp of that system). Another outcome of<br>
such multi-node simulation is that my job has been started but no<br>
calculation were done ( the name_of_my_job.log file was empty and no update<br>
of .trr file was seen ). Commonly this error occurs when I uses many nodes<br>
(8-10) Finally sometimes I&#39;ve obtain some errors with the PME order ( this<br>
time I&#39;ve used 3 nodes). The exactly error differs when I varry the number<br>
of nodes.<br>
<br>
<br>
Could you tell me whats wrong could be with my cluster?<br>
<br>
Thanks for help<br>
<br>
James<br>
</blockquote>
<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
-- <br>
gmx-users mailing list š š<a href="mailto:gmx-users@gromacs.org" target="_blank">gmx-users@gromacs.org</a><br>
<a href="http://lists.gromacs.org/mailman/listinfo/gmx-users" target="_blank">http://lists.gromacs.org/<u></u>mailman/listinfo/gmx-users</a><br>
Please search the archive at <a href="http://www.gromacs.org/Support/Mailing_Lists/Search" target="_blank">http://www.gromacs.org/<u></u>Support/Mailing_Lists/Search</a> before posting!<br>
Please don&#39;t post (un)subscribe requests to the list. Use the<br>
www interface or send it to <a href="mailto:gmx-users-request@gromacs.org" target="_blank">gmx-users-request@gromacs.org</a>.<br>
Can&#39;t post? Read <a href="http://www.gromacs.org/Support/Mailing_Lists" target="_blank">http://www.gromacs.org/<u></u>Support/Mailing_Lists</a><br>
</blockquote>
<br>
</blockquote>
<br>
-- <br>
gmx-users mailing list š š<a href="mailto:gmx-users@gromacs.org" target="_blank">gmx-users@gromacs.org</a><br>
<a href="http://lists.gromacs.org/mailman/listinfo/gmx-users" target="_blank">http://lists.gromacs.org/<u></u>mailman/listinfo/gmx-users</a><br>
Please search the archive at <a href="http://www.gromacs.org/Support/Mailing_Lists/Search" target="_blank">http://www.gromacs.org/<u></u>Support/Mailing_Lists/Search</a> before posting!<br>
Please don&#39;t post (un)subscribe requests to the list. Use the www interface or send it to <a href="mailto:gmx-users-request@gromacs.org" target="_blank">gmx-users-request@gromacs.org</a>.<br>
Can&#39;t post? Read <a href="http://www.gromacs.org/Support/Mailing_Lists" target="_blank">http://www.gromacs.org/<u></u>Support/Mailing_Lists</a><br>
</div></div></blockquote></div></div></div><br>
</blockquote></div><br>