<br><br><div class="gmail_quote">On Mon, May 14, 2012 at 11:35 AM, Mark Abraham <span dir="ltr">&lt;<a href="mailto:Mark.Abraham@anu.edu.au" target="_blank">Mark.Abraham@anu.edu.au</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

  
    
  
  <div bgcolor="#FFFFFF" text="#000000"><div class="im">
    On 14/05/2012 3:52 PM, Anirban wrote:
    <blockquote type="cite">
      <div class="gmail_quote">
        <div class="gmail_quote">Hi ALL,<br>
          <br>
          I am trying to simulate a membrane protein system using
          CHARMM36 FF on GROAMCS4.5.5 on a parallel cluster running on
          MPI. The system consists of arounf 1,17,000 atoms. The job
          runs fine on 5 nodes (5X12=120 cores) using mpirun and gives
          proper output. But whenever I try to submit it on more than 5
          nodes, the job gets killed with the following error:<br>
        </div>
      </div>
    </blockquote>
    <br></div>
    That&#39;s likely going to be an issue with the configuration of your
    MPI system, or your hardware, or both. Do check your .log file for
    evidence of unsuitable DD partiion, though the fact of &quot;turning on
    dynamic load balancing&quot; suggest DD partitioning worked OK.<span class="HOEnZb"><font color="#888888"><br>
    <br>
    Mark</font></span><div class="im"><br></div></div></blockquote><div><br></div><div>Hello Mark,</div><div><br></div><div>Thanks for the reply.</div><div>The .log file reports no error/warning and ends abruptly with the following last lines:</div>
<div><br></div><div>------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------</div><div>
<div>Making 3D domain decomposition grid 4 x 3 x 9, home cell index 0 0 0</div><div><br></div><div>Center of mass motion removal mode is Linear</div><div>We have the following groups for center of mass motion removal:</div>
<div>  0:  Protein_POPC</div><div>  1:  SOL_CL</div><div>There are: 117548 Atoms</div><div>Charge group distribution at step 0: 358 353 443 966 1106 746 374 351 352 352 358 454 975 1080 882 381 356 357 357 358 375 770 1101 882 365 359 358 351 348 487 983 1051 912 377 344 361 363 352 596 1051 1036 1050 553 351 349 366 352 375 912 1125 1045 478 351 344 356 362 445 971 1040 959 520 405 355 357 355 639 1032 1072 1096 790 474 353 349 345 449 1019 1047 971 444 354 357 355 357 391 946 1093 904 375 367 368 349 349 409 934 1082 867 406 350 350 364 341 398 978 1104 937 415 341 368</div>
<div>Grid: 6 x 7 x 4 cells</div><div>Initial temperature: 300.318 K</div><div><br></div><div>Started mdrun on node 0 Fri May 11 20:43:52 2012</div><div><br></div><div>           Step           Time         Lambda</div><div>
              0        0.00000        0.00000</div><div><br></div><div>   Energies (kJ/mol)</div><div>            U-B    Proper Dih.  Improper Dih.      CMAP Dih.          LJ-14</div><div>    8.67972e+04    6.15820e+04    1.38445e+03   -1.60452e+03    1.44395e+04</div>
<div>     Coulomb-14        LJ (SR)   Coulomb (SR)   Coul. recip.      Potential</div><div>   -5.21377e+04    4.98413e+04   -1.21372e+06   -8.94296e+04   -1.14284e+06</div><div>    Kinetic En.   Total Energy    Temperature Pressure (bar)   Constr. rmsd</div>
<div>    2.93549e+05   -8.49294e+05    3.00132e+02   -1.80180e+01    1.40708e-05</div></div><div>-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------</div>
<div><br></div><div>Any suggestion is welcome.</div><div><br></div><div>Thanks,</div><div><br></div><div>Anirban</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div bgcolor="#FFFFFF" text="#000000"><div class="im">
    <br>
    <blockquote type="cite">
      <div class="gmail_quote">
        <div class="gmail_quote">
          <br>
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------<br>

          <br>
          starting mdrun &#39;Protein&#39;<br>
          50000000 steps, 100000.0 ps.<br>
          <br>
          NOTE: Turning on dynamic load balancing<br>
          <br>
          Fatal error in MPI_Sendrecv: Other MPI error<br>
          Fatal error in MPI_Sendrecv: Other MPI error<br>
          Fatal error in MPI_Sendrecv: Other MPI error<br>
          <br>
=====================================================================================<br>
          =   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES<br>
          =   EXIT CODE: 256<br>
          =   CLEANING UP REMAINING PROCESSES<br>
          =   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES<br>
=====================================================================================<br>
          [proxy:0:0@cn034] HYD_pmcd_pmip_control_cmd_cb
          (./pm/pmiserv/pmip_cb.c:906): assert (!closed) failed<br>
          [proxy:0:0@cn034] HYDT_dmxu_poll_wait_for_event
          (./tools/demux/demux_poll.c:77): callback returned error
          status<br>
          [proxy:0:0@cn034] main (./pm/pmiserv/pmip.c:214): demux engine
          error waiting for event<br>
          .<br>
          .<br>
          .<br>
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------<br>

          <br>
          Why is this happening? Is it related to DD and PME? How to
          solve it? Any suggestion is welcome.<br>
          Sorry for re-posting.<br>
          <br>
          <br>
          Thanks and regards,<br>
          <br>
          Anirban<br>
        </div>
        <br>
      </div>
      <br>
      <br>
      <fieldset></fieldset>
      <br>
    </blockquote>
    <br>
  </div></div>

<br>--<br>
gmx-users mailing list    <a href="mailto:gmx-users@gromacs.org">gmx-users@gromacs.org</a><br>
<a href="http://lists.gromacs.org/mailman/listinfo/gmx-users" target="_blank">http://lists.gromacs.org/mailman/listinfo/gmx-users</a><br>
Please search the archive at <a href="http://www.gromacs.org/Support/Mailing_Lists/Search" target="_blank">http://www.gromacs.org/Support/Mailing_Lists/Search</a> before posting!<br>
Please don&#39;t post (un)subscribe requests to the list. Use the<br>
www interface or send it to <a href="mailto:gmx-users-request@gromacs.org">gmx-users-request@gromacs.org</a>.<br>
Can&#39;t post? Read <a href="http://www.gromacs.org/Support/Mailing_Lists" target="_blank">http://www.gromacs.org/Support/Mailing_Lists</a><br></blockquote></div><br>