<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>
    <meta content="text/html; charset=ISO-8859-1"
      http-equiv="Content-Type">
  </head>
  <body text="#000000" bgcolor="#ffffff">
    On 5/06/2011 3:11 AM, Dimitar Pachov wrote:<br>
    <blockquote
      cite="mid:BANLkTi=pd1nJMJ-Uw=nemAKY41nbr--Zrg@mail.gmail.com"
      type="cite"><span style="border-collapse: collapse; font-family:
        arial,sans-serif; font-size: 13px;">
        <div style="color: rgb(80, 0, 80);"><br>
        </div>
        <div style="color: rgb(80, 0, 80);"><br>
        </div>
        <div style="color: rgb(80, 0, 80);"> On Fri, Jun 3, 2011 at 9:24
          PM, Mark Abraham&nbsp;<span dir="ltr">&lt;<a moz-do-not-send="true"
              href="mailto:Mark.Abraham@anu.edu.au" style="color: rgb(0,
              0, 204);" target="_blank">Mark.Abraham@anu.edu.au</a>&gt;</span>&nbsp;wrote:<br>
          <blockquote class="gmail_quote" style="margin: 0px 0px 0px
            0.8ex; border-left: 1px solid rgb(204, 204, 204);
            padding-left: 1ex;">
            <div text="#000000" bgcolor="#ffffff">
              <div>On 4/06/2011 8:26 AM, Dimitar Pachov wrote<br>
                <br>
              </div>
              <div><br>
              </div>
              If this is true, then it wants fixing, and fast, and will
              get it :-) However, it would be surprising for such a
              problem to exist and not have been reported up to now.
              This feature has been in the code for a year now, and
              while some minor issues have been fixed since the 4.5
              release, it would surprise me greatly if your claim was
              true.<br>
              <br>
              You're saying the equivalent of the steps below can occur:<br>
              1. Simulation wanders along normally and writes a
              checkpoint at step 1003<br>
              2. Random crash happens at step 1106<br>
              3. An -append restart from the old .tpr and the recent
              .cpt file will restart from step 1003<br>
              4. Random crash happens at step 1059<br>
              5. Now a restart doesn't restart from step 1003, but some
              other step
              <div><br>
                <br>
                <blockquote type="cite">
                  <div>and most importantly, the most important piece of
                    data, that being the trajectory file, could be
                    completely lost! I don't know the code behind the
                    checkpointing &amp; appending, but I can see how
                    easy one can overwrite 100ns trajectories, for
                    example, and "obtain" the same trajectories of size
                    .... 0.&nbsp;<br>
                  </div>
                </blockquote>
                <br>
              </div>
              I don't see how easy that is, without a concrete example,
              where user error is not possible.</div>
          </blockquote>
          <div><br>
          </div>
        </div>
        <div>Here is an example:</div>
        <div><br>
        </div>
        <div>========================</div>
        <div>
          <div><font size="1">[dpachov]$ ll -rth run1* &nbsp;\#run1*</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov &nbsp;11K May &nbsp;2
              02:59 run1.po.mdp</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 4.6K May &nbsp;2
              02:59 run1.grompp.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 3.5M May 13
              19:09 run1.gro</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 2.3M May 14
              00:40 run1.tpr</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 2.3M May 14
              00:40 run1-i.tpr</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov &nbsp; &nbsp;0 May 29
              21:53 run1.trr</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 1.2M May 31
              10:45 run1.cpt</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 1.2M May 31
              10:45 run1_prev.cpt</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov &nbsp; &nbsp;0 Jun &nbsp;3
              14:03 run1.xtc</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov &nbsp; &nbsp;0 Jun &nbsp;3
              14:03 run1.edr</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov &nbsp;15M Jun &nbsp;3
              17:03 run1.log</font></div>
        </div>
        <div>========================</div>
        <div><br>
        </div>
        <div>Submitted by:</div>
        <div>========================</div>
        <div><font size="1">ii=1</font></div>
        <div><font size="1">ifmpi="mpirun -np $NSLOTS"</font></div>
        <div><font size="1">--------</font></div>
        <div><font size="1">&nbsp; &nbsp;if [ ! -f run${ii}-i.tpr ];then</font></div>
        <div>
          <div><font size="1">&nbsp; &nbsp; &nbsp; cp run${ii}.tpr run${ii}-i.tpr&nbsp;</font></div>
          <div><font size="1">&nbsp; &nbsp; &nbsp; tpbconv -s run${ii}-i.tpr -until
              200000 -o run${ii}.tpr&nbsp;</font></div>
          <div><font size="1">&nbsp; &nbsp;fi</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">&nbsp; &nbsp;k=`ls md-${ii}*.out | wc -l`</font></div>
          <div><font size="1">&nbsp; &nbsp;outfile="md-${ii}-$k.out"</font></div>
          <div><font size="1">&nbsp; &nbsp;if [[ -f run${ii}.cpt ]]; then</font></div>
          <div><font size="1">&nbsp; &nbsp;</font></div>
          <div><font size="1">&nbsp; &nbsp; &nbsp; &nbsp;$ifmpi `which mdrun` -s
              run${ii}.tpr -cpi run${ii}.cpt -v -deffnm run${ii} -npme 0
              &gt; $outfile &nbsp;2&gt;&amp;1 &nbsp;</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">&nbsp; &nbsp;fi</font></div>
        </div>
        <div>=========================</div>
      </span></blockquote>
    <br>
    This script is not using mdrun -append. Your original post suggested
    the use of -append was a problem. Why aren't we seeing a script with
    mdrun -append? Also, please provide the full script - it looks like
    there might be a loop around your tpbconv-then-mdrun fragment.<br>
    <br>
    Note that a useful trouble-shooting technique can be to construct
    your command line in a shell variable, echo it to stdout (redirected
    as suitable) and then execute the contents of the variable. Now,
    nobody has to parse a shell script to know what command line
    generated what output, and it can be co-located with the command's
    stdout.<br>
    <br>
    <blockquote
      cite="mid:BANLkTi=pd1nJMJ-Uw=nemAKY41nbr--Zrg@mail.gmail.com"
      type="cite"><span style="border-collapse: collapse; font-family:
        arial,sans-serif; font-size: 13px;">
        <div>From the end of run1.log:</div>
        <div>=========================</div>
        <div>
          <div><font size="1">Started mdrun on node 0 Tue May 31
              10:28:52 2011</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Step &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Time &nbsp; &nbsp; &nbsp; &nbsp;
              Lambda</font></div>
          <div><font size="1">&nbsp; &nbsp; &nbsp; &nbsp;51879390 &nbsp; 103758.78000 &nbsp; &nbsp; &nbsp;
              &nbsp;0.00000</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">&nbsp; &nbsp;Energies (kJ/mol)</font></div>
          <div><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; U-B &nbsp; &nbsp;Proper Dih. &nbsp;Improper
              Dih. &nbsp; &nbsp; &nbsp;CMAP Dih. &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;LJ-14</font></div>
          <div><font size="1">&nbsp; &nbsp; 8.37521e+03 &nbsp; &nbsp;4.52303e+03 &nbsp;
              &nbsp;4.78633e+02 &nbsp; -1.23174e+03 &nbsp; &nbsp;2.87366e+03</font></div>
          <div><font size="1">&nbsp; &nbsp; &nbsp;Coulomb-14 &nbsp; &nbsp; &nbsp; &nbsp;LJ (SR) &nbsp;Disper.
              corr. &nbsp; Coulomb (SR) &nbsp; Coul. recip.</font></div>
          <div><font size="1">&nbsp; &nbsp; 3.02277e+04 &nbsp; &nbsp;9.48267e+04 &nbsp;
              -3.88596e+03 &nbsp; -7.43902e+05 &nbsp; -8.36436e+04</font></div>
          <div> <font size="1">&nbsp; &nbsp; &nbsp; Potential &nbsp; &nbsp;Kinetic En. &nbsp; Total
              Energy &nbsp; &nbsp;Temperature Pres. DC (bar)</font></div>
          <div><font size="1">&nbsp; &nbsp;-6.91359e+05 &nbsp; &nbsp;1.29016e+05 &nbsp;
              -5.62342e+05 &nbsp; &nbsp;3.00159e+02 &nbsp; -1.24746e+02</font></div>
          <div><font size="1">&nbsp;Pressure (bar) &nbsp; Constr. rmsd</font></div>
          <div><font size="1">&nbsp; &nbsp;-2.43143e+00 &nbsp; &nbsp;0.00000e+00</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">DD &nbsp;step 51879399 load imb.: force 225.5%</font></div>
          <div><font size="1"><br>
            </font></div>
          <font size="1"></font><br>
        </div>
      </span></blockquote>
    &lt;snip&gt;<br>
    <blockquote
      cite="mid:BANLkTi=pd1nJMJ-Uw=nemAKY41nbr--Zrg@mail.gmail.com"
      type="cite"><span style="border-collapse: collapse; font-family:
        arial,sans-serif; font-size: 13px;">
        <div>
          <div><font size="1">Writing checkpoint, step 51879590 at Tue
              May 31 10:45:22 2011<br>
            </font></div>
          <div><font size="1">&nbsp; &nbsp;Energies (kJ/mol)</font></div>
          <div><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; U-B &nbsp; &nbsp;Proper Dih. &nbsp;Improper
              Dih. &nbsp; &nbsp; &nbsp;CMAP Dih. &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;LJ-14</font></div>
          <div><font size="1">&nbsp; &nbsp; 8.33208e+03 &nbsp; &nbsp;4.72300e+03 &nbsp;
              &nbsp;5.31983e+02 &nbsp; -1.21532e+03 &nbsp; &nbsp;2.89586e+03</font></div>
          <div><font size="1">&nbsp; &nbsp; &nbsp;Coulomb-14 &nbsp; &nbsp; &nbsp; &nbsp;LJ (SR) &nbsp;Disper.
              corr. &nbsp; Coulomb (SR) &nbsp; Coul. recip.</font></div>
          <div> <font size="1">&nbsp; &nbsp; 3.00900e+04 &nbsp; &nbsp;9.31785e+04 &nbsp;
              -3.87790e+03 &nbsp; -7.40841e+05 &nbsp; -8.36838e+04</font></div>
          <div><font size="1">&nbsp; &nbsp; &nbsp; Potential &nbsp; &nbsp;Kinetic En. &nbsp; Total
              Energy &nbsp; &nbsp;Temperature Pres. DC (bar)</font></div>
          <div><font size="1">&nbsp; &nbsp;-6.89867e+05 &nbsp; &nbsp;1.28721e+05 &nbsp;
              -5.61146e+05 &nbsp; &nbsp;2.99472e+02 &nbsp; -1.24229e+02</font></div>
          <div><font size="1">&nbsp;Pressure (bar) &nbsp; Constr. rmsd</font></div>
          <div><font size="1">&nbsp; &nbsp;-1.03491e+02 &nbsp; &nbsp;2.99840e-05</font></div>
        </div>
        <div>====================================</div>
      </span></blockquote>
    <br>
    So the -append restart looks like it did fine here.<br>
    <br>
    <blockquote
      cite="mid:BANLkTi=pd1nJMJ-Uw=nemAKY41nbr--Zrg@mail.gmail.com"
      type="cite"><span style="border-collapse: collapse; font-family:
        arial,sans-serif; font-size: 13px;">
        <div>Last output files from restarts:</div>
        <div>====================================</div>
        <div>
          <div><font size="1">[dpachov]$ ll -rth md-1-*out | tail -10</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.1K Jun &nbsp;3
              16:40 md-1-2428.out</font></div>
          <div> <font size="1">-rw-rw-r-- 1 dpachov dpachov 6.2K Jun &nbsp;3
              16:44 md-1-2429.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 5.9K Jun &nbsp;3
              16:46 md-1-2430.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 5.9K Jun &nbsp;3
              16:48 md-1-2431.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.1K Jun &nbsp;3
              16:50 md-1-2432.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov &nbsp; &nbsp;0 Jun &nbsp;3
              16:52 md-1-2433.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.2K Jun &nbsp;3
              16:55 md-1-2434.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.2K Jun &nbsp;3
              16:58 md-1-2435.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 5.9K Jun &nbsp;3
              17:03 md-1-2436.out</font></div>
          <div><font size="1"><b>-rw-rw-r-- 1 dpachov dpachov 5.8K Jun
                &nbsp;3 17:04 md-1-2437.out</b></font></div>
        </div>
        <div>====================================</div>
        <div>+ around the time when the run1.xtc file seems to have been
          saved:</div>
        <div>====================================</div>
        <div>
          <div><font size="1">[dpachov]$ ll -rth md-1-23[5-6][0-9]*out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.2K Jun &nbsp;3
              13:37 md-1-2350.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.1K Jun &nbsp;3
              13:39 md-1-2351.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.2K Jun &nbsp;3
              13:43 md-1-2352.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.2K Jun &nbsp;3
              13:45 md-1-2353.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 5.9K Jun &nbsp;3
              13:46 md-1-2354.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov &nbsp; &nbsp;0 Jun &nbsp;3
              13:47 md-1-2355.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.1K Jun &nbsp;3
              13:49 md-1-2356.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.1K Jun &nbsp;3
              13:52 md-1-2357.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov &nbsp;12K Jun &nbsp;3
              13:57 md-1-2358.out</font></div>
          <div><font size="1"><b>-rw-rw-r-- 1 dpachov dpachov &nbsp;12K Jun
                &nbsp;3 14:02 md-1-2359.out</b></font></div>
          <div><font size="1"><b>-rw-rw-r-- 1 dpachov dpachov 6.0K Jun
                &nbsp;3 14:03 md-1-2360.out</b></font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.2K Jun &nbsp;3
              14:06 md-1-2361.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 5.8K Jun &nbsp;3
              14:09 md-1-2362.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 5.9K Jun &nbsp;3
              14:10 md-1-2363.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.1K Jun &nbsp;3
              14:11 md-1-2364.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 5.8K Jun &nbsp;3
              14:12 md-1-2365.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.1K Jun &nbsp;3
              14:13 md-1-2366.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.1K Jun &nbsp;3
              14:14 md-1-2367.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 6.0K Jun &nbsp;3
              14:17 md-1-2368.out</font></div>
          <div><font size="1">-rw-rw-r-- 1 dpachov dpachov 5.9K Jun &nbsp;3
              14:18 md-1-2369.out</font></div>
        </div>
        <div>====================================</div>
      </span></blockquote>
    <br>
    I don't understand why you have so many restarts only a minute or
    two apart. Checkpoints are only written (by default) every 15
    minutes, and no job seems to run that long, so all of these will
    start from the same point. If they're running simultaneously then
    it's conceivable that multiple processes trying to use the same
    output file could be a problem, as suggested by Jussi. You say
    that's not the case. So why are there so many restarts?<br>
    <br>
    <blockquote
      cite="mid:BANLkTi=pd1nJMJ-Uw=nemAKY41nbr--Zrg@mail.gmail.com"
      type="cite"><span style="border-collapse: collapse; font-family:
        arial,sans-serif; font-size: 13px;">
        <div>From md-1-2359.out:</div>
        <div>=====================================</div>
        <div>
          <div><font size="1">:::::::</font></div>
          <div><font size="1">Getting Loaded...</font></div>
          <div><font size="1">Reading file run1.tpr, VERSION 4.5.4
              (single precision)</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">Reading checkpoint file run1.cpt
              generated: Tue May 31 10:45:22 2011</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">Loaded with Money</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">Making 2D domain decomposition 4 x 2 x 1</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">WARNING: This run will generate roughly
              4915 Mb of data</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">starting mdrun 'run1'</font></div>
          <div><font size="1">100000000 steps, 200000.0 ps (continuing
              from step 51879590, 103759.2 ps).</font></div>
          <div><font size="1">step 51879590, will finish Wed Aug 17
              14:21:59 2011</font></div>
          <div><font size="1">imb F 44%&nbsp;</font></div>
          <div><font size="1">NOTE: Turning on dynamic load balancing</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">step 51879600, will finish Fri Jul 15
              14:00:00 2011</font></div>
          <div><font size="1">vol 0.64 &nbsp;imb F &nbsp;0% step 51879700, will
              finish Mon Jun 27 02:19:09 2011</font></div>
          <div><font size="1">vol 0.63 &nbsp;imb F &nbsp;0% step 51879800, will
              finish Sat Jun 25 15:14:01 2011</font></div>
          <div><font size="1">vol 0.64 &nbsp;imb F &nbsp;1% step 51879900, will
              finish Sat Jun 25 02:11:53 2011</font></div>
          <div><font size="1">vol 0.64 &nbsp;imb F &nbsp;0% step 51880000, will
              finish Fri Jun 24 19:48:54 2011</font></div>
          <div><font size="1">vol 0.64 &nbsp;imb F &nbsp;1% step 51880100, will
              finish Fri Jun 24 15:55:19 2011</font></div>
        </div>
        <div><font size="1">::::::</font></div>
        <div>
          <div><font size="1">vol 0.67 &nbsp;imb F &nbsp;0% step 51886400, will
              finish Fri Jun 24 02:51:45 2011</font></div>
          <div><font size="1">vol 0.66 &nbsp;imb F &nbsp;0% step 51886500, will
              finish Fri Jun 24 02:48:10 2011</font></div>
          <div><font size="1">vol 0.66 &nbsp;imb F &nbsp;0% step 51886600, will
              finish Fri Jun 24 02:47:33 2011</font></div>
        </div>
        <div>=====================================</div>
        <div><br>
        </div>
        <div>
          <div>From md-1-2360.out:</div>
          <div>=====================================</div>
          <div>
            <div><font size="1">:::::::</font></div>
          </div>
        </div>
        <div>
          <div><font size="1">Getting Loaded...</font></div>
          <div><font size="1">Reading file run1.tpr, VERSION 4.5.4
              (single precision)</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">Reading checkpoint file run1.cpt
              generated: Tue May 31 10:45:22 2011</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">Loaded with Money</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">Making 2D domain decomposition 4 x 2 x 1</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">WARNING: This run will generate roughly
              4915 Mb of data</font></div>
          <div><font size="1"><br>
            </font></div>
          <div><font size="1">starting mdrun 'run1'</font></div>
          <div><font size="1">100000000 steps, 200000.0 ps (continuing
              from step 51879590, 103759.2 ps).</font></div>
        </div>
        <div>=====================================</div>
      </span></blockquote>
    <br>
    These aren't showing anything other than that the restart is coming
    from the same point each time.<br>
    <br>
    <blockquote
      cite="mid:BANLkTi=pd1nJMJ-Uw=nemAKY41nbr--Zrg@mail.gmail.com"
      type="cite"><span style="border-collapse: collapse; font-family:
        arial,sans-serif; font-size: 13px;">
        <div>And from the last generated output&nbsp;md-1-2437.out (I think I
          killed the job at that point because of the above
          observed&nbsp;behavior):</div>
        <div>=====================================</div>
        <div>
          <div><font size="1">:::::::</font></div>
        </div>
        <div><font size="1">
            <div>Getting Loaded...</div>
            <div>Reading file run1.tpr, VERSION 4.5.4 (single precision)</div>
          </font></div>
        <div><font size="1"><span style="font-size: small;">=====================================</span></font></div>
        <div><br>
        </div>
        <div>I have at least 5-6 additional examples like this one. In
          some of them the *xtc file does have size greater than zero
          yet still very small, but it starts from some random frame
          (for example, in one of the cases it contains frames from
          ~91000ps to ~104000ps, but all frames before 91000ps are
          missing).</div>
      </span></blockquote>
    <br>
    I think that demonstrating a problem requires that the set of output
    files were fine before one particular restart, and weird afterwards.
    I don't think we've seen that yet.<br>
    <br>
    <blockquote
      cite="mid:BANLkTi=pd1nJMJ-Uw=nemAKY41nbr--Zrg@mail.gmail.com"
      type="cite"><span style="border-collapse: collapse; font-family:
        arial,sans-serif; font-size: 13px;">
        <div>I realize there might be another problem, but the bottom
          line is that there is no mechanism that can prevent this from
          happening if many restarts are required, and particularly if
          the timing between these restarts is prone to be small
          (distributed computing could easily satisfy this condition).</div>
        <div><br>
        </div>
        <div>Any suggestions, particularly related to the minimum
          resistance path to regenerate the missing data? :)</div>
        <div style="color: rgb(80, 0, 80);">
          <div><br>
          </div>
          <div>&nbsp;</div>
          <blockquote class="gmail_quote" style="margin: 0px 0px 0px
            0.8ex; border-left: 1px solid rgb(204, 204, 204);
            padding-left: 1ex;">
            <div text="#000000" bgcolor="#ffffff">
              <div><br>
                &nbsp;
                <blockquote type="cite">
                  <div>Using the checkpoint capability &amp; appending
                    make sense when many restarts are expected, but
                    unfortunately it is exactly then when these options
                    completely fail! As a new user of Gromacs, I must
                    say I am disappointed, and would like to obtain an
                    explanation of why the usage of these options is
                    clearly stated to be safe when it is not, and why
                    the append option is the default, and why at least a
                    single warning has not been posted anywhere in the
                    docs &amp; manuals?</div>
                </blockquote>
                <br>
              </div>
              I can understand and sympathize with your frustration if
              you've experienced the loss of a simulation. Do be careful
              when suggesting that others' actions are blame-worthy,
              however.</div>
          </blockquote>
          <div><br>
          </div>
        </div>
        <div>I have never suggested this. As a user, I am entitled to
          ask. </div>
      </span></blockquote>
    <br>
    Sure. However, talking about something that can "completely fail"
    which makes you "disappointed" and wanting to "obtain an
    explanation" about why something doesn't work as stated and lacks "a
    single warning" suggests that someone has done something less than
    appropriate, and so blame-worthy. It also assumes that the actions
    of a new user were correct, and the actions of a developer with long
    experience were not. This may or may not prove to be true. Starting
    such a discussion from a conciliatory (rather than antagonistic)
    stance is usually more productive. The shared objective should be to
    fix the problem, not prove that someone did something wrong.<br>
    <br>
    An alternative way of wording your paragraph could have been:<br>
    "<span style="border-collapse: collapse; font-family:
      arial,sans-serif; font-size: 13px;">Using the checkpoint
      capability &amp; appending make sense when many restarts are
      expected, however I observe that under such circumstances this
      capability can fail. I am a new user of GROMACS, might I have been
      using them incorrectly? Are the developers aware of any situations
      under which the capability is unreliable? If so, should the
      default behaviour be different, and should this issue be
      documented somewhere?"</span><br>
    <br>
    <blockquote
      cite="mid:BANLkTi=pd1nJMJ-Uw=nemAKY41nbr--Zrg@mail.gmail.com"
      type="cite"><span style="border-collapse: collapse; font-family:
        arial,sans-serif; font-size: 13px;">
        <div>And since my questions were not clearly answered, I will
          repeat them in a structured way:</div>
        <div><br>
        </div>
        <div>1. Why is the usage of these options (-cpi and -append)
          clearly stated to be safe when in fact it is not?</div>
      </span></blockquote>
    <br>
    Because they are believed to be safe. Jussi's suggestion about file
    locking may have merit.<br>
    <br>
    <blockquote
      cite="mid:BANLkTi=pd1nJMJ-Uw=nemAKY41nbr--Zrg@mail.gmail.com"
      type="cite"><span style="border-collapse: collapse; font-family:
        arial,sans-serif; font-size: 13px;">
        <div>2. Why have you made the -append option the default in the
          most current GMX versions?</div>
      </span></blockquote>
    <br>
    Because it's the most convenient mode of operation.<br>
    <br>
    <blockquote
      cite="mid:BANLkTi=pd1nJMJ-Uw=nemAKY41nbr--Zrg@mail.gmail.com"
      type="cite"><span style="border-collapse: collapse; font-family:
        arial,sans-serif; font-size: 13px;">
        <div>3. Why has not a single warning been posted anywhere in the
          docs &amp; manuals? (this question is somewhat clear - because
          you did not know about such a problem, but people say "<span
            style="font-family: sans-serif; font-size: 13px;
            line-height: 20px;">ignorance of the law excuses no one</span>",

          which means ignoring to put a warning for something that you
          were not 100% certain it would be error-free could not be an
          excuse)</div>
      </span></blockquote>
    <br>
    Because no-one is aware of a problem to warn about.<br>
    <br>
    <blockquote
      cite="mid:BANLkTi=pd1nJMJ-Uw=nemAKY41nbr--Zrg@mail.gmail.com"
      type="cite"><span style="border-collapse: collapse; font-family:
        arial,sans-serif; font-size: 13px;">
        <div>I am blame-worthy - for blindly believing what was written
          in the manual without taking the necessary precautions. Lesson
          learned.&nbsp;</div>
        <div style="color: rgb(80, 0, 80);">
          <div>&nbsp;</div>
        </div>
        <div style="color: rgb(80, 0, 80);">
          <blockquote class="gmail_quote" style="margin: 0px 0px 0px
            0.8ex; border-left: 1px solid rgb(204, 204, 204);
            padding-left: 1ex;">
            <div text="#000000" bgcolor="#ffffff">However, developers'
              time rarely permits addressing "feature X doesn't work,
              why not?" in a productive way. Solving bugs can be hard,
              but will be easier (and solved faster!) if the user who
              thinks a problem exists follows good procedure. See&nbsp;<a
                moz-do-not-send="true"
                href="http://www.chiark.greenend.org.uk/%7Esgtatham/bugs.html"
                style="color: rgb(0, 0, 204);" target="_blank">http://www.chiark.greenend.org.uk/~sgtatham/bugs.html</a><br>
              <br>
            </div>
          </blockquote>
          <div><br>
          </div>
        </div>
        <div>Implying that I did not follow a certain procedure related
          to a certain problem without you knowing what my initial
          intention was is just a speculation. <br>
        </div>
      </span></blockquote>
    <br>
    I don't follow your point. If your intent is to get the problem
    being fixed, the advice on that web page is useful. If your intent
    is to prove someone else did something wrong then it's time to stop
    the discussion :-)<br>
    <br>
    Cheers,<br>
    <br>
    Mark<br>
    <br>
  </body>
</html>