<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>

    <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
  </head>
  <body text="#000000" bgcolor="#ffffff">
    Load balancing problems I can understand, but why would it take
    longer in absolute time? I would have thought that some nodes would
    simple be sitting idle, but this should not cause an increase in the
    overall simulation time (15x at that!).<br>
    <br>
    There must be some extra communication?<br>
    <br>
    I agree with Justin that this seems like a strange thing to do, but
    still I think that there must be some underlying coding issue
    (probably one that only exists because of a reasonable assumption
    that nobody would annihilate the largest part of their system).<br>
    <br>
    Chris.<br>
    <br>
    &nbsp;<br>
    <pre>Luca Bellucci wrote:
&gt;<i> Hi Chris,
</i>&gt;<i> thank for the suggestions,
</i>&gt;<i> in the previous mail there is a mistake because   
</i>&gt;<i> couple-moltype = SOL (for solvent) and not "Protein_chaim_P".
</i>&gt;<i> Now the problem of the load balance seems reasonable, because
</i>&gt;<i> the water box is large ~9.0 nm.
</i>
Now your outcome makes a lot more sense.  You're decoupling all of the solvent? 
  I don't see how that is going to be physically stable or terribly meaningful, 
but it explains your performance loss.  You're annihilating a significant number 
of interactions (probably the vast majority of all the nonbonded interactions in 
the system), which I would expect would cause continuous load balancing issues.

-Justin

&gt;<i> However the problem exist and the performance loss is very high, so I have 
</i>&gt;<i> redone calculations with this command:
</i>&gt;<i> 
</i>&gt;<i> grompp -f 
</i>&gt;<i> md.mdp -c ../Run-02/confout.gro -t ../Run-02/state.cpt -p ../topo.top -n ../index.ndx -o 
</i>&gt;<i> md.tpr -maxwarn 1
</i>&gt;<i> 
</i>&gt;<i> mdrun -s md.tpr -o md
</i>&gt;<i> 
</i>&gt;<i> this is part of the md.mdp file: 
</i>&gt;<i> 
</i>&gt;<i> ; Run parameters
</i>&gt;<i> ; define          = -DPOSRES
</i>&gt;<i> integrator        = md                 
</i>&gt;<i> nsteps                = 1000          
</i>&gt;<i> dt                = 0.002                 
</i>&gt;<i> [..]
</i>&gt;<i> free_energy    = yes     ; /no
</i>&gt;<i> init_lambda    = 0.9    
</i>&gt;<i> delta_lambda   = 0.0
</i>&gt;<i> couple-moltype = SOL    ; solvent water
</i>&gt;<i> couple-lambda0 = vdw-q
</i>&gt;<i> couple-lambda1 = none
</i>&gt;<i> couple-intramol= yes
</i>&gt;<i> 
</i>&gt;<i> Result for free energy calculation  
</i>&gt;<i>  Computing:         Nodes     Number     G-Cycles    Seconds     %
</i>&gt;<i> -----------------------------------------------------------------------
</i>&gt;<i>  Domain decomp.       8        126       22.050        8.3     0.1
</i>&gt;<i>  DD comm. load          8         15        0.009        0.0     0.0
</i>&gt;<i>  DD comm. bounds     8         12        0.031        0.0     0.0
</i>&gt;<i>  Comm. coord.            8       1001       17.319        6.5     0.0
</i>&gt;<i>  Neighbor search        8        127      436.569      163.7     1.1
</i>&gt;<i>  Force                           8       1001    34241.576    12840.9    87.8
</i>&gt;<i>  Wait + Comm. F        8       1001       19.486        7.3     0.0
</i>&gt;<i>  PME mesh                  8       1001     4190.758     1571.6    10.7
</i>&gt;<i>  Write traj.                  8          7        1.827        0.7     0.0
</i>&gt;<i>  Update                      8       1001       12.557        4.7     0.0
</i>&gt;<i>  Constraints               8       1001       26.496        9.9     0.1
</i>&gt;<i>  Comm. energies      8       1002       10.710        4.0     0.0
</i>&gt;<i>  Rest                   8                  25.142        9.4     0.1
</i>&gt;<i> -----------------------------------------------------------------------
</i>&gt;<i>  Total                  8               39004.531    14627.1   100.0
</i>&gt;<i> -----------------------------------------------------------------------
</i>&gt;<i> -----------------------------------------------------------------------
</i>&gt;<i>  PME redist. X/F          8       3003     3479.771     1304.9     8.9
</i>&gt;<i>  PME spread/gather   8       4004      277.574      104.1     0.7
</i>&gt;<i>  PME 3D-FFT               8       4004      378.090      141.8     1.0
</i>&gt;<i>  PME solve                  8       2002       55.033       20.6     0.1
</i>&gt;<i> -----------------------------------------------------------------------
</i>&gt;<i>         Parallel run - timing based on wallclock.
</i>&gt;<i> 
</i>&gt;<i>                NODE (s)   Real (s)      (%)
</i>&gt;<i>        Time:   1828.385   1828.385    100.0
</i>&gt;<i>                        30:28
</i>&gt;<i>                              (Mnbf/s)   (GFlops)   (ns/day)  (hour/ns)
</i>&gt;<i> Performance:      3.115      3.223      0.095    253.689
</i>&gt;<i> 
</i>&gt;<i>  I Switched off only the free_energy keyword and I redone the calculation 
</i>&gt;<i> I have:
</i>&gt;<i>  Computing:         Nodes     Number     G-Cycles    Seconds     %
</i>&gt;<i> -----------------------------------------------------------------------
</i>&gt;<i>  Domain decomp.      8         77       10.975        4.1     0.6
</i>&gt;<i>  DD comm. load         8          1        0.001        0.0     0.0
</i>&gt;<i>  Comm. coord.           8       1001       14.480        5.4     0.8
</i>&gt;<i>  Neighbor search       8         78      136.479       51.2     7.3
</i>&gt;<i>  Force                         8       1001     1141.115      427.9    61.3
</i>&gt;<i>  Wait + Comm. F      8       1001       17.845        6.7     1.0
</i>&gt;<i>  PME mesh                8       1001      484.581      181.7    26.0
</i>&gt;<i>  Write traj.               8          5        1.221        0.5     0.1
</i>&gt;<i>  Update                   8       1001        9.976        3.7     0.5
</i>&gt;<i>  Constraints            8       1001       20.275        7.6     1.1
</i>&gt;<i>  Comm. energies     8        992        5.933        2.2     0.3
</i>&gt;<i>  Rest                         8                  19.670        7.4     1.1
</i>&gt;<i> -----------------------------------------------------------------------
</i>&gt;<i>  Total                  8                1862.552      698.5   100.0
</i>&gt;<i> -----------------------------------------------------------------------
</i>&gt;<i> -----------------------------------------------------------------------
</i>&gt;<i>  PME redist. X/F        8       2002       92.204       34.6     5.0
</i>&gt;<i>  PME spread/gather      8       2002      192.337       72.1    10.3
</i>&gt;<i>  PME 3D-FFT             8       2002      177.373       66.5     9.5
</i>&gt;<i>  PME solve              8       1001       22.512        8.4     1.2
</i>&gt;<i> -----------------------------------------------------------------------
</i>&gt;<i>         Parallel run - timing based on wallclock.
</i>&gt;<i> 
</i>&gt;<i>                NODE (s)   Real (s)      (%)
</i>&gt;<i>        Time:     87.309     87.309    100.0
</i>&gt;<i>                        1:27
</i>&gt;<i>                          (Mnbf/s)   (GFlops)   (ns/day)  (hour/ns)
</i>&gt;<i> Performance:    439.731     23.995      1.981     12.114
</i>&gt;<i> Finished mdrun on node 0 Mon Apr  4 16:52:04 2011
</i>&gt;<i> 
</i>&gt;<i> Luca        
</i>&gt;<i> 
</i>&gt;<i> 
</i>&gt;<i> 
</i>&gt;<i> 
</i>&gt;&gt;<i> If we accept your text at face value, then the simulation slowed down
</i>&gt;&gt;<i> by a factor of 1500%, certainly not the 16% of the load balancing.
</i>&gt;&gt;<i>
</i>&gt;&gt;<i> Please let us know what version of gromacs and cut and paste your
</i>&gt;&gt;<i> cammands that you used to run gromacs (so we can verify that you ran
</i>&gt;&gt;<i> on the same number of processors) and cut and paste a diff of the .mdp
</i>&gt;&gt;<i> files (so that we can verify that you ran for the same number of steps).
</i>&gt;&gt;<i>
</i>&gt;&gt;<i> You might be correct about the slowdown, but let's rule out some other
</i>&gt;&gt;<i> more obvious problems first.
</i>&gt;&gt;<i>
</i>&gt;&gt;<i> Chris.
</i>&gt;&gt;<i>
</i>&gt;&gt;<i> -- original message --
</i>&gt;&gt;<i>
</i>&gt;&gt;<i>
</i>&gt;&gt;<i> Dear all,
</i>&gt;&gt;<i> when I run a single free energy simulation
</i>&gt;&gt;<i> i noticed that there is a loss of performace with respect to
</i>&gt;&gt;<i> the normal MD
</i>&gt;&gt;<i>
</i>&gt;&gt;<i> free_energy    = yes
</i>&gt;&gt;<i> init_lambda    = 0.9
</i>&gt;&gt;<i> delta_lambda   = 0.0
</i>&gt;&gt;<i> couple-moltype = Protein_Chain_P
</i>&gt;&gt;<i> couple-lambda0 = vdw-q
</i>&gt;&gt;<i> couple-lambda0 = none
</i>&gt;&gt;<i> couple-intramol= yes
</i>&gt;&gt;<i>
</i>&gt;&gt;<i>     Average load imbalance: 16.3 %
</i>&gt;&gt;<i>     Part of the total run time spent waiting due to load imbalance: 12.2 %
</i>&gt;&gt;<i>     Steps where the load balancing was limited by -rdd, -rcon and/or -dds:
</i>&gt;&gt;<i> X0 % Time:   1852.712   1852.712    100.0
</i>&gt;&gt;<i>
</i>&gt;&gt;<i> free_energy    = no
</i>&gt;&gt;<i>     Average load imbalance: 2.7 %
</i>&gt;&gt;<i>     Part of the total run time spent waiting due to load imbalance: 1.7 %
</i>&gt;&gt;<i>     Time:    127.394    127.394    100.0
</i>&gt;&gt;<i>
</i>&gt;&gt;<i> It seems that the loss of performace is due in part to in the load
</i>&gt;&gt;<i> imbalance in the domain decomposition, however I tried to change
</i>&gt;&gt;<i> these keywords without benefit
</i>&gt;&gt;<i> Any comment is welcome.
</i></pre>
  </body>
</html>