<html>

Lynne,<br><br>

<blockquote type=cite class=cite cite>Did you try recompiling lam-mpi

with the latency optimisations that were suggested (?by David) some time

ago on the list?</blockquote><br>

I certainly did.&nbsp; I went back, recompiled to lam-6.5.6 using

-with-tcp-short=524288 versus 64k default, --with-rpi=usysv<br><br>

For those interested, here are the details for the system along with the

scaling numbers and details:<br><br>

System:<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>Intel P733

Dual Processor<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>100 base

Ethernet<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>Linux

Redhat 7.3<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>lam-6.5.6

(tcp-short=524288)<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>fftw-2.1.3

(enable-mpi)<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>gromacs-3.1.4

(enable-mpi)<br><br>

MD Simulation:<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>7.5 nm

cube<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>16

molecules, 16 Na, + water<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>42,000

atoms<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>500

steps<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>0.002 ps

step<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>PME

(order=4, 0.12nm fourier spacing)<br><br>

grompp switches:<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>-sort<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>-shuffle<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>-np

#<br><br>

Initiation of mdrun:<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>mpirun C

mdrun -s .....<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>1 CPU run

time approximately 500 sec<br><br>

SCALING<br>

Cluster<x-tab>&nbsp;</x-tab>tcp=64k<x-tab>&nbsp;</x-tab>tcp=524k<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>PME

off<x-tab>&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>PME(6/0.17nm)<br><br>

1 box/2

CPU<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>71%<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>72%<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>86%<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>84%<br>

2 box/2

CPU<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>54%<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>56%<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>83%<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>74%<br>

2 box/3

CPU<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>40%<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>41%<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>73%<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>62%<br>

2 box/4

CPU<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>27%<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>30%<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>71%<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab><x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab>51%<br><br>

So:<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab># changing

the tcp-short of lam did improve things slightly, but not really that

much to justify the right royal pain it was ;-)<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab># PME

doesn't scale very well, as is noted in the manual etc.<br>

<x-tab>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</x-tab># PME does

scale better when the fourier grid spacing is increased and the PME order

increased<br><br>

I am going to see if there is much of a difference for a longer run, to

reduce the effect of the setup and shut down period that doesn't

parallelise, as noted by Anton.<br><br>

Catch ya,<br>

<x-sigsep><p></x-sigsep>

<b>Dr. Dallas Warren<br>

</b><i>Research Fellow<br>

</i>Department of Pharmaceutical Biology and Pharmacology<br>

Victorian College of Pharmacy<br>

Monash University<br>

<font color="#0000FF"><u>dallas.warren@vcp.monash.edu.au<br>

</u></font>+61 3 9903 9076</html>