<div dir="ltr">Hi All,<div><br></div><div>I am developing a new water model and implementing it in gromacs 4.5.5. The model requires an &quot;Allreduce&quot; operation on a 3*natoms sized real value array when calculating forces, and I am using &quot;gmx_sumd&quot; function to do this communication. </div><div><br></div><div>Then, I test my model on a 500-mol water box. When I use 8 processors on 1 node, I can have the performance that I am expecting. However, if I use 24 processors on 2 nodes, usually, but not always, I got a dramatic performance slow down where the actual time of simulation can be slower than it on 8 processors. I am wondering if someone can give me some suggestions on this issue. Thank you very much.</div><div><br></div><div>Yicun Ni</div></div>