<div dir="ltr"><div><span style="font-size:12.8000001907349px">Hi,</span><div style="font-size:12.8000001907349px"><br></div><div style="font-size:12.8000001907349px">I ran into the issue that I&#39;m not able to use the number of threads I want to on Power8. The high-end chips have 12 cores with 8-way SMT (96 threads) and I wanted to do a multi-threaded scaling test (without DD) on 1-2 sockets. However, it turns out that it is not possible to run on &gt;32 threads with non-multiples on 32. This is a rather inconvenient limitation on any hardware where the hw thread count is not multiple of 32, e.g. on the Powe8 chip I&#39;d like to run k*12, k={1..8} threads.</div><div style="font-size:12.8000001907349px"><br></div><div style="font-size:12.8000001907349px">AFAIK the same issues will arise on KNC/L too.</div><div style="font-size:12.8000001907349px"><br></div><div style="font-size:12.8000001907349px">Does this limitation originate from the fact that the force reduction is implemented in a simple manner (power of two binary tree reduce?). If that&#39;s the case, should we try to extend this?</div><div style="font-size:12.8000001907349px"><br></div><div style="font-size:12.8000001907349px">Cheers,<br clear="all"><div>--<br>Szilárd</div></div>
</div>
</div>