From 6bfd1c958e27529d79ac2c49d76a273edb618d67 Mon Sep 17 00:00:00 2001
From: Doc CI Action <rasolca@users.noreply.github.com>
Date: Mon, 11 Sep 2023 09:07:24 +0000
Subject: [PATCH] Doc Doc fixes for TridiagSolver (local) and removal of unused
 GPU kernels (#971)

---
 ...r_2tridiag__solver_2kernels_8h_source.html |  137 +-
 master/index__manipulation_8h_source.html     |  262 +-
 master/merge_8h_source.html                   | 2502 +++++++++--------
 3 files changed, 1395 insertions(+), 1506 deletions(-)
diff --git a/master/eigensolver_2tridiag__solver_2kernels_8h_source.html b/master/eigensolver_2tridiag__solver_2kernels_8h_source.html
index 57e3c0778d..e11f3e225d 100644
--- a/master/eigensolver_2tridiag__solver_2kernels_8h_source.html
+++ b/master/eigensolver_2tridiag__solver_2kernels_8h_source.html
@@ -257,131 +257,20 @@
 <div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;                      std::move(sender));</div>
 <div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;}</div>
 <div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160; </div>
-<div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;T maxElementInColumnTile(<span class="keyword">const</span> matrix::Tile&lt;const T, Device::CPU&gt;&amp; tile);</div>
-<div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160; </div>
-<div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;<span class="preprocessor">#define DLAF_CPU_MAX_ELEMENT_IN_COLUMN_TILE_ETI(kword, Type) \</span></div>
-<div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;<span class="preprocessor">  kword template Type maxElementInColumnTile(const matrix::Tile&lt;const Type, Device::CPU&gt;&amp; tile)</span></div>
-<div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160; </div>
-<div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;DLAF_CPU_MAX_ELEMENT_IN_COLUMN_TILE_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
-<div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;DLAF_CPU_MAX_ELEMENT_IN_COLUMN_TILE_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
+<div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;<span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
+<div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160; </div>
+<div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;<span class="keywordtype">void</span> givensRotationOnDevice(SizeType len, T* x, T* y, T c, T s, whip::stream_t stream);</div>
+<div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160; </div>
+<div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;<span class="preprocessor">#define DLAF_GIVENS_ROT_ETI(kword, Type)                                                     \</span></div>
+<div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;<span class="preprocessor">  kword template void givensRotationOnDevice(SizeType len, Type* x, Type* y, Type c, Type s, \</span></div>
+<div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;<span class="preprocessor">                                             whip::stream_t stream)</span></div>
 <div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160; </div>
-<div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;<span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160; </div>
-<div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;<span class="keywordtype">void</span> maxElementInColumnTile(<span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; tile, T* host_max_el_ptr,</div>
-<div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;                            T* device_max_el_ptr, whip::stream_t stream);</div>
-<div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160; </div>
-<div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;<span class="preprocessor">#define DLAF_GPU_MAX_ELEMENT_IN_COLUMN_TILE_ETI(kword, Type)                                    \</span></div>
-<div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;<span class="preprocessor">  kword template void maxElementInColumnTile(const matrix::Tile&lt;const Type, Device::GPU&gt;&amp; tile, \</span></div>
-<div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;<span class="preprocessor">                                             Type* host_max_el_ptr, Type* device_max_el_ptr,    \</span></div>
-<div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;<span class="preprocessor">                                             whip::stream_t stream)</span></div>
-<div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160; </div>
-<div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;DLAF_GPU_MAX_ELEMENT_IN_COLUMN_TILE_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
-<div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;DLAF_GPU_MAX_ELEMENT_IN_COLUMN_TILE_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
-<div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160; </div>
-<div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;<span class="preprocessor">#endif</span></div>
-<div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160; </div>
-<div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;<a class="code" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(maxElementInColumnTile);</div>
-<div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160; </div>
-<div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, Device D, <span class="keyword">class</span> TileSender&gt;</div>
-<div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;<span class="keyword">auto</span> maxElementInColumnTileAsync(TileSender&amp;&amp; tile) {</div>
-<div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160; </div>
-<div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;  constexpr <span class="keyword">auto</span> backend = dlaf::DefaultBackend_v&lt;D&gt;;</div>
-<div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160; </div>
-<div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;  <span class="keywordflow">if</span> constexpr (D == Device::CPU) {</div>
-<div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;    <span class="keywordflow">return</span> std::forward&lt;TileSender&gt;(tile) |</div>
-<div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;           di::transform(di::Policy&lt;backend&gt;(), maxElementInColumnTile_o);</div>
-<div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;  }</div>
-<div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;  <span class="keywordflow">else</span> {</div>
-<div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;<span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;    <span class="keyword">using</span> ElementType = dlaf::internal::SenderElementType&lt;TileSender&gt;;</div>
-<div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;    <span class="keywordflow">return</span> ex::when_all(std::forward&lt;TileSender&gt;(tile),</div>
-<div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;                        ex::just(memory::MemoryChunk&lt;ElementType, Device::CPU&gt;{1},</div>
-<div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;                                 memory::MemoryChunk&lt;ElementType, Device::GPU&gt;{1})) |</div>
-<div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;           ex::let_value([](<span class="keyword">auto</span>&amp; tile, <span class="keyword">auto</span>&amp; host_max_el, <span class="keyword">auto</span>&amp; device_max_el) {</div>
-<div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;             <span class="keywordflow">return</span> ex::just(tile, host_max_el(), device_max_el()) |</div>
-<div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;                    di::transform(di::Policy&lt;backend&gt;(), maxElementInColumnTile_o) |</div>
-<div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;                    ex::then([&amp;host_max_el]() { <span class="keywordflow">return</span> *host_max_el(); });</div>
-<div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;           });</div>
-<div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;<span class="preprocessor">#endif</span></div>
-<div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;  }</div>
-<div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;}</div>
-<div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160; </div>
-<div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;<span class="keywordtype">void</span> setColTypeTile(<span class="keyword">const</span> ColType&amp; ct, <span class="keyword">const</span> matrix::Tile&lt;ColType, Device::CPU&gt;&amp; tile);</div>
-<div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160; </div>
-<div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;<span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;<span class="keywordtype">void</span> setColTypeTile(<span class="keyword">const</span> ColType&amp; ct, <span class="keyword">const</span> matrix::Tile&lt;ColType, Device::GPU&gt;&amp; tile,</div>
-<div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;                    whip::stream_t stream);</div>
-<div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;<span class="preprocessor">#endif</span></div>
-<div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160; </div>
-<div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;<a class="code" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(setColTypeTile);</div>
-<div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160; </div>
-<div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;<span class="keyword">template</span> &lt;Device D, <span class="keyword">class</span> TileSender&gt;</div>
-<div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;<span class="keywordtype">void</span> setColTypeTileAsync(ColType val, TileSender&amp;&amp; tile) {</div>
-<div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160; </div>
-<div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;  <span class="keyword">auto</span> sender = di::whenAllLift(val, std::forward&lt;TileSender&gt;(tile));</div>
-<div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;  di::transformDetach(di::Policy&lt;DefaultBackend_v&lt;D&gt;&gt;(), setColTypeTile_o, std::move(sender));</div>
-<div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;}</div>
-<div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160; </div>
-<div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;<span class="keywordtype">void</span> initIndexTile(SizeType offset, <span class="keyword">const</span> matrix::Tile&lt;SizeType, Device::CPU&gt;&amp; tile);</div>
-<div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160; </div>
-<div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;<span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;<span class="keywordtype">void</span> initIndexTile(SizeType offset, <span class="keyword">const</span> matrix::Tile&lt;SizeType, Device::GPU&gt;&amp; tile,</div>
-<div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;                   whip::stream_t stream);</div>
-<div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;<span class="preprocessor">#endif</span></div>
-<div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160; </div>
-<div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;<a class="code" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(initIndexTile);</div>
-<div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160; </div>
-<div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;<span class="keyword">template</span> &lt;Device D, <span class="keyword">class</span> TileSender&gt;</div>
-<div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;<span class="keywordtype">void</span> initIndexTileAsync(SizeType tile_row, TileSender&amp;&amp; tile) {</div>
-<div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160; </div>
-<div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;  <span class="keyword">auto</span> sender = di::whenAllLift(tile_row, std::forward&lt;TileSender&gt;(tile));</div>
-<div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;  di::transformDetach(di::Policy&lt;DefaultBackend_v&lt;D&gt;&gt;(), initIndexTile_o, std::move(sender));</div>
-<div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;}</div>
-<div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160; </div>
-<div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;<span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160; </div>
-<div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;<span class="keywordtype">void</span> mergeIndicesOnDevice(<span class="keyword">const</span> SizeType* begin_ptr, <span class="keyword">const</span> SizeType* split_ptr, <span class="keyword">const</span> SizeType* end_ptr,</div>
-<div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;                          SizeType* out_ptr, <span class="keyword">const</span> T* v_ptr, whip::stream_t stream);</div>
-<div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160; </div>
-<div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;<span class="preprocessor">#define DLAF_CUDA_MERGE_INDICES_ETI(kword, Type)                                                 \</span></div>
-<div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;<span class="preprocessor">  kword template void mergeIndicesOnDevice(const SizeType* begin_ptr, const SizeType* split_ptr, \</span></div>
-<div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;<span class="preprocessor">                                           const SizeType* end_ptr, SizeType* out_ptr,           \</span></div>
-<div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;<span class="preprocessor">                                           const Type* v_ptr, whip::stream_t stream)</span></div>
-<div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160; </div>
-<div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;DLAF_CUDA_MERGE_INDICES_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
-<div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;DLAF_CUDA_MERGE_INDICES_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
-<div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160; </div>
-<div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;<span class="keywordtype">void</span> applyIndexOnDevice(SizeType len, <span class="keyword">const</span> SizeType* index, <span class="keyword">const</span> T* in, T* out, whip::stream_t stream);</div>
-<div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160; </div>
-<div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;<span class="preprocessor">#define DLAF_CUDA_APPLY_INDEX_ETI(kword, Type)                                                \</span></div>
-<div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;<span class="preprocessor">  kword template void applyIndexOnDevice(SizeType len, const SizeType* index, const Type* in, \</span></div>
-<div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;<span class="preprocessor">                                         Type* out, whip::stream_t stream)</span></div>
-<div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160; </div>
-<div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;DLAF_CUDA_APPLY_INDEX_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
-<div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;DLAF_CUDA_APPLY_INDEX_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
-<div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160; </div>
-<div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;<span class="keywordtype">void</span> invertIndexOnDevice(SizeType len, <span class="keyword">const</span> SizeType* in, SizeType* out, whip::stream_t stream);</div>
-<div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160; </div>
-<div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;<span class="keywordtype">void</span> givensRotationOnDevice(SizeType len, T* x, T* y, T c, T s, whip::stream_t stream);</div>
-<div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160; </div>
-<div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;<span class="preprocessor">#define DLAF_GIVENS_ROT_ETI(kword, Type)                                                     \</span></div>
-<div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;<span class="preprocessor">  kword template void givensRotationOnDevice(SizeType len, Type* x, Type* y, Type c, Type s, \</span></div>
-<div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;<span class="preprocessor">                                             whip::stream_t stream)</span></div>
-<div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160; </div>
-<div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;DLAF_GIVENS_ROT_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
-<div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;DLAF_GIVENS_ROT_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
-<div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160; </div>
-<div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;<span class="preprocessor">#endif</span></div>
-<div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;}</div>
+<div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;DLAF_GIVENS_ROT_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
+<div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;DLAF_GIVENS_ROT_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
+<div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160; </div>
+<div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;<span class="preprocessor">#endif</span></div>
+<div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;}</div>
 <div class="ttc" id="acallable__object_8h_html"><div class="ttname"><a href="callable__object_8h.html">callable_object.h</a></div></div>
 <div class="ttc" id="acallable__object_8h_html_a5aafa5a9c65ad07da48410427f4825b2"><div class="ttname"><a href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a></div><div class="ttdeci">#define DLAF_MAKE_CALLABLE_OBJECT(fname)</div><div class="ttdef"><b>Definition:</b> callable_object.h:26</div></div>
 <div class="ttc" id="acopy__tile_8h_html"><div class="ttname"><a href="copy__tile_8h.html">copy_tile.h</a></div></div>
diff --git a/master/index__manipulation_8h_source.html b/master/index__manipulation_8h_source.html
index a0e279a170..746a0266c2 100644
--- a/master/index__manipulation_8h_source.html
+++ b/master/index__manipulation_8h_source.html
@@ -106,147 +106,133 @@
 <div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="comment">// The index starts at `0` for tiles in the range [i_begin, i_end)</span></div>
 <div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">template</span> &lt;Device D&gt;</div>
 <div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keywordtype">void</span> initIndex(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, Matrix&lt;SizeType, D&gt;&amp; index) {</div>
-<div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;  <span class="keyword">const</span> SizeType nb = index.distribution().blockSize().rows();</div>
-<div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;  <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
-<div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;    <span class="keyword">const</span> GlobalTileIndex tile_idx(i, 0);</div>
-<div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;    <span class="keyword">const</span> SizeType tile_row = (i - i_begin) * nb;</div>
-<div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;    initIndexTileAsync&lt;D&gt;(tile_row, index.readwrite(tile_idx));</div>
-<div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;  }</div>
-<div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;}</div>
-<div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160; </div>
-<div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="comment">// Add val to the indices of `index`.</span></div>
-<div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="keyword">inline</span> <span class="keywordtype">void</span> addIndex(SizeType i_begin, SizeType i_end, SizeType val,</div>
-<div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;                     Matrix&lt;SizeType, Device::CPU&gt;&amp; index) {</div>
-<div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160; </div>
-<div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  SizeType n = problemSize(i_begin, i_end, index.distribution());</div>
-<div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;  <span class="keyword">auto</span> add_fn = [val, n](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index) {</div>
-<div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;    TileElementIndex zero_idx(0, 0);</div>
-<div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;    SizeType* index_ptr = index[0].ptr(zero_idx);</div>
-<div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160; </div>
-<div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;    <span class="keyword">auto</span> begin_it = index_ptr;</div>
-<div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    <span class="keyword">auto</span> end_it = index_ptr + n;</div>
-<div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;    std::for_each(begin_it, end_it, [val](SizeType&amp; i) { i += val; });</div>
-<div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  };</div>
+<div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160; </div>
+<div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;  <span class="keyword">const</span> SizeType nb = index.distribution().blockSize().rows();</div>
+<div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;  <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
+<div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;    <span class="keyword">const</span> GlobalTileIndex tile_idx(i, 0);</div>
+<div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;    <span class="keyword">const</span> SizeType tile_row = (i - i_begin) * nb;</div>
+<div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;    <span class="keyword">auto</span> sender = di::whenAllLift(tile_row, index.readwrite(tile_idx));</div>
+<div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    di::transformDetach(</div>
+<div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;        di::Policy&lt;Backend::MC&gt;(),</div>
+<div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;        [](SizeType offset, <span class="keyword">const</span> matrix::Tile&lt;SizeType, Device::CPU&gt;&amp; tile) {</div>
+<div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; tile.size().rows(); ++i) {</div>
+<div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;            tile(TileElementIndex(i, 0)) = offset + i;</div>
+<div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;          }</div>
+<div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;        },</div>
+<div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;        std::move(sender));</div>
+<div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  }</div>
+<div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;}</div>
+<div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160; </div>
+<div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;<span class="comment">// Add val to the indices of `index`.</span></div>
+<div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;<span class="keyword">inline</span> <span class="keywordtype">void</span> addIndex(SizeType i_begin, SizeType i_end, SizeType val,</div>
+<div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;                     Matrix&lt;SizeType, Device::CPU&gt;&amp; index) {</div>
+<div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
 <div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160; </div>
-<div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  TileCollector tc{i_begin, i_end};</div>
-<div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160; </div>
-<div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="keyword">auto</span> sender = ex::when_all_vector(tc.readwrite&lt;SizeType, Device::CPU&gt;(index));</div>
-<div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160; </div>
-<div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  ex::start_detached(di::transform(di::Policy&lt;DefaultBackend_v&lt;Device::CPU&gt;&gt;(), std::move(add_fn),</div>
-<div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;                                   std::move(sender)));</div>
-<div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;}</div>
-<div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160; </div>
-<div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;<span class="comment">// Sorts an index `in_index_tiles` based on values in `vals_tiles` in ascending order into the index</span></div>
-<div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;<span class="comment">// `out_index_tiles` where `vals_tiles` is composed of two pre-sorted ranges in ascending order that</span></div>
-<div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;<span class="comment">// are merged, the first is [0, k) and the second is [k, n).</span></div>
-<div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, Device D, <span class="keyword">class</span> KSender&gt;</div>
-<div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;<span class="keywordtype">void</span> sortIndex(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, KSender&amp;&amp; k, Matrix&lt;const T, D&gt;&amp; vec,</div>
-<div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;               Matrix&lt;const SizeType, D&gt;&amp; in_index, Matrix&lt;SizeType, D&gt;&amp; out_index) {</div>
-<div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  SizeType n = problemSize(i_begin, i_end, index.distribution());</div>
+<div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  <span class="keyword">auto</span> add_fn = [val, n](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index) {</div>
+<div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    TileElementIndex zero_idx(0, 0);</div>
+<div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;    SizeType* index_ptr = index[0].ptr(zero_idx);</div>
+<div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160; </div>
+<div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;    <span class="keyword">auto</span> begin_it = index_ptr;</div>
+<div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <span class="keyword">auto</span> end_it = index_ptr + n;</div>
+<div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;    std::for_each(begin_it, end_it, [val](SizeType&amp; i) { i += val; });</div>
+<div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  };</div>
+<div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160; </div>
+<div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;  TileCollector tc{i_begin, i_end};</div>
+<div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160; </div>
+<div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;  <span class="keyword">auto</span> sender = ex::when_all_vector(tc.readwrite&lt;SizeType, Device::CPU&gt;(index));</div>
+<div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160; </div>
+<div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;  ex::start_detached(di::transform(di::Policy&lt;DefaultBackend_v&lt;Device::CPU&gt;&gt;(), std::move(add_fn),</div>
+<div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;                                   std::move(sender)));</div>
+<div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;}</div>
 <div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160; </div>
-<div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, vec.distribution());</div>
-<div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;  <span class="keyword">auto</span> sort_fn = [n](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; k, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; vec_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; in_index_futs,</div>
-<div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;                     <span class="keyword">const</span> <span class="keyword">auto</span>&amp; out_index, [[maybe_unused]] <span class="keyword">auto</span>&amp;&amp;... ts) {</div>
-<div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    DLAF_ASSERT(k &lt;= n, k, n);</div>
-<div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160; </div>
-<div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;    <span class="keyword">const</span> TileElementIndex zero_idx(0, 0);</div>
-<div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;    <span class="keyword">const</span> T* v_ptr = vec_futs[0].get().ptr(zero_idx);</div>
-<div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;    <span class="keyword">const</span> SizeType* in_index_ptr = in_index_futs[0].get().ptr(zero_idx);</div>
-<div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;    SizeType* out_index_ptr = out_index[0].ptr(zero_idx);</div>
-<div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160; </div>
-<div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;    <span class="keyword">auto</span> begin_it = in_index_ptr;</div>
-<div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;    <span class="keyword">auto</span> split_it = in_index_ptr + k;</div>
-<div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;    <span class="keyword">auto</span> end_it = in_index_ptr + n;</div>
-<div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;    <span class="keywordflow">if</span> constexpr (D == Device::CPU) {</div>
-<div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;      <span class="keyword">auto</span> cmp = [v_ptr](<span class="keyword">const</span> SizeType i1, <span class="keyword">const</span> SizeType i2) { <span class="keywordflow">return</span> v_ptr[i1] &lt; v_ptr[i2]; };</div>
-<div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;      pika::merge(pika::execution::par, begin_it, split_it, split_it, end_it, out_index_ptr,</div>
-<div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;                  std::move(cmp));</div>
-<div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    }</div>
-<div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    <span class="keywordflow">else</span> {</div>
-<div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;<span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;      mergeIndicesOnDevice(begin_it, split_it, end_it, out_index_ptr, v_ptr, ts...);</div>
-<div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;<span class="preprocessor">#endif</span></div>
-<div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    }</div>
-<div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;  };</div>
-<div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160; </div>
-<div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  TileCollector tc{i_begin, i_end};</div>
-<div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160; </div>
-<div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  <span class="keyword">auto</span> sender = ex::when_all(std::forward&lt;KSender&gt;(k), ex::when_all_vector(tc.read&lt;T, D&gt;(vec)),</div>
-<div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;                             ex::when_all_vector(tc.read&lt;SizeType, D&gt;(in_index)),</div>
-<div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;                             ex::when_all_vector(tc.readwrite&lt;SizeType, D&gt;(out_index)));</div>
+<div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;<span class="comment">// Sorts an index `in_index_tiles` based on values in `vals_tiles` in ascending order into the index</span></div>
+<div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;<span class="comment">// `out_index_tiles` where `vals_tiles` is composed of two pre-sorted ranges in ascending order that</span></div>
+<div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;<span class="comment">// are merged, the first is [0, k) and the second is [k, n).</span></div>
+<div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> KSender&gt;</div>
+<div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;<span class="keywordtype">void</span> sortIndex(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, KSender&amp;&amp; k,</div>
+<div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;               Matrix&lt;const T, Device::CPU&gt;&amp; vec, Matrix&lt;const SizeType, Device::CPU&gt;&amp; in_index,</div>
+<div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;               Matrix&lt;SizeType, Device::CPU&gt;&amp; out_index) {</div>
+<div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160; </div>
+<div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, vec.distribution());</div>
+<div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;  <span class="keyword">auto</span> sort_fn = [n](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; k, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; vec_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; in_index_futs,</div>
+<div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;                     <span class="keyword">const</span> <span class="keyword">auto</span>&amp; out_index, [[maybe_unused]] <span class="keyword">auto</span>&amp;&amp;... ts) {</div>
+<div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;    DLAF_ASSERT(k &lt;= n, k, n);</div>
+<div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160; </div>
+<div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;    <span class="keyword">const</span> TileElementIndex zero_idx(0, 0);</div>
+<div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    <span class="keyword">const</span> T* v_ptr = vec_futs[0].get().ptr(zero_idx);</div>
+<div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    <span class="keyword">const</span> SizeType* in_index_ptr = in_index_futs[0].get().ptr(zero_idx);</div>
+<div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;    SizeType* out_index_ptr = out_index[0].ptr(zero_idx);</div>
+<div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160; </div>
+<div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    <span class="keyword">auto</span> begin_it = in_index_ptr;</div>
+<div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    <span class="keyword">auto</span> split_it = in_index_ptr + k;</div>
+<div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;    <span class="keyword">auto</span> end_it = in_index_ptr + n;</div>
+<div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    <span class="keyword">auto</span> cmp = [v_ptr](<span class="keyword">const</span> SizeType i1, <span class="keyword">const</span> SizeType i2) { <span class="keywordflow">return</span> v_ptr[i1] &lt; v_ptr[i2]; };</div>
+<div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;    pika::merge(pika::execution::par, begin_it, split_it, split_it, end_it, out_index_ptr,</div>
+<div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;                std::move(cmp));</div>
+<div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  };</div>
+<div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160; </div>
+<div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;  TileCollector tc{i_begin, i_end};</div>
 <div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160; </div>
-<div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;  ex::start_detached(di::transform(di::Policy&lt;DefaultBackend_v&lt;D&gt;&gt;(), std::move(sort_fn),</div>
-<div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                                   std::move(sender)));</div>
-<div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;}</div>
-<div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160; </div>
-<div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;<span class="comment">// Applies `index` to `in` to get `out`</span></div>
-<div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, Device D&gt;</div>
-<div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;<span class="keywordtype">void</span> applyIndex(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, Matrix&lt;const SizeType, D&gt;&amp; index,</div>
-<div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;                Matrix&lt;const T, D&gt;&amp; in, Matrix&lt;T, D&gt;&amp; out) {</div>
-<div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160; </div>
-<div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, index.distribution());</div>
-<div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;  <span class="keyword">auto</span> applyIndex_fn = [n](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; in_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; out,</div>
-<div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;                           [[maybe_unused]] <span class="keyword">auto</span>&amp;&amp;... ts) {</div>
-<div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;    <span class="keyword">const</span> TileElementIndex zero_idx(0, 0);</div>
-<div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;    <span class="keyword">const</span> SizeType* i_ptr = index_futs[0].get().ptr(zero_idx);</div>
-<div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;    <span class="keyword">const</span> T* in_ptr = in_futs[0].get().ptr(zero_idx);</div>
-<div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;    T* out_ptr = out[0].ptr(zero_idx);</div>
-<div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160; </div>
-<div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;    <span class="keywordflow">if</span> constexpr (D == Device::CPU) {</div>
-<div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;      <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
-<div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;        out_ptr[i] = in_ptr[i_ptr[i]];</div>
-<div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;      }</div>
-<div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;    }</div>
-<div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    <span class="keywordflow">else</span> {</div>
-<div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;<span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      applyIndexOnDevice(n, i_ptr, in_ptr, out_ptr, ts...);</div>
-<div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;<span class="preprocessor">#endif</span></div>
-<div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;    }</div>
-<div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;  };</div>
-<div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160; </div>
-<div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;  TileCollector tc{i_begin, i_end};</div>
-<div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160; </div>
-<div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;  <span class="keyword">auto</span> sender = ex::when_all(ex::when_all_vector(tc.read(index)), ex::when_all_vector(tc.read(in)),</div>
-<div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;                             ex::when_all_vector(tc.readwrite(out)));</div>
-<div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;  ex::start_detached(di::transform(di::Policy&lt;DefaultBackend_v&lt;D&gt;&gt;(), std::move(applyIndex_fn),</div>
-<div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;                                   std::move(sender)));</div>
-<div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;}</div>
-<div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160; </div>
-<div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;<span class="keyword">template</span> &lt;Device D&gt;</div>
-<div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;<span class="keywordtype">void</span> invertIndex(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, Matrix&lt;const SizeType, D&gt;&amp; in,</div>
-<div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;                 Matrix&lt;SizeType, D&gt;&amp; out) {</div>
-<div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160; </div>
-<div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, in.distribution());</div>
-<div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  <span class="keyword">auto</span> inv_fn = [n](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; in_tiles_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; out_tiles, [[maybe_unused]] <span class="keyword">auto</span>&amp;&amp;... ts) {</div>
-<div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;    <span class="keyword">const</span> TileElementIndex zero(0, 0);</div>
-<div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    <span class="keyword">const</span> SizeType* in_ptr = in_tiles_futs[0].get().ptr(zero);</div>
-<div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;    SizeType* out_ptr = out_tiles[0].ptr(zero);</div>
-<div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160; </div>
-<div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    <span class="keywordflow">if</span> constexpr (D == Device::CPU) {</div>
-<div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;      <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
-<div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;        out_ptr[in_ptr[i]] = i;</div>
-<div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;      }</div>
-<div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;    }</div>
-<div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;    <span class="keywordflow">else</span> {</div>
-<div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;      invertIndexOnDevice(n, in_ptr, out_ptr, ts...);</div>
-<div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;    }</div>
-<div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;  };</div>
-<div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160; </div>
-<div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;  TileCollector tc{i_begin, i_end};</div>
-<div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;  <span class="keyword">auto</span> sender = ex::when_all(ex::when_all_vector(tc.read(in)), ex::when_all_vector(tc.readwrite(out)));</div>
-<div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;  ex::start_detached(di::transform(di::Policy&lt;DefaultBackend_v&lt;D&gt;&gt;(), std::move(inv_fn),</div>
-<div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;                                   std::move(sender)));</div>
-<div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;}</div>
-<div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;}</div>
+<div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;  ex::start_detached(ex::when_all(std::forward&lt;KSender&gt;(k), ex::when_all_vector(tc.read(vec)),</div>
+<div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                                  ex::when_all_vector(tc.read(in_index)),</div>
+<div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;                                  ex::when_all_vector(tc.readwrite(out_index))) |</div>
+<div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;                     di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(sort_fn)));</div>
+<div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;}</div>
+<div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160; </div>
+<div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;<span class="comment">// Applies `index` to `in` to get `out`</span></div>
+<div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;<span class="keywordtype">void</span> applyIndex(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, Matrix&lt;const SizeType, Device::CPU&gt;&amp; index,</div>
+<div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;                Matrix&lt;const T, Device::CPU&gt;&amp; in, Matrix&lt;T, Device::CPU&gt;&amp; out) {</div>
+<div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160; </div>
+<div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, index.distribution());</div>
+<div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;  <span class="keyword">auto</span> applyIndex_fn = [n](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; index_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; in_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; out) {</div>
+<div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;    <span class="keyword">const</span> TileElementIndex zero_idx(0, 0);</div>
+<div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;    <span class="keyword">const</span> SizeType* i_ptr = index_futs[0].get().ptr(zero_idx);</div>
+<div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;    <span class="keyword">const</span> T* in_ptr = in_futs[0].get().ptr(zero_idx);</div>
+<div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    T* out_ptr = out[0].ptr(zero_idx);</div>
+<div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160; </div>
+<div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;    <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i)</div>
+<div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;      out_ptr[i] = in_ptr[i_ptr[i]];</div>
+<div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;  };</div>
+<div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160; </div>
+<div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;  TileCollector tc{i_begin, i_end};</div>
+<div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160; </div>
+<div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <span class="keyword">auto</span> sender = ex::when_all(ex::when_all_vector(tc.read(index)), ex::when_all_vector(tc.read(in)),</div>
+<div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;                             ex::when_all_vector(tc.readwrite(out)));</div>
+<div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  ex::start_detached(di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(applyIndex_fn),</div>
+<div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;                                   std::move(sender)));</div>
+<div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;}</div>
+<div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160; </div>
+<div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;<span class="keyword">inline</span> <span class="keywordtype">void</span> invertIndex(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end,</div>
+<div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;                        Matrix&lt;const SizeType, Device::CPU&gt;&amp; in, Matrix&lt;SizeType, Device::CPU&gt;&amp; out) {</div>
+<div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160; </div>
+<div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, in.distribution());</div>
+<div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;  <span class="keyword">auto</span> inv_fn = [n](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; in_tiles_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; out_tiles, [[maybe_unused]] <span class="keyword">auto</span>&amp;&amp;... ts) {</div>
+<div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;    <span class="keyword">const</span> TileElementIndex zero(0, 0);</div>
+<div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;    <span class="keyword">const</span> SizeType* in_ptr = in_tiles_futs[0].get().ptr(zero);</div>
+<div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;    SizeType* out_ptr = out_tiles[0].ptr(zero);</div>
+<div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160; </div>
+<div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;    <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
+<div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      out_ptr[in_ptr[i]] = i;</div>
+<div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;    }</div>
+<div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  };</div>
+<div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160; </div>
+<div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;  TileCollector tc{i_begin, i_end};</div>
+<div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;  <span class="keyword">auto</span> sender = ex::when_all(ex::when_all_vector(tc.read(in)), ex::when_all_vector(tc.readwrite(out)));</div>
+<div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;  ex::start_detached(di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(inv_fn), std::move(sender)));</div>
+<div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;}</div>
+<div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;}</div>
 <div class="ttc" id="adistribution_8h_html"><div class="ttname"><a href="distribution_8h.html">distribution.h</a></div></div>
 <div class="ttc" id="aindex_8h_html"><div class="ttname"><a href="index_8h.html">index.h</a></div></div>
 <div class="ttc" id="amatrix_8h_html"><div class="ttname"><a href="matrix_8h.html">matrix.h</a></div></div>
diff --git a/master/merge_8h_source.html b/master/merge_8h_source.html
index f5a59e699e..ee56c6628c 100644
--- a/master/merge_8h_source.html
+++ b/master/merge_8h_source.html
@@ -274,1302 +274,1316 @@
 <div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160; </div>
 <div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;<span class="comment">// Returns the maximum element of a portion of a column vector from tile indices `i_begin` to `i_end`</span></div>
 <div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, Device D&gt;</div>
-<div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;<span class="keyword">auto</span> maxVectorElement(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, Matrix&lt;const T, D&gt;&amp; vec) {</div>
+<div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;<span class="keyword">auto</span> maxVectorElement(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, Matrix&lt;const T, Device::CPU&gt;&amp; vec) {</div>
 <div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
 <div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
 <div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160; </div>
 <div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;  std::vector&lt;ex::unique_any_sender&lt;T&gt;&gt; tiles_max;</div>
 <div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;  tiles_max.reserve(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_end - i_begin));</div>
 <div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;  <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
-<div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;    tiles_max.push_back(maxElementInColumnTileAsync&lt;T, D&gt;(vec.read(LocalTileIndex(i, 0))));</div>
-<div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;  }</div>
-<div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160; </div>
-<div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;  <span class="keyword">auto</span> tol_calc_fn = [](<span class="keyword">const</span> std::vector&lt;T&gt;&amp; maxvals) {</div>
-<div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;    <span class="keywordflow">return</span> *std::max_element(maxvals.begin(), maxvals.end());</div>
-<div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;  };</div>
-<div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160; </div>
-<div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;  <span class="keywordflow">return</span> ex::when_all_vector(std::move(tiles_max)) |</div>
-<div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;         di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(tol_calc_fn));</div>
-<div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;}</div>
-<div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160; </div>
-<div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;<span class="comment">// The tolerance calculation is the same as the one used in LAPACK&#39;s stedc implementation [1].</span></div>
-<div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;<span class="comment">// [1] LAPACK 3.10.0, file dlaed2.f, line 315, variable TOL</span></div>
-<div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, Device D&gt;</div>
-<div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;<span class="keyword">auto</span> calcTolerance(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, Matrix&lt;const T, D&gt;&amp; d,</div>
-<div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;                   Matrix&lt;const T, D&gt;&amp; z) {</div>
-<div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160; </div>
-<div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;  <span class="keyword">auto</span> dmax = maxVectorElement(i_begin, i_end, d);</div>
-<div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;  <span class="keyword">auto</span> zmax = maxVectorElement(i_begin, i_end, z);</div>
-<div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160; </div>
-<div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;  <span class="keyword">auto</span> tol_fn = [](T dmax, T zmax) {</div>
-<div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;    <span class="keywordflow">return</span> 8 * std::numeric_limits&lt;T&gt;::epsilon() * std::max(dmax, zmax);</div>
-<div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;  };</div>
-<div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160; </div>
-<div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;  <span class="keywordflow">return</span> ex::when_all(std::move(dmax), std::move(zmax)) |</div>
-<div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;         di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(tol_fn)) |</div>
-<div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;         <span class="comment">// TODO: This releases the tiles that are kept in the operation state.</span></div>
-<div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;         <span class="comment">// This is a temporary fix and needs to be replaced by a different</span></div>
-<div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;         <span class="comment">// adaptor or different lifetime guarantees. This is tracked in</span></div>
-<div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;         <span class="comment">// https://github.com/pika-org/pika/issues/479.</span></div>
-<div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;         ex::ensure_started();</div>
-<div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;}</div>
-<div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160; </div>
-<div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;<span class="comment">// This function returns number of non-deflated eigenvectors, together with a permutation @p out_ptr</span></div>
-<div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;<span class="comment">// that represent mapping (sorted non-deflated | sorted deflated) -&gt; initial.</span></div>
-<div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;<span class="comment">// The permutation will allow to keep the mapping between sorted eigenvalues and unsorted eigenvectors,</span></div>
-<div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;<span class="comment">// which is useful since eigenvectors are more expensive to permuted, so we can keep them in their initial order.</span></div>
-<div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;<span class="comment">// @param n         number of eigenvalues</span></div>
-<div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;<span class="comment">// @param c_ptr     array[n] containing the column type of each eigenvector after deflation (initial order)</span></div>
-<div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;<span class="comment">// @param evals_ptr array[n] of eigenvalues sorted as in_ptr</span></div>
-<div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;<span class="comment">// @param in_ptr    array[n] representing permutation current -&gt; initial (i.e. evals[i] -&gt; c_ptr[in_ptr[i]])</span></div>
-<div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;<span class="comment">// @param out_ptr   array[n] permutation (sorted non-deflated | sorted deflated) -&gt; initial</span></div>
-<div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;<span class="comment">// @return k        number of non-deflated eigenvectors</span></div>
-<div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;SizeType stablePartitionIndexForDeflationArrays(<span class="keyword">const</span> SizeType n, <span class="keyword">const</span> ColType* c_ptr,</div>
-<div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;                                                <span class="keyword">const</span> T* evals_ptr, <span class="keyword">const</span> SizeType* in_ptr,</div>
-<div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;                                                SizeType* out_ptr) {</div>
-<div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;  <span class="comment">// Get the number of non-deflated entries</span></div>
-<div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;  SizeType k = 0;</div>
-<div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;  <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
-<div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;    <span class="keywordflow">if</span> (c_ptr[i] != ColType::Deflated)</div>
-<div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;      ++k;</div>
-<div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;  }</div>
-<div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160; </div>
-<div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;  <span class="comment">// Create the permutation (sorted non-deflated | sorted deflated) -&gt; initial</span></div>
-<div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;  <span class="comment">// Note:</span></div>
-<div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;  <span class="comment">// Since during deflation, eigenvalues related to deflated eigenvectors, might not be sorted anymore,</span></div>
-<div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;  <span class="comment">// this step also take care of sorting eigenvalues (actually just their related index) by their ascending value.</span></div>
-<div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;  SizeType i1 = 0;  <span class="comment">// index of non-deflated values in out</span></div>
-<div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;  SizeType i2 = k;  <span class="comment">// index of deflated values</span></div>
-<div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;  <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
-<div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;    <span class="keyword">const</span> SizeType ii = in_ptr[i];</div>
-<div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160; </div>
-<div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;    <span class="comment">// non-deflated are untouched, just squeeze them at the beginning as they appear</span></div>
-<div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;    <span class="keywordflow">if</span> (c_ptr[ii] != ColType::Deflated) {</div>
-<div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;      out_ptr[i1] = ii;</div>
-<div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;      ++i1;</div>
-<div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;    }</div>
-<div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;    <span class="comment">// deflated are the ones that can have been moved &quot;out-of-order&quot; by deflation...</span></div>
-<div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;    <span class="comment">// ... so each time insert it in the right place based on eigenvalue value</span></div>
-<div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;    <span class="keywordflow">else</span> {</div>
-<div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;      <span class="keyword">const</span> T a = evals_ptr[ii];</div>
-<div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160; </div>
-<div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;      SizeType j = i2;</div>
-<div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;      <span class="comment">// shift to right all greater values (shift just indices)</span></div>
-<div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;      <span class="keywordflow">for</span> (; j &gt; k; --j) {</div>
-<div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;        <span class="keyword">const</span> T b = evals_ptr[out_ptr[j - 1]];</div>
-<div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;        <span class="keywordflow">if</span> (a &gt; b) {</div>
-<div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;          <span class="keywordflow">break</span>;</div>
-<div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;        }</div>
-<div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;        out_ptr[j] = out_ptr[j - 1];</div>
-<div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;      }</div>
-<div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;      <span class="comment">// and insert the current index in the empty place, such that eigenvalues are sorted.</span></div>
-<div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;      out_ptr[j] = ii;</div>
-<div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;      ++i2;</div>
-<div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;    }</div>
-<div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;  }</div>
-<div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;  <span class="keywordflow">return</span> k;</div>
-<div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;}</div>
-<div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160; </div>
-<div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;<span class="comment">// This function returns number of non-deflated eigenvectors, together with two permutations</span></div>
-<div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;<span class="comment">// - @p index_sorted          (sorted non-deflated | sorted deflated) -&gt; initial.</span></div>
-<div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;<span class="comment">// - @p index_sorted_coltype  (sort(upper)|sort(dense)|sort(lower)|sort(deflated)) -&gt; initial</span></div>
-<div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;<span class="comment">// The permutations will allow to keep the mapping between sorted eigenvalues and unsorted eigenvectors,</span></div>
-<div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;<span class="comment">// which is useful since eigenvectors are more expensive to permuted, so we can keep them in their</span></div>
-<div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;<span class="comment">// initial order.</span></div>
-<div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;<span class="comment">// @param n                     number of eigenvalues</span></div>
-<div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;<span class="comment">// @param types                 array[n] column type of each eigenvector after deflation (initial order)</span></div>
-<div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;<span class="comment">// @param evals                 array[n] of eigenvalues sorted as perm_sorted</span></div>
-<div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;<span class="comment">// @param perm_sorted           array[n] current -&gt; initial (i.e. evals[i] -&gt; types[perm_sorted[i]])</span></div>
-<div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;<span class="comment">// @param index_sorted          array[n] (sorted non-deflated | sorted deflated) -&gt; initial</span></div>
-<div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;<span class="comment">// @param index_sorted_coltype  array[n] (sort(upper)|sort(dense)|sort(lower)|sort(deflated)) -&gt; initial</span></div>
-<div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;<span class="comment">// @return k                    number of non-deflated eigenvectors</span></div>
-<div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;SizeType stablePartitionIndexForDeflationArrays(<span class="keyword">const</span> SizeType n, <span class="keyword">const</span> ColType* types, <span class="keyword">const</span> T* evals,</div>
-<div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;                                                <span class="keyword">const</span> SizeType* perm_sorted, SizeType* index_sorted,</div>
-<div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;                                                SizeType* index_sorted_coltype) {</div>
-<div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;  <span class="comment">// Note:</span></div>
-<div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;  <span class="comment">// (in)  types</span></div>
-<div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;  <span class="comment">//    column type of the initial indexing</span></div>
-<div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;  <span class="comment">// (in)  perm_sorted</span></div>
-<div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;  <span class="comment">//    initial &lt;-- sorted by ascending eigenvalue</span></div>
-<div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;  <span class="comment">// (out) index_sorted</span></div>
-<div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;  <span class="comment">//    initial &lt;-- sorted by ascending eigenvalue in two groups (non-deflated | deflated)</span></div>
-<div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;  <span class="comment">// (out) index_sorted_coltype</span></div>
-<div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;  <span class="comment">//    initial &lt;-- sorted by ascending eigenvalue in four groups (upper | dense | lower | deflated)</span></div>
-<div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160; </div>
-<div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;  <span class="comment">// Note:</span></div>
-<div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;  <span class="comment">// This is the order how we want the eigenvectors to be sorted, since it leads to a nicer matrix</span></div>
-<div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;  <span class="comment">// shape that allows to reduce the number of following operations (i.e. gemm)</span></div>
-<div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;  <span class="keyword">auto</span> coltype_index = [](<span class="keyword">const</span> ColType coltype) -&gt; std::size_t {</div>
-<div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;    <span class="keywordflow">switch</span> (coltype) {</div>
-<div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;      <span class="keywordflow">case</span> ColType::UpperHalf:</div>
-<div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;        <span class="keywordflow">return</span> 0;</div>
-<div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;      <span class="keywordflow">case</span> ColType::Dense:</div>
-<div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;        <span class="keywordflow">return</span> 1;</div>
-<div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;      <span class="keywordflow">case</span> ColType::LowerHalf:</div>
-<div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;        <span class="keywordflow">return</span> 2;</div>
-<div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;      <span class="keywordflow">case</span> ColType::Deflated:</div>
-<div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;        <span class="keywordflow">return</span> 3;</div>
-<div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;    }</div>
-<div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;    <span class="keywordflow">return</span> DLAF_UNREACHABLE(std::size_t);</div>
-<div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;  };</div>
-<div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160; </div>
-<div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;  std::array&lt;std::size_t, 4&gt; offsets{0, 0, 0, 0};</div>
-<div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;  std::for_each(types, types + n, [&amp;offsets, &amp;coltype_index](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; coltype) {</div>
-<div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;    <span class="keywordflow">if</span> (coltype != ColType::Deflated)</div>
-<div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;      offsets[1 + coltype_index(coltype)]++;</div>
-<div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;  });</div>
-<div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;  std::partial_sum(offsets.cbegin(), offsets.cend(), offsets.begin());</div>
-<div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160; </div>
-<div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;  <span class="keyword">const</span> SizeType k = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(offsets[coltype_index(ColType::Deflated)]);</div>
-<div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160; </div>
-<div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;  <span class="comment">// Create the permutation (sorted non-deflated | sorted deflated) -&gt; initial</span></div>
-<div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;  <span class="comment">// Note:</span></div>
-<div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;  <span class="comment">// Since during deflation, eigenvalues related to deflated eigenvectors, might not be sorted anymore,</span></div>
-<div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;  <span class="comment">// this step also take care of sorting eigenvalues (actually just their related index) by their ascending value.</span></div>
-<div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;  SizeType i1 = 0;  <span class="comment">// index of non-deflated values in out</span></div>
-<div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;  SizeType i2 = k;  <span class="comment">// index of deflated values</span></div>
-<div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;  <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
-<div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;    <span class="keyword">const</span> SizeType ii = perm_sorted[i];</div>
-<div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160; </div>
-<div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;    <span class="comment">// non-deflated are untouched, just squeeze them at the beginning as they appear</span></div>
-<div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;    <span class="keywordflow">if</span> (types[ii] != ColType::Deflated) {</div>
-<div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;      index_sorted[i1] = ii;</div>
-<div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;      ++i1;</div>
-<div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;    }</div>
-<div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;    <span class="comment">// deflated are the ones that can have been moved &quot;out-of-order&quot; by deflation...</span></div>
-<div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;    <span class="comment">// ... so each time insert it in the right place based on eigenvalue value</span></div>
-<div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;    <span class="keywordflow">else</span> {</div>
-<div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;      <span class="keyword">const</span> T a = evals[ii];</div>
-<div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160; </div>
-<div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;      SizeType j = i2;</div>
-<div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;      <span class="comment">// shift to right all greater values (shift just indices)</span></div>
-<div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;      <span class="keywordflow">for</span> (; j &gt; k; --j) {</div>
-<div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;        <span class="keyword">const</span> T b = evals[index_sorted[j - 1]];</div>
-<div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;        <span class="keywordflow">if</span> (a &gt; b) {</div>
-<div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;          <span class="keywordflow">break</span>;</div>
-<div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;        }</div>
-<div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;        index_sorted[j] = index_sorted[j - 1];</div>
-<div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;      }</div>
-<div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;      <span class="comment">// and insert the current index in the empty place, such that eigenvalues are sorted.</span></div>
-<div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;      index_sorted[j] = ii;</div>
-<div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;      ++i2;</div>
-<div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;    }</div>
-<div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;  }</div>
-<div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160; </div>
-<div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;  <span class="comment">// Create the permutation (sort(upper)|sort(dense)|sort(lower)|sort(deflated)) -&gt; initial</span></div>
-<div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;  <span class="keywordflow">for</span> (SizeType j = 0; j &lt; n; ++j) {</div>
-<div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;    <span class="keyword">const</span> ColType&amp; coltype = types[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j)];</div>
-<div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;    <span class="keywordflow">if</span> (coltype != ColType::Deflated) {</div>
-<div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;      <span class="keyword">auto</span>&amp; index_for_coltype = offsets[coltype_index(coltype)];</div>
-<div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;      index_sorted_coltype[index_for_coltype] = j;</div>
-<div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;      ++index_for_coltype;</div>
-<div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;    }</div>
-<div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;  }</div>
-<div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;  std::copy(index_sorted + k, index_sorted + n, index_sorted_coltype + k);</div>
-<div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160; </div>
-<div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;  <span class="keywordflow">return</span> k;</div>
-<div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;}</div>
-<div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160; </div>
-<div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;<span class="keyword">auto</span> stablePartitionIndexForDeflation(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end,</div>
-<div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;                                      Matrix&lt;const ColType, Device::CPU&gt;&amp; c,</div>
-<div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;                                      Matrix&lt;const T, Device::CPU&gt;&amp; evals,</div>
-<div class="line"><a name="l00418"></a><span class="lineno">  418</span>&#160;                                      Matrix&lt;const SizeType, Device::CPU&gt;&amp; in,</div>
-<div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;                                      Matrix&lt;SizeType, Device::CPU&gt;&amp; out) {</div>
-<div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00421"></a><span class="lineno">  421</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160; </div>
-<div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, in.distribution());</div>
-<div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;  <span class="keyword">auto</span> part_fn = [n](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; c_tiles_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; evals_tiles_fut, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; in_tiles_futs,</div>
-<div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;                     <span class="keyword">const</span> <span class="keyword">auto</span>&amp; out_tiles) {</div>
-<div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;    <span class="keyword">const</span> TileElementIndex zero_idx(0, 0);</div>
-<div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;    <span class="keyword">const</span> ColType* c_ptr = c_tiles_futs[0].get().ptr(zero_idx);</div>
-<div class="line"><a name="l00428"></a><span class="lineno">  428</span>&#160;    <span class="keyword">const</span> T* evals_ptr = evals_tiles_fut[0].get().ptr(zero_idx);</div>
-<div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;    <span class="keyword">const</span> SizeType* in_ptr = in_tiles_futs[0].get().ptr(zero_idx);</div>
-<div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;    SizeType* out_ptr = out_tiles[0].ptr(zero_idx);</div>
-<div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160; </div>
-<div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;    <span class="keywordflow">return</span> stablePartitionIndexForDeflationArrays(n, c_ptr, evals_ptr, in_ptr, out_ptr);</div>
-<div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;  };</div>
-<div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160; </div>
-<div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;  TileCollector tc{i_begin, i_end};</div>
-<div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;  <span class="keywordflow">return</span> ex::when_all(ex::when_all_vector(tc.read(c)), ex::when_all_vector(tc.read(evals)),</div>
-<div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;                      ex::when_all_vector(tc.read(in)), ex::when_all_vector(tc.readwrite(out))) |</div>
-<div class="line"><a name="l00438"></a><span class="lineno">  438</span>&#160;         di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(part_fn));</div>
-<div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;}</div>
+<div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;    tiles_max.push_back(di::whenAllLift(lapack::Norm::Max, vec.read(LocalTileIndex(i, 0))) |</div>
+<div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;                        di::transform(di::Policy&lt;Backend::MC&gt;(), tile::internal::lange_o));</div>
+<div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;  }</div>
+<div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160; </div>
+<div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;  <span class="keyword">auto</span> tol_calc_fn = [](<span class="keyword">const</span> std::vector&lt;T&gt;&amp; maxvals) {</div>
+<div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;    <span class="keywordflow">return</span> *std::max_element(maxvals.begin(), maxvals.end());</div>
+<div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;  };</div>
+<div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160; </div>
+<div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;  <span class="keywordflow">return</span> ex::when_all_vector(std::move(tiles_max)) |</div>
+<div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;         di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(tol_calc_fn));</div>
+<div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;}</div>
+<div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160; </div>
+<div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;<span class="comment">// The tolerance calculation is the same as the one used in LAPACK&#39;s stedc implementation [1].</span></div>
+<div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;<span class="comment">// [1] LAPACK 3.10.0, file dlaed2.f, line 315, variable TOL</span></div>
+<div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;<span class="keyword">auto</span> calcTolerance(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, Matrix&lt;const T, Device::CPU&gt;&amp; d,</div>
+<div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;                   Matrix&lt;const T, Device::CPU&gt;&amp; z) {</div>
+<div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160; </div>
+<div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;  <span class="keyword">auto</span> dmax = maxVectorElement(i_begin, i_end, d);</div>
+<div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;  <span class="keyword">auto</span> zmax = maxVectorElement(i_begin, i_end, z);</div>
+<div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160; </div>
+<div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;  <span class="keyword">auto</span> tol_fn = [](T dmax, T zmax) {</div>
+<div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;    <span class="keywordflow">return</span> 8 * std::numeric_limits&lt;T&gt;::epsilon() * std::max(dmax, zmax);</div>
+<div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;  };</div>
+<div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160; </div>
+<div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;  <span class="keywordflow">return</span> ex::when_all(std::move(dmax), std::move(zmax)) |</div>
+<div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;         di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(tol_fn)) |</div>
+<div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;         <span class="comment">// TODO: This releases the tiles that are kept in the operation state.</span></div>
+<div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;         <span class="comment">// This is a temporary fix and needs to be replaced by a different</span></div>
+<div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;         <span class="comment">// adaptor or different lifetime guarantees. This is tracked in</span></div>
+<div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;         <span class="comment">// https://github.com/pika-org/pika/issues/479.</span></div>
+<div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;         ex::ensure_started();</div>
+<div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;}</div>
+<div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160; </div>
+<div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;<span class="comment">// This function returns number of non-deflated eigenvectors, together with a permutation @p out_ptr</span></div>
+<div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;<span class="comment">// that represent mapping (sorted non-deflated | sorted deflated) -&gt; initial.</span></div>
+<div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;<span class="comment">// The permutation will allow to keep the mapping between sorted eigenvalues and unsorted eigenvectors,</span></div>
+<div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;<span class="comment">// which is useful since eigenvectors are more expensive to permuted, so we can keep them in their initial order.</span></div>
+<div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;<span class="comment">// @param n         number of eigenvalues</span></div>
+<div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;<span class="comment">// @param c_ptr     array[n] containing the column type of each eigenvector after deflation (initial order)</span></div>
+<div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;<span class="comment">// @param evals_ptr array[n] of eigenvalues sorted as in_ptr</span></div>
+<div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;<span class="comment">// @param in_ptr    array[n] representing permutation current -&gt; initial (i.e. evals[i] -&gt; c_ptr[in_ptr[i]])</span></div>
+<div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;<span class="comment">// @param out_ptr   array[n] permutation (sorted non-deflated | sorted deflated) -&gt; initial</span></div>
+<div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;<span class="comment">// @return k        number of non-deflated eigenvectors</span></div>
+<div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;SizeType stablePartitionIndexForDeflationArrays(<span class="keyword">const</span> SizeType n, <span class="keyword">const</span> ColType* c_ptr,</div>
+<div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;                                                <span class="keyword">const</span> T* evals_ptr, <span class="keyword">const</span> SizeType* in_ptr,</div>
+<div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;                                                SizeType* out_ptr) {</div>
+<div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;  <span class="comment">// Get the number of non-deflated entries</span></div>
+<div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;  SizeType k = 0;</div>
+<div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;  <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
+<div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;    <span class="keywordflow">if</span> (c_ptr[i] != ColType::Deflated)</div>
+<div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;      ++k;</div>
+<div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;  }</div>
+<div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160; </div>
+<div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;  <span class="comment">// Create the permutation (sorted non-deflated | sorted deflated) -&gt; initial</span></div>
+<div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;  <span class="comment">// Note:</span></div>
+<div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;  <span class="comment">// Since during deflation, eigenvalues related to deflated eigenvectors, might not be sorted anymore,</span></div>
+<div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;  <span class="comment">// this step also take care of sorting eigenvalues (actually just their related index) by their ascending value.</span></div>
+<div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;  SizeType i1 = 0;  <span class="comment">// index of non-deflated values in out</span></div>
+<div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;  SizeType i2 = k;  <span class="comment">// index of deflated values</span></div>
+<div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;  <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
+<div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;    <span class="keyword">const</span> SizeType ii = in_ptr[i];</div>
+<div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160; </div>
+<div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;    <span class="comment">// non-deflated are untouched, just squeeze them at the beginning as they appear</span></div>
+<div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;    <span class="keywordflow">if</span> (c_ptr[ii] != ColType::Deflated) {</div>
+<div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;      out_ptr[i1] = ii;</div>
+<div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;      ++i1;</div>
+<div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;    }</div>
+<div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;    <span class="comment">// deflated are the ones that can have been moved &quot;out-of-order&quot; by deflation...</span></div>
+<div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;    <span class="comment">// ... so each time insert it in the right place based on eigenvalue value</span></div>
+<div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;    <span class="keywordflow">else</span> {</div>
+<div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;      <span class="keyword">const</span> T a = evals_ptr[ii];</div>
+<div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160; </div>
+<div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;      SizeType j = i2;</div>
+<div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;      <span class="comment">// shift to right all greater values (shift just indices)</span></div>
+<div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;      <span class="keywordflow">for</span> (; j &gt; k; --j) {</div>
+<div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;        <span class="keyword">const</span> T b = evals_ptr[out_ptr[j - 1]];</div>
+<div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;        <span class="keywordflow">if</span> (a &gt; b) {</div>
+<div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;          <span class="keywordflow">break</span>;</div>
+<div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;        }</div>
+<div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;        out_ptr[j] = out_ptr[j - 1];</div>
+<div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;      }</div>
+<div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;      <span class="comment">// and insert the current index in the empty place, such that eigenvalues are sorted.</span></div>
+<div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;      out_ptr[j] = ii;</div>
+<div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;      ++i2;</div>
+<div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;    }</div>
+<div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;  }</div>
+<div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;  <span class="keywordflow">return</span> k;</div>
+<div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;}</div>
+<div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160; </div>
+<div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;<span class="comment">// This function returns number of non-deflated eigenvectors, together with two permutations</span></div>
+<div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;<span class="comment">// - @p index_sorted          (sort(non-deflated)|sort(deflated)) -&gt; initial.</span></div>
+<div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;<span class="comment">// - @p index_sorted_coltype  (upper|dense|lower|sort(deflated)) -&gt; initial</span></div>
+<div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;<span class="comment">// The permutations will allow to keep the mapping between sorted eigenvalues and unsorted eigenvectors,</span></div>
+<div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;<span class="comment">// which is useful since eigenvectors are more expensive to permuted, so we can keep them in their</span></div>
+<div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;<span class="comment">// initial order.</span></div>
+<div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;<span class="comment">// @param n                     number of eigenvalues</span></div>
+<div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;<span class="comment">// @param types                 array[n] column type of each eigenvector after deflation (initial order)</span></div>
+<div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;<span class="comment">// @param evals                 array[n] of eigenvalues sorted as perm_sorted</span></div>
+<div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;<span class="comment">// @param perm_sorted           array[n] current -&gt; initial (i.e. evals[i] -&gt; types[perm_sorted[i]])</span></div>
+<div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;<span class="comment">// @param index_sorted          array[n] (sort(non-deflated)|sort(deflated)) -&gt; initial</span></div>
+<div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;<span class="comment">// @param index_sorted_coltype  array[n] (upper|dense|lower|sort(deflated)) -&gt; initial</span></div>
+<div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;<span class="comment">// @return k                    number of non-deflated eigenvectors</span></div>
+<div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;SizeType stablePartitionIndexForDeflationArrays(<span class="keyword">const</span> SizeType n, <span class="keyword">const</span> ColType* types, <span class="keyword">const</span> T* evals,</div>
+<div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;                                                <span class="keyword">const</span> SizeType* perm_sorted, SizeType* index_sorted,</div>
+<div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;                                                SizeType* index_sorted_coltype) {</div>
+<div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;  <span class="comment">// Note:</span></div>
+<div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;  <span class="comment">// (in)  types</span></div>
+<div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;  <span class="comment">//    column type of the initial indexing</span></div>
+<div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;  <span class="comment">// (in)  perm_sorted</span></div>
+<div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;  <span class="comment">//    initial &lt;-- sorted by ascending eigenvalue</span></div>
+<div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;  <span class="comment">// (out) index_sorted</span></div>
+<div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;  <span class="comment">//    initial &lt;-- (sort(non-deflated) | sort(deflated))</span></div>
+<div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;  <span class="comment">// (out) index_sorted_coltype</span></div>
+<div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;  <span class="comment">//    initial &lt;-- (upper | dense | lower | sort(deflated))</span></div>
+<div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160; </div>
+<div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;  <span class="comment">// Note:</span></div>
+<div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;  <span class="comment">// This is the order how we want the eigenvectors to be sorted, since it leads to a nicer matrix</span></div>
+<div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;  <span class="comment">// shape that allows to reduce the number of following operations (i.e. gemm)</span></div>
+<div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;  <span class="keyword">auto</span> coltype_index = [](<span class="keyword">const</span> ColType coltype) -&gt; std::size_t {</div>
+<div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;    <span class="keywordflow">switch</span> (coltype) {</div>
+<div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;      <span class="keywordflow">case</span> ColType::UpperHalf:</div>
+<div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;        <span class="keywordflow">return</span> 0;</div>
+<div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;      <span class="keywordflow">case</span> ColType::Dense:</div>
+<div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;        <span class="keywordflow">return</span> 1;</div>
+<div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;      <span class="keywordflow">case</span> ColType::LowerHalf:</div>
+<div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;        <span class="keywordflow">return</span> 2;</div>
+<div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;      <span class="keywordflow">case</span> ColType::Deflated:</div>
+<div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;        <span class="keywordflow">return</span> 3;</div>
+<div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;    }</div>
+<div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;    <span class="keywordflow">return</span> DLAF_UNREACHABLE(std::size_t);</div>
+<div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;  };</div>
+<div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160; </div>
+<div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;  std::array&lt;std::size_t, 4&gt; offsets{0, 0, 0, 0};</div>
+<div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;  std::for_each(types, types + n, [&amp;offsets, &amp;coltype_index](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; coltype) {</div>
+<div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;    <span class="keywordflow">if</span> (coltype != ColType::Deflated)</div>
+<div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;      offsets[1 + coltype_index(coltype)]++;</div>
+<div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;  });</div>
+<div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;  std::partial_sum(offsets.cbegin(), offsets.cend(), offsets.begin());</div>
+<div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160; </div>
+<div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;  <span class="keyword">const</span> SizeType k = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(offsets[coltype_index(ColType::Deflated)]);</div>
+<div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160; </div>
+<div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;  <span class="comment">// Create the permutation (sorted non-deflated | sorted deflated) -&gt; initial</span></div>
+<div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;  <span class="comment">// Note:</span></div>
+<div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;  <span class="comment">// Since during deflation, eigenvalues related to deflated eigenvectors, might not be sorted anymore,</span></div>
+<div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;  <span class="comment">// this step also take care of sorting eigenvalues (actually just their related index) by their ascending value.</span></div>
+<div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;  SizeType i1 = 0;  <span class="comment">// index of non-deflated values in out</span></div>
+<div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;  SizeType i2 = k;  <span class="comment">// index of deflated values</span></div>
+<div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;  <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
+<div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;    <span class="keyword">const</span> SizeType ii = perm_sorted[i];</div>
+<div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160; </div>
+<div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;    <span class="comment">// non-deflated are untouched, just squeeze them at the beginning as they appear</span></div>
+<div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;    <span class="keywordflow">if</span> (types[ii] != ColType::Deflated) {</div>
+<div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;      index_sorted[i1] = ii;</div>
+<div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;      ++i1;</div>
+<div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;    }</div>
+<div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;    <span class="comment">// deflated are the ones that can have been moved &quot;out-of-order&quot; by deflation...</span></div>
+<div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;    <span class="comment">// ... so each time insert it in the right place based on eigenvalue value</span></div>
+<div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;    <span class="keywordflow">else</span> {</div>
+<div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;      <span class="keyword">const</span> T a = evals[ii];</div>
+<div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160; </div>
+<div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;      SizeType j = i2;</div>
+<div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;      <span class="comment">// shift to right all greater values (shift just indices)</span></div>
+<div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;      <span class="keywordflow">for</span> (; j &gt; k; --j) {</div>
+<div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;        <span class="keyword">const</span> T b = evals[index_sorted[j - 1]];</div>
+<div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;        <span class="keywordflow">if</span> (a &gt; b) {</div>
+<div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;          <span class="keywordflow">break</span>;</div>
+<div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;        }</div>
+<div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;        index_sorted[j] = index_sorted[j - 1];</div>
+<div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;      }</div>
+<div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;      <span class="comment">// and insert the current index in the empty place, such that eigenvalues are sorted.</span></div>
+<div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;      index_sorted[j] = ii;</div>
+<div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;      ++i2;</div>
+<div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;    }</div>
+<div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;  }</div>
+<div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160; </div>
+<div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;  <span class="comment">// Create the permutation (upper|dense|lower|sort(deflated)) -&gt; initial</span></div>
+<div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;  <span class="comment">// Note:</span></div>
+<div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;  <span class="comment">// non-deflated part is created starting from the initial order, because we are not interested</span></div>
+<div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;  <span class="comment">// in having them sorted.</span></div>
+<div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;  <span class="comment">// on the other hand, deflated part has to be sorted, so we copy the work from the index_sorted,</span></div>
+<div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;  <span class="comment">// where they have been already sorted (post-deflation).</span></div>
+<div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;  <span class="keywordflow">for</span> (SizeType j = 0; j &lt; n; ++j) {</div>
+<div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;    <span class="keyword">const</span> ColType&amp; coltype = types[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j)];</div>
+<div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;    <span class="keywordflow">if</span> (coltype != ColType::Deflated) {</div>
+<div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;      <span class="keyword">auto</span>&amp; index_for_coltype = offsets[coltype_index(coltype)];</div>
+<div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;      index_sorted_coltype[index_for_coltype] = j;</div>
+<div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;      ++index_for_coltype;</div>
+<div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;    }</div>
+<div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;  }</div>
+<div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;  std::copy(index_sorted + k, index_sorted + n, index_sorted_coltype + k);</div>
+<div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160; </div>
+<div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;  <span class="keywordflow">return</span> k;</div>
+<div class="line"><a name="l00418"></a><span class="lineno">  418</span>&#160;}</div>
+<div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160; </div>
+<div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a name="l00421"></a><span class="lineno">  421</span>&#160;<span class="keyword">auto</span> stablePartitionIndexForDeflation(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end,</div>
+<div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;                                      Matrix&lt;const ColType, Device::CPU&gt;&amp; c,</div>
+<div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;                                      Matrix&lt;const T, Device::CPU&gt;&amp; evals,</div>
+<div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;                                      Matrix&lt;const SizeType, Device::CPU&gt;&amp; in,</div>
+<div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;                                      Matrix&lt;SizeType, Device::CPU&gt;&amp; out) {</div>
+<div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00428"></a><span class="lineno">  428</span>&#160; </div>
+<div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, in.distribution());</div>
+<div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;  <span class="keyword">auto</span> part_fn = [n](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; c_tiles_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; evals_tiles_fut, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; in_tiles_futs,</div>
+<div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;                     <span class="keyword">const</span> <span class="keyword">auto</span>&amp; out_tiles) {</div>
+<div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;    <span class="keyword">const</span> TileElementIndex zero_idx(0, 0);</div>
+<div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;    <span class="keyword">const</span> ColType* c_ptr = c_tiles_futs[0].get().ptr(zero_idx);</div>
+<div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;    <span class="keyword">const</span> T* evals_ptr = evals_tiles_fut[0].get().ptr(zero_idx);</div>
+<div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;    <span class="keyword">const</span> SizeType* in_ptr = in_tiles_futs[0].get().ptr(zero_idx);</div>
+<div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;    SizeType* out_ptr = out_tiles[0].ptr(zero_idx);</div>
+<div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160; </div>
+<div class="line"><a name="l00438"></a><span class="lineno">  438</span>&#160;    <span class="keywordflow">return</span> stablePartitionIndexForDeflationArrays(n, c_ptr, evals_ptr, in_ptr, out_ptr);</div>
+<div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;  };</div>
 <div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160; </div>
-<div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;<span class="keyword">auto</span> stablePartitionIndexForDeflation(</div>
-<div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;    <span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, Matrix&lt;const ColType, Device::CPU&gt;&amp; c,</div>
-<div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;    Matrix&lt;const T, Device::CPU&gt;&amp; evals, Matrix&lt;const SizeType, Device::CPU&gt;&amp; in,</div>
-<div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;    Matrix&lt;SizeType, Device::CPU&gt;&amp; out, Matrix&lt;SizeType, Device::CPU&gt;&amp; out_by_coltype) {</div>
-<div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160; </div>
-<div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, in.distribution());</div>
-<div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;  <span class="keyword">auto</span> part_fn = [n](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; c_tiles_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; evals_tiles_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; in_tiles_futs,</div>
-<div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;                     <span class="keyword">const</span> <span class="keyword">auto</span>&amp; out_tiles, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; out_coltype_tiles) {</div>
-<div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;    <span class="keyword">const</span> TileElementIndex zero_idx(0, 0);</div>
-<div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;    <span class="keyword">const</span> ColType* c_ptr = c_tiles_futs[0].get().ptr(zero_idx);</div>
-<div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;    <span class="keyword">const</span> T* evals_ptr = evals_tiles_futs[0].get().ptr(zero_idx);</div>
-<div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;    <span class="keyword">const</span> SizeType* in_ptr = in_tiles_futs[0].get().ptr(zero_idx);</div>
-<div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;    SizeType* out_ptr = out_tiles[0].ptr(zero_idx);</div>
-<div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;    SizeType* out_coltype_ptr = out_coltype_tiles[0].ptr(zero_idx);</div>
-<div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160; </div>
-<div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;    <span class="keywordflow">return</span> stablePartitionIndexForDeflationArrays(n, c_ptr, evals_ptr, in_ptr, out_ptr, out_coltype_ptr);</div>
-<div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;  };</div>
-<div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160; </div>
-<div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;  TileCollector tc{i_begin, i_end};</div>
-<div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;  <span class="keywordflow">return</span> ex::when_all(ex::when_all_vector(tc.read(c)), ex::when_all_vector(tc.read(evals)),</div>
-<div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;                      ex::when_all_vector(tc.read(in)), ex::when_all_vector(tc.readwrite(out)),</div>
-<div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;                      ex::when_all_vector(tc.readwrite(out_by_coltype))) |</div>
-<div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;         di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(part_fn));</div>
-<div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;}</div>
-<div class="line"><a name="l00468"></a><span class="lineno">  468</span>&#160; </div>
-<div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;<span class="keyword">template</span> &lt;Device D&gt;</div>
-<div class="line"><a name="l00470"></a><span class="lineno">  470</span>&#160;<span class="keywordtype">void</span> initColTypes(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end,</div>
-<div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;                  Matrix&lt;ColType, D&gt;&amp; coltypes) {</div>
-<div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;  <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
-<div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;    ColType val = (i &lt; i_split) ? ColType::UpperHalf : ColType::LowerHalf;</div>
-<div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;    setColTypeTileAsync&lt;D&gt;(val, coltypes.readwrite(LocalTileIndex(i, 0)));</div>
-<div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;  }</div>
-<div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160;}</div>
-<div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160; </div>
-<div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;<span class="comment">// Assumption 1: The algorithm assumes that the arrays `d_ptr`, `z_ptr` and `c_ptr` are of equal length</span></div>
-<div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;<span class="comment">// `len` and are sorted in ascending order of `d_ptr` elements with `i_ptr`.</span></div>
-<div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00481"></a><span class="lineno">  481</span>&#160;<span class="comment">// Note: parallelizing this algorithm is non-trivial because the deflation regions due to Givens</span></div>
-<div class="line"><a name="l00482"></a><span class="lineno">  482</span>&#160;<span class="comment">// rotations can cross over tiles and are of unknown length. However such algorithm is unlikely to</span></div>
-<div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;<span class="comment">// benefit much from parallelization anyway as it is quite light on flops and it appears memory bound.</span></div>
-<div class="line"><a name="l00484"></a><span class="lineno">  484</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00485"></a><span class="lineno">  485</span>&#160;<span class="comment">// Returns an array of Given&#39;s rotations used to update the colunmns of the eigenvector matrix Q</span></div>
-<div class="line"><a name="l00486"></a><span class="lineno">  486</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;std::vector&lt;GivensRotation&lt;T&gt;&gt; applyDeflationToArrays(T rho, T tol, <span class="keyword">const</span> SizeType len,</div>
-<div class="line"><a name="l00488"></a><span class="lineno">  488</span>&#160;                                                      <span class="keyword">const</span> SizeType* i_ptr, T* d_ptr, T* z_ptr,</div>
-<div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160;                                                      ColType* c_ptr) {</div>
-<div class="line"><a name="l00490"></a><span class="lineno">  490</span>&#160;  std::vector&lt;GivensRotation&lt;T&gt;&gt; rots;</div>
-<div class="line"><a name="l00491"></a><span class="lineno">  491</span>&#160;  rots.reserve(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(len));</div>
-<div class="line"><a name="l00492"></a><span class="lineno">  492</span>&#160; </div>
-<div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;  SizeType i1 = 0;  <span class="comment">// index of 1st element in the Givens rotation</span></div>
-<div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160;  <span class="comment">// Iterate over the indices of the sorted elements in pair (i1, i2) where i1 &lt; i2 for every iteration</span></div>
-<div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;  <span class="keywordflow">for</span> (SizeType i2 = 1; i2 &lt; len; ++i2) {</div>
-<div class="line"><a name="l00496"></a><span class="lineno">  496</span>&#160;    <span class="keyword">const</span> SizeType i1s = i_ptr[i1];</div>
-<div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;    <span class="keyword">const</span> SizeType i2s = i_ptr[i2];</div>
-<div class="line"><a name="l00498"></a><span class="lineno">  498</span>&#160;    T&amp; d1 = d_ptr[i1s];</div>
-<div class="line"><a name="l00499"></a><span class="lineno">  499</span>&#160;    T&amp; d2 = d_ptr[i2s];</div>
-<div class="line"><a name="l00500"></a><span class="lineno">  500</span>&#160;    T&amp; z1 = z_ptr[i1s];</div>
-<div class="line"><a name="l00501"></a><span class="lineno">  501</span>&#160;    T&amp; z2 = z_ptr[i2s];</div>
-<div class="line"><a name="l00502"></a><span class="lineno">  502</span>&#160;    ColType&amp; c1 = c_ptr[i1s];</div>
-<div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;    ColType&amp; c2 = c_ptr[i2s];</div>
-<div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160; </div>
-<div class="line"><a name="l00505"></a><span class="lineno">  505</span>&#160;    <span class="comment">// if z1 nearly zero deflate the element and move i1 forward to i2</span></div>
-<div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;    <span class="keywordflow">if</span> (std::abs(rho * z1) &lt;= tol) {</div>
-<div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;      c1 = ColType::Deflated;</div>
-<div class="line"><a name="l00508"></a><span class="lineno">  508</span>&#160;      i1 = i2;</div>
-<div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;      <span class="keywordflow">continue</span>;</div>
-<div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160;    }</div>
-<div class="line"><a name="l00511"></a><span class="lineno">  511</span>&#160; </div>
-<div class="line"><a name="l00512"></a><span class="lineno">  512</span>&#160;    <span class="comment">// Deflate the second element if z2 nearly zero</span></div>
-<div class="line"><a name="l00513"></a><span class="lineno">  513</span>&#160;    <span class="keywordflow">if</span> (std::abs(rho * z2) &lt;= tol) {</div>
-<div class="line"><a name="l00514"></a><span class="lineno">  514</span>&#160;      c2 = ColType::Deflated;</div>
-<div class="line"><a name="l00515"></a><span class="lineno">  515</span>&#160;      <span class="keywordflow">continue</span>;</div>
-<div class="line"><a name="l00516"></a><span class="lineno">  516</span>&#160;    }</div>
-<div class="line"><a name="l00517"></a><span class="lineno">  517</span>&#160; </div>
-<div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;    <span class="comment">// Given&#39;s deflation condition is the same as the one used in LAPACK&#39;s stedc implementation [1].</span></div>
-<div class="line"><a name="l00519"></a><span class="lineno">  519</span>&#160;    <span class="comment">// However, here the second entry is deflated instead of the first (z2/d2 instead of z1/d1), thus</span></div>
-<div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;    <span class="comment">// `s` is not negated.</span></div>
-<div class="line"><a name="l00521"></a><span class="lineno">  521</span>&#160;    <span class="comment">//</span></div>
-<div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;    <span class="comment">// [1] LAPACK 3.10.0, file dlaed2.f, line 393</span></div>
-<div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;    T r = std::hypot(z1, z2);</div>
-<div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;    T c = z1 / r;</div>
-<div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160;    T s = z2 / r;</div>
-<div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160; </div>
-<div class="line"><a name="l00527"></a><span class="lineno">  527</span>&#160;    <span class="comment">// If d1 is not nearly equal to d2, move i1 forward to i2</span></div>
-<div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;    <span class="keywordflow">if</span> (std::abs(c * s * (d2 - d1)) &gt; tol) {</div>
-<div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;      i1 = i2;</div>
-<div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;      <span class="keywordflow">continue</span>;</div>
-<div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160;    }</div>
-<div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160; </div>
-<div class="line"><a name="l00533"></a><span class="lineno">  533</span>&#160;    <span class="comment">// When d1 is nearly equal to d2 apply Givens rotation</span></div>
-<div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;    z1 = r;</div>
-<div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;    z2 = 0;</div>
-<div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;    T tmp = d1 * s * s + d2 * c * c;</div>
-<div class="line"><a name="l00537"></a><span class="lineno">  537</span>&#160;    d1 = d1 * c * c + d2 * s * s;</div>
-<div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;    d2 = tmp;</div>
-<div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160; </div>
-<div class="line"><a name="l00540"></a><span class="lineno">  540</span>&#160;    rots.push_back(GivensRotation&lt;T&gt;{i1s, i2s, c, s});</div>
-<div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;    <span class="comment">//  Set the the `i1` column as &quot;Dense&quot; if the `i2` column has opposite non-zero structure (i.e if</span></div>
-<div class="line"><a name="l00542"></a><span class="lineno">  542</span>&#160;    <span class="comment">//  one comes from Q1 and the other from Q2 or vice-versa)</span></div>
-<div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160;    <span class="keywordflow">if</span> ((c1 == ColType::UpperHalf &amp;&amp; c2 == ColType::LowerHalf) ||</div>
-<div class="line"><a name="l00544"></a><span class="lineno">  544</span>&#160;        (c1 == ColType::LowerHalf &amp;&amp; c2 == ColType::UpperHalf)) {</div>
-<div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;      c1 = ColType::Dense;</div>
-<div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160;    }</div>
-<div class="line"><a name="l00547"></a><span class="lineno">  547</span>&#160;    c2 = ColType::Deflated;</div>
-<div class="line"><a name="l00548"></a><span class="lineno">  548</span>&#160;  }</div>
-<div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160; </div>
-<div class="line"><a name="l00550"></a><span class="lineno">  550</span>&#160;  <span class="keywordflow">return</span> rots;</div>
-<div class="line"><a name="l00551"></a><span class="lineno">  551</span>&#160;}</div>
-<div class="line"><a name="l00552"></a><span class="lineno">  552</span>&#160; </div>
-<div class="line"><a name="l00553"></a><span class="lineno">  553</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> RhoSender, <span class="keyword">class</span> TolSender&gt;</div>
-<div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;<span class="keyword">auto</span> applyDeflation(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, RhoSender&amp;&amp; rho, TolSender&amp;&amp; tol,</div>
-<div class="line"><a name="l00555"></a><span class="lineno">  555</span>&#160;                    Matrix&lt;const SizeType, Device::CPU&gt;&amp; index, Matrix&lt;T, Device::CPU&gt;&amp; d,</div>
-<div class="line"><a name="l00556"></a><span class="lineno">  556</span>&#160;                    Matrix&lt;T, Device::CPU&gt;&amp; z, Matrix&lt;ColType, Device::CPU&gt;&amp; c) {</div>
-<div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00558"></a><span class="lineno">  558</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00559"></a><span class="lineno">  559</span>&#160; </div>
-<div class="line"><a name="l00560"></a><span class="lineno">  560</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, index.distribution());</div>
-<div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160; </div>
-<div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;  <span class="keyword">auto</span> deflate_fn = [n](<span class="keyword">auto</span> rho, <span class="keyword">auto</span> tol, <span class="keyword">auto</span> index_tiles_futs, <span class="keyword">auto</span> d_tiles, <span class="keyword">auto</span> z_tiles,</div>
-<div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160;                        <span class="keyword">auto</span> c_tiles) {</div>
-<div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;    <span class="keyword">const</span> TileElementIndex zero_idx(0, 0);</div>
-<div class="line"><a name="l00565"></a><span class="lineno">  565</span>&#160;    <span class="keyword">const</span> SizeType* i_ptr = index_tiles_futs[0].get().ptr(zero_idx);</div>
-<div class="line"><a name="l00566"></a><span class="lineno">  566</span>&#160;    T* d_ptr = d_tiles[0].ptr(zero_idx);</div>
-<div class="line"><a name="l00567"></a><span class="lineno">  567</span>&#160;    T* z_ptr = z_tiles[0].ptr(zero_idx);</div>
-<div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;    ColType* c_ptr = c_tiles[0].ptr(zero_idx);</div>
-<div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160;    <span class="keywordflow">return</span> applyDeflationToArrays(rho, tol, n, i_ptr, d_ptr, z_ptr, c_ptr);</div>
-<div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;  };</div>
-<div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160; </div>
-<div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;  TileCollector tc{i_begin, i_end};</div>
+<div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;  TileCollector tc{i_begin, i_end};</div>
+<div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;  <span class="keywordflow">return</span> ex::when_all(ex::when_all_vector(tc.read(c)), ex::when_all_vector(tc.read(evals)),</div>
+<div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;                      ex::when_all_vector(tc.read(in)), ex::when_all_vector(tc.readwrite(out))) |</div>
+<div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;         di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(part_fn));</div>
+<div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;}</div>
+<div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160; </div>
+<div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;<span class="keyword">auto</span> stablePartitionIndexForDeflation(</div>
+<div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160;    <span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, Matrix&lt;const ColType, Device::CPU&gt;&amp; c,</div>
+<div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;    Matrix&lt;const T, Device::CPU&gt;&amp; evals, Matrix&lt;const SizeType, Device::CPU&gt;&amp; in,</div>
+<div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;    Matrix&lt;SizeType, Device::CPU&gt;&amp; out, Matrix&lt;SizeType, Device::CPU&gt;&amp; out_by_coltype) {</div>
+<div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160; </div>
+<div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, in.distribution());</div>
+<div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;  <span class="keyword">auto</span> part_fn = [n](<span class="keyword">const</span> <span class="keyword">auto</span>&amp; c_tiles_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; evals_tiles_futs, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; in_tiles_futs,</div>
+<div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;                     <span class="keyword">const</span> <span class="keyword">auto</span>&amp; out_tiles, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; out_coltype_tiles) {</div>
+<div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;    <span class="keyword">const</span> TileElementIndex zero_idx(0, 0);</div>
+<div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;    <span class="keyword">const</span> ColType* c_ptr = c_tiles_futs[0].get().ptr(zero_idx);</div>
+<div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;    <span class="keyword">const</span> T* evals_ptr = evals_tiles_futs[0].get().ptr(zero_idx);</div>
+<div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;    <span class="keyword">const</span> SizeType* in_ptr = in_tiles_futs[0].get().ptr(zero_idx);</div>
+<div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;    SizeType* out_ptr = out_tiles[0].ptr(zero_idx);</div>
+<div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;    SizeType* out_coltype_ptr = out_coltype_tiles[0].ptr(zero_idx);</div>
+<div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160; </div>
+<div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;    <span class="keywordflow">return</span> stablePartitionIndexForDeflationArrays(n, c_ptr, evals_ptr, in_ptr, out_ptr, out_coltype_ptr);</div>
+<div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;  };</div>
+<div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160; </div>
+<div class="line"><a name="l00468"></a><span class="lineno">  468</span>&#160;  TileCollector tc{i_begin, i_end};</div>
+<div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;  <span class="keywordflow">return</span> ex::when_all(ex::when_all_vector(tc.read(c)), ex::when_all_vector(tc.read(evals)),</div>
+<div class="line"><a name="l00470"></a><span class="lineno">  470</span>&#160;                      ex::when_all_vector(tc.read(in)), ex::when_all_vector(tc.readwrite(out)),</div>
+<div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;                      ex::when_all_vector(tc.readwrite(out_by_coltype))) |</div>
+<div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;         di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(part_fn));</div>
+<div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;}</div>
+<div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160; </div>
+<div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;<span class="keyword">inline</span> <span class="keywordtype">void</span> initColTypes(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end,</div>
+<div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160;                         Matrix&lt;ColType, Device::CPU&gt;&amp; coltypes) {</div>
+<div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160; </div>
+<div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;  <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
+<div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160;    <span class="keyword">const</span> ColType val = (i &lt; i_split) ? ColType::UpperHalf : ColType::LowerHalf;</div>
+<div class="line"><a name="l00481"></a><span class="lineno">  481</span>&#160;    di::transformDetach(</div>
+<div class="line"><a name="l00482"></a><span class="lineno">  482</span>&#160;        di::Policy&lt;Backend::MC&gt;(),</div>
+<div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;        [](<span class="keyword">const</span> ColType&amp; ct, <span class="keyword">const</span> matrix::Tile&lt;ColType, Device::CPU&gt;&amp; tile) {</div>
+<div class="line"><a name="l00484"></a><span class="lineno">  484</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; tile.size().rows(); ++i) {</div>
+<div class="line"><a name="l00485"></a><span class="lineno">  485</span>&#160;            tile(TileElementIndex(i, 0)) = ct;</div>
+<div class="line"><a name="l00486"></a><span class="lineno">  486</span>&#160;          }</div>
+<div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;        },</div>
+<div class="line"><a name="l00488"></a><span class="lineno">  488</span>&#160;        di::whenAllLift(val, coltypes.readwrite(LocalTileIndex(i, 0))));</div>
+<div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160;  }</div>
+<div class="line"><a name="l00490"></a><span class="lineno">  490</span>&#160;}</div>
+<div class="line"><a name="l00491"></a><span class="lineno">  491</span>&#160; </div>
+<div class="line"><a name="l00492"></a><span class="lineno">  492</span>&#160;<span class="comment">// Assumption 1: The algorithm assumes that the arrays `d_ptr`, `z_ptr` and `c_ptr` are of equal length</span></div>
+<div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;<span class="comment">// `len` and are sorted in ascending order of `d_ptr` elements with `i_ptr`.</span></div>
+<div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;<span class="comment">// Note: parallelizing this algorithm is non-trivial because the deflation regions due to Givens</span></div>
+<div class="line"><a name="l00496"></a><span class="lineno">  496</span>&#160;<span class="comment">// rotations can cross over tiles and are of unknown length. However such algorithm is unlikely to</span></div>
+<div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;<span class="comment">// benefit much from parallelization anyway as it is quite light on flops and it appears memory bound.</span></div>
+<div class="line"><a name="l00498"></a><span class="lineno">  498</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00499"></a><span class="lineno">  499</span>&#160;<span class="comment">// Returns an array of Given&#39;s rotations used to update the colunmns of the eigenvector matrix Q</span></div>
+<div class="line"><a name="l00500"></a><span class="lineno">  500</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a name="l00501"></a><span class="lineno">  501</span>&#160;std::vector&lt;GivensRotation&lt;T&gt;&gt; applyDeflationToArrays(T rho, T tol, <span class="keyword">const</span> SizeType len,</div>
+<div class="line"><a name="l00502"></a><span class="lineno">  502</span>&#160;                                                      <span class="keyword">const</span> SizeType* i_ptr, T* d_ptr, T* z_ptr,</div>
+<div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;                                                      ColType* c_ptr) {</div>
+<div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160;  std::vector&lt;GivensRotation&lt;T&gt;&gt; rots;</div>
+<div class="line"><a name="l00505"></a><span class="lineno">  505</span>&#160;  rots.reserve(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(len));</div>
+<div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160; </div>
+<div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;  SizeType i1 = 0;  <span class="comment">// index of 1st element in the Givens rotation</span></div>
+<div class="line"><a name="l00508"></a><span class="lineno">  508</span>&#160;  <span class="comment">// Iterate over the indices of the sorted elements in pair (i1, i2) where i1 &lt; i2 for every iteration</span></div>
+<div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;  <span class="keywordflow">for</span> (SizeType i2 = 1; i2 &lt; len; ++i2) {</div>
+<div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160;    <span class="keyword">const</span> SizeType i1s = i_ptr[i1];</div>
+<div class="line"><a name="l00511"></a><span class="lineno">  511</span>&#160;    <span class="keyword">const</span> SizeType i2s = i_ptr[i2];</div>
+<div class="line"><a name="l00512"></a><span class="lineno">  512</span>&#160;    T&amp; d1 = d_ptr[i1s];</div>
+<div class="line"><a name="l00513"></a><span class="lineno">  513</span>&#160;    T&amp; d2 = d_ptr[i2s];</div>
+<div class="line"><a name="l00514"></a><span class="lineno">  514</span>&#160;    T&amp; z1 = z_ptr[i1s];</div>
+<div class="line"><a name="l00515"></a><span class="lineno">  515</span>&#160;    T&amp; z2 = z_ptr[i2s];</div>
+<div class="line"><a name="l00516"></a><span class="lineno">  516</span>&#160;    ColType&amp; c1 = c_ptr[i1s];</div>
+<div class="line"><a name="l00517"></a><span class="lineno">  517</span>&#160;    ColType&amp; c2 = c_ptr[i2s];</div>
+<div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160; </div>
+<div class="line"><a name="l00519"></a><span class="lineno">  519</span>&#160;    <span class="comment">// if z1 nearly zero deflate the element and move i1 forward to i2</span></div>
+<div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;    <span class="keywordflow">if</span> (std::abs(rho * z1) &lt;= tol) {</div>
+<div class="line"><a name="l00521"></a><span class="lineno">  521</span>&#160;      c1 = ColType::Deflated;</div>
+<div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;      i1 = i2;</div>
+<div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;      <span class="keywordflow">continue</span>;</div>
+<div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;    }</div>
+<div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160; </div>
+<div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;    <span class="comment">// Deflate the second element if z2 nearly zero</span></div>
+<div class="line"><a name="l00527"></a><span class="lineno">  527</span>&#160;    <span class="keywordflow">if</span> (std::abs(rho * z2) &lt;= tol) {</div>
+<div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;      c2 = ColType::Deflated;</div>
+<div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;      <span class="keywordflow">continue</span>;</div>
+<div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;    }</div>
+<div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160; </div>
+<div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;    <span class="comment">// Given&#39;s deflation condition is the same as the one used in LAPACK&#39;s stedc implementation [1].</span></div>
+<div class="line"><a name="l00533"></a><span class="lineno">  533</span>&#160;    <span class="comment">// However, here the second entry is deflated instead of the first (z2/d2 instead of z1/d1), thus</span></div>
+<div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;    <span class="comment">// `s` is not negated.</span></div>
+<div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;    <span class="comment">//</span></div>
+<div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;    <span class="comment">// [1] LAPACK 3.10.0, file dlaed2.f, line 393</span></div>
+<div class="line"><a name="l00537"></a><span class="lineno">  537</span>&#160;    T r = std::hypot(z1, z2);</div>
+<div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;    T c = z1 / r;</div>
+<div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160;    T s = z2 / r;</div>
+<div class="line"><a name="l00540"></a><span class="lineno">  540</span>&#160; </div>
+<div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;    <span class="comment">// If d1 is not nearly equal to d2, move i1 forward to i2</span></div>
+<div class="line"><a name="l00542"></a><span class="lineno">  542</span>&#160;    <span class="keywordflow">if</span> (std::abs(c * s * (d2 - d1)) &gt; tol) {</div>
+<div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160;      i1 = i2;</div>
+<div class="line"><a name="l00544"></a><span class="lineno">  544</span>&#160;      <span class="keywordflow">continue</span>;</div>
+<div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;    }</div>
+<div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160; </div>
+<div class="line"><a name="l00547"></a><span class="lineno">  547</span>&#160;    <span class="comment">// When d1 is nearly equal to d2 apply Givens rotation</span></div>
+<div class="line"><a name="l00548"></a><span class="lineno">  548</span>&#160;    z1 = r;</div>
+<div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160;    z2 = 0;</div>
+<div class="line"><a name="l00550"></a><span class="lineno">  550</span>&#160;    T tmp = d1 * s * s + d2 * c * c;</div>
+<div class="line"><a name="l00551"></a><span class="lineno">  551</span>&#160;    d1 = d1 * c * c + d2 * s * s;</div>
+<div class="line"><a name="l00552"></a><span class="lineno">  552</span>&#160;    d2 = tmp;</div>
+<div class="line"><a name="l00553"></a><span class="lineno">  553</span>&#160; </div>
+<div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;    rots.push_back(GivensRotation&lt;T&gt;{i1s, i2s, c, s});</div>
+<div class="line"><a name="l00555"></a><span class="lineno">  555</span>&#160;    <span class="comment">//  Set the the `i1` column as &quot;Dense&quot; if the `i2` column has opposite non-zero structure (i.e if</span></div>
+<div class="line"><a name="l00556"></a><span class="lineno">  556</span>&#160;    <span class="comment">//  one comes from Q1 and the other from Q2 or vice-versa)</span></div>
+<div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;    <span class="keywordflow">if</span> ((c1 == ColType::UpperHalf &amp;&amp; c2 == ColType::LowerHalf) ||</div>
+<div class="line"><a name="l00558"></a><span class="lineno">  558</span>&#160;        (c1 == ColType::LowerHalf &amp;&amp; c2 == ColType::UpperHalf)) {</div>
+<div class="line"><a name="l00559"></a><span class="lineno">  559</span>&#160;      c1 = ColType::Dense;</div>
+<div class="line"><a name="l00560"></a><span class="lineno">  560</span>&#160;    }</div>
+<div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160;    c2 = ColType::Deflated;</div>
+<div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;  }</div>
+<div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160; </div>
+<div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;  <span class="keywordflow">return</span> rots;</div>
+<div class="line"><a name="l00565"></a><span class="lineno">  565</span>&#160;}</div>
+<div class="line"><a name="l00566"></a><span class="lineno">  566</span>&#160; </div>
+<div class="line"><a name="l00567"></a><span class="lineno">  567</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> RhoSender, <span class="keyword">class</span> TolSender&gt;</div>
+<div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;<span class="keyword">auto</span> applyDeflation(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, RhoSender&amp;&amp; rho, TolSender&amp;&amp; tol,</div>
+<div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160;                    Matrix&lt;const SizeType, Device::CPU&gt;&amp; index, Matrix&lt;T, Device::CPU&gt;&amp; d,</div>
+<div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;                    Matrix&lt;T, Device::CPU&gt;&amp; z, Matrix&lt;ColType, Device::CPU&gt;&amp; c) {</div>
+<div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
 <div class="line"><a name="l00573"></a><span class="lineno">  573</span>&#160; </div>
-<div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;  <span class="keyword">auto</span> sender = ex::when_all(std::forward&lt;RhoSender&gt;(rho), std::forward&lt;TolSender&gt;(tol),</div>
-<div class="line"><a name="l00575"></a><span class="lineno">  575</span>&#160;                             ex::when_all_vector(tc.read(index)), ex::when_all_vector(tc.readwrite(d)),</div>
-<div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;                             ex::when_all_vector(tc.readwrite(z)), ex::when_all_vector(tc.readwrite(c)));</div>
-<div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160; </div>
-<div class="line"><a name="l00578"></a><span class="lineno">  578</span>&#160;  <span class="keywordflow">return</span> di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(deflate_fn), std::move(sender)) |</div>
-<div class="line"><a name="l00579"></a><span class="lineno">  579</span>&#160;         <span class="comment">// TODO: This releases the tiles that are kept in the operation state.</span></div>
-<div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;         <span class="comment">// This is a temporary fix and needs to be replaced by a different</span></div>
-<div class="line"><a name="l00581"></a><span class="lineno">  581</span>&#160;         <span class="comment">// adaptor or different lifetime guarantees. This is tracked in</span></div>
-<div class="line"><a name="l00582"></a><span class="lineno">  582</span>&#160;         <span class="comment">// https://github.com/pika-org/pika/issues/479.</span></div>
-<div class="line"><a name="l00583"></a><span class="lineno">  583</span>&#160;         ex::ensure_started();</div>
-<div class="line"><a name="l00584"></a><span class="lineno">  584</span>&#160;}</div>
+<div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, index.distribution());</div>
+<div class="line"><a name="l00575"></a><span class="lineno">  575</span>&#160; </div>
+<div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;  <span class="keyword">auto</span> deflate_fn = [n](<span class="keyword">auto</span> rho, <span class="keyword">auto</span> tol, <span class="keyword">auto</span> index_tiles_futs, <span class="keyword">auto</span> d_tiles, <span class="keyword">auto</span> z_tiles,</div>
+<div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160;                        <span class="keyword">auto</span> c_tiles) {</div>
+<div class="line"><a name="l00578"></a><span class="lineno">  578</span>&#160;    <span class="keyword">const</span> TileElementIndex zero_idx(0, 0);</div>
+<div class="line"><a name="l00579"></a><span class="lineno">  579</span>&#160;    <span class="keyword">const</span> SizeType* i_ptr = index_tiles_futs[0].get().ptr(zero_idx);</div>
+<div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;    T* d_ptr = d_tiles[0].ptr(zero_idx);</div>
+<div class="line"><a name="l00581"></a><span class="lineno">  581</span>&#160;    T* z_ptr = z_tiles[0].ptr(zero_idx);</div>
+<div class="line"><a name="l00582"></a><span class="lineno">  582</span>&#160;    ColType* c_ptr = c_tiles[0].ptr(zero_idx);</div>
+<div class="line"><a name="l00583"></a><span class="lineno">  583</span>&#160;    <span class="keywordflow">return</span> applyDeflationToArrays(rho, tol, n, i_ptr, d_ptr, z_ptr, c_ptr);</div>
+<div class="line"><a name="l00584"></a><span class="lineno">  584</span>&#160;  };</div>
 <div class="line"><a name="l00585"></a><span class="lineno">  585</span>&#160; </div>
-<div class="line"><a name="l00586"></a><span class="lineno">  586</span>&#160;<span class="comment">// z is an input whose values are destroyed by this call (input + workspace)</span></div>
-<div class="line"><a name="l00587"></a><span class="lineno">  587</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> KSender, <span class="keyword">class</span> RhoSender&gt;</div>
-<div class="line"><a name="l00588"></a><span class="lineno">  588</span>&#160;<span class="keywordtype">void</span> solveRank1Problem(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, KSender&amp;&amp; k, RhoSender&amp;&amp; rho,</div>
-<div class="line"><a name="l00589"></a><span class="lineno">  589</span>&#160;                       Matrix&lt;const T, Device::CPU&gt;&amp; d, Matrix&lt;T, Device::CPU&gt;&amp; z,</div>
-<div class="line"><a name="l00590"></a><span class="lineno">  590</span>&#160;                       Matrix&lt;T, Device::CPU&gt;&amp; evals, Matrix&lt;const SizeType, Device::CPU&gt;&amp; i2,</div>
-<div class="line"><a name="l00591"></a><span class="lineno">  591</span>&#160;                       Matrix&lt;T, Device::CPU&gt;&amp; evecs) {</div>
-<div class="line"><a name="l00592"></a><span class="lineno">  592</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00593"></a><span class="lineno">  593</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00594"></a><span class="lineno">  594</span>&#160; </div>
-<div class="line"><a name="l00595"></a><span class="lineno">  595</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, evals.distribution());</div>
-<div class="line"><a name="l00596"></a><span class="lineno">  596</span>&#160;  <span class="keyword">const</span> SizeType nb = evals.distribution().blockSize().rows();</div>
-<div class="line"><a name="l00597"></a><span class="lineno">  597</span>&#160; </div>
-<div class="line"><a name="l00598"></a><span class="lineno">  598</span>&#160;  TileCollector tc{i_begin, i_end};</div>
+<div class="line"><a name="l00586"></a><span class="lineno">  586</span>&#160;  TileCollector tc{i_begin, i_end};</div>
+<div class="line"><a name="l00587"></a><span class="lineno">  587</span>&#160; </div>
+<div class="line"><a name="l00588"></a><span class="lineno">  588</span>&#160;  <span class="keyword">auto</span> sender = ex::when_all(std::forward&lt;RhoSender&gt;(rho), std::forward&lt;TolSender&gt;(tol),</div>
+<div class="line"><a name="l00589"></a><span class="lineno">  589</span>&#160;                             ex::when_all_vector(tc.read(index)), ex::when_all_vector(tc.readwrite(d)),</div>
+<div class="line"><a name="l00590"></a><span class="lineno">  590</span>&#160;                             ex::when_all_vector(tc.readwrite(z)), ex::when_all_vector(tc.readwrite(c)));</div>
+<div class="line"><a name="l00591"></a><span class="lineno">  591</span>&#160; </div>
+<div class="line"><a name="l00592"></a><span class="lineno">  592</span>&#160;  <span class="keywordflow">return</span> di::transform(di::Policy&lt;Backend::MC&gt;(), std::move(deflate_fn), std::move(sender)) |</div>
+<div class="line"><a name="l00593"></a><span class="lineno">  593</span>&#160;         <span class="comment">// TODO: This releases the tiles that are kept in the operation state.</span></div>
+<div class="line"><a name="l00594"></a><span class="lineno">  594</span>&#160;         <span class="comment">// This is a temporary fix and needs to be replaced by a different</span></div>
+<div class="line"><a name="l00595"></a><span class="lineno">  595</span>&#160;         <span class="comment">// adaptor or different lifetime guarantees. This is tracked in</span></div>
+<div class="line"><a name="l00596"></a><span class="lineno">  596</span>&#160;         <span class="comment">// https://github.com/pika-org/pika/issues/479.</span></div>
+<div class="line"><a name="l00597"></a><span class="lineno">  597</span>&#160;         ex::ensure_started();</div>
+<div class="line"><a name="l00598"></a><span class="lineno">  598</span>&#160;}</div>
 <div class="line"><a name="l00599"></a><span class="lineno">  599</span>&#160; </div>
-<div class="line"><a name="l00600"></a><span class="lineno">  600</span>&#160;  <span class="comment">// Note: at least two column of tiles per-worker, in the range [1, getTridiagRank1NWorkers()]</span></div>
-<div class="line"><a name="l00601"></a><span class="lineno">  601</span>&#160;  <span class="keyword">const</span> std::size_t nthreads = [nrtiles = (i_end - i_begin)]() {</div>
-<div class="line"><a name="l00602"></a><span class="lineno">  602</span>&#160;    <span class="keyword">const</span> std::size_t min_workers = 1;</div>
-<div class="line"><a name="l00603"></a><span class="lineno">  603</span>&#160;    <span class="keyword">const</span> std::size_t available_workers = getTridiagRank1NWorkers();</div>
-<div class="line"><a name="l00604"></a><span class="lineno">  604</span>&#160;    <span class="keyword">const</span> std::size_t ideal_workers = util::ceilDiv(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(nrtiles), <a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(2));</div>
-<div class="line"><a name="l00605"></a><span class="lineno">  605</span>&#160;    <span class="keywordflow">return</span> std::clamp(ideal_workers, min_workers, available_workers);</div>
-<div class="line"><a name="l00606"></a><span class="lineno">  606</span>&#160;  }();</div>
-<div class="line"><a name="l00607"></a><span class="lineno">  607</span>&#160; </div>
-<div class="line"><a name="l00608"></a><span class="lineno">  608</span>&#160;  ex::start_detached(</div>
-<div class="line"><a name="l00609"></a><span class="lineno">  609</span>&#160;      ex::when_all(ex::just(std::make_unique&lt;pika::barrier&lt;&gt;&gt;(nthreads)), std::forward&lt;KSender&gt;(k),</div>
-<div class="line"><a name="l00610"></a><span class="lineno">  610</span>&#160;                   std::forward&lt;RhoSender&gt;(rho), ex::when_all_vector(tc.read(d)),</div>
-<div class="line"><a name="l00611"></a><span class="lineno">  611</span>&#160;                   ex::when_all_vector(tc.readwrite(z)), ex::when_all_vector(tc.readwrite(evals)),</div>
-<div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160;                   ex::when_all_vector(tc.read(i2)), ex::when_all_vector(tc.readwrite(evecs)),</div>
-<div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160;                   ex::just(std::vector&lt;memory::MemoryView&lt;T, Device::CPU&gt;&gt;())) |</div>
-<div class="line"><a name="l00614"></a><span class="lineno">  614</span>&#160;      ex::transfer(di::getBackendScheduler&lt;Backend::MC&gt;(pika::execution::thread_priority::high)) |</div>
-<div class="line"><a name="l00615"></a><span class="lineno">  615</span>&#160;      ex::bulk(nthreads, [nthreads, n, nb](std::size_t thread_idx, <span class="keyword">auto</span>&amp; barrier_ptr, <span class="keyword">auto</span>&amp; k, <span class="keyword">auto</span>&amp; rho,</div>
-<div class="line"><a name="l00616"></a><span class="lineno">  616</span>&#160;                                           <span class="keyword">auto</span>&amp; d_tiles_futs, <span class="keyword">auto</span>&amp; z_tiles, <span class="keyword">auto</span>&amp; eval_tiles,</div>
-<div class="line"><a name="l00617"></a><span class="lineno">  617</span>&#160;                                           <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_tile_arr, <span class="keyword">auto</span>&amp; evec_tiles, <span class="keyword">auto</span>&amp; ws_vecs) {</div>
-<div class="line"><a name="l00618"></a><span class="lineno">  618</span>&#160;        const matrix::Distribution distr(LocalElementSize(n, n), TileElementSize(nb, nb));</div>
-<div class="line"><a name="l00619"></a><span class="lineno">  619</span>&#160; </div>
-<div class="line"><a name="l00620"></a><span class="lineno">  620</span>&#160;        const SizeType* i2_perm = i2_tile_arr[0].get().ptr();</div>
+<div class="line"><a name="l00600"></a><span class="lineno">  600</span>&#160;<span class="comment">// z is an input whose values are destroyed by this call (input + workspace)</span></div>
+<div class="line"><a name="l00601"></a><span class="lineno">  601</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> KSender, <span class="keyword">class</span> RhoSender&gt;</div>
+<div class="line"><a name="l00602"></a><span class="lineno">  602</span>&#160;<span class="keywordtype">void</span> solveRank1Problem(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, KSender&amp;&amp; k, RhoSender&amp;&amp; rho,</div>
+<div class="line"><a name="l00603"></a><span class="lineno">  603</span>&#160;                       Matrix&lt;const T, Device::CPU&gt;&amp; d, Matrix&lt;T, Device::CPU&gt;&amp; z,</div>
+<div class="line"><a name="l00604"></a><span class="lineno">  604</span>&#160;                       Matrix&lt;T, Device::CPU&gt;&amp; evals, Matrix&lt;const SizeType, Device::CPU&gt;&amp; i2,</div>
+<div class="line"><a name="l00605"></a><span class="lineno">  605</span>&#160;                       Matrix&lt;T, Device::CPU&gt;&amp; evecs) {</div>
+<div class="line"><a name="l00606"></a><span class="lineno">  606</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00607"></a><span class="lineno">  607</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00608"></a><span class="lineno">  608</span>&#160; </div>
+<div class="line"><a name="l00609"></a><span class="lineno">  609</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, evals.distribution());</div>
+<div class="line"><a name="l00610"></a><span class="lineno">  610</span>&#160;  <span class="keyword">const</span> SizeType nb = evals.distribution().blockSize().rows();</div>
+<div class="line"><a name="l00611"></a><span class="lineno">  611</span>&#160; </div>
+<div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160;  TileCollector tc{i_begin, i_end};</div>
+<div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160; </div>
+<div class="line"><a name="l00614"></a><span class="lineno">  614</span>&#160;  <span class="comment">// Note: at least two column of tiles per-worker, in the range [1, getTridiagRank1NWorkers()]</span></div>
+<div class="line"><a name="l00615"></a><span class="lineno">  615</span>&#160;  <span class="keyword">const</span> std::size_t nthreads = [nrtiles = (i_end - i_begin)]() {</div>
+<div class="line"><a name="l00616"></a><span class="lineno">  616</span>&#160;    <span class="keyword">const</span> std::size_t min_workers = 1;</div>
+<div class="line"><a name="l00617"></a><span class="lineno">  617</span>&#160;    <span class="keyword">const</span> std::size_t available_workers = getTridiagRank1NWorkers();</div>
+<div class="line"><a name="l00618"></a><span class="lineno">  618</span>&#160;    <span class="keyword">const</span> std::size_t ideal_workers = util::ceilDiv(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(nrtiles), <a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(2));</div>
+<div class="line"><a name="l00619"></a><span class="lineno">  619</span>&#160;    <span class="keywordflow">return</span> std::clamp(ideal_workers, min_workers, available_workers);</div>
+<div class="line"><a name="l00620"></a><span class="lineno">  620</span>&#160;  }();</div>
 <div class="line"><a name="l00621"></a><span class="lineno">  621</span>&#160; </div>
-<div class="line"><a name="l00622"></a><span class="lineno">  622</span>&#160;        const auto barrier_busy_wait = getTridiagRank1BarrierBusyWait();</div>
-<div class="line"><a name="l00623"></a><span class="lineno">  623</span>&#160;        const std::size_t batch_size = util::ceilDiv(to_sizet(k), nthreads);</div>
-<div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;        const std::size_t begin = thread_idx * batch_size;</div>
-<div class="line"><a name="l00625"></a><span class="lineno">  625</span>&#160;        const std::size_t end = std::min(thread_idx * batch_size + batch_size, to_sizet(k));</div>
-<div class="line"><a name="l00626"></a><span class="lineno">  626</span>&#160; </div>
-<div class="line"><a name="l00627"></a><span class="lineno">  627</span>&#160;        <span class="comment">// STEP 0a: Fill ones for deflated Eigenvectors. (single-thread)</span></div>
-<div class="line"><a name="l00628"></a><span class="lineno">  628</span>&#160;        <span class="comment">// Note: this step is completely independent from the rest, but it is small and it is going</span></div>
-<div class="line"><a name="l00629"></a><span class="lineno">  629</span>&#160;        <span class="comment">// to be dropped soon.</span></div>
-<div class="line"><a name="l00630"></a><span class="lineno">  630</span>&#160;        <span class="comment">// Note: use last thread that in principle should have less work to do</span></div>
-<div class="line"><a name="l00631"></a><span class="lineno">  631</span>&#160;        if (thread_idx == nthreads - 1) {</div>
-<div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;          for (SizeType j = k; j &lt; n; ++j) {</div>
-<div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160;            const GlobalElementIndex jj(j, j);</div>
-<div class="line"><a name="l00634"></a><span class="lineno">  634</span>&#160;            const auto linear_jj = distr.globalTileLinearIndex(jj);</div>
-<div class="line"><a name="l00635"></a><span class="lineno">  635</span>&#160;            const auto jj_el = distr.tileElementIndex(jj);</div>
-<div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160; </div>
-<div class="line"><a name="l00637"></a><span class="lineno">  637</span>&#160;            evec_tiles[to_sizet(linear_jj)](jj_el) = 1;</div>
-<div class="line"><a name="l00638"></a><span class="lineno">  638</span>&#160;          }</div>
-<div class="line"><a name="l00639"></a><span class="lineno">  639</span>&#160;        }</div>
+<div class="line"><a name="l00622"></a><span class="lineno">  622</span>&#160;  ex::start_detached(</div>
+<div class="line"><a name="l00623"></a><span class="lineno">  623</span>&#160;      ex::when_all(ex::just(std::make_unique&lt;pika::barrier&lt;&gt;&gt;(nthreads)), std::forward&lt;KSender&gt;(k),</div>
+<div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;                   std::forward&lt;RhoSender&gt;(rho), ex::when_all_vector(tc.read(d)),</div>
+<div class="line"><a name="l00625"></a><span class="lineno">  625</span>&#160;                   ex::when_all_vector(tc.readwrite(z)), ex::when_all_vector(tc.readwrite(evals)),</div>
+<div class="line"><a name="l00626"></a><span class="lineno">  626</span>&#160;                   ex::when_all_vector(tc.read(i2)), ex::when_all_vector(tc.readwrite(evecs)),</div>
+<div class="line"><a name="l00627"></a><span class="lineno">  627</span>&#160;                   ex::just(std::vector&lt;memory::MemoryView&lt;T, Device::CPU&gt;&gt;())) |</div>
+<div class="line"><a name="l00628"></a><span class="lineno">  628</span>&#160;      ex::transfer(di::getBackendScheduler&lt;Backend::MC&gt;(pika::execution::thread_priority::high)) |</div>
+<div class="line"><a name="l00629"></a><span class="lineno">  629</span>&#160;      ex::bulk(nthreads, [nthreads, n, nb](std::size_t thread_idx, <span class="keyword">auto</span>&amp; barrier_ptr, <span class="keyword">auto</span>&amp; k, <span class="keyword">auto</span>&amp; rho,</div>
+<div class="line"><a name="l00630"></a><span class="lineno">  630</span>&#160;                                           <span class="keyword">auto</span>&amp; d_tiles_futs, <span class="keyword">auto</span>&amp; z_tiles, <span class="keyword">auto</span>&amp; eval_tiles,</div>
+<div class="line"><a name="l00631"></a><span class="lineno">  631</span>&#160;                                           <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_tile_arr, <span class="keyword">auto</span>&amp; evec_tiles, <span class="keyword">auto</span>&amp; ws_vecs) {</div>
+<div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;        const matrix::Distribution distr(LocalElementSize(n, n), TileElementSize(nb, nb));</div>
+<div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160; </div>
+<div class="line"><a name="l00634"></a><span class="lineno">  634</span>&#160;        const SizeType* i2_perm = i2_tile_arr[0].get().ptr();</div>
+<div class="line"><a name="l00635"></a><span class="lineno">  635</span>&#160; </div>
+<div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160;        const auto barrier_busy_wait = getTridiagRank1BarrierBusyWait();</div>
+<div class="line"><a name="l00637"></a><span class="lineno">  637</span>&#160;        const std::size_t batch_size = util::ceilDiv(to_sizet(k), nthreads);</div>
+<div class="line"><a name="l00638"></a><span class="lineno">  638</span>&#160;        const std::size_t begin = thread_idx * batch_size;</div>
+<div class="line"><a name="l00639"></a><span class="lineno">  639</span>&#160;        const std::size_t end = std::min(thread_idx * batch_size + batch_size, to_sizet(k));</div>
 <div class="line"><a name="l00640"></a><span class="lineno">  640</span>&#160; </div>
-<div class="line"><a name="l00641"></a><span class="lineno">  641</span>&#160;        <span class="comment">// STEP 0b: Initialize workspaces (single-thread)</span></div>
-<div class="line"><a name="l00642"></a><span class="lineno">  642</span>&#160;        if (thread_idx == 0) {</div>
-<div class="line"><a name="l00643"></a><span class="lineno">  643</span>&#160;          ws_vecs.reserve(nthreads);</div>
-<div class="line"><a name="l00644"></a><span class="lineno">  644</span>&#160;          <span class="keywordflow">for</span> (std::size_t i = 0; i &lt; nthreads; ++i)</div>
-<div class="line"><a name="l00645"></a><span class="lineno">  645</span>&#160;            ws_vecs.emplace_back(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(k));</div>
-<div class="line"><a name="l00646"></a><span class="lineno">  646</span>&#160;        }</div>
-<div class="line"><a name="l00647"></a><span class="lineno">  647</span>&#160; </div>
-<div class="line"><a name="l00648"></a><span class="lineno">  648</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l00649"></a><span class="lineno">  649</span>&#160; </div>
-<div class="line"><a name="l00650"></a><span class="lineno">  650</span>&#160;        <span class="comment">// STEP 1: LAED4 (multi-thread)</span></div>
-<div class="line"><a name="l00651"></a><span class="lineno">  651</span>&#160;        <span class="keyword">const</span> T* d_ptr = d_tiles_futs[0].get().ptr();</div>
-<div class="line"><a name="l00652"></a><span class="lineno">  652</span>&#160;        <span class="keyword">const</span> T* z_ptr = z_tiles[0].ptr();</div>
-<div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160; </div>
-<div class="line"><a name="l00654"></a><span class="lineno">  654</span>&#160;        {</div>
-<div class="line"><a name="l00655"></a><span class="lineno">  655</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a name="l00656"></a><span class="lineno">  656</span>&#160; </div>
-<div class="line"><a name="l00657"></a><span class="lineno">  657</span>&#160;          T* eval_ptr = eval_tiles[0].ptr();</div>
-<div class="line"><a name="l00658"></a><span class="lineno">  658</span>&#160; </div>
-<div class="line"><a name="l00659"></a><span class="lineno">  659</span>&#160;          <span class="keywordflow">for</span> (std::size_t i = begin; i &lt; end; ++i) {</div>
-<div class="line"><a name="l00660"></a><span class="lineno">  660</span>&#160;            T&amp; eigenval = eval_ptr[i];</div>
+<div class="line"><a name="l00641"></a><span class="lineno">  641</span>&#160;        <span class="comment">// STEP 0a: Fill ones for deflated Eigenvectors. (single-thread)</span></div>
+<div class="line"><a name="l00642"></a><span class="lineno">  642</span>&#160;        <span class="comment">// Note: this step is completely independent from the rest, but it is small and it is going</span></div>
+<div class="line"><a name="l00643"></a><span class="lineno">  643</span>&#160;        <span class="comment">// to be dropped soon.</span></div>
+<div class="line"><a name="l00644"></a><span class="lineno">  644</span>&#160;        <span class="comment">// Note: use last thread that in principle should have less work to do</span></div>
+<div class="line"><a name="l00645"></a><span class="lineno">  645</span>&#160;        if (thread_idx == nthreads - 1) {</div>
+<div class="line"><a name="l00646"></a><span class="lineno">  646</span>&#160;          for (SizeType j = k; j &lt; n; ++j) {</div>
+<div class="line"><a name="l00647"></a><span class="lineno">  647</span>&#160;            const GlobalElementIndex jj(j, j);</div>
+<div class="line"><a name="l00648"></a><span class="lineno">  648</span>&#160;            const auto linear_jj = distr.globalTileLinearIndex(jj);</div>
+<div class="line"><a name="l00649"></a><span class="lineno">  649</span>&#160;            const auto jj_el = distr.tileElementIndex(jj);</div>
+<div class="line"><a name="l00650"></a><span class="lineno">  650</span>&#160; </div>
+<div class="line"><a name="l00651"></a><span class="lineno">  651</span>&#160;            evec_tiles[to_sizet(linear_jj)](jj_el) = 1;</div>
+<div class="line"><a name="l00652"></a><span class="lineno">  652</span>&#160;          }</div>
+<div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160;        }</div>
+<div class="line"><a name="l00654"></a><span class="lineno">  654</span>&#160; </div>
+<div class="line"><a name="l00655"></a><span class="lineno">  655</span>&#160;        <span class="comment">// STEP 0b: Initialize workspaces (single-thread)</span></div>
+<div class="line"><a name="l00656"></a><span class="lineno">  656</span>&#160;        if (thread_idx == 0) {</div>
+<div class="line"><a name="l00657"></a><span class="lineno">  657</span>&#160;          ws_vecs.reserve(nthreads);</div>
+<div class="line"><a name="l00658"></a><span class="lineno">  658</span>&#160;          <span class="keywordflow">for</span> (std::size_t i = 0; i &lt; nthreads; ++i)</div>
+<div class="line"><a name="l00659"></a><span class="lineno">  659</span>&#160;            ws_vecs.emplace_back(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(k));</div>
+<div class="line"><a name="l00660"></a><span class="lineno">  660</span>&#160;        }</div>
 <div class="line"><a name="l00661"></a><span class="lineno">  661</span>&#160; </div>
-<div class="line"><a name="l00662"></a><span class="lineno">  662</span>&#160;            <span class="keyword">const</span> SizeType i_tile = distr.globalTileLinearIndex(GlobalElementIndex(0, <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(i)));</div>
-<div class="line"><a name="l00663"></a><span class="lineno">  663</span>&#160;            <span class="keyword">const</span> SizeType i_col = distr.tileElementFromGlobalElement&lt;Coord::Col&gt;(<a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(i));</div>
-<div class="line"><a name="l00664"></a><span class="lineno">  664</span>&#160;            T* delta = evec_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_tile)].ptr(TileElementIndex(0, i_col));</div>
-<div class="line"><a name="l00665"></a><span class="lineno">  665</span>&#160; </div>
-<div class="line"><a name="l00666"></a><span class="lineno">  666</span>&#160;            lapack::laed4(<a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(k), <a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(i), d_ptr, z_ptr, delta, rho, &amp;eigenval);</div>
-<div class="line"><a name="l00667"></a><span class="lineno">  667</span>&#160;          }</div>
-<div class="line"><a name="l00668"></a><span class="lineno">  668</span>&#160; </div>
-<div class="line"><a name="l00669"></a><span class="lineno">  669</span>&#160;          <span class="comment">// Note: laed4 handles k &lt;= 2 cases differently</span></div>
-<div class="line"><a name="l00670"></a><span class="lineno">  670</span>&#160;          <span class="keywordflow">if</span> (k &lt;= 2) {</div>
-<div class="line"><a name="l00671"></a><span class="lineno">  671</span>&#160;            <span class="comment">// Note: The rows should be permuted for the k=2 case as well.</span></div>
-<div class="line"><a name="l00672"></a><span class="lineno">  672</span>&#160;            <span class="keywordflow">if</span> (k == 2) {</div>
-<div class="line"><a name="l00673"></a><span class="lineno">  673</span>&#160;              T* ws = ws_vecs[thread_idx]();</div>
-<div class="line"><a name="l00674"></a><span class="lineno">  674</span>&#160;              <span class="keywordflow">for</span> (SizeType j = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(begin); j &lt; <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(end); ++j) {</div>
-<div class="line"><a name="l00675"></a><span class="lineno">  675</span>&#160;                <span class="keyword">const</span> SizeType j_tile = distr.globalTileLinearIndex(GlobalElementIndex(0, j));</div>
-<div class="line"><a name="l00676"></a><span class="lineno">  676</span>&#160;                <span class="keyword">const</span> SizeType j_col = distr.tileElementFromGlobalElement&lt;Coord::Col&gt;(j);</div>
-<div class="line"><a name="l00677"></a><span class="lineno">  677</span>&#160;                T* evec = evec_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j_tile)].ptr(TileElementIndex(0, j_col));</div>
-<div class="line"><a name="l00678"></a><span class="lineno">  678</span>&#160; </div>
-<div class="line"><a name="l00679"></a><span class="lineno">  679</span>&#160;                std::copy(evec, evec + k, ws);</div>
-<div class="line"><a name="l00680"></a><span class="lineno">  680</span>&#160;                std::fill_n(evec, k, 0);  <span class="comment">// by default &quot;deflated&quot;</span></div>
-<div class="line"><a name="l00681"></a><span class="lineno">  681</span>&#160;                <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
-<div class="line"><a name="l00682"></a><span class="lineno">  682</span>&#160;                  <span class="keyword">const</span> SizeType ii = i2_perm[i];</div>
-<div class="line"><a name="l00683"></a><span class="lineno">  683</span>&#160;                  <span class="keywordflow">if</span> (ii &lt; k)</div>
-<div class="line"><a name="l00684"></a><span class="lineno">  684</span>&#160;                    evec[i] = ws[ii];</div>
-<div class="line"><a name="l00685"></a><span class="lineno">  685</span>&#160;                }</div>
-<div class="line"><a name="l00686"></a><span class="lineno">  686</span>&#160;              }</div>
-<div class="line"><a name="l00687"></a><span class="lineno">  687</span>&#160;            }</div>
-<div class="line"><a name="l00688"></a><span class="lineno">  688</span>&#160;            <span class="keywordflow">return</span>;</div>
-<div class="line"><a name="l00689"></a><span class="lineno">  689</span>&#160;          }</div>
-<div class="line"><a name="l00690"></a><span class="lineno">  690</span>&#160;        }</div>
-<div class="line"><a name="l00691"></a><span class="lineno">  691</span>&#160; </div>
-<div class="line"><a name="l00692"></a><span class="lineno">  692</span>&#160;        <span class="comment">// Note: This barrier ensures that LAED4 finished, so from now on values are available</span></div>
-<div class="line"><a name="l00693"></a><span class="lineno">  693</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l00694"></a><span class="lineno">  694</span>&#160; </div>
-<div class="line"><a name="l00695"></a><span class="lineno">  695</span>&#160;        <span class="comment">// STEP 2a Compute weights (multi-thread)</span></div>
-<div class="line"><a name="l00696"></a><span class="lineno">  696</span>&#160;        <span class="keyword">auto</span>&amp; q = evec_tiles;</div>
-<div class="line"><a name="l00697"></a><span class="lineno">  697</span>&#160;        T* w = ws_vecs[thread_idx]();</div>
-<div class="line"><a name="l00698"></a><span class="lineno">  698</span>&#160; </div>
-<div class="line"><a name="l00699"></a><span class="lineno">  699</span>&#160;        <span class="comment">// - copy diagonal from q -&gt; w (or just initialize with 1)</span></div>
-<div class="line"><a name="l00700"></a><span class="lineno">  700</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
-<div class="line"><a name="l00701"></a><span class="lineno">  701</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; k; ++i) {</div>
-<div class="line"><a name="l00702"></a><span class="lineno">  702</span>&#160;            <span class="keyword">const</span> GlobalElementIndex kk(i, i);</div>
-<div class="line"><a name="l00703"></a><span class="lineno">  703</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span> diag_tile = distr.globalTileLinearIndex(kk);</div>
-<div class="line"><a name="l00704"></a><span class="lineno">  704</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span> diag_element = distr.tileElementIndex(kk);</div>
+<div class="line"><a name="l00662"></a><span class="lineno">  662</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l00663"></a><span class="lineno">  663</span>&#160; </div>
+<div class="line"><a name="l00664"></a><span class="lineno">  664</span>&#160;        <span class="comment">// STEP 1: LAED4 (multi-thread)</span></div>
+<div class="line"><a name="l00665"></a><span class="lineno">  665</span>&#160;        <span class="keyword">const</span> T* d_ptr = d_tiles_futs[0].get().ptr();</div>
+<div class="line"><a name="l00666"></a><span class="lineno">  666</span>&#160;        <span class="keyword">const</span> T* z_ptr = z_tiles[0].ptr();</div>
+<div class="line"><a name="l00667"></a><span class="lineno">  667</span>&#160; </div>
+<div class="line"><a name="l00668"></a><span class="lineno">  668</span>&#160;        {</div>
+<div class="line"><a name="l00669"></a><span class="lineno">  669</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a name="l00670"></a><span class="lineno">  670</span>&#160; </div>
+<div class="line"><a name="l00671"></a><span class="lineno">  671</span>&#160;          T* eval_ptr = eval_tiles[0].ptr();</div>
+<div class="line"><a name="l00672"></a><span class="lineno">  672</span>&#160; </div>
+<div class="line"><a name="l00673"></a><span class="lineno">  673</span>&#160;          <span class="keywordflow">for</span> (std::size_t i = begin; i &lt; end; ++i) {</div>
+<div class="line"><a name="l00674"></a><span class="lineno">  674</span>&#160;            T&amp; eigenval = eval_ptr[i];</div>
+<div class="line"><a name="l00675"></a><span class="lineno">  675</span>&#160; </div>
+<div class="line"><a name="l00676"></a><span class="lineno">  676</span>&#160;            <span class="keyword">const</span> SizeType i_tile = distr.globalTileLinearIndex(GlobalElementIndex(0, <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(i)));</div>
+<div class="line"><a name="l00677"></a><span class="lineno">  677</span>&#160;            <span class="keyword">const</span> SizeType i_col = distr.tileElementFromGlobalElement&lt;Coord::Col&gt;(<a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(i));</div>
+<div class="line"><a name="l00678"></a><span class="lineno">  678</span>&#160;            T* delta = evec_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_tile)].ptr(TileElementIndex(0, i_col));</div>
+<div class="line"><a name="l00679"></a><span class="lineno">  679</span>&#160; </div>
+<div class="line"><a name="l00680"></a><span class="lineno">  680</span>&#160;            lapack::laed4(<a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(k), <a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(i), d_ptr, z_ptr, delta, rho, &amp;eigenval);</div>
+<div class="line"><a name="l00681"></a><span class="lineno">  681</span>&#160;          }</div>
+<div class="line"><a name="l00682"></a><span class="lineno">  682</span>&#160; </div>
+<div class="line"><a name="l00683"></a><span class="lineno">  683</span>&#160;          <span class="comment">// Note: laed4 handles k &lt;= 2 cases differently</span></div>
+<div class="line"><a name="l00684"></a><span class="lineno">  684</span>&#160;          <span class="keywordflow">if</span> (k &lt;= 2) {</div>
+<div class="line"><a name="l00685"></a><span class="lineno">  685</span>&#160;            <span class="comment">// Note: The rows should be permuted for the k=2 case as well.</span></div>
+<div class="line"><a name="l00686"></a><span class="lineno">  686</span>&#160;            <span class="keywordflow">if</span> (k == 2) {</div>
+<div class="line"><a name="l00687"></a><span class="lineno">  687</span>&#160;              T* ws = ws_vecs[thread_idx]();</div>
+<div class="line"><a name="l00688"></a><span class="lineno">  688</span>&#160;              <span class="keywordflow">for</span> (SizeType j = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(begin); j &lt; <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(end); ++j) {</div>
+<div class="line"><a name="l00689"></a><span class="lineno">  689</span>&#160;                <span class="keyword">const</span> SizeType j_tile = distr.globalTileLinearIndex(GlobalElementIndex(0, j));</div>
+<div class="line"><a name="l00690"></a><span class="lineno">  690</span>&#160;                <span class="keyword">const</span> SizeType j_col = distr.tileElementFromGlobalElement&lt;Coord::Col&gt;(j);</div>
+<div class="line"><a name="l00691"></a><span class="lineno">  691</span>&#160;                T* evec = evec_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j_tile)].ptr(TileElementIndex(0, j_col));</div>
+<div class="line"><a name="l00692"></a><span class="lineno">  692</span>&#160; </div>
+<div class="line"><a name="l00693"></a><span class="lineno">  693</span>&#160;                std::copy(evec, evec + k, ws);</div>
+<div class="line"><a name="l00694"></a><span class="lineno">  694</span>&#160;                std::fill_n(evec, k, 0);  <span class="comment">// by default &quot;deflated&quot;</span></div>
+<div class="line"><a name="l00695"></a><span class="lineno">  695</span>&#160;                <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
+<div class="line"><a name="l00696"></a><span class="lineno">  696</span>&#160;                  <span class="keyword">const</span> SizeType ii = i2_perm[i];</div>
+<div class="line"><a name="l00697"></a><span class="lineno">  697</span>&#160;                  <span class="keywordflow">if</span> (ii &lt; k)</div>
+<div class="line"><a name="l00698"></a><span class="lineno">  698</span>&#160;                    evec[i] = ws[ii];</div>
+<div class="line"><a name="l00699"></a><span class="lineno">  699</span>&#160;                }</div>
+<div class="line"><a name="l00700"></a><span class="lineno">  700</span>&#160;              }</div>
+<div class="line"><a name="l00701"></a><span class="lineno">  701</span>&#160;            }</div>
+<div class="line"><a name="l00702"></a><span class="lineno">  702</span>&#160;            <span class="keywordflow">return</span>;</div>
+<div class="line"><a name="l00703"></a><span class="lineno">  703</span>&#160;          }</div>
+<div class="line"><a name="l00704"></a><span class="lineno">  704</span>&#160;        }</div>
 <div class="line"><a name="l00705"></a><span class="lineno">  705</span>&#160; </div>
-<div class="line"><a name="l00706"></a><span class="lineno">  706</span>&#160;            w[i] = q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(diag_tile)](diag_element);</div>
-<div class="line"><a name="l00707"></a><span class="lineno">  707</span>&#160;          }</div>
-<div class="line"><a name="l00708"></a><span class="lineno">  708</span>&#160;        }</div>
-<div class="line"><a name="l00709"></a><span class="lineno">  709</span>&#160;        <span class="keywordflow">else</span> {</div>
-<div class="line"><a name="l00710"></a><span class="lineno">  710</span>&#160;          std::fill_n(w, k, T(1));</div>
-<div class="line"><a name="l00711"></a><span class="lineno">  711</span>&#160;        }</div>
+<div class="line"><a name="l00706"></a><span class="lineno">  706</span>&#160;        <span class="comment">// Note: This barrier ensures that LAED4 finished, so from now on values are available</span></div>
+<div class="line"><a name="l00707"></a><span class="lineno">  707</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l00708"></a><span class="lineno">  708</span>&#160; </div>
+<div class="line"><a name="l00709"></a><span class="lineno">  709</span>&#160;        <span class="comment">// STEP 2a Compute weights (multi-thread)</span></div>
+<div class="line"><a name="l00710"></a><span class="lineno">  710</span>&#160;        <span class="keyword">auto</span>&amp; q = evec_tiles;</div>
+<div class="line"><a name="l00711"></a><span class="lineno">  711</span>&#160;        T* w = ws_vecs[thread_idx]();</div>
 <div class="line"><a name="l00712"></a><span class="lineno">  712</span>&#160; </div>
-<div class="line"><a name="l00713"></a><span class="lineno">  713</span>&#160;        <span class="comment">// - compute productorial</span></div>
-<div class="line"><a name="l00714"></a><span class="lineno">  714</span>&#160;        <span class="keyword">auto</span> compute_w = [&amp;](<span class="keyword">const</span> GlobalElementIndex ij) {</div>
-<div class="line"><a name="l00715"></a><span class="lineno">  715</span>&#160;          <span class="keyword">const</span> <span class="keyword">auto</span> q_tile = distr.globalTileLinearIndex(ij);</div>
-<div class="line"><a name="l00716"></a><span class="lineno">  716</span>&#160;          <span class="keyword">const</span> <span class="keyword">auto</span> q_ij = distr.tileElementIndex(ij);</div>
-<div class="line"><a name="l00717"></a><span class="lineno">  717</span>&#160; </div>
-<div class="line"><a name="l00718"></a><span class="lineno">  718</span>&#160;          <span class="keyword">const</span> SizeType i = ij.row();</div>
-<div class="line"><a name="l00719"></a><span class="lineno">  719</span>&#160;          <span class="keyword">const</span> SizeType j = ij.col();</div>
-<div class="line"><a name="l00720"></a><span class="lineno">  720</span>&#160; </div>
-<div class="line"><a name="l00721"></a><span class="lineno">  721</span>&#160;          w[i] *= q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij) / (d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i)] - d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j)]);</div>
-<div class="line"><a name="l00722"></a><span class="lineno">  722</span>&#160;        };</div>
-<div class="line"><a name="l00723"></a><span class="lineno">  723</span>&#160; </div>
-<div class="line"><a name="l00724"></a><span class="lineno">  724</span>&#160;        <span class="keywordflow">for</span> (SizeType j = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(begin); j &lt; <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(end); ++j) {</div>
-<div class="line"><a name="l00725"></a><span class="lineno">  725</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; j; ++i)</div>
-<div class="line"><a name="l00726"></a><span class="lineno">  726</span>&#160;            compute_w({i, j});</div>
-<div class="line"><a name="l00727"></a><span class="lineno">  727</span>&#160; </div>
-<div class="line"><a name="l00728"></a><span class="lineno">  728</span>&#160;          <span class="keywordflow">for</span> (SizeType i = j + 1; i &lt; k; ++i)</div>
-<div class="line"><a name="l00729"></a><span class="lineno">  729</span>&#160;            compute_w({i, j});</div>
-<div class="line"><a name="l00730"></a><span class="lineno">  730</span>&#160;        }</div>
+<div class="line"><a name="l00713"></a><span class="lineno">  713</span>&#160;        <span class="comment">// - copy diagonal from q -&gt; w (or just initialize with 1)</span></div>
+<div class="line"><a name="l00714"></a><span class="lineno">  714</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
+<div class="line"><a name="l00715"></a><span class="lineno">  715</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; k; ++i) {</div>
+<div class="line"><a name="l00716"></a><span class="lineno">  716</span>&#160;            <span class="keyword">const</span> GlobalElementIndex kk(i, i);</div>
+<div class="line"><a name="l00717"></a><span class="lineno">  717</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span> diag_tile = distr.globalTileLinearIndex(kk);</div>
+<div class="line"><a name="l00718"></a><span class="lineno">  718</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span> diag_element = distr.tileElementIndex(kk);</div>
+<div class="line"><a name="l00719"></a><span class="lineno">  719</span>&#160; </div>
+<div class="line"><a name="l00720"></a><span class="lineno">  720</span>&#160;            w[i] = q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(diag_tile)](diag_element);</div>
+<div class="line"><a name="l00721"></a><span class="lineno">  721</span>&#160;          }</div>
+<div class="line"><a name="l00722"></a><span class="lineno">  722</span>&#160;        }</div>
+<div class="line"><a name="l00723"></a><span class="lineno">  723</span>&#160;        <span class="keywordflow">else</span> {</div>
+<div class="line"><a name="l00724"></a><span class="lineno">  724</span>&#160;          std::fill_n(w, k, T(1));</div>
+<div class="line"><a name="l00725"></a><span class="lineno">  725</span>&#160;        }</div>
+<div class="line"><a name="l00726"></a><span class="lineno">  726</span>&#160; </div>
+<div class="line"><a name="l00727"></a><span class="lineno">  727</span>&#160;        <span class="comment">// - compute productorial</span></div>
+<div class="line"><a name="l00728"></a><span class="lineno">  728</span>&#160;        <span class="keyword">auto</span> compute_w = [&amp;](<span class="keyword">const</span> GlobalElementIndex ij) {</div>
+<div class="line"><a name="l00729"></a><span class="lineno">  729</span>&#160;          <span class="keyword">const</span> <span class="keyword">auto</span> q_tile = distr.globalTileLinearIndex(ij);</div>
+<div class="line"><a name="l00730"></a><span class="lineno">  730</span>&#160;          <span class="keyword">const</span> <span class="keyword">auto</span> q_ij = distr.tileElementIndex(ij);</div>
 <div class="line"><a name="l00731"></a><span class="lineno">  731</span>&#160; </div>
-<div class="line"><a name="l00732"></a><span class="lineno">  732</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l00733"></a><span class="lineno">  733</span>&#160; </div>
-<div class="line"><a name="l00734"></a><span class="lineno">  734</span>&#160;        <span class="comment">// STEP 2B: reduce, then finalize computation with sign and square root (single-thread)</span></div>
-<div class="line"><a name="l00735"></a><span class="lineno">  735</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
-<div class="line"><a name="l00736"></a><span class="lineno">  736</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; k; ++i) {</div>
-<div class="line"><a name="l00737"></a><span class="lineno">  737</span>&#160;            <span class="keywordflow">for</span> (std::size_t tidx = 1; tidx &lt; nthreads; ++tidx) {</div>
-<div class="line"><a name="l00738"></a><span class="lineno">  738</span>&#160;              <span class="keyword">const</span> T* w_partial = ws_vecs[tidx]();</div>
-<div class="line"><a name="l00739"></a><span class="lineno">  739</span>&#160;              w[i] *= w_partial[i];</div>
-<div class="line"><a name="l00740"></a><span class="lineno">  740</span>&#160;            }</div>
-<div class="line"><a name="l00741"></a><span class="lineno">  741</span>&#160;            z_tiles[0].ptr()[i] = std::copysign(std::sqrt(-w[i]), z_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i)]);</div>
-<div class="line"><a name="l00742"></a><span class="lineno">  742</span>&#160;          }</div>
-<div class="line"><a name="l00743"></a><span class="lineno">  743</span>&#160;        }</div>
-<div class="line"><a name="l00744"></a><span class="lineno">  744</span>&#160; </div>
-<div class="line"><a name="l00745"></a><span class="lineno">  745</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l00746"></a><span class="lineno">  746</span>&#160; </div>
-<div class="line"><a name="l00747"></a><span class="lineno">  747</span>&#160;        <span class="comment">// STEP 3: Compute eigenvectors of the modified rank-1 modification (normalize) (multi-thread)</span></div>
-<div class="line"><a name="l00748"></a><span class="lineno">  748</span>&#160;        {</div>
-<div class="line"><a name="l00749"></a><span class="lineno">  749</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a name="l00750"></a><span class="lineno">  750</span>&#160; </div>
-<div class="line"><a name="l00751"></a><span class="lineno">  751</span>&#160;          <span class="keyword">const</span> T* w = z_ptr;</div>
-<div class="line"><a name="l00752"></a><span class="lineno">  752</span>&#160;          T* s = ws_vecs[thread_idx]();</div>
-<div class="line"><a name="l00753"></a><span class="lineno">  753</span>&#160; </div>
-<div class="line"><a name="l00754"></a><span class="lineno">  754</span>&#160;          <span class="keywordflow">for</span> (SizeType j = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(begin); j &lt; <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(end); ++j) {</div>
-<div class="line"><a name="l00755"></a><span class="lineno">  755</span>&#160;            <span class="keywordflow">for</span> (SizeType i = 0; i &lt; k; ++i) {</div>
-<div class="line"><a name="l00756"></a><span class="lineno">  756</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_tile = distr.globalTileLinearIndex({i, j});</div>
-<div class="line"><a name="l00757"></a><span class="lineno">  757</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_ij = distr.tileElementIndex({i, j});</div>
+<div class="line"><a name="l00732"></a><span class="lineno">  732</span>&#160;          <span class="keyword">const</span> SizeType i = ij.row();</div>
+<div class="line"><a name="l00733"></a><span class="lineno">  733</span>&#160;          <span class="keyword">const</span> SizeType j = ij.col();</div>
+<div class="line"><a name="l00734"></a><span class="lineno">  734</span>&#160; </div>
+<div class="line"><a name="l00735"></a><span class="lineno">  735</span>&#160;          w[i] *= q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij) / (d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i)] - d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j)]);</div>
+<div class="line"><a name="l00736"></a><span class="lineno">  736</span>&#160;        };</div>
+<div class="line"><a name="l00737"></a><span class="lineno">  737</span>&#160; </div>
+<div class="line"><a name="l00738"></a><span class="lineno">  738</span>&#160;        <span class="keywordflow">for</span> (SizeType j = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(begin); j &lt; <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(end); ++j) {</div>
+<div class="line"><a name="l00739"></a><span class="lineno">  739</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; j; ++i)</div>
+<div class="line"><a name="l00740"></a><span class="lineno">  740</span>&#160;            compute_w({i, j});</div>
+<div class="line"><a name="l00741"></a><span class="lineno">  741</span>&#160; </div>
+<div class="line"><a name="l00742"></a><span class="lineno">  742</span>&#160;          <span class="keywordflow">for</span> (SizeType i = j + 1; i &lt; k; ++i)</div>
+<div class="line"><a name="l00743"></a><span class="lineno">  743</span>&#160;            compute_w({i, j});</div>
+<div class="line"><a name="l00744"></a><span class="lineno">  744</span>&#160;        }</div>
+<div class="line"><a name="l00745"></a><span class="lineno">  745</span>&#160; </div>
+<div class="line"><a name="l00746"></a><span class="lineno">  746</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l00747"></a><span class="lineno">  747</span>&#160; </div>
+<div class="line"><a name="l00748"></a><span class="lineno">  748</span>&#160;        <span class="comment">// STEP 2B: reduce, then finalize computation with sign and square root (single-thread)</span></div>
+<div class="line"><a name="l00749"></a><span class="lineno">  749</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
+<div class="line"><a name="l00750"></a><span class="lineno">  750</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; k; ++i) {</div>
+<div class="line"><a name="l00751"></a><span class="lineno">  751</span>&#160;            <span class="keywordflow">for</span> (std::size_t tidx = 1; tidx &lt; nthreads; ++tidx) {</div>
+<div class="line"><a name="l00752"></a><span class="lineno">  752</span>&#160;              <span class="keyword">const</span> T* w_partial = ws_vecs[tidx]();</div>
+<div class="line"><a name="l00753"></a><span class="lineno">  753</span>&#160;              w[i] *= w_partial[i];</div>
+<div class="line"><a name="l00754"></a><span class="lineno">  754</span>&#160;            }</div>
+<div class="line"><a name="l00755"></a><span class="lineno">  755</span>&#160;            z_tiles[0].ptr()[i] = std::copysign(std::sqrt(-w[i]), z_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i)]);</div>
+<div class="line"><a name="l00756"></a><span class="lineno">  756</span>&#160;          }</div>
+<div class="line"><a name="l00757"></a><span class="lineno">  757</span>&#160;        }</div>
 <div class="line"><a name="l00758"></a><span class="lineno">  758</span>&#160; </div>
-<div class="line"><a name="l00759"></a><span class="lineno">  759</span>&#160;              s[i] = w[i] / q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij);</div>
-<div class="line"><a name="l00760"></a><span class="lineno">  760</span>&#160;            }</div>
-<div class="line"><a name="l00761"></a><span class="lineno">  761</span>&#160; </div>
-<div class="line"><a name="l00762"></a><span class="lineno">  762</span>&#160;            <span class="keyword">const</span> T vec_norm = blas::nrm2(k, s, 1);</div>
-<div class="line"><a name="l00763"></a><span class="lineno">  763</span>&#160; </div>
-<div class="line"><a name="l00764"></a><span class="lineno">  764</span>&#160;            <span class="keywordflow">for</span> (SizeType i = 0; i &lt; k; ++i) {</div>
-<div class="line"><a name="l00765"></a><span class="lineno">  765</span>&#160;              <span class="keyword">const</span> SizeType ii = i2_perm[i];</div>
-<div class="line"><a name="l00766"></a><span class="lineno">  766</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_tile = distr.globalTileLinearIndex({i, j});</div>
-<div class="line"><a name="l00767"></a><span class="lineno">  767</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_ij = distr.tileElementIndex({i, j});</div>
-<div class="line"><a name="l00768"></a><span class="lineno">  768</span>&#160; </div>
-<div class="line"><a name="l00769"></a><span class="lineno">  769</span>&#160;              q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij) = s[ii] / vec_norm;</div>
-<div class="line"><a name="l00770"></a><span class="lineno">  770</span>&#160;            }</div>
-<div class="line"><a name="l00771"></a><span class="lineno">  771</span>&#160;          }</div>
-<div class="line"><a name="l00772"></a><span class="lineno">  772</span>&#160;        }</div>
-<div class="line"><a name="l00773"></a><span class="lineno">  773</span>&#160;      }));</div>
-<div class="line"><a name="l00774"></a><span class="lineno">  774</span>&#160;}</div>
+<div class="line"><a name="l00759"></a><span class="lineno">  759</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l00760"></a><span class="lineno">  760</span>&#160; </div>
+<div class="line"><a name="l00761"></a><span class="lineno">  761</span>&#160;        <span class="comment">// STEP 3: Compute eigenvectors of the modified rank-1 modification (normalize) (multi-thread)</span></div>
+<div class="line"><a name="l00762"></a><span class="lineno">  762</span>&#160;        {</div>
+<div class="line"><a name="l00763"></a><span class="lineno">  763</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a name="l00764"></a><span class="lineno">  764</span>&#160; </div>
+<div class="line"><a name="l00765"></a><span class="lineno">  765</span>&#160;          <span class="keyword">const</span> T* w = z_ptr;</div>
+<div class="line"><a name="l00766"></a><span class="lineno">  766</span>&#160;          T* s = ws_vecs[thread_idx]();</div>
+<div class="line"><a name="l00767"></a><span class="lineno">  767</span>&#160; </div>
+<div class="line"><a name="l00768"></a><span class="lineno">  768</span>&#160;          <span class="keywordflow">for</span> (SizeType j = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(begin); j &lt; <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(end); ++j) {</div>
+<div class="line"><a name="l00769"></a><span class="lineno">  769</span>&#160;            <span class="keywordflow">for</span> (SizeType i = 0; i &lt; k; ++i) {</div>
+<div class="line"><a name="l00770"></a><span class="lineno">  770</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_tile = distr.globalTileLinearIndex({i, j});</div>
+<div class="line"><a name="l00771"></a><span class="lineno">  771</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_ij = distr.tileElementIndex({i, j});</div>
+<div class="line"><a name="l00772"></a><span class="lineno">  772</span>&#160; </div>
+<div class="line"><a name="l00773"></a><span class="lineno">  773</span>&#160;              s[i] = w[i] / q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij);</div>
+<div class="line"><a name="l00774"></a><span class="lineno">  774</span>&#160;            }</div>
 <div class="line"><a name="l00775"></a><span class="lineno">  775</span>&#160; </div>
-<div class="line"><a name="l00776"></a><span class="lineno">  776</span>&#160;<span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T, <span class="keyword">class</span> RhoSender&gt;</div>
-<div class="line"><a name="l00777"></a><span class="lineno">  777</span>&#160;<span class="keywordtype">void</span> mergeSubproblems(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end,</div>
-<div class="line"><a name="l00778"></a><span class="lineno">  778</span>&#160;                      RhoSender&amp;&amp; rho, WorkSpace&lt;T, D&gt;&amp; ws, WorkSpaceHost&lt;T&gt;&amp; ws_h,</div>
-<div class="line"><a name="l00779"></a><span class="lineno">  779</span>&#160;                      WorkSpaceHostMirror&lt;T, D&gt;&amp; ws_hm) {</div>
-<div class="line"><a name="l00780"></a><span class="lineno">  780</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00781"></a><span class="lineno">  781</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00776"></a><span class="lineno">  776</span>&#160;            <span class="keyword">const</span> T vec_norm = blas::nrm2(k, s, 1);</div>
+<div class="line"><a name="l00777"></a><span class="lineno">  777</span>&#160; </div>
+<div class="line"><a name="l00778"></a><span class="lineno">  778</span>&#160;            <span class="keywordflow">for</span> (SizeType i = 0; i &lt; k; ++i) {</div>
+<div class="line"><a name="l00779"></a><span class="lineno">  779</span>&#160;              <span class="keyword">const</span> SizeType ii = i2_perm[i];</div>
+<div class="line"><a name="l00780"></a><span class="lineno">  780</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_tile = distr.globalTileLinearIndex({i, j});</div>
+<div class="line"><a name="l00781"></a><span class="lineno">  781</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_ij = distr.tileElementIndex({i, j});</div>
 <div class="line"><a name="l00782"></a><span class="lineno">  782</span>&#160; </div>
-<div class="line"><a name="l00783"></a><span class="lineno">  783</span>&#160;  <span class="keyword">const</span> GlobalTileIndex idx_gl_begin(i_begin, i_begin);</div>
-<div class="line"><a name="l00784"></a><span class="lineno">  784</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_loc_begin(i_begin, i_begin);</div>
-<div class="line"><a name="l00785"></a><span class="lineno">  785</span>&#160;  <span class="keyword">const</span> SizeType nrtiles = i_end - i_begin;</div>
-<div class="line"><a name="l00786"></a><span class="lineno">  786</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_loc_tiles(nrtiles, nrtiles);</div>
-<div class="line"><a name="l00787"></a><span class="lineno">  787</span>&#160; </div>
-<div class="line"><a name="l00788"></a><span class="lineno">  788</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_begin_tiles_vec(i_begin, 0);</div>
-<div class="line"><a name="l00789"></a><span class="lineno">  789</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_tiles_vec(nrtiles, 1);</div>
-<div class="line"><a name="l00790"></a><span class="lineno">  790</span>&#160; </div>
-<div class="line"><a name="l00791"></a><span class="lineno">  791</span>&#160;  <span class="comment">// Calculate the size of the upper subproblem</span></div>
-<div class="line"><a name="l00792"></a><span class="lineno">  792</span>&#160;  <span class="keyword">const</span> SizeType n1 = problemSize(i_begin, i_split, ws.e0.distribution());</div>
-<div class="line"><a name="l00793"></a><span class="lineno">  793</span>&#160; </div>
-<div class="line"><a name="l00794"></a><span class="lineno">  794</span>&#160;  <span class="comment">// Assemble the rank-1 update vector `z` from the last row of Q1 and the first row of Q2</span></div>
-<div class="line"><a name="l00795"></a><span class="lineno">  795</span>&#160;  assembleZVec(i_begin, i_split, i_end, rho, ws.e0, ws.z0);</div>
-<div class="line"><a name="l00796"></a><span class="lineno">  796</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws.z0, ws_hm.z0);</div>
-<div class="line"><a name="l00797"></a><span class="lineno">  797</span>&#160; </div>
-<div class="line"><a name="l00798"></a><span class="lineno">  798</span>&#160;  <span class="comment">// Double `rho` to account for the normalization of `z` and make sure `rho &gt; 0` for the root solver laed4</span></div>
-<div class="line"><a name="l00799"></a><span class="lineno">  799</span>&#160;  <span class="keyword">auto</span> scaled_rho = scaleRho(std::move(rho)) | ex::split();</div>
-<div class="line"><a name="l00800"></a><span class="lineno">  800</span>&#160; </div>
-<div class="line"><a name="l00801"></a><span class="lineno">  801</span>&#160;  <span class="comment">// Calculate the tolerance used for deflation</span></div>
-<div class="line"><a name="l00802"></a><span class="lineno">  802</span>&#160;  <span class="keyword">auto</span> tol = calcTolerance(i_begin, i_end, ws_h.d0, ws_hm.z0);</div>
-<div class="line"><a name="l00803"></a><span class="lineno">  803</span>&#160; </div>
-<div class="line"><a name="l00804"></a><span class="lineno">  804</span>&#160;  <span class="comment">// Initialize the column types vector `c`</span></div>
-<div class="line"><a name="l00805"></a><span class="lineno">  805</span>&#160;  initColTypes(i_begin, i_split, i_end, ws_h.c);</div>
-<div class="line"><a name="l00806"></a><span class="lineno">  806</span>&#160; </div>
-<div class="line"><a name="l00807"></a><span class="lineno">  807</span>&#160;  <span class="comment">// Initialize `i1` as identity just for single tile sub-problems</span></div>
-<div class="line"><a name="l00808"></a><span class="lineno">  808</span>&#160;  <span class="keywordflow">if</span> (i_split == i_begin + 1) {</div>
-<div class="line"><a name="l00809"></a><span class="lineno">  809</span>&#160;    initIndex(i_begin, i_split, ws_h.i1);</div>
-<div class="line"><a name="l00810"></a><span class="lineno">  810</span>&#160;  }</div>
-<div class="line"><a name="l00811"></a><span class="lineno">  811</span>&#160;  <span class="keywordflow">if</span> (i_split + 1 == i_end) {</div>
-<div class="line"><a name="l00812"></a><span class="lineno">  812</span>&#160;    initIndex(i_split, i_end, ws_h.i1);</div>
-<div class="line"><a name="l00813"></a><span class="lineno">  813</span>&#160;  }</div>
+<div class="line"><a name="l00783"></a><span class="lineno">  783</span>&#160;              q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij) = s[ii] / vec_norm;</div>
+<div class="line"><a name="l00784"></a><span class="lineno">  784</span>&#160;            }</div>
+<div class="line"><a name="l00785"></a><span class="lineno">  785</span>&#160;          }</div>
+<div class="line"><a name="l00786"></a><span class="lineno">  786</span>&#160;        }</div>
+<div class="line"><a name="l00787"></a><span class="lineno">  787</span>&#160;      }));</div>
+<div class="line"><a name="l00788"></a><span class="lineno">  788</span>&#160;}</div>
+<div class="line"><a name="l00789"></a><span class="lineno">  789</span>&#160; </div>
+<div class="line"><a name="l00790"></a><span class="lineno">  790</span>&#160;<span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T, <span class="keyword">class</span> RhoSender&gt;</div>
+<div class="line"><a name="l00791"></a><span class="lineno">  791</span>&#160;<span class="keywordtype">void</span> mergeSubproblems(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end,</div>
+<div class="line"><a name="l00792"></a><span class="lineno">  792</span>&#160;                      RhoSender&amp;&amp; rho, WorkSpace&lt;T, D&gt;&amp; ws, WorkSpaceHost&lt;T&gt;&amp; ws_h,</div>
+<div class="line"><a name="l00793"></a><span class="lineno">  793</span>&#160;                      WorkSpaceHostMirror&lt;T, D&gt;&amp; ws_hm) {</div>
+<div class="line"><a name="l00794"></a><span class="lineno">  794</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00795"></a><span class="lineno">  795</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00796"></a><span class="lineno">  796</span>&#160; </div>
+<div class="line"><a name="l00797"></a><span class="lineno">  797</span>&#160;  <span class="keyword">const</span> GlobalTileIndex idx_gl_begin(i_begin, i_begin);</div>
+<div class="line"><a name="l00798"></a><span class="lineno">  798</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_loc_begin(i_begin, i_begin);</div>
+<div class="line"><a name="l00799"></a><span class="lineno">  799</span>&#160;  <span class="keyword">const</span> SizeType nrtiles = i_end - i_begin;</div>
+<div class="line"><a name="l00800"></a><span class="lineno">  800</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_loc_tiles(nrtiles, nrtiles);</div>
+<div class="line"><a name="l00801"></a><span class="lineno">  801</span>&#160; </div>
+<div class="line"><a name="l00802"></a><span class="lineno">  802</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_begin_tiles_vec(i_begin, 0);</div>
+<div class="line"><a name="l00803"></a><span class="lineno">  803</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_tiles_vec(nrtiles, 1);</div>
+<div class="line"><a name="l00804"></a><span class="lineno">  804</span>&#160; </div>
+<div class="line"><a name="l00805"></a><span class="lineno">  805</span>&#160;  <span class="comment">// Calculate the size of the upper subproblem</span></div>
+<div class="line"><a name="l00806"></a><span class="lineno">  806</span>&#160;  <span class="keyword">const</span> SizeType n1 = problemSize(i_begin, i_split, ws.e0.distribution());</div>
+<div class="line"><a name="l00807"></a><span class="lineno">  807</span>&#160; </div>
+<div class="line"><a name="l00808"></a><span class="lineno">  808</span>&#160;  <span class="comment">// Assemble the rank-1 update vector `z` from the last row of Q1 and the first row of Q2</span></div>
+<div class="line"><a name="l00809"></a><span class="lineno">  809</span>&#160;  assembleZVec(i_begin, i_split, i_end, rho, ws.e0, ws.z0);</div>
+<div class="line"><a name="l00810"></a><span class="lineno">  810</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws.z0, ws_hm.z0);</div>
+<div class="line"><a name="l00811"></a><span class="lineno">  811</span>&#160; </div>
+<div class="line"><a name="l00812"></a><span class="lineno">  812</span>&#160;  <span class="comment">// Double `rho` to account for the normalization of `z` and make sure `rho &gt; 0` for the root solver laed4</span></div>
+<div class="line"><a name="l00813"></a><span class="lineno">  813</span>&#160;  <span class="keyword">auto</span> scaled_rho = scaleRho(std::move(rho)) | ex::split();</div>
 <div class="line"><a name="l00814"></a><span class="lineno">  814</span>&#160; </div>
-<div class="line"><a name="l00815"></a><span class="lineno">  815</span>&#160;  <span class="comment">// Update indices of second sub-problem</span></div>
-<div class="line"><a name="l00816"></a><span class="lineno">  816</span>&#160;  addIndex(i_split, i_end, n1, ws_h.i1);</div>
+<div class="line"><a name="l00815"></a><span class="lineno">  815</span>&#160;  <span class="comment">// Calculate the tolerance used for deflation</span></div>
+<div class="line"><a name="l00816"></a><span class="lineno">  816</span>&#160;  <span class="keyword">auto</span> tol = calcTolerance(i_begin, i_end, ws_h.d0, ws_hm.z0);</div>
 <div class="line"><a name="l00817"></a><span class="lineno">  817</span>&#160; </div>
-<div class="line"><a name="l00818"></a><span class="lineno">  818</span>&#160;  <span class="comment">// Step #1</span></div>
-<div class="line"><a name="l00819"></a><span class="lineno">  819</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00820"></a><span class="lineno">  820</span>&#160;  <span class="comment">//    i1 (in)  : initial &lt;--- pre_sorted per sub-problem</span></div>
-<div class="line"><a name="l00821"></a><span class="lineno">  821</span>&#160;  <span class="comment">//    i2 (out) : initial &lt;--- pre_sorted</span></div>
-<div class="line"><a name="l00822"></a><span class="lineno">  822</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00823"></a><span class="lineno">  823</span>&#160;  <span class="comment">// - deflate `d`, `z` and `c`</span></div>
-<div class="line"><a name="l00824"></a><span class="lineno">  824</span>&#160;  <span class="comment">// - apply Givens rotations to `Q` - `evecs`</span></div>
-<div class="line"><a name="l00825"></a><span class="lineno">  825</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00826"></a><span class="lineno">  826</span>&#160;  sortIndex(i_begin, i_end, ex::just(n1), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
-<div class="line"><a name="l00827"></a><span class="lineno">  827</span>&#160; </div>
-<div class="line"><a name="l00828"></a><span class="lineno">  828</span>&#160;  <span class="keyword">auto</span> rots =</div>
-<div class="line"><a name="l00829"></a><span class="lineno">  829</span>&#160;      applyDeflation(i_begin, i_end, scaled_rho, std::move(tol), ws_hm.i2, ws_h.d0, ws_hm.z0, ws_h.c);</div>
-<div class="line"><a name="l00830"></a><span class="lineno">  830</span>&#160; </div>
-<div class="line"><a name="l00831"></a><span class="lineno">  831</span>&#160;  applyGivensRotationsToMatrixColumns(i_begin, i_end, std::move(rots), ws.e0);</div>
-<div class="line"><a name="l00832"></a><span class="lineno">  832</span>&#160; </div>
-<div class="line"><a name="l00833"></a><span class="lineno">  833</span>&#160;  <span class="comment">// Step #2</span></div>
-<div class="line"><a name="l00834"></a><span class="lineno">  834</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00835"></a><span class="lineno">  835</span>&#160;  <span class="comment">//    i2 (in)  : initial  &lt;--- pre_sorted</span></div>
-<div class="line"><a name="l00836"></a><span class="lineno">  836</span>&#160;  <span class="comment">//    i5 (out) : initial  &lt;--- sorted by coltype</span></div>
-<div class="line"><a name="l00837"></a><span class="lineno">  837</span>&#160;  <span class="comment">//    i3 (out) : initial  &lt;--- deflated</span></div>
-<div class="line"><a name="l00838"></a><span class="lineno">  838</span>&#160;  <span class="comment">//    i4 (out) : deflated &lt;--- sorted by coltype</span></div>
+<div class="line"><a name="l00818"></a><span class="lineno">  818</span>&#160;  <span class="comment">// Initialize the column types vector `c`</span></div>
+<div class="line"><a name="l00819"></a><span class="lineno">  819</span>&#160;  initColTypes(i_begin, i_split, i_end, ws_h.c);</div>
+<div class="line"><a name="l00820"></a><span class="lineno">  820</span>&#160; </div>
+<div class="line"><a name="l00821"></a><span class="lineno">  821</span>&#160;  <span class="comment">// Initialize `i1` as identity just for single tile sub-problems</span></div>
+<div class="line"><a name="l00822"></a><span class="lineno">  822</span>&#160;  <span class="keywordflow">if</span> (i_split == i_begin + 1) {</div>
+<div class="line"><a name="l00823"></a><span class="lineno">  823</span>&#160;    initIndex(i_begin, i_split, ws_h.i1);</div>
+<div class="line"><a name="l00824"></a><span class="lineno">  824</span>&#160;  }</div>
+<div class="line"><a name="l00825"></a><span class="lineno">  825</span>&#160;  <span class="keywordflow">if</span> (i_split + 1 == i_end) {</div>
+<div class="line"><a name="l00826"></a><span class="lineno">  826</span>&#160;    initIndex(i_split, i_end, ws_h.i1);</div>
+<div class="line"><a name="l00827"></a><span class="lineno">  827</span>&#160;  }</div>
+<div class="line"><a name="l00828"></a><span class="lineno">  828</span>&#160; </div>
+<div class="line"><a name="l00829"></a><span class="lineno">  829</span>&#160;  <span class="comment">// Update indices of second sub-problem</span></div>
+<div class="line"><a name="l00830"></a><span class="lineno">  830</span>&#160;  addIndex(i_split, i_end, n1, ws_h.i1);</div>
+<div class="line"><a name="l00831"></a><span class="lineno">  831</span>&#160; </div>
+<div class="line"><a name="l00832"></a><span class="lineno">  832</span>&#160;  <span class="comment">// Step #1</span></div>
+<div class="line"><a name="l00833"></a><span class="lineno">  833</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00834"></a><span class="lineno">  834</span>&#160;  <span class="comment">//    i1 (in)  : initial &lt;--- pre_sorted per sub-problem</span></div>
+<div class="line"><a name="l00835"></a><span class="lineno">  835</span>&#160;  <span class="comment">//    i2 (out) : initial &lt;--- pre_sorted</span></div>
+<div class="line"><a name="l00836"></a><span class="lineno">  836</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00837"></a><span class="lineno">  837</span>&#160;  <span class="comment">// - deflate `d`, `z` and `c`</span></div>
+<div class="line"><a name="l00838"></a><span class="lineno">  838</span>&#160;  <span class="comment">// - apply Givens rotations to `Q` - `evecs`</span></div>
 <div class="line"><a name="l00839"></a><span class="lineno">  839</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00840"></a><span class="lineno">  840</span>&#160;  <span class="comment">// Note: `i3[k:] == i5[k:]` (i.e. deflated part are sorted in the same way)</span></div>
-<div class="line"><a name="l00841"></a><span class="lineno">  841</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00842"></a><span class="lineno">  842</span>&#160;  <span class="comment">// - permute eigenvectors in `e0` using `i5` so that they are sorted by column type in `e1`</span></div>
-<div class="line"><a name="l00843"></a><span class="lineno">  843</span>&#160;  <span class="comment">// - reorder `d0 -&gt; d1`, `z0 -&gt; z1`, using `i3` such that deflated entries are at the bottom.</span></div>
-<div class="line"><a name="l00844"></a><span class="lineno">  844</span>&#160;  <span class="comment">// - compute permutation `i4`: sorted by col type ---&gt; deflated</span></div>
-<div class="line"><a name="l00845"></a><span class="lineno">  845</span>&#160;  <span class="comment">// - solve rank-1 problem and save eigenvalues in `d0` and `d1` (copy) and eigenvectors in `e2` (sorted</span></div>
-<div class="line"><a name="l00846"></a><span class="lineno">  846</span>&#160;  <span class="comment">// by coltype)</span></div>
-<div class="line"><a name="l00847"></a><span class="lineno">  847</span>&#160;  <span class="comment">// - set deflated diagonal entries of `U` to 1 (temporary solution until optimized GEMM is implemented)</span></div>
+<div class="line"><a name="l00840"></a><span class="lineno">  840</span>&#160;  sortIndex(i_begin, i_end, ex::just(n1), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
+<div class="line"><a name="l00841"></a><span class="lineno">  841</span>&#160; </div>
+<div class="line"><a name="l00842"></a><span class="lineno">  842</span>&#160;  <span class="keyword">auto</span> rots =</div>
+<div class="line"><a name="l00843"></a><span class="lineno">  843</span>&#160;      applyDeflation(i_begin, i_end, scaled_rho, std::move(tol), ws_hm.i2, ws_h.d0, ws_hm.z0, ws_h.c);</div>
+<div class="line"><a name="l00844"></a><span class="lineno">  844</span>&#160; </div>
+<div class="line"><a name="l00845"></a><span class="lineno">  845</span>&#160;  applyGivensRotationsToMatrixColumns(i_begin, i_end, std::move(rots), ws.e0);</div>
+<div class="line"><a name="l00846"></a><span class="lineno">  846</span>&#160; </div>
+<div class="line"><a name="l00847"></a><span class="lineno">  847</span>&#160;  <span class="comment">// Step #2</span></div>
 <div class="line"><a name="l00848"></a><span class="lineno">  848</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00849"></a><span class="lineno">  849</span>&#160;  <span class="comment">//  | U | U | D | D |   |   | DF | DF |  U:  UpperHalf</span></div>
-<div class="line"><a name="l00850"></a><span class="lineno">  850</span>&#160;  <span class="comment">//  | U | U | D | D |   |   | DF | DF |  D:  Dense</span></div>
-<div class="line"><a name="l00851"></a><span class="lineno">  851</span>&#160;  <span class="comment">//  |   |   | D | D | L | L | DF | DF |  L:  LowerHalf</span></div>
-<div class="line"><a name="l00852"></a><span class="lineno">  852</span>&#160;  <span class="comment">//  |   |   | D | D | L | L | DF | DF |  DF: Deflated</span></div>
-<div class="line"><a name="l00853"></a><span class="lineno">  853</span>&#160;  <span class="comment">//  |   |   | D | D | L | L | DF | DF |</span></div>
-<div class="line"><a name="l00854"></a><span class="lineno">  854</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00855"></a><span class="lineno">  855</span>&#160;  <span class="keyword">auto</span> k =</div>
-<div class="line"><a name="l00856"></a><span class="lineno">  856</span>&#160;      stablePartitionIndexForDeflation(i_begin, i_end, ws_h.c, ws_h.d0, ws_hm.i2, ws_h.i3, ws_hm.i5) |</div>
-<div class="line"><a name="l00857"></a><span class="lineno">  857</span>&#160;      ex::split();</div>
-<div class="line"><a name="l00858"></a><span class="lineno">  858</span>&#160; </div>
-<div class="line"><a name="l00859"></a><span class="lineno">  859</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.i5, ws.i5);</div>
-<div class="line"><a name="l00860"></a><span class="lineno">  860</span>&#160;  dlaf::permutations::permute&lt;B, D, T, Coord::Col&gt;(i_begin, i_end, ws.i5, ws.e0, ws.e1);</div>
-<div class="line"><a name="l00861"></a><span class="lineno">  861</span>&#160; </div>
-<div class="line"><a name="l00862"></a><span class="lineno">  862</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_h.d0, ws_hm.d1);</div>
-<div class="line"><a name="l00863"></a><span class="lineno">  863</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_hm.z0, ws_hm.z1);</div>
-<div class="line"><a name="l00864"></a><span class="lineno">  864</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.d1, ws_h.d0);</div>
-<div class="line"><a name="l00865"></a><span class="lineno">  865</span>&#160; </div>
-<div class="line"><a name="l00866"></a><span class="lineno">  866</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00867"></a><span class="lineno">  867</span>&#160;  <span class="comment">//    i3 (in)  : initial  &lt;--- deflated</span></div>
-<div class="line"><a name="l00868"></a><span class="lineno">  868</span>&#160;  <span class="comment">//    i2 (out) : deflated &lt;--- initial</span></div>
-<div class="line"><a name="l00869"></a><span class="lineno">  869</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00870"></a><span class="lineno">  870</span>&#160;  invertIndex(i_begin, i_end, ws_h.i3, ws_hm.i2);</div>
-<div class="line"><a name="l00871"></a><span class="lineno">  871</span>&#160; </div>
-<div class="line"><a name="l00872"></a><span class="lineno">  872</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00873"></a><span class="lineno">  873</span>&#160;  <span class="comment">//    i5 (in)  : initial  &lt;--- sort by coltype</span></div>
-<div class="line"><a name="l00874"></a><span class="lineno">  874</span>&#160;  <span class="comment">//    i2 (in)  : deflated &lt;--- initial</span></div>
-<div class="line"><a name="l00875"></a><span class="lineno">  875</span>&#160;  <span class="comment">//    i4 (out) : deflated &lt;--- sort by col type</span></div>
-<div class="line"><a name="l00876"></a><span class="lineno">  876</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00877"></a><span class="lineno">  877</span>&#160;  <span class="comment">// This allows to work in rank1 solver with columns sorted by type, so that they are well-shaped for</span></div>
-<div class="line"><a name="l00878"></a><span class="lineno">  878</span>&#160;  <span class="comment">// an optimized gemm, but still keeping track of where the actual position sorted by eigenvalues is.</span></div>
-<div class="line"><a name="l00879"></a><span class="lineno">  879</span>&#160;  applyIndex(i_begin, i_end, ws_hm.i5, ws_hm.i2, ws_h.i4);</div>
-<div class="line"><a name="l00880"></a><span class="lineno">  880</span>&#160; </div>
-<div class="line"><a name="l00881"></a><span class="lineno">  881</span>&#160;  <span class="comment">// Note:</span></div>
-<div class="line"><a name="l00882"></a><span class="lineno">  882</span>&#160;  <span class="comment">// This is needed to set to zero elements of e2 outside of the k by k top-left part.</span></div>
-<div class="line"><a name="l00883"></a><span class="lineno">  883</span>&#160;  <span class="comment">// The input is not required to be zero for solveRank1Problem.</span></div>
-<div class="line"><a name="l00884"></a><span class="lineno">  884</span>&#160;  matrix::util::set0&lt;Backend::MC&gt;(pika::execution::thread_priority::normal, idx_loc_begin, sz_loc_tiles,</div>
-<div class="line"><a name="l00885"></a><span class="lineno">  885</span>&#160;                                  ws_hm.e2);</div>
-<div class="line"><a name="l00886"></a><span class="lineno">  886</span>&#160;  solveRank1Problem(i_begin, i_end, k, scaled_rho, ws_hm.d1, ws_hm.z1, ws_h.d0, ws_h.i4, ws_hm.e2);</div>
-<div class="line"><a name="l00887"></a><span class="lineno">  887</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws_hm.e2, ws.e2);</div>
-<div class="line"><a name="l00888"></a><span class="lineno">  888</span>&#160; </div>
-<div class="line"><a name="l00889"></a><span class="lineno">  889</span>&#160;  <span class="comment">// Step #3: Eigenvectors of the tridiagonal system: Q * U</span></div>
+<div class="line"><a name="l00849"></a><span class="lineno">  849</span>&#160;  <span class="comment">//    i2 (in)  : initial  &lt;--- pre_sorted</span></div>
+<div class="line"><a name="l00850"></a><span class="lineno">  850</span>&#160;  <span class="comment">//    i5 (out) : initial  &lt;--- sorted by coltype</span></div>
+<div class="line"><a name="l00851"></a><span class="lineno">  851</span>&#160;  <span class="comment">//    i3 (out) : initial  &lt;--- deflated</span></div>
+<div class="line"><a name="l00852"></a><span class="lineno">  852</span>&#160;  <span class="comment">//    i4 (out) : deflated &lt;--- sorted by coltype</span></div>
+<div class="line"><a name="l00853"></a><span class="lineno">  853</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00854"></a><span class="lineno">  854</span>&#160;  <span class="comment">// Note: `i3[k:] == i5[k:]` (i.e. deflated part are sorted in the same way)</span></div>
+<div class="line"><a name="l00855"></a><span class="lineno">  855</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00856"></a><span class="lineno">  856</span>&#160;  <span class="comment">// - permute eigenvectors in `e0` using `i5` so that they are sorted by column type in `e1`</span></div>
+<div class="line"><a name="l00857"></a><span class="lineno">  857</span>&#160;  <span class="comment">// - reorder `d0 -&gt; d1`, `z0 -&gt; z1`, using `i3` such that deflated entries are at the bottom.</span></div>
+<div class="line"><a name="l00858"></a><span class="lineno">  858</span>&#160;  <span class="comment">// - compute permutation `i4`: sorted by col type ---&gt; deflated</span></div>
+<div class="line"><a name="l00859"></a><span class="lineno">  859</span>&#160;  <span class="comment">// - solve rank-1 problem and save eigenvalues in `d0` and `d1` (copy) and eigenvectors in `e2` (sorted</span></div>
+<div class="line"><a name="l00860"></a><span class="lineno">  860</span>&#160;  <span class="comment">// by coltype)</span></div>
+<div class="line"><a name="l00861"></a><span class="lineno">  861</span>&#160;  <span class="comment">// - set deflated diagonal entries of `U` to 1 (temporary solution until optimized GEMM is implemented)</span></div>
+<div class="line"><a name="l00862"></a><span class="lineno">  862</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00863"></a><span class="lineno">  863</span>&#160;  <span class="comment">//  | U | U | D | D |   |   | DF | DF |  U:  UpperHalf</span></div>
+<div class="line"><a name="l00864"></a><span class="lineno">  864</span>&#160;  <span class="comment">//  | U | U | D | D |   |   | DF | DF |  D:  Dense</span></div>
+<div class="line"><a name="l00865"></a><span class="lineno">  865</span>&#160;  <span class="comment">//  |   |   | D | D | L | L | DF | DF |  L:  LowerHalf</span></div>
+<div class="line"><a name="l00866"></a><span class="lineno">  866</span>&#160;  <span class="comment">//  |   |   | D | D | L | L | DF | DF |  DF: Deflated</span></div>
+<div class="line"><a name="l00867"></a><span class="lineno">  867</span>&#160;  <span class="comment">//  |   |   | D | D | L | L | DF | DF |</span></div>
+<div class="line"><a name="l00868"></a><span class="lineno">  868</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00869"></a><span class="lineno">  869</span>&#160;  <span class="keyword">auto</span> k =</div>
+<div class="line"><a name="l00870"></a><span class="lineno">  870</span>&#160;      stablePartitionIndexForDeflation(i_begin, i_end, ws_h.c, ws_h.d0, ws_hm.i2, ws_h.i3, ws_hm.i5) |</div>
+<div class="line"><a name="l00871"></a><span class="lineno">  871</span>&#160;      ex::split();</div>
+<div class="line"><a name="l00872"></a><span class="lineno">  872</span>&#160; </div>
+<div class="line"><a name="l00873"></a><span class="lineno">  873</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.i5, ws.i5);</div>
+<div class="line"><a name="l00874"></a><span class="lineno">  874</span>&#160;  dlaf::permutations::permute&lt;B, D, T, Coord::Col&gt;(i_begin, i_end, ws.i5, ws.e0, ws.e1);</div>
+<div class="line"><a name="l00875"></a><span class="lineno">  875</span>&#160; </div>
+<div class="line"><a name="l00876"></a><span class="lineno">  876</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_h.d0, ws_hm.d1);</div>
+<div class="line"><a name="l00877"></a><span class="lineno">  877</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_hm.z0, ws_hm.z1);</div>
+<div class="line"><a name="l00878"></a><span class="lineno">  878</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.d1, ws_h.d0);</div>
+<div class="line"><a name="l00879"></a><span class="lineno">  879</span>&#160; </div>
+<div class="line"><a name="l00880"></a><span class="lineno">  880</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00881"></a><span class="lineno">  881</span>&#160;  <span class="comment">//    i3 (in)  : initial  &lt;--- deflated</span></div>
+<div class="line"><a name="l00882"></a><span class="lineno">  882</span>&#160;  <span class="comment">//    i2 (out) : deflated &lt;--- initial</span></div>
+<div class="line"><a name="l00883"></a><span class="lineno">  883</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00884"></a><span class="lineno">  884</span>&#160;  invertIndex(i_begin, i_end, ws_h.i3, ws_hm.i2);</div>
+<div class="line"><a name="l00885"></a><span class="lineno">  885</span>&#160; </div>
+<div class="line"><a name="l00886"></a><span class="lineno">  886</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00887"></a><span class="lineno">  887</span>&#160;  <span class="comment">//    i5 (in)  : initial  &lt;--- sort by coltype</span></div>
+<div class="line"><a name="l00888"></a><span class="lineno">  888</span>&#160;  <span class="comment">//    i2 (in)  : deflated &lt;--- initial</span></div>
+<div class="line"><a name="l00889"></a><span class="lineno">  889</span>&#160;  <span class="comment">//    i4 (out) : deflated &lt;--- sort by col type</span></div>
 <div class="line"><a name="l00890"></a><span class="lineno">  890</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00891"></a><span class="lineno">  891</span>&#160;  <span class="comment">// The eigenvectors resulting from the multiplication are already in the order of the eigenvalues as</span></div>
-<div class="line"><a name="l00892"></a><span class="lineno">  892</span>&#160;  <span class="comment">// prepared for the deflated system.</span></div>
-<div class="line"><a name="l00893"></a><span class="lineno">  893</span>&#160;  dlaf::multiplication::internal::generalSubMatrix&lt;B, D, T&gt;(i_begin, i_end, blas::Op::NoTrans,</div>
-<div class="line"><a name="l00894"></a><span class="lineno">  894</span>&#160;                                                            blas::Op::NoTrans, T(1), ws.e1, ws.e2, T(0),</div>
-<div class="line"><a name="l00895"></a><span class="lineno">  895</span>&#160;                                                            ws.e0);</div>
-<div class="line"><a name="l00896"></a><span class="lineno">  896</span>&#160; </div>
-<div class="line"><a name="l00897"></a><span class="lineno">  897</span>&#160;  <span class="comment">// Step #4: Final permutation to sort eigenvalues and eigenvectors</span></div>
-<div class="line"><a name="l00898"></a><span class="lineno">  898</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00899"></a><span class="lineno">  899</span>&#160;  <span class="comment">//    i1 (in)  : deflated &lt;--- deflated  (identity map)</span></div>
-<div class="line"><a name="l00900"></a><span class="lineno">  900</span>&#160;  <span class="comment">//    i2 (out) : deflated &lt;--- post_sorted</span></div>
-<div class="line"><a name="l00901"></a><span class="lineno">  901</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00902"></a><span class="lineno">  902</span>&#160;  initIndex(i_begin, i_end, ws_h.i1);</div>
-<div class="line"><a name="l00903"></a><span class="lineno">  903</span>&#160;  sortIndex(i_begin, i_end, std::move(k), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
-<div class="line"><a name="l00904"></a><span class="lineno">  904</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.i2, ws_h.i1);</div>
-<div class="line"><a name="l00905"></a><span class="lineno">  905</span>&#160;}</div>
-<div class="line"><a name="l00906"></a><span class="lineno">  906</span>&#160; </div>
-<div class="line"><a name="l00907"></a><span class="lineno">  907</span>&#160;<span class="comment">// The bottom row of Q1 and the top row of Q2. The bottom row of Q1 is negated if `rho &lt; 0`.</span></div>
-<div class="line"><a name="l00908"></a><span class="lineno">  908</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00909"></a><span class="lineno">  909</span>&#160;<span class="comment">// Note that the norm of `z` is sqrt(2) because it is a concatination of two normalized vectors. Hence</span></div>
-<div class="line"><a name="l00910"></a><span class="lineno">  910</span>&#160;<span class="comment">// to normalize `z` we have to divide by sqrt(2).</span></div>
-<div class="line"><a name="l00911"></a><span class="lineno">  911</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, Device D, <span class="keyword">class</span> RhoSender&gt;</div>
-<div class="line"><a name="l00912"></a><span class="lineno">  912</span>&#160;<span class="keywordtype">void</span> assembleDistZVec(comm::CommunicatorGrid grid, common::Pipeline&lt;comm::Communicator&gt;&amp; full_task_chain,</div>
-<div class="line"><a name="l00913"></a><span class="lineno">  913</span>&#160;                      <span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end,</div>
-<div class="line"><a name="l00914"></a><span class="lineno">  914</span>&#160;                      RhoSender&amp;&amp; rho, Matrix&lt;const T, D&gt;&amp; evecs, Matrix&lt;T, D&gt;&amp; z) {</div>
-<div class="line"><a name="l00915"></a><span class="lineno">  915</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00916"></a><span class="lineno">  916</span>&#160; </div>
-<div class="line"><a name="l00917"></a><span class="lineno">  917</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; dist = evecs.distribution();</div>
-<div class="line"><a name="l00918"></a><span class="lineno">  918</span>&#160;  comm::Index2D this_rank = dist.rankIndex();</div>
-<div class="line"><a name="l00919"></a><span class="lineno">  919</span>&#160; </div>
-<div class="line"><a name="l00920"></a><span class="lineno">  920</span>&#160;  <span class="comment">// Iterate over tiles of Q1 and Q2 around the split row `i_split`.</span></div>
-<div class="line"><a name="l00921"></a><span class="lineno">  921</span>&#160;  <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
-<div class="line"><a name="l00922"></a><span class="lineno">  922</span>&#160;    <span class="comment">// True if tile is in Q1</span></div>
-<div class="line"><a name="l00923"></a><span class="lineno">  923</span>&#160;    <span class="keywordtype">bool</span> top_tile = i &lt; i_split;</div>
-<div class="line"><a name="l00924"></a><span class="lineno">  924</span>&#160;    <span class="comment">// Move to the row below `i_split` for `Q2`</span></div>
-<div class="line"><a name="l00925"></a><span class="lineno">  925</span>&#160;    <span class="keyword">const</span> SizeType evecs_row = i_split - ((top_tile) ? 1 : 0);</div>
-<div class="line"><a name="l00926"></a><span class="lineno">  926</span>&#160;    <span class="keyword">const</span> GlobalTileIndex idx_evecs(evecs_row, i);</div>
-<div class="line"><a name="l00927"></a><span class="lineno">  927</span>&#160;    <span class="keyword">const</span> GlobalTileIndex z_idx(i, 0);</div>
-<div class="line"><a name="l00928"></a><span class="lineno">  928</span>&#160; </div>
-<div class="line"><a name="l00929"></a><span class="lineno">  929</span>&#160;    <span class="comment">// Copy the last row of a `Q1` tile or the first row of a `Q2` tile into a column vector `z` tile</span></div>
-<div class="line"><a name="l00930"></a><span class="lineno">  930</span>&#160;    comm::Index2D evecs_tile_rank = dist.rankGlobalTile(idx_evecs);</div>
-<div class="line"><a name="l00931"></a><span class="lineno">  931</span>&#160;    <span class="keywordflow">if</span> (evecs_tile_rank == this_rank) {</div>
-<div class="line"><a name="l00932"></a><span class="lineno">  932</span>&#160;      <span class="comment">// Copy the row into the column vector `z`</span></div>
-<div class="line"><a name="l00933"></a><span class="lineno">  933</span>&#160;      assembleRank1UpdateVectorTileAsync&lt;T, D&gt;(top_tile, rho, evecs.read(idx_evecs), z.readwrite(z_idx));</div>
-<div class="line"><a name="l00934"></a><span class="lineno">  934</span>&#160;      ex::start_detached(comm::scheduleSendBcast(full_task_chain(), z.read(z_idx)));</div>
-<div class="line"><a name="l00935"></a><span class="lineno">  935</span>&#160;    }</div>
-<div class="line"><a name="l00936"></a><span class="lineno">  936</span>&#160;    <span class="keywordflow">else</span> {</div>
-<div class="line"><a name="l00937"></a><span class="lineno">  937</span>&#160;      <span class="keyword">const</span> comm::IndexT_MPI root_rank = grid.rankFullCommunicator(evecs_tile_rank);</div>
-<div class="line"><a name="l00938"></a><span class="lineno">  938</span>&#160;      ex::start_detached(comm::scheduleRecvBcast(full_task_chain(), root_rank, z.readwrite(z_idx)));</div>
-<div class="line"><a name="l00939"></a><span class="lineno">  939</span>&#160;    }</div>
-<div class="line"><a name="l00940"></a><span class="lineno">  940</span>&#160;  }</div>
-<div class="line"><a name="l00941"></a><span class="lineno">  941</span>&#160;}</div>
+<div class="line"><a name="l00891"></a><span class="lineno">  891</span>&#160;  <span class="comment">// This allows to work in rank1 solver with columns sorted by type, so that they are well-shaped for</span></div>
+<div class="line"><a name="l00892"></a><span class="lineno">  892</span>&#160;  <span class="comment">// an optimized gemm, but still keeping track of where the actual position sorted by eigenvalues is.</span></div>
+<div class="line"><a name="l00893"></a><span class="lineno">  893</span>&#160;  applyIndex(i_begin, i_end, ws_hm.i5, ws_hm.i2, ws_h.i4);</div>
+<div class="line"><a name="l00894"></a><span class="lineno">  894</span>&#160; </div>
+<div class="line"><a name="l00895"></a><span class="lineno">  895</span>&#160;  <span class="comment">// Note:</span></div>
+<div class="line"><a name="l00896"></a><span class="lineno">  896</span>&#160;  <span class="comment">// This is needed to set to zero elements of e2 outside of the k by k top-left part.</span></div>
+<div class="line"><a name="l00897"></a><span class="lineno">  897</span>&#160;  <span class="comment">// The input is not required to be zero for solveRank1Problem.</span></div>
+<div class="line"><a name="l00898"></a><span class="lineno">  898</span>&#160;  matrix::util::set0&lt;Backend::MC&gt;(pika::execution::thread_priority::normal, idx_loc_begin, sz_loc_tiles,</div>
+<div class="line"><a name="l00899"></a><span class="lineno">  899</span>&#160;                                  ws_hm.e2);</div>
+<div class="line"><a name="l00900"></a><span class="lineno">  900</span>&#160;  solveRank1Problem(i_begin, i_end, k, scaled_rho, ws_hm.d1, ws_hm.z1, ws_h.d0, ws_h.i4, ws_hm.e2);</div>
+<div class="line"><a name="l00901"></a><span class="lineno">  901</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws_hm.e2, ws.e2);</div>
+<div class="line"><a name="l00902"></a><span class="lineno">  902</span>&#160; </div>
+<div class="line"><a name="l00903"></a><span class="lineno">  903</span>&#160;  <span class="comment">// Step #3: Eigenvectors of the tridiagonal system: Q * U</span></div>
+<div class="line"><a name="l00904"></a><span class="lineno">  904</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00905"></a><span class="lineno">  905</span>&#160;  <span class="comment">// The eigenvectors resulting from the multiplication are already in the order of the eigenvalues as</span></div>
+<div class="line"><a name="l00906"></a><span class="lineno">  906</span>&#160;  <span class="comment">// prepared for the deflated system.</span></div>
+<div class="line"><a name="l00907"></a><span class="lineno">  907</span>&#160;  dlaf::multiplication::internal::generalSubMatrix&lt;B, D, T&gt;(i_begin, i_end, blas::Op::NoTrans,</div>
+<div class="line"><a name="l00908"></a><span class="lineno">  908</span>&#160;                                                            blas::Op::NoTrans, T(1), ws.e1, ws.e2, T(0),</div>
+<div class="line"><a name="l00909"></a><span class="lineno">  909</span>&#160;                                                            ws.e0);</div>
+<div class="line"><a name="l00910"></a><span class="lineno">  910</span>&#160; </div>
+<div class="line"><a name="l00911"></a><span class="lineno">  911</span>&#160;  <span class="comment">// Step #4: Final permutation to sort eigenvalues and eigenvectors</span></div>
+<div class="line"><a name="l00912"></a><span class="lineno">  912</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00913"></a><span class="lineno">  913</span>&#160;  <span class="comment">//    i1 (in)  : deflated &lt;--- deflated  (identity map)</span></div>
+<div class="line"><a name="l00914"></a><span class="lineno">  914</span>&#160;  <span class="comment">//    i2 (out) : deflated &lt;--- post_sorted</span></div>
+<div class="line"><a name="l00915"></a><span class="lineno">  915</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00916"></a><span class="lineno">  916</span>&#160;  initIndex(i_begin, i_end, ws_h.i1);</div>
+<div class="line"><a name="l00917"></a><span class="lineno">  917</span>&#160;  sortIndex(i_begin, i_end, std::move(k), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
+<div class="line"><a name="l00918"></a><span class="lineno">  918</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.i2, ws_h.i1);</div>
+<div class="line"><a name="l00919"></a><span class="lineno">  919</span>&#160;}</div>
+<div class="line"><a name="l00920"></a><span class="lineno">  920</span>&#160; </div>
+<div class="line"><a name="l00921"></a><span class="lineno">  921</span>&#160;<span class="comment">// The bottom row of Q1 and the top row of Q2. The bottom row of Q1 is negated if `rho &lt; 0`.</span></div>
+<div class="line"><a name="l00922"></a><span class="lineno">  922</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00923"></a><span class="lineno">  923</span>&#160;<span class="comment">// Note that the norm of `z` is sqrt(2) because it is a concatination of two normalized vectors. Hence</span></div>
+<div class="line"><a name="l00924"></a><span class="lineno">  924</span>&#160;<span class="comment">// to normalize `z` we have to divide by sqrt(2).</span></div>
+<div class="line"><a name="l00925"></a><span class="lineno">  925</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, Device D, <span class="keyword">class</span> RhoSender&gt;</div>
+<div class="line"><a name="l00926"></a><span class="lineno">  926</span>&#160;<span class="keywordtype">void</span> assembleDistZVec(comm::CommunicatorGrid grid, common::Pipeline&lt;comm::Communicator&gt;&amp; full_task_chain,</div>
+<div class="line"><a name="l00927"></a><span class="lineno">  927</span>&#160;                      <span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end,</div>
+<div class="line"><a name="l00928"></a><span class="lineno">  928</span>&#160;                      RhoSender&amp;&amp; rho, Matrix&lt;const T, D&gt;&amp; evecs, Matrix&lt;T, D&gt;&amp; z) {</div>
+<div class="line"><a name="l00929"></a><span class="lineno">  929</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00930"></a><span class="lineno">  930</span>&#160; </div>
+<div class="line"><a name="l00931"></a><span class="lineno">  931</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; dist = evecs.distribution();</div>
+<div class="line"><a name="l00932"></a><span class="lineno">  932</span>&#160;  comm::Index2D this_rank = dist.rankIndex();</div>
+<div class="line"><a name="l00933"></a><span class="lineno">  933</span>&#160; </div>
+<div class="line"><a name="l00934"></a><span class="lineno">  934</span>&#160;  <span class="comment">// Iterate over tiles of Q1 and Q2 around the split row `i_split`.</span></div>
+<div class="line"><a name="l00935"></a><span class="lineno">  935</span>&#160;  <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
+<div class="line"><a name="l00936"></a><span class="lineno">  936</span>&#160;    <span class="comment">// True if tile is in Q1</span></div>
+<div class="line"><a name="l00937"></a><span class="lineno">  937</span>&#160;    <span class="keywordtype">bool</span> top_tile = i &lt; i_split;</div>
+<div class="line"><a name="l00938"></a><span class="lineno">  938</span>&#160;    <span class="comment">// Move to the row below `i_split` for `Q2`</span></div>
+<div class="line"><a name="l00939"></a><span class="lineno">  939</span>&#160;    <span class="keyword">const</span> SizeType evecs_row = i_split - ((top_tile) ? 1 : 0);</div>
+<div class="line"><a name="l00940"></a><span class="lineno">  940</span>&#160;    <span class="keyword">const</span> GlobalTileIndex idx_evecs(evecs_row, i);</div>
+<div class="line"><a name="l00941"></a><span class="lineno">  941</span>&#160;    <span class="keyword">const</span> GlobalTileIndex z_idx(i, 0);</div>
 <div class="line"><a name="l00942"></a><span class="lineno">  942</span>&#160; </div>
-<div class="line"><a name="l00943"></a><span class="lineno">  943</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> CommSender, <span class="keyword">class</span> KSender, <span class="keyword">class</span> RhoSender&gt;</div>
-<div class="line"><a name="l00944"></a><span class="lineno">  944</span>&#160;<span class="keywordtype">void</span> solveRank1ProblemDist(CommSender&amp;&amp; row_comm, CommSender&amp;&amp; col_comm, <span class="keyword">const</span> SizeType i_begin,</div>
-<div class="line"><a name="l00945"></a><span class="lineno">  945</span>&#160;                           <span class="keyword">const</span> SizeType i_end, <span class="keyword">const</span> LocalTileIndex ij_begin_lc,</div>
-<div class="line"><a name="l00946"></a><span class="lineno">  946</span>&#160;                           <span class="keyword">const</span> LocalTileSize sz_loc_tiles, KSender&amp;&amp; k, RhoSender&amp;&amp; rho,</div>
-<div class="line"><a name="l00947"></a><span class="lineno">  947</span>&#160;                           Matrix&lt;const T, Device::CPU&gt;&amp; d, Matrix&lt;T, Device::CPU&gt;&amp; z,</div>
-<div class="line"><a name="l00948"></a><span class="lineno">  948</span>&#160;                           Matrix&lt;T, Device::CPU&gt;&amp; evals, Matrix&lt;const SizeType, Device::CPU&gt;&amp; i2,</div>
-<div class="line"><a name="l00949"></a><span class="lineno">  949</span>&#160;                           Matrix&lt;T, Device::CPU&gt;&amp; evecs) {</div>
-<div class="line"><a name="l00950"></a><span class="lineno">  950</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00951"></a><span class="lineno">  951</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00952"></a><span class="lineno">  952</span>&#160;  <span class="keyword">namespace </span>tt = pika::this_thread::experimental;</div>
-<div class="line"><a name="l00953"></a><span class="lineno">  953</span>&#160; </div>
-<div class="line"><a name="l00954"></a><span class="lineno">  954</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; dist = evecs.distribution();</div>
-<div class="line"><a name="l00955"></a><span class="lineno">  955</span>&#160; </div>
-<div class="line"><a name="l00956"></a><span class="lineno">  956</span>&#160;  TileCollector tc{i_begin, i_end};</div>
-<div class="line"><a name="l00957"></a><span class="lineno">  957</span>&#160; </div>
-<div class="line"><a name="l00958"></a><span class="lineno">  958</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, dist);</div>
-<div class="line"><a name="l00959"></a><span class="lineno">  959</span>&#160; </div>
-<div class="line"><a name="l00960"></a><span class="lineno">  960</span>&#160;  <span class="keyword">const</span> SizeType m_subm_el_lc = [=]() {</div>
-<div class="line"><a name="l00961"></a><span class="lineno">  961</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_begin = ij_begin_lc.row();</div>
-<div class="line"><a name="l00962"></a><span class="lineno">  962</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_end = ij_begin_lc.row() + sz_loc_tiles.rows();</div>
-<div class="line"><a name="l00963"></a><span class="lineno">  963</span>&#160;    <span class="keywordflow">return</span> dist.localElementDistanceFromLocalTile&lt;Coord::Row&gt;(i_loc_begin, i_loc_end);</div>
-<div class="line"><a name="l00964"></a><span class="lineno">  964</span>&#160;  }();</div>
-<div class="line"><a name="l00965"></a><span class="lineno">  965</span>&#160; </div>
-<div class="line"><a name="l00966"></a><span class="lineno">  966</span>&#160;  <span class="keyword">const</span> SizeType n_subm_el_lc = [=]() {</div>
-<div class="line"><a name="l00967"></a><span class="lineno">  967</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_begin = ij_begin_lc.col();</div>
-<div class="line"><a name="l00968"></a><span class="lineno">  968</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_end = ij_begin_lc.col() + sz_loc_tiles.cols();</div>
-<div class="line"><a name="l00969"></a><span class="lineno">  969</span>&#160;    <span class="keywordflow">return</span> dist.localElementDistanceFromLocalTile&lt;Coord::Col&gt;(i_loc_begin, i_loc_end);</div>
-<div class="line"><a name="l00970"></a><span class="lineno">  970</span>&#160;  }();</div>
+<div class="line"><a name="l00943"></a><span class="lineno">  943</span>&#160;    <span class="comment">// Copy the last row of a `Q1` tile or the first row of a `Q2` tile into a column vector `z` tile</span></div>
+<div class="line"><a name="l00944"></a><span class="lineno">  944</span>&#160;    comm::Index2D evecs_tile_rank = dist.rankGlobalTile(idx_evecs);</div>
+<div class="line"><a name="l00945"></a><span class="lineno">  945</span>&#160;    <span class="keywordflow">if</span> (evecs_tile_rank == this_rank) {</div>
+<div class="line"><a name="l00946"></a><span class="lineno">  946</span>&#160;      <span class="comment">// Copy the row into the column vector `z`</span></div>
+<div class="line"><a name="l00947"></a><span class="lineno">  947</span>&#160;      assembleRank1UpdateVectorTileAsync&lt;T, D&gt;(top_tile, rho, evecs.read(idx_evecs), z.readwrite(z_idx));</div>
+<div class="line"><a name="l00948"></a><span class="lineno">  948</span>&#160;      ex::start_detached(comm::scheduleSendBcast(full_task_chain(), z.read(z_idx)));</div>
+<div class="line"><a name="l00949"></a><span class="lineno">  949</span>&#160;    }</div>
+<div class="line"><a name="l00950"></a><span class="lineno">  950</span>&#160;    <span class="keywordflow">else</span> {</div>
+<div class="line"><a name="l00951"></a><span class="lineno">  951</span>&#160;      <span class="keyword">const</span> comm::IndexT_MPI root_rank = grid.rankFullCommunicator(evecs_tile_rank);</div>
+<div class="line"><a name="l00952"></a><span class="lineno">  952</span>&#160;      ex::start_detached(comm::scheduleRecvBcast(full_task_chain(), root_rank, z.readwrite(z_idx)));</div>
+<div class="line"><a name="l00953"></a><span class="lineno">  953</span>&#160;    }</div>
+<div class="line"><a name="l00954"></a><span class="lineno">  954</span>&#160;  }</div>
+<div class="line"><a name="l00955"></a><span class="lineno">  955</span>&#160;}</div>
+<div class="line"><a name="l00956"></a><span class="lineno">  956</span>&#160; </div>
+<div class="line"><a name="l00957"></a><span class="lineno">  957</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> CommSender, <span class="keyword">class</span> KSender, <span class="keyword">class</span> RhoSender&gt;</div>
+<div class="line"><a name="l00958"></a><span class="lineno">  958</span>&#160;<span class="keywordtype">void</span> solveRank1ProblemDist(CommSender&amp;&amp; row_comm, CommSender&amp;&amp; col_comm, <span class="keyword">const</span> SizeType i_begin,</div>
+<div class="line"><a name="l00959"></a><span class="lineno">  959</span>&#160;                           <span class="keyword">const</span> SizeType i_end, <span class="keyword">const</span> LocalTileIndex ij_begin_lc,</div>
+<div class="line"><a name="l00960"></a><span class="lineno">  960</span>&#160;                           <span class="keyword">const</span> LocalTileSize sz_loc_tiles, KSender&amp;&amp; k, RhoSender&amp;&amp; rho,</div>
+<div class="line"><a name="l00961"></a><span class="lineno">  961</span>&#160;                           Matrix&lt;const T, Device::CPU&gt;&amp; d, Matrix&lt;T, Device::CPU&gt;&amp; z,</div>
+<div class="line"><a name="l00962"></a><span class="lineno">  962</span>&#160;                           Matrix&lt;T, Device::CPU&gt;&amp; evals, Matrix&lt;const SizeType, Device::CPU&gt;&amp; i2,</div>
+<div class="line"><a name="l00963"></a><span class="lineno">  963</span>&#160;                           Matrix&lt;T, Device::CPU&gt;&amp; evecs) {</div>
+<div class="line"><a name="l00964"></a><span class="lineno">  964</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00965"></a><span class="lineno">  965</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00966"></a><span class="lineno">  966</span>&#160;  <span class="keyword">namespace </span>tt = pika::this_thread::experimental;</div>
+<div class="line"><a name="l00967"></a><span class="lineno">  967</span>&#160; </div>
+<div class="line"><a name="l00968"></a><span class="lineno">  968</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; dist = evecs.distribution();</div>
+<div class="line"><a name="l00969"></a><span class="lineno">  969</span>&#160; </div>
+<div class="line"><a name="l00970"></a><span class="lineno">  970</span>&#160;  TileCollector tc{i_begin, i_end};</div>
 <div class="line"><a name="l00971"></a><span class="lineno">  971</span>&#160; </div>
-<div class="line"><a name="l00972"></a><span class="lineno">  972</span>&#160;  <span class="keyword">auto</span> bcast_evals = [i_begin, i_end,</div>
-<div class="line"><a name="l00973"></a><span class="lineno">  973</span>&#160;                      dist](common::Pipeline&lt;comm::Communicator&gt;&amp; row_comm_chain,</div>
-<div class="line"><a name="l00974"></a><span class="lineno">  974</span>&#160;                            <span class="keyword">const</span> std::vector&lt;matrix::Tile&lt;T, Device::CPU&gt;&gt;&amp; eval_tiles) {</div>
-<div class="line"><a name="l00975"></a><span class="lineno">  975</span>&#160;    <span class="keyword">using</span> dlaf::comm::internal::sendBcast_o;</div>
-<div class="line"><a name="l00976"></a><span class="lineno">  976</span>&#160;    <span class="keyword">using</span> dlaf::comm::internal::recvBcast_o;</div>
-<div class="line"><a name="l00977"></a><span class="lineno">  977</span>&#160; </div>
-<div class="line"><a name="l00978"></a><span class="lineno">  978</span>&#160;    <span class="keyword">const</span> comm::Index2D this_rank = dist.rankIndex();</div>
+<div class="line"><a name="l00972"></a><span class="lineno">  972</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, dist);</div>
+<div class="line"><a name="l00973"></a><span class="lineno">  973</span>&#160; </div>
+<div class="line"><a name="l00974"></a><span class="lineno">  974</span>&#160;  <span class="keyword">const</span> SizeType m_subm_el_lc = [=]() {</div>
+<div class="line"><a name="l00975"></a><span class="lineno">  975</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_begin = ij_begin_lc.row();</div>
+<div class="line"><a name="l00976"></a><span class="lineno">  976</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_end = ij_begin_lc.row() + sz_loc_tiles.rows();</div>
+<div class="line"><a name="l00977"></a><span class="lineno">  977</span>&#160;    <span class="keywordflow">return</span> dist.localElementDistanceFromLocalTile&lt;Coord::Row&gt;(i_loc_begin, i_loc_end);</div>
+<div class="line"><a name="l00978"></a><span class="lineno">  978</span>&#160;  }();</div>
 <div class="line"><a name="l00979"></a><span class="lineno">  979</span>&#160; </div>
-<div class="line"><a name="l00980"></a><span class="lineno">  980</span>&#160;    std::vector&lt;ex::unique_any_sender&lt;&gt;&gt; comms;</div>
-<div class="line"><a name="l00981"></a><span class="lineno">  981</span>&#160;    comms.reserve(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_end - i_begin));</div>
-<div class="line"><a name="l00982"></a><span class="lineno">  982</span>&#160; </div>
-<div class="line"><a name="l00983"></a><span class="lineno">  983</span>&#160;    <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
-<div class="line"><a name="l00984"></a><span class="lineno">  984</span>&#160;      <span class="keyword">const</span> comm::IndexT_MPI evecs_tile_rank = dist.rankGlobalTile&lt;Coord::Col&gt;(i);</div>
-<div class="line"><a name="l00985"></a><span class="lineno">  985</span>&#160;      <span class="keyword">auto</span>&amp; tile = eval_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i - i_begin)];</div>
-<div class="line"><a name="l00986"></a><span class="lineno">  986</span>&#160; </div>
-<div class="line"><a name="l00987"></a><span class="lineno">  987</span>&#160;      <span class="keywordflow">if</span> (evecs_tile_rank == this_rank.col())</div>
-<div class="line"><a name="l00988"></a><span class="lineno">  988</span>&#160;        comms.emplace_back(ex::when_all(row_comm_chain(), ex::just(std::cref(tile))) |</div>
-<div class="line"><a name="l00989"></a><span class="lineno">  989</span>&#160;                           transformMPI(sendBcast_o));</div>
-<div class="line"><a name="l00990"></a><span class="lineno">  990</span>&#160;      <span class="keywordflow">else</span></div>
-<div class="line"><a name="l00991"></a><span class="lineno">  991</span>&#160;        comms.emplace_back(ex::when_all(row_comm_chain(), ex::just(evecs_tile_rank, std::cref(tile))) |</div>
-<div class="line"><a name="l00992"></a><span class="lineno">  992</span>&#160;                           transformMPI(recvBcast_o));</div>
-<div class="line"><a name="l00993"></a><span class="lineno">  993</span>&#160;    }</div>
-<div class="line"><a name="l00994"></a><span class="lineno">  994</span>&#160; </div>
-<div class="line"><a name="l00995"></a><span class="lineno">  995</span>&#160;    <span class="keywordflow">return</span> ex::ensure_started(ex::when_all_vector(std::move(comms)));</div>
-<div class="line"><a name="l00996"></a><span class="lineno">  996</span>&#160;  };</div>
-<div class="line"><a name="l00997"></a><span class="lineno">  997</span>&#160; </div>
-<div class="line"><a name="l00998"></a><span class="lineno">  998</span>&#160;  <span class="keyword">auto</span> all_reduce_in_place = [](<span class="keyword">const</span> <a class="code" href="classdlaf_1_1comm_1_1_communicator.html">dlaf::comm::Communicator</a>&amp; comm, MPI_Op reduce_op, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; data,</div>
-<div class="line"><a name="l00999"></a><span class="lineno">  999</span>&#160;                                MPI_Request* req) {</div>
-<div class="line"><a name="l01000"></a><span class="lineno"> 1000</span>&#160;    <span class="keyword">auto</span> msg = comm::make_message(data);</div>
-<div class="line"><a name="l01001"></a><span class="lineno"> 1001</span>&#160;    DLAF_MPI_CHECK_ERROR(MPI_Iallreduce(MPI_IN_PLACE, msg.data(), msg.count(), msg.mpi_type(), reduce_op,</div>
-<div class="line"><a name="l01002"></a><span class="lineno"> 1002</span>&#160;                                        comm, req));</div>
-<div class="line"><a name="l01003"></a><span class="lineno"> 1003</span>&#160;  };</div>
-<div class="line"><a name="l01004"></a><span class="lineno"> 1004</span>&#160; </div>
-<div class="line"><a name="l01005"></a><span class="lineno"> 1005</span>&#160;  <span class="comment">// Note: at least two column of tiles per-worker, in the range [1, getTridiagRank1NWorkers()]</span></div>
-<div class="line"><a name="l01006"></a><span class="lineno"> 1006</span>&#160;  <span class="keyword">const</span> std::size_t nthreads = [nrtiles = sz_loc_tiles.cols()]() {</div>
-<div class="line"><a name="l01007"></a><span class="lineno"> 1007</span>&#160;    <span class="keyword">const</span> std::size_t min_workers = 1;</div>
-<div class="line"><a name="l01008"></a><span class="lineno"> 1008</span>&#160;    <span class="keyword">const</span> std::size_t available_workers = getTridiagRank1NWorkers();</div>
-<div class="line"><a name="l01009"></a><span class="lineno"> 1009</span>&#160;    <span class="keyword">const</span> std::size_t ideal_workers = util::ceilDiv(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(nrtiles), <a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(2));</div>
-<div class="line"><a name="l01010"></a><span class="lineno"> 1010</span>&#160;    <span class="keywordflow">return</span> std::clamp(ideal_workers, min_workers, available_workers);</div>
-<div class="line"><a name="l01011"></a><span class="lineno"> 1011</span>&#160;  }();</div>
-<div class="line"><a name="l01012"></a><span class="lineno"> 1012</span>&#160; </div>
-<div class="line"><a name="l01013"></a><span class="lineno"> 1013</span>&#160;  ex::start_detached(</div>
-<div class="line"><a name="l01014"></a><span class="lineno"> 1014</span>&#160;      ex::when_all(ex::just(std::make_unique&lt;pika::barrier&lt;&gt;&gt;(nthreads)),</div>
-<div class="line"><a name="l01015"></a><span class="lineno"> 1015</span>&#160;                   std::forward&lt;CommSender&gt;(row_comm), std::forward&lt;CommSender&gt;(col_comm),</div>
-<div class="line"><a name="l01016"></a><span class="lineno"> 1016</span>&#160;                   std::forward&lt;KSender&gt;(k), std::forward&lt;RhoSender&gt;(rho),</div>
-<div class="line"><a name="l01017"></a><span class="lineno"> 1017</span>&#160;                   ex::when_all_vector(tc.read(d)), ex::when_all_vector(tc.readwrite(z)),</div>
-<div class="line"><a name="l01018"></a><span class="lineno"> 1018</span>&#160;                   ex::when_all_vector(tc.readwrite(evals)), ex::when_all_vector(tc.read(i2)),</div>
-<div class="line"><a name="l01019"></a><span class="lineno"> 1019</span>&#160;                   ex::when_all_vector(tc.readwrite(evecs)),</div>
-<div class="line"><a name="l01020"></a><span class="lineno"> 1020</span>&#160;                   <span class="comment">// additional workspaces</span></div>
-<div class="line"><a name="l01021"></a><span class="lineno"> 1021</span>&#160;                   ex::just(std::vector&lt;memory::MemoryView&lt;T, Device::CPU&gt;&gt;()),</div>
-<div class="line"><a name="l01022"></a><span class="lineno"> 1022</span>&#160;                   ex::just(memory::MemoryView&lt;T, Device::CPU&gt;())) |</div>
-<div class="line"><a name="l01023"></a><span class="lineno"> 1023</span>&#160;      ex::transfer(di::getBackendScheduler&lt;Backend::MC&gt;(pika::execution::thread_priority::high)) |</div>
-<div class="line"><a name="l01024"></a><span class="lineno"> 1024</span>&#160;      ex::bulk(nthreads, [nthreads, n, n_subm_el_lc, m_subm_el_lc, i_begin, ij_begin_lc, sz_loc_tiles,</div>
-<div class="line"><a name="l01025"></a><span class="lineno"> 1025</span>&#160;                          dist, bcast_evals, all_reduce_in_place](</div>
-<div class="line"><a name="l01026"></a><span class="lineno"> 1026</span>&#160;                             <span class="keyword">const</span> std::size_t thread_idx, <span class="keyword">auto</span>&amp; barrier_ptr, <span class="keyword">auto</span>&amp; row_comm_wrapper,</div>
-<div class="line"><a name="l01027"></a><span class="lineno"> 1027</span>&#160;                             <span class="keyword">auto</span>&amp; col_comm_wrapper, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; k, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; rho,</div>
-<div class="line"><a name="l01028"></a><span class="lineno"> 1028</span>&#160;                             <span class="keyword">const</span> <span class="keyword">auto</span>&amp; d_tiles_futs, <span class="keyword">auto</span>&amp; z_tiles, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; eval_tiles,</div>
-<div class="line"><a name="l01029"></a><span class="lineno"> 1029</span>&#160;                             <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_tile_arr, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; evec_tiles, <span class="keyword">auto</span>&amp; ws_cols,</div>
-<div class="line"><a name="l01030"></a><span class="lineno"> 1030</span>&#160;                             <span class="keyword">auto</span>&amp; ws_row) {</div>
-<div class="line"><a name="l01031"></a><span class="lineno"> 1031</span>&#160;        using dlaf::comm::internal::transformMPI;</div>
-<div class="line"><a name="l01032"></a><span class="lineno"> 1032</span>&#160; </div>
-<div class="line"><a name="l01033"></a><span class="lineno"> 1033</span>&#160;        common::Pipeline&lt;comm::Communicator&gt; row_comm_chain(row_comm_wrapper.get());</div>
-<div class="line"><a name="l01034"></a><span class="lineno"> 1034</span>&#160;        const dlaf::comm::Communicator&amp; col_comm = col_comm_wrapper.get();</div>
-<div class="line"><a name="l01035"></a><span class="lineno"> 1035</span>&#160; </div>
-<div class="line"><a name="l01036"></a><span class="lineno"> 1036</span>&#160;        const auto barrier_busy_wait = getTridiagRank1BarrierBusyWait();</div>
-<div class="line"><a name="l01037"></a><span class="lineno"> 1037</span>&#160;        const std::size_t batch_size =</div>
-<div class="line"><a name="l01038"></a><span class="lineno"> 1038</span>&#160;            std::max&lt;std::size_t&gt;(2, util::ceilDiv(to_sizet(sz_loc_tiles.cols()), nthreads));</div>
-<div class="line"><a name="l01039"></a><span class="lineno"> 1039</span>&#160;        const SizeType begin = to_SizeType(thread_idx * batch_size);</div>
-<div class="line"><a name="l01040"></a><span class="lineno"> 1040</span>&#160;        const SizeType end = std::min(to_SizeType((thread_idx + 1) * batch_size), sz_loc_tiles.cols());</div>
-<div class="line"><a name="l01041"></a><span class="lineno"> 1041</span>&#160; </div>
-<div class="line"><a name="l01042"></a><span class="lineno"> 1042</span>&#160;        <span class="comment">// STEP 0a: Fill ones for deflated Eigenvectors. (single-thread)</span></div>
-<div class="line"><a name="l01043"></a><span class="lineno"> 1043</span>&#160;        <span class="comment">// Note: this step is completely independent from the rest, but it is small and it is going</span></div>
-<div class="line"><a name="l01044"></a><span class="lineno"> 1044</span>&#160;        <span class="comment">// to be dropped soon.</span></div>
-<div class="line"><a name="l01045"></a><span class="lineno"> 1045</span>&#160;        <span class="comment">// Note: use last threads that in principle should have less work to do</span></div>
-<div class="line"><a name="l01046"></a><span class="lineno"> 1046</span>&#160;        if (thread_idx == nthreads - 1) {</div>
-<div class="line"><a name="l01047"></a><span class="lineno"> 1047</span>&#160;          <span class="comment">// just if there are deflated eigenvectors</span></div>
-<div class="line"><a name="l01048"></a><span class="lineno"> 1048</span>&#160;          if (k &lt; n) {</div>
-<div class="line"><a name="l01049"></a><span class="lineno"> 1049</span>&#160;            const GlobalElementSize origin_el(i_begin * dist.blockSize().rows(),</div>
-<div class="line"><a name="l01050"></a><span class="lineno"> 1050</span>&#160;                                              i_begin * dist.blockSize().cols());</div>
-<div class="line"><a name="l01051"></a><span class="lineno"> 1051</span>&#160;            const SizeType* i2_perm = i2_tile_arr[0].get().ptr();</div>
-<div class="line"><a name="l01052"></a><span class="lineno"> 1052</span>&#160; </div>
-<div class="line"><a name="l01053"></a><span class="lineno"> 1053</span>&#160;            for (SizeType i_subm_el = 0; i_subm_el &lt; n; ++i_subm_el) {</div>
-<div class="line"><a name="l01054"></a><span class="lineno"> 1054</span>&#160;              const SizeType j_subm_el = i2_perm[i_subm_el];</div>
+<div class="line"><a name="l00980"></a><span class="lineno">  980</span>&#160;  <span class="keyword">const</span> SizeType n_subm_el_lc = [=]() {</div>
+<div class="line"><a name="l00981"></a><span class="lineno">  981</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_begin = ij_begin_lc.col();</div>
+<div class="line"><a name="l00982"></a><span class="lineno">  982</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_end = ij_begin_lc.col() + sz_loc_tiles.cols();</div>
+<div class="line"><a name="l00983"></a><span class="lineno">  983</span>&#160;    <span class="keywordflow">return</span> dist.localElementDistanceFromLocalTile&lt;Coord::Col&gt;(i_loc_begin, i_loc_end);</div>
+<div class="line"><a name="l00984"></a><span class="lineno">  984</span>&#160;  }();</div>
+<div class="line"><a name="l00985"></a><span class="lineno">  985</span>&#160; </div>
+<div class="line"><a name="l00986"></a><span class="lineno">  986</span>&#160;  <span class="keyword">auto</span> bcast_evals = [i_begin, i_end,</div>
+<div class="line"><a name="l00987"></a><span class="lineno">  987</span>&#160;                      dist](common::Pipeline&lt;comm::Communicator&gt;&amp; row_comm_chain,</div>
+<div class="line"><a name="l00988"></a><span class="lineno">  988</span>&#160;                            <span class="keyword">const</span> std::vector&lt;matrix::Tile&lt;T, Device::CPU&gt;&gt;&amp; eval_tiles) {</div>
+<div class="line"><a name="l00989"></a><span class="lineno">  989</span>&#160;    <span class="keyword">using</span> dlaf::comm::internal::sendBcast_o;</div>
+<div class="line"><a name="l00990"></a><span class="lineno">  990</span>&#160;    <span class="keyword">using</span> dlaf::comm::internal::recvBcast_o;</div>
+<div class="line"><a name="l00991"></a><span class="lineno">  991</span>&#160; </div>
+<div class="line"><a name="l00992"></a><span class="lineno">  992</span>&#160;    <span class="keyword">const</span> comm::Index2D this_rank = dist.rankIndex();</div>
+<div class="line"><a name="l00993"></a><span class="lineno">  993</span>&#160; </div>
+<div class="line"><a name="l00994"></a><span class="lineno">  994</span>&#160;    std::vector&lt;ex::unique_any_sender&lt;&gt;&gt; comms;</div>
+<div class="line"><a name="l00995"></a><span class="lineno">  995</span>&#160;    comms.reserve(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_end - i_begin));</div>
+<div class="line"><a name="l00996"></a><span class="lineno">  996</span>&#160; </div>
+<div class="line"><a name="l00997"></a><span class="lineno">  997</span>&#160;    <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
+<div class="line"><a name="l00998"></a><span class="lineno">  998</span>&#160;      <span class="keyword">const</span> comm::IndexT_MPI evecs_tile_rank = dist.rankGlobalTile&lt;Coord::Col&gt;(i);</div>
+<div class="line"><a name="l00999"></a><span class="lineno">  999</span>&#160;      <span class="keyword">auto</span>&amp; tile = eval_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i - i_begin)];</div>
+<div class="line"><a name="l01000"></a><span class="lineno"> 1000</span>&#160; </div>
+<div class="line"><a name="l01001"></a><span class="lineno"> 1001</span>&#160;      <span class="keywordflow">if</span> (evecs_tile_rank == this_rank.col())</div>
+<div class="line"><a name="l01002"></a><span class="lineno"> 1002</span>&#160;        comms.emplace_back(ex::when_all(row_comm_chain(), ex::just(std::cref(tile))) |</div>
+<div class="line"><a name="l01003"></a><span class="lineno"> 1003</span>&#160;                           transformMPI(sendBcast_o));</div>
+<div class="line"><a name="l01004"></a><span class="lineno"> 1004</span>&#160;      <span class="keywordflow">else</span></div>
+<div class="line"><a name="l01005"></a><span class="lineno"> 1005</span>&#160;        comms.emplace_back(ex::when_all(row_comm_chain(), ex::just(evecs_tile_rank, std::cref(tile))) |</div>
+<div class="line"><a name="l01006"></a><span class="lineno"> 1006</span>&#160;                           transformMPI(recvBcast_o));</div>
+<div class="line"><a name="l01007"></a><span class="lineno"> 1007</span>&#160;    }</div>
+<div class="line"><a name="l01008"></a><span class="lineno"> 1008</span>&#160; </div>
+<div class="line"><a name="l01009"></a><span class="lineno"> 1009</span>&#160;    <span class="keywordflow">return</span> ex::ensure_started(ex::when_all_vector(std::move(comms)));</div>
+<div class="line"><a name="l01010"></a><span class="lineno"> 1010</span>&#160;  };</div>
+<div class="line"><a name="l01011"></a><span class="lineno"> 1011</span>&#160; </div>
+<div class="line"><a name="l01012"></a><span class="lineno"> 1012</span>&#160;  <span class="keyword">auto</span> all_reduce_in_place = [](<span class="keyword">const</span> <a class="code" href="classdlaf_1_1comm_1_1_communicator.html">dlaf::comm::Communicator</a>&amp; comm, MPI_Op reduce_op, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; data,</div>
+<div class="line"><a name="l01013"></a><span class="lineno"> 1013</span>&#160;                                MPI_Request* req) {</div>
+<div class="line"><a name="l01014"></a><span class="lineno"> 1014</span>&#160;    <span class="keyword">auto</span> msg = comm::make_message(data);</div>
+<div class="line"><a name="l01015"></a><span class="lineno"> 1015</span>&#160;    DLAF_MPI_CHECK_ERROR(MPI_Iallreduce(MPI_IN_PLACE, msg.data(), msg.count(), msg.mpi_type(), reduce_op,</div>
+<div class="line"><a name="l01016"></a><span class="lineno"> 1016</span>&#160;                                        comm, req));</div>
+<div class="line"><a name="l01017"></a><span class="lineno"> 1017</span>&#160;  };</div>
+<div class="line"><a name="l01018"></a><span class="lineno"> 1018</span>&#160; </div>
+<div class="line"><a name="l01019"></a><span class="lineno"> 1019</span>&#160;  <span class="comment">// Note: at least two column of tiles per-worker, in the range [1, getTridiagRank1NWorkers()]</span></div>
+<div class="line"><a name="l01020"></a><span class="lineno"> 1020</span>&#160;  <span class="keyword">const</span> std::size_t nthreads = [nrtiles = sz_loc_tiles.cols()]() {</div>
+<div class="line"><a name="l01021"></a><span class="lineno"> 1021</span>&#160;    <span class="keyword">const</span> std::size_t min_workers = 1;</div>
+<div class="line"><a name="l01022"></a><span class="lineno"> 1022</span>&#160;    <span class="keyword">const</span> std::size_t available_workers = getTridiagRank1NWorkers();</div>
+<div class="line"><a name="l01023"></a><span class="lineno"> 1023</span>&#160;    <span class="keyword">const</span> std::size_t ideal_workers = util::ceilDiv(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(nrtiles), <a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(2));</div>
+<div class="line"><a name="l01024"></a><span class="lineno"> 1024</span>&#160;    <span class="keywordflow">return</span> std::clamp(ideal_workers, min_workers, available_workers);</div>
+<div class="line"><a name="l01025"></a><span class="lineno"> 1025</span>&#160;  }();</div>
+<div class="line"><a name="l01026"></a><span class="lineno"> 1026</span>&#160; </div>
+<div class="line"><a name="l01027"></a><span class="lineno"> 1027</span>&#160;  ex::start_detached(</div>
+<div class="line"><a name="l01028"></a><span class="lineno"> 1028</span>&#160;      ex::when_all(ex::just(std::make_unique&lt;pika::barrier&lt;&gt;&gt;(nthreads)),</div>
+<div class="line"><a name="l01029"></a><span class="lineno"> 1029</span>&#160;                   std::forward&lt;CommSender&gt;(row_comm), std::forward&lt;CommSender&gt;(col_comm),</div>
+<div class="line"><a name="l01030"></a><span class="lineno"> 1030</span>&#160;                   std::forward&lt;KSender&gt;(k), std::forward&lt;RhoSender&gt;(rho),</div>
+<div class="line"><a name="l01031"></a><span class="lineno"> 1031</span>&#160;                   ex::when_all_vector(tc.read(d)), ex::when_all_vector(tc.readwrite(z)),</div>
+<div class="line"><a name="l01032"></a><span class="lineno"> 1032</span>&#160;                   ex::when_all_vector(tc.readwrite(evals)), ex::when_all_vector(tc.read(i2)),</div>
+<div class="line"><a name="l01033"></a><span class="lineno"> 1033</span>&#160;                   ex::when_all_vector(tc.readwrite(evecs)),</div>
+<div class="line"><a name="l01034"></a><span class="lineno"> 1034</span>&#160;                   <span class="comment">// additional workspaces</span></div>
+<div class="line"><a name="l01035"></a><span class="lineno"> 1035</span>&#160;                   ex::just(std::vector&lt;memory::MemoryView&lt;T, Device::CPU&gt;&gt;()),</div>
+<div class="line"><a name="l01036"></a><span class="lineno"> 1036</span>&#160;                   ex::just(memory::MemoryView&lt;T, Device::CPU&gt;())) |</div>
+<div class="line"><a name="l01037"></a><span class="lineno"> 1037</span>&#160;      ex::transfer(di::getBackendScheduler&lt;Backend::MC&gt;(pika::execution::thread_priority::high)) |</div>
+<div class="line"><a name="l01038"></a><span class="lineno"> 1038</span>&#160;      ex::bulk(nthreads, [nthreads, n, n_subm_el_lc, m_subm_el_lc, i_begin, ij_begin_lc, sz_loc_tiles,</div>
+<div class="line"><a name="l01039"></a><span class="lineno"> 1039</span>&#160;                          dist, bcast_evals, all_reduce_in_place](</div>
+<div class="line"><a name="l01040"></a><span class="lineno"> 1040</span>&#160;                             <span class="keyword">const</span> std::size_t thread_idx, <span class="keyword">auto</span>&amp; barrier_ptr, <span class="keyword">auto</span>&amp; row_comm_wrapper,</div>
+<div class="line"><a name="l01041"></a><span class="lineno"> 1041</span>&#160;                             <span class="keyword">auto</span>&amp; col_comm_wrapper, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; k, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; rho,</div>
+<div class="line"><a name="l01042"></a><span class="lineno"> 1042</span>&#160;                             <span class="keyword">const</span> <span class="keyword">auto</span>&amp; d_tiles_futs, <span class="keyword">auto</span>&amp; z_tiles, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; eval_tiles,</div>
+<div class="line"><a name="l01043"></a><span class="lineno"> 1043</span>&#160;                             <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_tile_arr, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; evec_tiles, <span class="keyword">auto</span>&amp; ws_cols,</div>
+<div class="line"><a name="l01044"></a><span class="lineno"> 1044</span>&#160;                             <span class="keyword">auto</span>&amp; ws_row) {</div>
+<div class="line"><a name="l01045"></a><span class="lineno"> 1045</span>&#160;        using dlaf::comm::internal::transformMPI;</div>
+<div class="line"><a name="l01046"></a><span class="lineno"> 1046</span>&#160; </div>
+<div class="line"><a name="l01047"></a><span class="lineno"> 1047</span>&#160;        common::Pipeline&lt;comm::Communicator&gt; row_comm_chain(row_comm_wrapper.get());</div>
+<div class="line"><a name="l01048"></a><span class="lineno"> 1048</span>&#160;        const dlaf::comm::Communicator&amp; col_comm = col_comm_wrapper.get();</div>
+<div class="line"><a name="l01049"></a><span class="lineno"> 1049</span>&#160; </div>
+<div class="line"><a name="l01050"></a><span class="lineno"> 1050</span>&#160;        const auto barrier_busy_wait = getTridiagRank1BarrierBusyWait();</div>
+<div class="line"><a name="l01051"></a><span class="lineno"> 1051</span>&#160;        const std::size_t batch_size =</div>
+<div class="line"><a name="l01052"></a><span class="lineno"> 1052</span>&#160;            std::max&lt;std::size_t&gt;(2, util::ceilDiv(to_sizet(sz_loc_tiles.cols()), nthreads));</div>
+<div class="line"><a name="l01053"></a><span class="lineno"> 1053</span>&#160;        const SizeType begin = to_SizeType(thread_idx * batch_size);</div>
+<div class="line"><a name="l01054"></a><span class="lineno"> 1054</span>&#160;        const SizeType end = std::min(to_SizeType((thread_idx + 1) * batch_size), sz_loc_tiles.cols());</div>
 <div class="line"><a name="l01055"></a><span class="lineno"> 1055</span>&#160; </div>
-<div class="line"><a name="l01056"></a><span class="lineno"> 1056</span>&#160;              <span class="comment">// if it is a deflated vector</span></div>
-<div class="line"><a name="l01057"></a><span class="lineno"> 1057</span>&#160;              if (j_subm_el &gt;= k) {</div>
-<div class="line"><a name="l01058"></a><span class="lineno"> 1058</span>&#160;                const GlobalElementIndex ij_el(origin_el.rows() + i_subm_el,</div>
-<div class="line"><a name="l01059"></a><span class="lineno"> 1059</span>&#160;                                               origin_el.cols() + j_subm_el);</div>
-<div class="line"><a name="l01060"></a><span class="lineno"> 1060</span>&#160;                const GlobalTileIndex ij = dist.globalTileIndex(ij_el);</div>
-<div class="line"><a name="l01061"></a><span class="lineno"> 1061</span>&#160; </div>
-<div class="line"><a name="l01062"></a><span class="lineno"> 1062</span>&#160;                if (dist.rankIndex() == dist.rankGlobalTile(ij)) {</div>
-<div class="line"><a name="l01063"></a><span class="lineno"> 1063</span>&#160;                  const LocalTileIndex ij_lc = dist.localTileIndex(ij);</div>
-<div class="line"><a name="l01064"></a><span class="lineno"> 1064</span>&#160;                  const SizeType linear_subm_lc =</div>
-<div class="line"><a name="l01065"></a><span class="lineno"> 1065</span>&#160;                      (ij_lc.row() - ij_begin_lc.row()) +</div>
-<div class="line"><a name="l01066"></a><span class="lineno"> 1066</span>&#160;                      (ij_lc.col() - ij_begin_lc.col()) * sz_loc_tiles.rows();</div>
-<div class="line"><a name="l01067"></a><span class="lineno"> 1067</span>&#160;                  const TileElementIndex ij_el_tl = dist.tileElementIndex(ij_el);</div>
-<div class="line"><a name="l01068"></a><span class="lineno"> 1068</span>&#160;                  evec_tiles[to_sizet(linear_subm_lc)](ij_el_tl) = T{1};</div>
-<div class="line"><a name="l01069"></a><span class="lineno"> 1069</span>&#160;                }</div>
-<div class="line"><a name="l01070"></a><span class="lineno"> 1070</span>&#160;              }</div>
-<div class="line"><a name="l01071"></a><span class="lineno"> 1071</span>&#160;            }</div>
-<div class="line"><a name="l01072"></a><span class="lineno"> 1072</span>&#160;          }</div>
-<div class="line"><a name="l01073"></a><span class="lineno"> 1073</span>&#160;        }</div>
-<div class="line"><a name="l01074"></a><span class="lineno"> 1074</span>&#160; </div>
-<div class="line"><a name="l01075"></a><span class="lineno"> 1075</span>&#160;        <span class="comment">// STEP 0b: Initialize workspaces (single-thread)</span></div>
-<div class="line"><a name="l01076"></a><span class="lineno"> 1076</span>&#160;        if (thread_idx == 0) {</div>
-<div class="line"><a name="l01077"></a><span class="lineno"> 1077</span>&#160;          <span class="comment">// Note:</span></div>
-<div class="line"><a name="l01078"></a><span class="lineno"> 1078</span>&#160;          <span class="comment">// - nthreads are used for both LAED4 and weight calculation (one per worker thread)</span></div>
-<div class="line"><a name="l01079"></a><span class="lineno"> 1079</span>&#160;          <span class="comment">// - last one is used for reducing weights from all workers</span></div>
-<div class="line"><a name="l01080"></a><span class="lineno"> 1080</span>&#160;          ws_cols.reserve(nthreads + 1);</div>
-<div class="line"><a name="l01081"></a><span class="lineno"> 1081</span>&#160; </div>
-<div class="line"><a name="l01082"></a><span class="lineno"> 1082</span>&#160;          <span class="comment">// Note:</span></div>
-<div class="line"><a name="l01083"></a><span class="lineno"> 1083</span>&#160;          <span class="comment">// Considering that</span></div>
-<div class="line"><a name="l01084"></a><span class="lineno"> 1084</span>&#160;          <span class="comment">// - LAED4 requires working on k elements</span></div>
-<div class="line"><a name="l01085"></a><span class="lineno"> 1085</span>&#160;          <span class="comment">// - Weight computation requires working on m_subm_el_lc</span></div>
-<div class="line"><a name="l01086"></a><span class="lineno"> 1086</span>&#160;          <span class="comment">//</span></div>
-<div class="line"><a name="l01087"></a><span class="lineno"> 1087</span>&#160;          <span class="comment">// and they are needed at two steps that cannot happen in parallel, we opted for allocating</span></div>
-<div class="line"><a name="l01088"></a><span class="lineno"> 1088</span>&#160;          <span class="comment">// the workspace with the highest requirement of memory, and reuse them for both steps.</span></div>
-<div class="line"><a name="l01089"></a><span class="lineno"> 1089</span>&#160;          <span class="keyword">const</span> SizeType max_size = std::max(k, m_subm_el_lc);</div>
-<div class="line"><a name="l01090"></a><span class="lineno"> 1090</span>&#160;          <span class="keywordflow">for</span> (std::size_t i = 0; i &lt; nthreads; ++i)</div>
-<div class="line"><a name="l01091"></a><span class="lineno"> 1091</span>&#160;            ws_cols.emplace_back(max_size);</div>
-<div class="line"><a name="l01092"></a><span class="lineno"> 1092</span>&#160;          ws_cols.emplace_back(m_subm_el_lc);</div>
-<div class="line"><a name="l01093"></a><span class="lineno"> 1093</span>&#160; </div>
-<div class="line"><a name="l01094"></a><span class="lineno"> 1094</span>&#160;          ws_row = memory::MemoryView&lt;T, Device::CPU&gt;(n_subm_el_lc);</div>
-<div class="line"><a name="l01095"></a><span class="lineno"> 1095</span>&#160;          std::fill_n(ws_row(), n_subm_el_lc, 0);</div>
-<div class="line"><a name="l01096"></a><span class="lineno"> 1096</span>&#160;        }</div>
-<div class="line"><a name="l01097"></a><span class="lineno"> 1097</span>&#160; </div>
-<div class="line"><a name="l01098"></a><span class="lineno"> 1098</span>&#160;        <span class="comment">// Note: we have to wait that LAED4 workspaces are ready to be used</span></div>
-<div class="line"><a name="l01099"></a><span class="lineno"> 1099</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l01100"></a><span class="lineno"> 1100</span>&#160; </div>
-<div class="line"><a name="l01101"></a><span class="lineno"> 1101</span>&#160;        <span class="keyword">const</span> T* d_ptr = d_tiles_futs[0].get().ptr();</div>
-<div class="line"><a name="l01102"></a><span class="lineno"> 1102</span>&#160;        <span class="keyword">const</span> T* z_ptr = z_tiles[0].ptr();</div>
-<div class="line"><a name="l01103"></a><span class="lineno"> 1103</span>&#160; </div>
-<div class="line"><a name="l01104"></a><span class="lineno"> 1104</span>&#160;        <span class="comment">// STEP 1: LAED4 (multi-thread)</span></div>
-<div class="line"><a name="l01105"></a><span class="lineno"> 1105</span>&#160;        {</div>
-<div class="line"><a name="l01106"></a><span class="lineno"> 1106</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a name="l01056"></a><span class="lineno"> 1056</span>&#160;        <span class="comment">// STEP 0a: Fill ones for deflated Eigenvectors. (single-thread)</span></div>
+<div class="line"><a name="l01057"></a><span class="lineno"> 1057</span>&#160;        <span class="comment">// Note: this step is completely independent from the rest, but it is small and it is going</span></div>
+<div class="line"><a name="l01058"></a><span class="lineno"> 1058</span>&#160;        <span class="comment">// to be dropped soon.</span></div>
+<div class="line"><a name="l01059"></a><span class="lineno"> 1059</span>&#160;        <span class="comment">// Note: use last threads that in principle should have less work to do</span></div>
+<div class="line"><a name="l01060"></a><span class="lineno"> 1060</span>&#160;        if (thread_idx == nthreads - 1) {</div>
+<div class="line"><a name="l01061"></a><span class="lineno"> 1061</span>&#160;          <span class="comment">// just if there are deflated eigenvectors</span></div>
+<div class="line"><a name="l01062"></a><span class="lineno"> 1062</span>&#160;          if (k &lt; n) {</div>
+<div class="line"><a name="l01063"></a><span class="lineno"> 1063</span>&#160;            const GlobalElementSize origin_el(i_begin * dist.blockSize().rows(),</div>
+<div class="line"><a name="l01064"></a><span class="lineno"> 1064</span>&#160;                                              i_begin * dist.blockSize().cols());</div>
+<div class="line"><a name="l01065"></a><span class="lineno"> 1065</span>&#160;            const SizeType* i2_perm = i2_tile_arr[0].get().ptr();</div>
+<div class="line"><a name="l01066"></a><span class="lineno"> 1066</span>&#160; </div>
+<div class="line"><a name="l01067"></a><span class="lineno"> 1067</span>&#160;            for (SizeType i_subm_el = 0; i_subm_el &lt; n; ++i_subm_el) {</div>
+<div class="line"><a name="l01068"></a><span class="lineno"> 1068</span>&#160;              const SizeType j_subm_el = i2_perm[i_subm_el];</div>
+<div class="line"><a name="l01069"></a><span class="lineno"> 1069</span>&#160; </div>
+<div class="line"><a name="l01070"></a><span class="lineno"> 1070</span>&#160;              <span class="comment">// if it is a deflated vector</span></div>
+<div class="line"><a name="l01071"></a><span class="lineno"> 1071</span>&#160;              if (j_subm_el &gt;= k) {</div>
+<div class="line"><a name="l01072"></a><span class="lineno"> 1072</span>&#160;                const GlobalElementIndex ij_el(origin_el.rows() + i_subm_el,</div>
+<div class="line"><a name="l01073"></a><span class="lineno"> 1073</span>&#160;                                               origin_el.cols() + j_subm_el);</div>
+<div class="line"><a name="l01074"></a><span class="lineno"> 1074</span>&#160;                const GlobalTileIndex ij = dist.globalTileIndex(ij_el);</div>
+<div class="line"><a name="l01075"></a><span class="lineno"> 1075</span>&#160; </div>
+<div class="line"><a name="l01076"></a><span class="lineno"> 1076</span>&#160;                if (dist.rankIndex() == dist.rankGlobalTile(ij)) {</div>
+<div class="line"><a name="l01077"></a><span class="lineno"> 1077</span>&#160;                  const LocalTileIndex ij_lc = dist.localTileIndex(ij);</div>
+<div class="line"><a name="l01078"></a><span class="lineno"> 1078</span>&#160;                  const SizeType linear_subm_lc =</div>
+<div class="line"><a name="l01079"></a><span class="lineno"> 1079</span>&#160;                      (ij_lc.row() - ij_begin_lc.row()) +</div>
+<div class="line"><a name="l01080"></a><span class="lineno"> 1080</span>&#160;                      (ij_lc.col() - ij_begin_lc.col()) * sz_loc_tiles.rows();</div>
+<div class="line"><a name="l01081"></a><span class="lineno"> 1081</span>&#160;                  const TileElementIndex ij_el_tl = dist.tileElementIndex(ij_el);</div>
+<div class="line"><a name="l01082"></a><span class="lineno"> 1082</span>&#160;                  evec_tiles[to_sizet(linear_subm_lc)](ij_el_tl) = T{1};</div>
+<div class="line"><a name="l01083"></a><span class="lineno"> 1083</span>&#160;                }</div>
+<div class="line"><a name="l01084"></a><span class="lineno"> 1084</span>&#160;              }</div>
+<div class="line"><a name="l01085"></a><span class="lineno"> 1085</span>&#160;            }</div>
+<div class="line"><a name="l01086"></a><span class="lineno"> 1086</span>&#160;          }</div>
+<div class="line"><a name="l01087"></a><span class="lineno"> 1087</span>&#160;        }</div>
+<div class="line"><a name="l01088"></a><span class="lineno"> 1088</span>&#160; </div>
+<div class="line"><a name="l01089"></a><span class="lineno"> 1089</span>&#160;        <span class="comment">// STEP 0b: Initialize workspaces (single-thread)</span></div>
+<div class="line"><a name="l01090"></a><span class="lineno"> 1090</span>&#160;        if (thread_idx == 0) {</div>
+<div class="line"><a name="l01091"></a><span class="lineno"> 1091</span>&#160;          <span class="comment">// Note:</span></div>
+<div class="line"><a name="l01092"></a><span class="lineno"> 1092</span>&#160;          <span class="comment">// - nthreads are used for both LAED4 and weight calculation (one per worker thread)</span></div>
+<div class="line"><a name="l01093"></a><span class="lineno"> 1093</span>&#160;          <span class="comment">// - last one is used for reducing weights from all workers</span></div>
+<div class="line"><a name="l01094"></a><span class="lineno"> 1094</span>&#160;          ws_cols.reserve(nthreads + 1);</div>
+<div class="line"><a name="l01095"></a><span class="lineno"> 1095</span>&#160; </div>
+<div class="line"><a name="l01096"></a><span class="lineno"> 1096</span>&#160;          <span class="comment">// Note:</span></div>
+<div class="line"><a name="l01097"></a><span class="lineno"> 1097</span>&#160;          <span class="comment">// Considering that</span></div>
+<div class="line"><a name="l01098"></a><span class="lineno"> 1098</span>&#160;          <span class="comment">// - LAED4 requires working on k elements</span></div>
+<div class="line"><a name="l01099"></a><span class="lineno"> 1099</span>&#160;          <span class="comment">// - Weight computation requires working on m_subm_el_lc</span></div>
+<div class="line"><a name="l01100"></a><span class="lineno"> 1100</span>&#160;          <span class="comment">//</span></div>
+<div class="line"><a name="l01101"></a><span class="lineno"> 1101</span>&#160;          <span class="comment">// and they are needed at two steps that cannot happen in parallel, we opted for allocating</span></div>
+<div class="line"><a name="l01102"></a><span class="lineno"> 1102</span>&#160;          <span class="comment">// the workspace with the highest requirement of memory, and reuse them for both steps.</span></div>
+<div class="line"><a name="l01103"></a><span class="lineno"> 1103</span>&#160;          <span class="keyword">const</span> SizeType max_size = std::max(k, m_subm_el_lc);</div>
+<div class="line"><a name="l01104"></a><span class="lineno"> 1104</span>&#160;          <span class="keywordflow">for</span> (std::size_t i = 0; i &lt; nthreads; ++i)</div>
+<div class="line"><a name="l01105"></a><span class="lineno"> 1105</span>&#160;            ws_cols.emplace_back(max_size);</div>
+<div class="line"><a name="l01106"></a><span class="lineno"> 1106</span>&#160;          ws_cols.emplace_back(m_subm_el_lc);</div>
 <div class="line"><a name="l01107"></a><span class="lineno"> 1107</span>&#160; </div>
-<div class="line"><a name="l01108"></a><span class="lineno"> 1108</span>&#160;          T* eval_ptr = eval_tiles[0].ptr();</div>
-<div class="line"><a name="l01109"></a><span class="lineno"> 1109</span>&#160;          T* delta_ptr = ws_cols[thread_idx]();</div>
-<div class="line"><a name="l01110"></a><span class="lineno"> 1110</span>&#160; </div>
-<div class="line"><a name="l01111"></a><span class="lineno"> 1111</span>&#160;          <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
-<div class="line"><a name="l01112"></a><span class="lineno"> 1112</span>&#160;            <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
-<div class="line"><a name="l01113"></a><span class="lineno"> 1113</span>&#160;            <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
-<div class="line"><a name="l01114"></a><span class="lineno"> 1114</span>&#160;            <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
-<div class="line"><a name="l01115"></a><span class="lineno"> 1115</span>&#160; </div>
-<div class="line"><a name="l01116"></a><span class="lineno"> 1116</span>&#160;            <span class="comment">// Skip columns that are in the deflation zone</span></div>
-<div class="line"><a name="l01117"></a><span class="lineno"> 1117</span>&#160;            <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
-<div class="line"><a name="l01118"></a><span class="lineno"> 1118</span>&#160;              <span class="keywordflow">break</span>;</div>
-<div class="line"><a name="l01119"></a><span class="lineno"> 1119</span>&#160; </div>
-<div class="line"><a name="l01120"></a><span class="lineno"> 1120</span>&#160;            <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
-<div class="line"><a name="l01121"></a><span class="lineno"> 1121</span>&#160;            <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
-<div class="line"><a name="l01122"></a><span class="lineno"> 1122</span>&#160;              <span class="keyword">const</span> SizeType j_el = n_subm_el + j_el_tl;</div>
-<div class="line"><a name="l01123"></a><span class="lineno"> 1123</span>&#160; </div>
-<div class="line"><a name="l01124"></a><span class="lineno"> 1124</span>&#160;              <span class="comment">// Solve the deflated rank-1 problem</span></div>
-<div class="line"><a name="l01125"></a><span class="lineno"> 1125</span>&#160;              T&amp; eigenval = eval_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j_el)];</div>
-<div class="line"><a name="l01126"></a><span class="lineno"> 1126</span>&#160;              lapack::laed4(<a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(k), <a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(j_el), d_ptr, z_ptr, delta_ptr, rho, &amp;eigenval);</div>
-<div class="line"><a name="l01127"></a><span class="lineno"> 1127</span>&#160; </div>
-<div class="line"><a name="l01128"></a><span class="lineno"> 1128</span>&#160;              <span class="comment">// copy the parts from delta stored on this rank</span></div>
-<div class="line"><a name="l01129"></a><span class="lineno"> 1129</span>&#160;              <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
-<div class="line"><a name="l01130"></a><span class="lineno"> 1130</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc) * sz_loc_tiles.rows();</div>
-<div class="line"><a name="l01131"></a><span class="lineno"> 1131</span>&#160;                <span class="keyword">auto</span>&amp; evec_tile = evec_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)];</div>
-<div class="line"><a name="l01132"></a><span class="lineno"> 1132</span>&#160; </div>
-<div class="line"><a name="l01133"></a><span class="lineno"> 1133</span>&#160;                <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
-<div class="line"><a name="l01134"></a><span class="lineno"> 1134</span>&#160;                <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
-<div class="line"><a name="l01135"></a><span class="lineno"> 1135</span>&#160;                <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
-<div class="line"><a name="l01136"></a><span class="lineno"> 1136</span>&#160; </div>
-<div class="line"><a name="l01137"></a><span class="lineno"> 1137</span>&#160;                <span class="keyword">const</span> SizeType i_subm = i - i_begin;</div>
-<div class="line"><a name="l01138"></a><span class="lineno"> 1138</span>&#160;                <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_perm = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_subm)].get();</div>
-<div class="line"><a name="l01139"></a><span class="lineno"> 1139</span>&#160; </div>
-<div class="line"><a name="l01140"></a><span class="lineno"> 1140</span>&#160;                <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
-<div class="line"><a name="l01141"></a><span class="lineno"> 1141</span>&#160;                <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
-<div class="line"><a name="l01142"></a><span class="lineno"> 1142</span>&#160;                  <span class="keyword">const</span> SizeType jj_subm_el = i2_perm({i_el_tl, 0});</div>
-<div class="line"><a name="l01143"></a><span class="lineno"> 1143</span>&#160;                  <span class="keywordflow">if</span> (jj_subm_el &lt; k)</div>
-<div class="line"><a name="l01144"></a><span class="lineno"> 1144</span>&#160;                    evec_tile({i_el_tl, j_el_tl}) = delta_ptr[jj_subm_el];</div>
-<div class="line"><a name="l01145"></a><span class="lineno"> 1145</span>&#160;                }</div>
-<div class="line"><a name="l01146"></a><span class="lineno"> 1146</span>&#160;              }</div>
-<div class="line"><a name="l01147"></a><span class="lineno"> 1147</span>&#160;            }</div>
-<div class="line"><a name="l01148"></a><span class="lineno"> 1148</span>&#160;          }</div>
-<div class="line"><a name="l01149"></a><span class="lineno"> 1149</span>&#160;        }</div>
+<div class="line"><a name="l01108"></a><span class="lineno"> 1108</span>&#160;          ws_row = memory::MemoryView&lt;T, Device::CPU&gt;(n_subm_el_lc);</div>
+<div class="line"><a name="l01109"></a><span class="lineno"> 1109</span>&#160;          std::fill_n(ws_row(), n_subm_el_lc, 0);</div>
+<div class="line"><a name="l01110"></a><span class="lineno"> 1110</span>&#160;        }</div>
+<div class="line"><a name="l01111"></a><span class="lineno"> 1111</span>&#160; </div>
+<div class="line"><a name="l01112"></a><span class="lineno"> 1112</span>&#160;        <span class="comment">// Note: we have to wait that LAED4 workspaces are ready to be used</span></div>
+<div class="line"><a name="l01113"></a><span class="lineno"> 1113</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l01114"></a><span class="lineno"> 1114</span>&#160; </div>
+<div class="line"><a name="l01115"></a><span class="lineno"> 1115</span>&#160;        <span class="keyword">const</span> T* d_ptr = d_tiles_futs[0].get().ptr();</div>
+<div class="line"><a name="l01116"></a><span class="lineno"> 1116</span>&#160;        <span class="keyword">const</span> T* z_ptr = z_tiles[0].ptr();</div>
+<div class="line"><a name="l01117"></a><span class="lineno"> 1117</span>&#160; </div>
+<div class="line"><a name="l01118"></a><span class="lineno"> 1118</span>&#160;        <span class="comment">// STEP 1: LAED4 (multi-thread)</span></div>
+<div class="line"><a name="l01119"></a><span class="lineno"> 1119</span>&#160;        {</div>
+<div class="line"><a name="l01120"></a><span class="lineno"> 1120</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a name="l01121"></a><span class="lineno"> 1121</span>&#160; </div>
+<div class="line"><a name="l01122"></a><span class="lineno"> 1122</span>&#160;          T* eval_ptr = eval_tiles[0].ptr();</div>
+<div class="line"><a name="l01123"></a><span class="lineno"> 1123</span>&#160;          T* delta_ptr = ws_cols[thread_idx]();</div>
+<div class="line"><a name="l01124"></a><span class="lineno"> 1124</span>&#160; </div>
+<div class="line"><a name="l01125"></a><span class="lineno"> 1125</span>&#160;          <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
+<div class="line"><a name="l01126"></a><span class="lineno"> 1126</span>&#160;            <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
+<div class="line"><a name="l01127"></a><span class="lineno"> 1127</span>&#160;            <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
+<div class="line"><a name="l01128"></a><span class="lineno"> 1128</span>&#160;            <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
+<div class="line"><a name="l01129"></a><span class="lineno"> 1129</span>&#160; </div>
+<div class="line"><a name="l01130"></a><span class="lineno"> 1130</span>&#160;            <span class="comment">// Skip columns that are in the deflation zone</span></div>
+<div class="line"><a name="l01131"></a><span class="lineno"> 1131</span>&#160;            <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
+<div class="line"><a name="l01132"></a><span class="lineno"> 1132</span>&#160;              <span class="keywordflow">break</span>;</div>
+<div class="line"><a name="l01133"></a><span class="lineno"> 1133</span>&#160; </div>
+<div class="line"><a name="l01134"></a><span class="lineno"> 1134</span>&#160;            <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
+<div class="line"><a name="l01135"></a><span class="lineno"> 1135</span>&#160;            <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
+<div class="line"><a name="l01136"></a><span class="lineno"> 1136</span>&#160;              <span class="keyword">const</span> SizeType j_el = n_subm_el + j_el_tl;</div>
+<div class="line"><a name="l01137"></a><span class="lineno"> 1137</span>&#160; </div>
+<div class="line"><a name="l01138"></a><span class="lineno"> 1138</span>&#160;              <span class="comment">// Solve the deflated rank-1 problem</span></div>
+<div class="line"><a name="l01139"></a><span class="lineno"> 1139</span>&#160;              T&amp; eigenval = eval_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j_el)];</div>
+<div class="line"><a name="l01140"></a><span class="lineno"> 1140</span>&#160;              lapack::laed4(<a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(k), <a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(j_el), d_ptr, z_ptr, delta_ptr, rho, &amp;eigenval);</div>
+<div class="line"><a name="l01141"></a><span class="lineno"> 1141</span>&#160; </div>
+<div class="line"><a name="l01142"></a><span class="lineno"> 1142</span>&#160;              <span class="comment">// copy the parts from delta stored on this rank</span></div>
+<div class="line"><a name="l01143"></a><span class="lineno"> 1143</span>&#160;              <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
+<div class="line"><a name="l01144"></a><span class="lineno"> 1144</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc) * sz_loc_tiles.rows();</div>
+<div class="line"><a name="l01145"></a><span class="lineno"> 1145</span>&#160;                <span class="keyword">auto</span>&amp; evec_tile = evec_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)];</div>
+<div class="line"><a name="l01146"></a><span class="lineno"> 1146</span>&#160; </div>
+<div class="line"><a name="l01147"></a><span class="lineno"> 1147</span>&#160;                <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
+<div class="line"><a name="l01148"></a><span class="lineno"> 1148</span>&#160;                <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
+<div class="line"><a name="l01149"></a><span class="lineno"> 1149</span>&#160;                <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
 <div class="line"><a name="l01150"></a><span class="lineno"> 1150</span>&#160; </div>
-<div class="line"><a name="l01151"></a><span class="lineno"> 1151</span>&#160;        <span class="comment">// Note: This barrier ensures that LAED4 finished, so from now on values are available</span></div>
-<div class="line"><a name="l01152"></a><span class="lineno"> 1152</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l01151"></a><span class="lineno"> 1151</span>&#160;                <span class="keyword">const</span> SizeType i_subm = i - i_begin;</div>
+<div class="line"><a name="l01152"></a><span class="lineno"> 1152</span>&#160;                <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_perm = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_subm)].get();</div>
 <div class="line"><a name="l01153"></a><span class="lineno"> 1153</span>&#160; </div>
-<div class="line"><a name="l01154"></a><span class="lineno"> 1154</span>&#160;        <span class="comment">// STEP 2: Broadcast evals</span></div>
-<div class="line"><a name="l01155"></a><span class="lineno"> 1155</span>&#160; </div>
-<div class="line"><a name="l01156"></a><span class="lineno"> 1156</span>&#160;        <span class="comment">// Note: this ensures that evals broadcasting finishes before bulk releases resources</span></div>
-<div class="line"><a name="l01157"></a><span class="lineno"> 1157</span>&#160;        <span class="keyword">struct </span>sync_wait_on_exit_t {</div>
-<div class="line"><a name="l01158"></a><span class="lineno"> 1158</span>&#160;          ex::unique_any_sender&lt;&gt; sender_;</div>
-<div class="line"><a name="l01159"></a><span class="lineno"> 1159</span>&#160; </div>
-<div class="line"><a name="l01160"></a><span class="lineno"> 1160</span>&#160;          ~sync_wait_on_exit_t() {</div>
-<div class="line"><a name="l01161"></a><span class="lineno"> 1161</span>&#160;            <span class="keywordflow">if</span> (sender_)</div>
-<div class="line"><a name="l01162"></a><span class="lineno"> 1162</span>&#160;              tt::sync_wait(std::move(sender_));</div>
-<div class="line"><a name="l01163"></a><span class="lineno"> 1163</span>&#160;          }</div>
-<div class="line"><a name="l01164"></a><span class="lineno"> 1164</span>&#160;        } bcast_barrier;</div>
-<div class="line"><a name="l01165"></a><span class="lineno"> 1165</span>&#160; </div>
-<div class="line"><a name="l01166"></a><span class="lineno"> 1166</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0)</div>
-<div class="line"><a name="l01167"></a><span class="lineno"> 1167</span>&#160;          bcast_barrier.sender_ = bcast_evals(row_comm_chain, eval_tiles);</div>
-<div class="line"><a name="l01168"></a><span class="lineno"> 1168</span>&#160; </div>
-<div class="line"><a name="l01169"></a><span class="lineno"> 1169</span>&#160;        <span class="comment">// Note: laed4 handles k &lt;= 2 cases differently</span></div>
-<div class="line"><a name="l01170"></a><span class="lineno"> 1170</span>&#160;        <span class="keywordflow">if</span> (k &lt;= 2)</div>
-<div class="line"><a name="l01171"></a><span class="lineno"> 1171</span>&#160;          <span class="keywordflow">return</span>;</div>
-<div class="line"><a name="l01172"></a><span class="lineno"> 1172</span>&#160; </div>
-<div class="line"><a name="l01173"></a><span class="lineno"> 1173</span>&#160;        <span class="comment">// STEP 2 Compute weights (multi-thread)</span></div>
-<div class="line"><a name="l01174"></a><span class="lineno"> 1174</span>&#160;        <span class="keyword">auto</span>&amp; q = evec_tiles;</div>
-<div class="line"><a name="l01175"></a><span class="lineno"> 1175</span>&#160;        T* w = ws_cols[thread_idx]();</div>
-<div class="line"><a name="l01176"></a><span class="lineno"> 1176</span>&#160; </div>
-<div class="line"><a name="l01177"></a><span class="lineno"> 1177</span>&#160;        <span class="comment">// STEP 2a: copy diagonal from q -&gt; w (or just initialize with 1)</span></div>
-<div class="line"><a name="l01178"></a><span class="lineno"> 1178</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
-<div class="line"><a name="l01179"></a><span class="lineno"> 1179</span>&#160;          <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
-<div class="line"><a name="l01180"></a><span class="lineno"> 1180</span>&#160;            <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
-<div class="line"><a name="l01181"></a><span class="lineno"> 1181</span>&#160;            <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
-<div class="line"><a name="l01182"></a><span class="lineno"> 1182</span>&#160;            <span class="keyword">const</span> SizeType i_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
-<div class="line"><a name="l01183"></a><span class="lineno"> 1183</span>&#160;            <span class="keyword">const</span> SizeType m_subm_el_lc =</div>
-<div class="line"><a name="l01184"></a><span class="lineno"> 1184</span>&#160;                dist.localElementDistanceFromLocalTile&lt;Coord::Row&gt;(ij_begin_lc.row(), i_lc);</div>
-<div class="line"><a name="l01185"></a><span class="lineno"> 1185</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2 = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i - i_begin)].get();</div>
+<div class="line"><a name="l01154"></a><span class="lineno"> 1154</span>&#160;                <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
+<div class="line"><a name="l01155"></a><span class="lineno"> 1155</span>&#160;                <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
+<div class="line"><a name="l01156"></a><span class="lineno"> 1156</span>&#160;                  <span class="keyword">const</span> SizeType jj_subm_el = i2_perm({i_el_tl, 0});</div>
+<div class="line"><a name="l01157"></a><span class="lineno"> 1157</span>&#160;                  <span class="keywordflow">if</span> (jj_subm_el &lt; k)</div>
+<div class="line"><a name="l01158"></a><span class="lineno"> 1158</span>&#160;                    evec_tile({i_el_tl, j_el_tl}) = delta_ptr[jj_subm_el];</div>
+<div class="line"><a name="l01159"></a><span class="lineno"> 1159</span>&#160;                }</div>
+<div class="line"><a name="l01160"></a><span class="lineno"> 1160</span>&#160;              }</div>
+<div class="line"><a name="l01161"></a><span class="lineno"> 1161</span>&#160;            }</div>
+<div class="line"><a name="l01162"></a><span class="lineno"> 1162</span>&#160;          }</div>
+<div class="line"><a name="l01163"></a><span class="lineno"> 1163</span>&#160;        }</div>
+<div class="line"><a name="l01164"></a><span class="lineno"> 1164</span>&#160; </div>
+<div class="line"><a name="l01165"></a><span class="lineno"> 1165</span>&#160;        <span class="comment">// Note: This barrier ensures that LAED4 finished, so from now on values are available</span></div>
+<div class="line"><a name="l01166"></a><span class="lineno"> 1166</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l01167"></a><span class="lineno"> 1167</span>&#160; </div>
+<div class="line"><a name="l01168"></a><span class="lineno"> 1168</span>&#160;        <span class="comment">// STEP 2: Broadcast evals</span></div>
+<div class="line"><a name="l01169"></a><span class="lineno"> 1169</span>&#160; </div>
+<div class="line"><a name="l01170"></a><span class="lineno"> 1170</span>&#160;        <span class="comment">// Note: this ensures that evals broadcasting finishes before bulk releases resources</span></div>
+<div class="line"><a name="l01171"></a><span class="lineno"> 1171</span>&#160;        <span class="keyword">struct </span>sync_wait_on_exit_t {</div>
+<div class="line"><a name="l01172"></a><span class="lineno"> 1172</span>&#160;          ex::unique_any_sender&lt;&gt; sender_;</div>
+<div class="line"><a name="l01173"></a><span class="lineno"> 1173</span>&#160; </div>
+<div class="line"><a name="l01174"></a><span class="lineno"> 1174</span>&#160;          ~sync_wait_on_exit_t() {</div>
+<div class="line"><a name="l01175"></a><span class="lineno"> 1175</span>&#160;            <span class="keywordflow">if</span> (sender_)</div>
+<div class="line"><a name="l01176"></a><span class="lineno"> 1176</span>&#160;              tt::sync_wait(std::move(sender_));</div>
+<div class="line"><a name="l01177"></a><span class="lineno"> 1177</span>&#160;          }</div>
+<div class="line"><a name="l01178"></a><span class="lineno"> 1178</span>&#160;        } bcast_barrier;</div>
+<div class="line"><a name="l01179"></a><span class="lineno"> 1179</span>&#160; </div>
+<div class="line"><a name="l01180"></a><span class="lineno"> 1180</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0)</div>
+<div class="line"><a name="l01181"></a><span class="lineno"> 1181</span>&#160;          bcast_barrier.sender_ = bcast_evals(row_comm_chain, eval_tiles);</div>
+<div class="line"><a name="l01182"></a><span class="lineno"> 1182</span>&#160; </div>
+<div class="line"><a name="l01183"></a><span class="lineno"> 1183</span>&#160;        <span class="comment">// Note: laed4 handles k &lt;= 2 cases differently</span></div>
+<div class="line"><a name="l01184"></a><span class="lineno"> 1184</span>&#160;        <span class="keywordflow">if</span> (k &lt;= 2)</div>
+<div class="line"><a name="l01185"></a><span class="lineno"> 1185</span>&#160;          <span class="keywordflow">return</span>;</div>
 <div class="line"><a name="l01186"></a><span class="lineno"> 1186</span>&#160; </div>
-<div class="line"><a name="l01187"></a><span class="lineno"> 1187</span>&#160;            <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - i_subm_el);</div>
-<div class="line"><a name="l01188"></a><span class="lineno"> 1188</span>&#160;            <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
-<div class="line"><a name="l01189"></a><span class="lineno"> 1189</span>&#160;              <span class="keyword">const</span> SizeType i_subm_el_lc = m_subm_el_lc + i_el_tl;</div>
+<div class="line"><a name="l01187"></a><span class="lineno"> 1187</span>&#160;        <span class="comment">// STEP 2 Compute weights (multi-thread)</span></div>
+<div class="line"><a name="l01188"></a><span class="lineno"> 1188</span>&#160;        <span class="keyword">auto</span>&amp; q = evec_tiles;</div>
+<div class="line"><a name="l01189"></a><span class="lineno"> 1189</span>&#160;        T* w = ws_cols[thread_idx]();</div>
 <div class="line"><a name="l01190"></a><span class="lineno"> 1190</span>&#160; </div>
-<div class="line"><a name="l01191"></a><span class="lineno"> 1191</span>&#160;              <span class="keyword">const</span> SizeType jj_subm_el = i2({i_el_tl, 0});</div>
-<div class="line"><a name="l01192"></a><span class="lineno"> 1192</span>&#160;              <span class="keyword">const</span> SizeType n_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(0, i_begin);</div>
-<div class="line"><a name="l01193"></a><span class="lineno"> 1193</span>&#160;              <span class="keyword">const</span> SizeType jj_el = n_el + jj_subm_el;</div>
-<div class="line"><a name="l01194"></a><span class="lineno"> 1194</span>&#160;              <span class="keyword">const</span> SizeType jj = dist.globalTileFromGlobalElement&lt;Coord::Col&gt;(jj_el);</div>
-<div class="line"><a name="l01195"></a><span class="lineno"> 1195</span>&#160; </div>
-<div class="line"><a name="l01196"></a><span class="lineno"> 1196</span>&#160;              <span class="keywordflow">if</span> (dist.rankGlobalTile&lt;Coord::Col&gt;(jj) == dist.rankIndex().col()) {</div>
-<div class="line"><a name="l01197"></a><span class="lineno"> 1197</span>&#160;                <span class="keyword">const</span> SizeType jj_lc = dist.localTileFromGlobalTile&lt;Coord::Col&gt;(jj);</div>
-<div class="line"><a name="l01198"></a><span class="lineno"> 1198</span>&#160;                <span class="keyword">const</span> SizeType jj_subm_lc = jj_lc - ij_begin_lc.col();</div>
-<div class="line"><a name="l01199"></a><span class="lineno"> 1199</span>&#160;                <span class="keyword">const</span> SizeType jj_el_tl = dist.tileElementFromGlobalElement&lt;Coord::Col&gt;(jj_el);</div>
+<div class="line"><a name="l01191"></a><span class="lineno"> 1191</span>&#160;        <span class="comment">// STEP 2a: copy diagonal from q -&gt; w (or just initialize with 1)</span></div>
+<div class="line"><a name="l01192"></a><span class="lineno"> 1192</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
+<div class="line"><a name="l01193"></a><span class="lineno"> 1193</span>&#160;          <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
+<div class="line"><a name="l01194"></a><span class="lineno"> 1194</span>&#160;            <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
+<div class="line"><a name="l01195"></a><span class="lineno"> 1195</span>&#160;            <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
+<div class="line"><a name="l01196"></a><span class="lineno"> 1196</span>&#160;            <span class="keyword">const</span> SizeType i_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
+<div class="line"><a name="l01197"></a><span class="lineno"> 1197</span>&#160;            <span class="keyword">const</span> SizeType m_subm_el_lc =</div>
+<div class="line"><a name="l01198"></a><span class="lineno"> 1198</span>&#160;                dist.localElementDistanceFromLocalTile&lt;Coord::Row&gt;(ij_begin_lc.row(), i_lc);</div>
+<div class="line"><a name="l01199"></a><span class="lineno"> 1199</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2 = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i - i_begin)].get();</div>
 <div class="line"><a name="l01200"></a><span class="lineno"> 1200</span>&#160; </div>
-<div class="line"><a name="l01201"></a><span class="lineno"> 1201</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * jj_subm_lc;</div>
-<div class="line"><a name="l01202"></a><span class="lineno"> 1202</span>&#160; </div>
-<div class="line"><a name="l01203"></a><span class="lineno"> 1203</span>&#160;                w[i_subm_el_lc] = q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)]({i_el_tl, jj_el_tl});</div>
-<div class="line"><a name="l01204"></a><span class="lineno"> 1204</span>&#160;              }</div>
-<div class="line"><a name="l01205"></a><span class="lineno"> 1205</span>&#160;              <span class="keywordflow">else</span> {</div>
-<div class="line"><a name="l01206"></a><span class="lineno"> 1206</span>&#160;                w[i_subm_el_lc] = T(1);</div>
-<div class="line"><a name="l01207"></a><span class="lineno"> 1207</span>&#160;              }</div>
-<div class="line"><a name="l01208"></a><span class="lineno"> 1208</span>&#160;            }</div>
-<div class="line"><a name="l01209"></a><span class="lineno"> 1209</span>&#160;          }</div>
-<div class="line"><a name="l01210"></a><span class="lineno"> 1210</span>&#160;        }</div>
-<div class="line"><a name="l01211"></a><span class="lineno"> 1211</span>&#160;        <span class="keywordflow">else</span> {  <span class="comment">// other workers</span></div>
-<div class="line"><a name="l01212"></a><span class="lineno"> 1212</span>&#160;          std::fill_n(w, m_subm_el_lc, T(1));</div>
-<div class="line"><a name="l01213"></a><span class="lineno"> 1213</span>&#160;        }</div>
+<div class="line"><a name="l01201"></a><span class="lineno"> 1201</span>&#160;            <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - i_subm_el);</div>
+<div class="line"><a name="l01202"></a><span class="lineno"> 1202</span>&#160;            <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
+<div class="line"><a name="l01203"></a><span class="lineno"> 1203</span>&#160;              <span class="keyword">const</span> SizeType i_subm_el_lc = m_subm_el_lc + i_el_tl;</div>
+<div class="line"><a name="l01204"></a><span class="lineno"> 1204</span>&#160; </div>
+<div class="line"><a name="l01205"></a><span class="lineno"> 1205</span>&#160;              <span class="keyword">const</span> SizeType jj_subm_el = i2({i_el_tl, 0});</div>
+<div class="line"><a name="l01206"></a><span class="lineno"> 1206</span>&#160;              <span class="keyword">const</span> SizeType n_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(0, i_begin);</div>
+<div class="line"><a name="l01207"></a><span class="lineno"> 1207</span>&#160;              <span class="keyword">const</span> SizeType jj_el = n_el + jj_subm_el;</div>
+<div class="line"><a name="l01208"></a><span class="lineno"> 1208</span>&#160;              <span class="keyword">const</span> SizeType jj = dist.globalTileFromGlobalElement&lt;Coord::Col&gt;(jj_el);</div>
+<div class="line"><a name="l01209"></a><span class="lineno"> 1209</span>&#160; </div>
+<div class="line"><a name="l01210"></a><span class="lineno"> 1210</span>&#160;              <span class="keywordflow">if</span> (dist.rankGlobalTile&lt;Coord::Col&gt;(jj) == dist.rankIndex().col()) {</div>
+<div class="line"><a name="l01211"></a><span class="lineno"> 1211</span>&#160;                <span class="keyword">const</span> SizeType jj_lc = dist.localTileFromGlobalTile&lt;Coord::Col&gt;(jj);</div>
+<div class="line"><a name="l01212"></a><span class="lineno"> 1212</span>&#160;                <span class="keyword">const</span> SizeType jj_subm_lc = jj_lc - ij_begin_lc.col();</div>
+<div class="line"><a name="l01213"></a><span class="lineno"> 1213</span>&#160;                <span class="keyword">const</span> SizeType jj_el_tl = dist.tileElementFromGlobalElement&lt;Coord::Col&gt;(jj_el);</div>
 <div class="line"><a name="l01214"></a><span class="lineno"> 1214</span>&#160; </div>
-<div class="line"><a name="l01215"></a><span class="lineno"> 1215</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l01215"></a><span class="lineno"> 1215</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * jj_subm_lc;</div>
 <div class="line"><a name="l01216"></a><span class="lineno"> 1216</span>&#160; </div>
-<div class="line"><a name="l01217"></a><span class="lineno"> 1217</span>&#160;        <span class="comment">// STEP 2b: compute weights</span></div>
-<div class="line"><a name="l01218"></a><span class="lineno"> 1218</span>&#160;        <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
-<div class="line"><a name="l01219"></a><span class="lineno"> 1219</span>&#160;          <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
-<div class="line"><a name="l01220"></a><span class="lineno"> 1220</span>&#160;          <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
-<div class="line"><a name="l01221"></a><span class="lineno"> 1221</span>&#160;          <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
-<div class="line"><a name="l01222"></a><span class="lineno"> 1222</span>&#160; </div>
-<div class="line"><a name="l01223"></a><span class="lineno"> 1223</span>&#160;          <span class="comment">// Skip columns that are in the deflation zone</span></div>
-<div class="line"><a name="l01224"></a><span class="lineno"> 1224</span>&#160;          <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
-<div class="line"><a name="l01225"></a><span class="lineno"> 1225</span>&#160;            <span class="keywordflow">break</span>;</div>
-<div class="line"><a name="l01226"></a><span class="lineno"> 1226</span>&#160; </div>
-<div class="line"><a name="l01227"></a><span class="lineno"> 1227</span>&#160;          <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
-<div class="line"><a name="l01228"></a><span class="lineno"> 1228</span>&#160;          <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
-<div class="line"><a name="l01229"></a><span class="lineno"> 1229</span>&#160;            <span class="keyword">const</span> SizeType j_subm_el = n_subm_el + j_el_tl;</div>
-<div class="line"><a name="l01230"></a><span class="lineno"> 1230</span>&#160;            <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
-<div class="line"><a name="l01231"></a><span class="lineno"> 1231</span>&#160;              <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
-<div class="line"><a name="l01232"></a><span class="lineno"> 1232</span>&#160;              <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
-<div class="line"><a name="l01233"></a><span class="lineno"> 1233</span>&#160;              <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
-<div class="line"><a name="l01234"></a><span class="lineno"> 1234</span>&#160; </div>
-<div class="line"><a name="l01235"></a><span class="lineno"> 1235</span>&#160;              <span class="keyword">auto</span>&amp; i2_perm = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i - i_begin)].get();</div>
+<div class="line"><a name="l01217"></a><span class="lineno"> 1217</span>&#160;                w[i_subm_el_lc] = q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)]({i_el_tl, jj_el_tl});</div>
+<div class="line"><a name="l01218"></a><span class="lineno"> 1218</span>&#160;              }</div>
+<div class="line"><a name="l01219"></a><span class="lineno"> 1219</span>&#160;              <span class="keywordflow">else</span> {</div>
+<div class="line"><a name="l01220"></a><span class="lineno"> 1220</span>&#160;                w[i_subm_el_lc] = T(1);</div>
+<div class="line"><a name="l01221"></a><span class="lineno"> 1221</span>&#160;              }</div>
+<div class="line"><a name="l01222"></a><span class="lineno"> 1222</span>&#160;            }</div>
+<div class="line"><a name="l01223"></a><span class="lineno"> 1223</span>&#160;          }</div>
+<div class="line"><a name="l01224"></a><span class="lineno"> 1224</span>&#160;        }</div>
+<div class="line"><a name="l01225"></a><span class="lineno"> 1225</span>&#160;        <span class="keywordflow">else</span> {  <span class="comment">// other workers</span></div>
+<div class="line"><a name="l01226"></a><span class="lineno"> 1226</span>&#160;          std::fill_n(w, m_subm_el_lc, T(1));</div>
+<div class="line"><a name="l01227"></a><span class="lineno"> 1227</span>&#160;        }</div>
+<div class="line"><a name="l01228"></a><span class="lineno"> 1228</span>&#160; </div>
+<div class="line"><a name="l01229"></a><span class="lineno"> 1229</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l01230"></a><span class="lineno"> 1230</span>&#160; </div>
+<div class="line"><a name="l01231"></a><span class="lineno"> 1231</span>&#160;        <span class="comment">// STEP 2b: compute weights</span></div>
+<div class="line"><a name="l01232"></a><span class="lineno"> 1232</span>&#160;        <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
+<div class="line"><a name="l01233"></a><span class="lineno"> 1233</span>&#160;          <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
+<div class="line"><a name="l01234"></a><span class="lineno"> 1234</span>&#160;          <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
+<div class="line"><a name="l01235"></a><span class="lineno"> 1235</span>&#160;          <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
 <div class="line"><a name="l01236"></a><span class="lineno"> 1236</span>&#160; </div>
-<div class="line"><a name="l01237"></a><span class="lineno"> 1237</span>&#160;              <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
-<div class="line"><a name="l01238"></a><span class="lineno"> 1238</span>&#160;              <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
-<div class="line"><a name="l01239"></a><span class="lineno"> 1239</span>&#160;                <span class="keyword">const</span> SizeType ii_subm_el = i2_perm({i_el_tl, 0});</div>
+<div class="line"><a name="l01237"></a><span class="lineno"> 1237</span>&#160;          <span class="comment">// Skip columns that are in the deflation zone</span></div>
+<div class="line"><a name="l01238"></a><span class="lineno"> 1238</span>&#160;          <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
+<div class="line"><a name="l01239"></a><span class="lineno"> 1239</span>&#160;            <span class="keywordflow">break</span>;</div>
 <div class="line"><a name="l01240"></a><span class="lineno"> 1240</span>&#160; </div>
-<div class="line"><a name="l01241"></a><span class="lineno"> 1241</span>&#160;                <span class="comment">// deflated zone</span></div>
-<div class="line"><a name="l01242"></a><span class="lineno"> 1242</span>&#160;                <span class="keywordflow">if</span> (ii_subm_el &gt;= k)</div>
-<div class="line"><a name="l01243"></a><span class="lineno"> 1243</span>&#160;                  <span class="keywordflow">continue</span>;</div>
-<div class="line"><a name="l01244"></a><span class="lineno"> 1244</span>&#160; </div>
-<div class="line"><a name="l01245"></a><span class="lineno"> 1245</span>&#160;                <span class="comment">// diagonal</span></div>
-<div class="line"><a name="l01246"></a><span class="lineno"> 1246</span>&#160;                <span class="keywordflow">if</span> (ii_subm_el == j_subm_el)</div>
-<div class="line"><a name="l01247"></a><span class="lineno"> 1247</span>&#160;                  <span class="keywordflow">continue</span>;</div>
+<div class="line"><a name="l01241"></a><span class="lineno"> 1241</span>&#160;          <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
+<div class="line"><a name="l01242"></a><span class="lineno"> 1242</span>&#160;          <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
+<div class="line"><a name="l01243"></a><span class="lineno"> 1243</span>&#160;            <span class="keyword">const</span> SizeType j_subm_el = n_subm_el + j_el_tl;</div>
+<div class="line"><a name="l01244"></a><span class="lineno"> 1244</span>&#160;            <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
+<div class="line"><a name="l01245"></a><span class="lineno"> 1245</span>&#160;              <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
+<div class="line"><a name="l01246"></a><span class="lineno"> 1246</span>&#160;              <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
+<div class="line"><a name="l01247"></a><span class="lineno"> 1247</span>&#160;              <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
 <div class="line"><a name="l01248"></a><span class="lineno"> 1248</span>&#160; </div>
-<div class="line"><a name="l01249"></a><span class="lineno"> 1249</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * j_subm_lc;</div>
-<div class="line"><a name="l01250"></a><span class="lineno"> 1250</span>&#160;                <span class="keyword">const</span> SizeType i_subm_el_lc = i_subm_lc * dist.blockSize().rows() + i_el_tl;</div>
-<div class="line"><a name="l01251"></a><span class="lineno"> 1251</span>&#160; </div>
-<div class="line"><a name="l01252"></a><span class="lineno"> 1252</span>&#160;                w[i_subm_el_lc] *= q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)]({i_el_tl, j_el_tl}) /</div>
-<div class="line"><a name="l01253"></a><span class="lineno"> 1253</span>&#160;                                   (d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(ii_subm_el)] - d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j_subm_el)]);</div>
-<div class="line"><a name="l01254"></a><span class="lineno"> 1254</span>&#160;              }</div>
-<div class="line"><a name="l01255"></a><span class="lineno"> 1255</span>&#160;            }</div>
-<div class="line"><a name="l01256"></a><span class="lineno"> 1256</span>&#160;          }</div>
-<div class="line"><a name="l01257"></a><span class="lineno"> 1257</span>&#160;        }</div>
+<div class="line"><a name="l01249"></a><span class="lineno"> 1249</span>&#160;              <span class="keyword">auto</span>&amp; i2_perm = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i - i_begin)].get();</div>
+<div class="line"><a name="l01250"></a><span class="lineno"> 1250</span>&#160; </div>
+<div class="line"><a name="l01251"></a><span class="lineno"> 1251</span>&#160;              <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
+<div class="line"><a name="l01252"></a><span class="lineno"> 1252</span>&#160;              <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
+<div class="line"><a name="l01253"></a><span class="lineno"> 1253</span>&#160;                <span class="keyword">const</span> SizeType ii_subm_el = i2_perm({i_el_tl, 0});</div>
+<div class="line"><a name="l01254"></a><span class="lineno"> 1254</span>&#160; </div>
+<div class="line"><a name="l01255"></a><span class="lineno"> 1255</span>&#160;                <span class="comment">// deflated zone</span></div>
+<div class="line"><a name="l01256"></a><span class="lineno"> 1256</span>&#160;                <span class="keywordflow">if</span> (ii_subm_el &gt;= k)</div>
+<div class="line"><a name="l01257"></a><span class="lineno"> 1257</span>&#160;                  <span class="keywordflow">continue</span>;</div>
 <div class="line"><a name="l01258"></a><span class="lineno"> 1258</span>&#160; </div>
-<div class="line"><a name="l01259"></a><span class="lineno"> 1259</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l01260"></a><span class="lineno"> 1260</span>&#160; </div>
-<div class="line"><a name="l01261"></a><span class="lineno"> 1261</span>&#160;        <span class="comment">// STEP 2c: reduce, then finalize computation with sign and square root (single-thread)</span></div>
-<div class="line"><a name="l01262"></a><span class="lineno"> 1262</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
-<div class="line"><a name="l01263"></a><span class="lineno"> 1263</span>&#160;          <span class="comment">// local reduction from all bulk workers</span></div>
-<div class="line"><a name="l01264"></a><span class="lineno"> 1264</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; m_subm_el_lc; ++i) {</div>
-<div class="line"><a name="l01265"></a><span class="lineno"> 1265</span>&#160;            <span class="keywordflow">for</span> (std::size_t tidx = 1; tidx &lt; nthreads; ++tidx) {</div>
-<div class="line"><a name="l01266"></a><span class="lineno"> 1266</span>&#160;              <span class="keyword">const</span> T* w_partial = ws_cols[tidx]();</div>
-<div class="line"><a name="l01267"></a><span class="lineno"> 1267</span>&#160;              w[i] *= w_partial[i];</div>
-<div class="line"><a name="l01268"></a><span class="lineno"> 1268</span>&#160;            }</div>
-<div class="line"><a name="l01269"></a><span class="lineno"> 1269</span>&#160;          }</div>
-<div class="line"><a name="l01270"></a><span class="lineno"> 1270</span>&#160; </div>
-<div class="line"><a name="l01271"></a><span class="lineno"> 1271</span>&#160;          tt::sync_wait(ex::when_all(row_comm_chain(),</div>
-<div class="line"><a name="l01272"></a><span class="lineno"> 1272</span>&#160;                                     ex::just(MPI_PROD, common::make_data(w, m_subm_el_lc))) |</div>
-<div class="line"><a name="l01273"></a><span class="lineno"> 1273</span>&#160;                        transformMPI(all_reduce_in_place));</div>
+<div class="line"><a name="l01259"></a><span class="lineno"> 1259</span>&#160;                <span class="comment">// diagonal</span></div>
+<div class="line"><a name="l01260"></a><span class="lineno"> 1260</span>&#160;                <span class="keywordflow">if</span> (ii_subm_el == j_subm_el)</div>
+<div class="line"><a name="l01261"></a><span class="lineno"> 1261</span>&#160;                  <span class="keywordflow">continue</span>;</div>
+<div class="line"><a name="l01262"></a><span class="lineno"> 1262</span>&#160; </div>
+<div class="line"><a name="l01263"></a><span class="lineno"> 1263</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * j_subm_lc;</div>
+<div class="line"><a name="l01264"></a><span class="lineno"> 1264</span>&#160;                <span class="keyword">const</span> SizeType i_subm_el_lc = i_subm_lc * dist.blockSize().rows() + i_el_tl;</div>
+<div class="line"><a name="l01265"></a><span class="lineno"> 1265</span>&#160; </div>
+<div class="line"><a name="l01266"></a><span class="lineno"> 1266</span>&#160;                w[i_subm_el_lc] *= q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)]({i_el_tl, j_el_tl}) /</div>
+<div class="line"><a name="l01267"></a><span class="lineno"> 1267</span>&#160;                                   (d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(ii_subm_el)] - d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j_subm_el)]);</div>
+<div class="line"><a name="l01268"></a><span class="lineno"> 1268</span>&#160;              }</div>
+<div class="line"><a name="l01269"></a><span class="lineno"> 1269</span>&#160;            }</div>
+<div class="line"><a name="l01270"></a><span class="lineno"> 1270</span>&#160;          }</div>
+<div class="line"><a name="l01271"></a><span class="lineno"> 1271</span>&#160;        }</div>
+<div class="line"><a name="l01272"></a><span class="lineno"> 1272</span>&#160; </div>
+<div class="line"><a name="l01273"></a><span class="lineno"> 1273</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
 <div class="line"><a name="l01274"></a><span class="lineno"> 1274</span>&#160; </div>
-<div class="line"><a name="l01275"></a><span class="lineno"> 1275</span>&#160;          T* weights = ws_cols[nthreads]();</div>
-<div class="line"><a name="l01276"></a><span class="lineno"> 1276</span>&#160;          <span class="keywordflow">for</span> (SizeType i_subm_el_lc = 0; i_subm_el_lc &lt; m_subm_el_lc; ++i_subm_el_lc) {</div>
-<div class="line"><a name="l01277"></a><span class="lineno"> 1277</span>&#160;            <span class="keyword">const</span> SizeType i_subm_lc = i_subm_el_lc / dist.blockSize().rows();</div>
-<div class="line"><a name="l01278"></a><span class="lineno"> 1278</span>&#160;            <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
-<div class="line"><a name="l01279"></a><span class="lineno"> 1279</span>&#160;            <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
-<div class="line"><a name="l01280"></a><span class="lineno"> 1280</span>&#160;            <span class="keyword">const</span> SizeType i_subm = i - i_begin;</div>
-<div class="line"><a name="l01281"></a><span class="lineno"> 1281</span>&#160;            <span class="keyword">const</span> SizeType i_subm_el =</div>
-<div class="line"><a name="l01282"></a><span class="lineno"> 1282</span>&#160;                i_subm * dist.blockSize().rows() + i_subm_el_lc % dist.blockSize().rows();</div>
-<div class="line"><a name="l01283"></a><span class="lineno"> 1283</span>&#160; </div>
-<div class="line"><a name="l01284"></a><span class="lineno"> 1284</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span>* i2_perm = i2_tile_arr[0].get().ptr();</div>
-<div class="line"><a name="l01285"></a><span class="lineno"> 1285</span>&#160;            <span class="keyword">const</span> SizeType ii_subm_el = i2_perm[i_subm_el];</div>
-<div class="line"><a name="l01286"></a><span class="lineno"> 1286</span>&#160;            weights[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_subm_el_lc)] =</div>
-<div class="line"><a name="l01287"></a><span class="lineno"> 1287</span>&#160;                std::copysign(std::sqrt(-w[i_subm_el_lc]), z_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(ii_subm_el)]);</div>
-<div class="line"><a name="l01288"></a><span class="lineno"> 1288</span>&#160;          }</div>
-<div class="line"><a name="l01289"></a><span class="lineno"> 1289</span>&#160;        }</div>
-<div class="line"><a name="l01290"></a><span class="lineno"> 1290</span>&#160; </div>
-<div class="line"><a name="l01291"></a><span class="lineno"> 1291</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l01292"></a><span class="lineno"> 1292</span>&#160; </div>
-<div class="line"><a name="l01293"></a><span class="lineno"> 1293</span>&#160;        <span class="comment">// STEP 3: Compute eigenvectors of the modified rank-1 modification (normalize) (multi-thread)</span></div>
-<div class="line"><a name="l01294"></a><span class="lineno"> 1294</span>&#160; </div>
-<div class="line"><a name="l01295"></a><span class="lineno"> 1295</span>&#160;        <span class="comment">// STEP 3a: Form evecs using weights vector and compute (local) sum of squares</span></div>
-<div class="line"><a name="l01296"></a><span class="lineno"> 1296</span>&#160;        {</div>
-<div class="line"><a name="l01297"></a><span class="lineno"> 1297</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a name="l01298"></a><span class="lineno"> 1298</span>&#160; </div>
-<div class="line"><a name="l01299"></a><span class="lineno"> 1299</span>&#160;          <span class="keyword">const</span> T* w = ws_cols[nthreads]();</div>
-<div class="line"><a name="l01300"></a><span class="lineno"> 1300</span>&#160;          T* sum_squares = ws_row();</div>
-<div class="line"><a name="l01301"></a><span class="lineno"> 1301</span>&#160; </div>
-<div class="line"><a name="l01302"></a><span class="lineno"> 1302</span>&#160;          <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
-<div class="line"><a name="l01303"></a><span class="lineno"> 1303</span>&#160;            <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
-<div class="line"><a name="l01304"></a><span class="lineno"> 1304</span>&#160;            <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
-<div class="line"><a name="l01305"></a><span class="lineno"> 1305</span>&#160;            <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
+<div class="line"><a name="l01275"></a><span class="lineno"> 1275</span>&#160;        <span class="comment">// STEP 2c: reduce, then finalize computation with sign and square root (single-thread)</span></div>
+<div class="line"><a name="l01276"></a><span class="lineno"> 1276</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
+<div class="line"><a name="l01277"></a><span class="lineno"> 1277</span>&#160;          <span class="comment">// local reduction from all bulk workers</span></div>
+<div class="line"><a name="l01278"></a><span class="lineno"> 1278</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; m_subm_el_lc; ++i) {</div>
+<div class="line"><a name="l01279"></a><span class="lineno"> 1279</span>&#160;            <span class="keywordflow">for</span> (std::size_t tidx = 1; tidx &lt; nthreads; ++tidx) {</div>
+<div class="line"><a name="l01280"></a><span class="lineno"> 1280</span>&#160;              <span class="keyword">const</span> T* w_partial = ws_cols[tidx]();</div>
+<div class="line"><a name="l01281"></a><span class="lineno"> 1281</span>&#160;              w[i] *= w_partial[i];</div>
+<div class="line"><a name="l01282"></a><span class="lineno"> 1282</span>&#160;            }</div>
+<div class="line"><a name="l01283"></a><span class="lineno"> 1283</span>&#160;          }</div>
+<div class="line"><a name="l01284"></a><span class="lineno"> 1284</span>&#160; </div>
+<div class="line"><a name="l01285"></a><span class="lineno"> 1285</span>&#160;          tt::sync_wait(ex::when_all(row_comm_chain(),</div>
+<div class="line"><a name="l01286"></a><span class="lineno"> 1286</span>&#160;                                     ex::just(MPI_PROD, common::make_data(w, m_subm_el_lc))) |</div>
+<div class="line"><a name="l01287"></a><span class="lineno"> 1287</span>&#160;                        transformMPI(all_reduce_in_place));</div>
+<div class="line"><a name="l01288"></a><span class="lineno"> 1288</span>&#160; </div>
+<div class="line"><a name="l01289"></a><span class="lineno"> 1289</span>&#160;          T* weights = ws_cols[nthreads]();</div>
+<div class="line"><a name="l01290"></a><span class="lineno"> 1290</span>&#160;          <span class="keywordflow">for</span> (SizeType i_subm_el_lc = 0; i_subm_el_lc &lt; m_subm_el_lc; ++i_subm_el_lc) {</div>
+<div class="line"><a name="l01291"></a><span class="lineno"> 1291</span>&#160;            <span class="keyword">const</span> SizeType i_subm_lc = i_subm_el_lc / dist.blockSize().rows();</div>
+<div class="line"><a name="l01292"></a><span class="lineno"> 1292</span>&#160;            <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
+<div class="line"><a name="l01293"></a><span class="lineno"> 1293</span>&#160;            <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
+<div class="line"><a name="l01294"></a><span class="lineno"> 1294</span>&#160;            <span class="keyword">const</span> SizeType i_subm = i - i_begin;</div>
+<div class="line"><a name="l01295"></a><span class="lineno"> 1295</span>&#160;            <span class="keyword">const</span> SizeType i_subm_el =</div>
+<div class="line"><a name="l01296"></a><span class="lineno"> 1296</span>&#160;                i_subm * dist.blockSize().rows() + i_subm_el_lc % dist.blockSize().rows();</div>
+<div class="line"><a name="l01297"></a><span class="lineno"> 1297</span>&#160; </div>
+<div class="line"><a name="l01298"></a><span class="lineno"> 1298</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span>* i2_perm = i2_tile_arr[0].get().ptr();</div>
+<div class="line"><a name="l01299"></a><span class="lineno"> 1299</span>&#160;            <span class="keyword">const</span> SizeType ii_subm_el = i2_perm[i_subm_el];</div>
+<div class="line"><a name="l01300"></a><span class="lineno"> 1300</span>&#160;            weights[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_subm_el_lc)] =</div>
+<div class="line"><a name="l01301"></a><span class="lineno"> 1301</span>&#160;                std::copysign(std::sqrt(-w[i_subm_el_lc]), z_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(ii_subm_el)]);</div>
+<div class="line"><a name="l01302"></a><span class="lineno"> 1302</span>&#160;          }</div>
+<div class="line"><a name="l01303"></a><span class="lineno"> 1303</span>&#160;        }</div>
+<div class="line"><a name="l01304"></a><span class="lineno"> 1304</span>&#160; </div>
+<div class="line"><a name="l01305"></a><span class="lineno"> 1305</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
 <div class="line"><a name="l01306"></a><span class="lineno"> 1306</span>&#160; </div>
-<div class="line"><a name="l01307"></a><span class="lineno"> 1307</span>&#160;            <span class="comment">// Skip columns that are in the deflation zone</span></div>
-<div class="line"><a name="l01308"></a><span class="lineno"> 1308</span>&#160;            <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
-<div class="line"><a name="l01309"></a><span class="lineno"> 1309</span>&#160;              <span class="keywordflow">break</span>;</div>
-<div class="line"><a name="l01310"></a><span class="lineno"> 1310</span>&#160; </div>
-<div class="line"><a name="l01311"></a><span class="lineno"> 1311</span>&#160;            <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
-<div class="line"><a name="l01312"></a><span class="lineno"> 1312</span>&#160;            <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
-<div class="line"><a name="l01313"></a><span class="lineno"> 1313</span>&#160;              <span class="keyword">const</span> SizeType j_subm_el_lc = j_subm_lc * dist.blockSize().cols() + j_el_tl;</div>
-<div class="line"><a name="l01314"></a><span class="lineno"> 1314</span>&#160;              <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
-<div class="line"><a name="l01315"></a><span class="lineno"> 1315</span>&#160;                <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
-<div class="line"><a name="l01316"></a><span class="lineno"> 1316</span>&#160;                <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
-<div class="line"><a name="l01317"></a><span class="lineno"> 1317</span>&#160;                <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
-<div class="line"><a name="l01318"></a><span class="lineno"> 1318</span>&#160; </div>
-<div class="line"><a name="l01319"></a><span class="lineno"> 1319</span>&#160;                <span class="keyword">const</span> SizeType i_subm = i - i_begin;</div>
-<div class="line"><a name="l01320"></a><span class="lineno"> 1320</span>&#160;                <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_perm = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_subm)].get();</div>
-<div class="line"><a name="l01321"></a><span class="lineno"> 1321</span>&#160; </div>
-<div class="line"><a name="l01322"></a><span class="lineno"> 1322</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * j_subm_lc;</div>
-<div class="line"><a name="l01323"></a><span class="lineno"> 1323</span>&#160;                <span class="keyword">const</span> <span class="keyword">auto</span>&amp; q_tile = q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)];</div>
+<div class="line"><a name="l01307"></a><span class="lineno"> 1307</span>&#160;        <span class="comment">// STEP 3: Compute eigenvectors of the modified rank-1 modification (normalize) (multi-thread)</span></div>
+<div class="line"><a name="l01308"></a><span class="lineno"> 1308</span>&#160; </div>
+<div class="line"><a name="l01309"></a><span class="lineno"> 1309</span>&#160;        <span class="comment">// STEP 3a: Form evecs using weights vector and compute (local) sum of squares</span></div>
+<div class="line"><a name="l01310"></a><span class="lineno"> 1310</span>&#160;        {</div>
+<div class="line"><a name="l01311"></a><span class="lineno"> 1311</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a name="l01312"></a><span class="lineno"> 1312</span>&#160; </div>
+<div class="line"><a name="l01313"></a><span class="lineno"> 1313</span>&#160;          <span class="keyword">const</span> T* w = ws_cols[nthreads]();</div>
+<div class="line"><a name="l01314"></a><span class="lineno"> 1314</span>&#160;          T* sum_squares = ws_row();</div>
+<div class="line"><a name="l01315"></a><span class="lineno"> 1315</span>&#160; </div>
+<div class="line"><a name="l01316"></a><span class="lineno"> 1316</span>&#160;          <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
+<div class="line"><a name="l01317"></a><span class="lineno"> 1317</span>&#160;            <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
+<div class="line"><a name="l01318"></a><span class="lineno"> 1318</span>&#160;            <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
+<div class="line"><a name="l01319"></a><span class="lineno"> 1319</span>&#160;            <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
+<div class="line"><a name="l01320"></a><span class="lineno"> 1320</span>&#160; </div>
+<div class="line"><a name="l01321"></a><span class="lineno"> 1321</span>&#160;            <span class="comment">// Skip columns that are in the deflation zone</span></div>
+<div class="line"><a name="l01322"></a><span class="lineno"> 1322</span>&#160;            <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
+<div class="line"><a name="l01323"></a><span class="lineno"> 1323</span>&#160;              <span class="keywordflow">break</span>;</div>
 <div class="line"><a name="l01324"></a><span class="lineno"> 1324</span>&#160; </div>
-<div class="line"><a name="l01325"></a><span class="lineno"> 1325</span>&#160;                <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
-<div class="line"><a name="l01326"></a><span class="lineno"> 1326</span>&#160;                <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
-<div class="line"><a name="l01327"></a><span class="lineno"> 1327</span>&#160;                  <span class="keyword">const</span> SizeType ii_subm_el = i2_perm({i_el_tl, 0});</div>
-<div class="line"><a name="l01328"></a><span class="lineno"> 1328</span>&#160; </div>
-<div class="line"><a name="l01329"></a><span class="lineno"> 1329</span>&#160;                  <span class="keyword">const</span> SizeType i_subm_el_lc = i_subm_lc * dist.blockSize().rows() + i_el_tl;</div>
-<div class="line"><a name="l01330"></a><span class="lineno"> 1330</span>&#160;                  <span class="keywordflow">if</span> (ii_subm_el &gt;= k)</div>
-<div class="line"><a name="l01331"></a><span class="lineno"> 1331</span>&#160;                    q_tile({i_el_tl, j_el_tl}) = 0;</div>
-<div class="line"><a name="l01332"></a><span class="lineno"> 1332</span>&#160;                  <span class="keywordflow">else</span></div>
-<div class="line"><a name="l01333"></a><span class="lineno"> 1333</span>&#160;                    q_tile({i_el_tl, j_el_tl}) = w[i_subm_el_lc] / q_tile({i_el_tl, j_el_tl});</div>
-<div class="line"><a name="l01334"></a><span class="lineno"> 1334</span>&#160;                }</div>
+<div class="line"><a name="l01325"></a><span class="lineno"> 1325</span>&#160;            <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
+<div class="line"><a name="l01326"></a><span class="lineno"> 1326</span>&#160;            <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
+<div class="line"><a name="l01327"></a><span class="lineno"> 1327</span>&#160;              <span class="keyword">const</span> SizeType j_subm_el_lc = j_subm_lc * dist.blockSize().cols() + j_el_tl;</div>
+<div class="line"><a name="l01328"></a><span class="lineno"> 1328</span>&#160;              <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
+<div class="line"><a name="l01329"></a><span class="lineno"> 1329</span>&#160;                <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
+<div class="line"><a name="l01330"></a><span class="lineno"> 1330</span>&#160;                <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
+<div class="line"><a name="l01331"></a><span class="lineno"> 1331</span>&#160;                <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
+<div class="line"><a name="l01332"></a><span class="lineno"> 1332</span>&#160; </div>
+<div class="line"><a name="l01333"></a><span class="lineno"> 1333</span>&#160;                <span class="keyword">const</span> SizeType i_subm = i - i_begin;</div>
+<div class="line"><a name="l01334"></a><span class="lineno"> 1334</span>&#160;                <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_perm = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_subm)].get();</div>
 <div class="line"><a name="l01335"></a><span class="lineno"> 1335</span>&#160; </div>
-<div class="line"><a name="l01336"></a><span class="lineno"> 1336</span>&#160;                sum_squares[j_subm_el_lc] +=</div>
-<div class="line"><a name="l01337"></a><span class="lineno"> 1337</span>&#160;                    blas::dot(m_el_tl, q_tile.ptr({0, j_el_tl}), 1, q_tile.ptr({0, j_el_tl}), 1);</div>
-<div class="line"><a name="l01338"></a><span class="lineno"> 1338</span>&#160;              }</div>
-<div class="line"><a name="l01339"></a><span class="lineno"> 1339</span>&#160;            }</div>
-<div class="line"><a name="l01340"></a><span class="lineno"> 1340</span>&#160;          }</div>
-<div class="line"><a name="l01341"></a><span class="lineno"> 1341</span>&#160;        }</div>
+<div class="line"><a name="l01336"></a><span class="lineno"> 1336</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * j_subm_lc;</div>
+<div class="line"><a name="l01337"></a><span class="lineno"> 1337</span>&#160;                <span class="keyword">const</span> <span class="keyword">auto</span>&amp; q_tile = q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)];</div>
+<div class="line"><a name="l01338"></a><span class="lineno"> 1338</span>&#160; </div>
+<div class="line"><a name="l01339"></a><span class="lineno"> 1339</span>&#160;                <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
+<div class="line"><a name="l01340"></a><span class="lineno"> 1340</span>&#160;                <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
+<div class="line"><a name="l01341"></a><span class="lineno"> 1341</span>&#160;                  <span class="keyword">const</span> SizeType ii_subm_el = i2_perm({i_el_tl, 0});</div>
 <div class="line"><a name="l01342"></a><span class="lineno"> 1342</span>&#160; </div>
-<div class="line"><a name="l01343"></a><span class="lineno"> 1343</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l01344"></a><span class="lineno"> 1344</span>&#160; </div>
-<div class="line"><a name="l01345"></a><span class="lineno"> 1345</span>&#160;        <span class="comment">// STEP 3b: Reduce to get the sum of all squares on all ranks</span></div>
-<div class="line"><a name="l01346"></a><span class="lineno"> 1346</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0)</div>
-<div class="line"><a name="l01347"></a><span class="lineno"> 1347</span>&#160;          tt::sync_wait(ex::just(std::cref(col_comm), MPI_SUM,</div>
-<div class="line"><a name="l01348"></a><span class="lineno"> 1348</span>&#160;                                 common::make_data(ws_row(), n_subm_el_lc)) |</div>
-<div class="line"><a name="l01349"></a><span class="lineno"> 1349</span>&#160;                        transformMPI(all_reduce_in_place));</div>
-<div class="line"><a name="l01350"></a><span class="lineno"> 1350</span>&#160; </div>
-<div class="line"><a name="l01351"></a><span class="lineno"> 1351</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l01352"></a><span class="lineno"> 1352</span>&#160; </div>
-<div class="line"><a name="l01353"></a><span class="lineno"> 1353</span>&#160;        <span class="comment">// STEP 3c: Normalize (compute norm of each column and scale column vector)</span></div>
-<div class="line"><a name="l01354"></a><span class="lineno"> 1354</span>&#160;        {</div>
-<div class="line"><a name="l01355"></a><span class="lineno"> 1355</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a name="l01343"></a><span class="lineno"> 1343</span>&#160;                  <span class="keyword">const</span> SizeType i_subm_el_lc = i_subm_lc * dist.blockSize().rows() + i_el_tl;</div>
+<div class="line"><a name="l01344"></a><span class="lineno"> 1344</span>&#160;                  <span class="keywordflow">if</span> (ii_subm_el &gt;= k)</div>
+<div class="line"><a name="l01345"></a><span class="lineno"> 1345</span>&#160;                    q_tile({i_el_tl, j_el_tl}) = 0;</div>
+<div class="line"><a name="l01346"></a><span class="lineno"> 1346</span>&#160;                  <span class="keywordflow">else</span></div>
+<div class="line"><a name="l01347"></a><span class="lineno"> 1347</span>&#160;                    q_tile({i_el_tl, j_el_tl}) = w[i_subm_el_lc] / q_tile({i_el_tl, j_el_tl});</div>
+<div class="line"><a name="l01348"></a><span class="lineno"> 1348</span>&#160;                }</div>
+<div class="line"><a name="l01349"></a><span class="lineno"> 1349</span>&#160; </div>
+<div class="line"><a name="l01350"></a><span class="lineno"> 1350</span>&#160;                sum_squares[j_subm_el_lc] +=</div>
+<div class="line"><a name="l01351"></a><span class="lineno"> 1351</span>&#160;                    blas::dot(m_el_tl, q_tile.ptr({0, j_el_tl}), 1, q_tile.ptr({0, j_el_tl}), 1);</div>
+<div class="line"><a name="l01352"></a><span class="lineno"> 1352</span>&#160;              }</div>
+<div class="line"><a name="l01353"></a><span class="lineno"> 1353</span>&#160;            }</div>
+<div class="line"><a name="l01354"></a><span class="lineno"> 1354</span>&#160;          }</div>
+<div class="line"><a name="l01355"></a><span class="lineno"> 1355</span>&#160;        }</div>
 <div class="line"><a name="l01356"></a><span class="lineno"> 1356</span>&#160; </div>
-<div class="line"><a name="l01357"></a><span class="lineno"> 1357</span>&#160;          <span class="keyword">const</span> T* sum_squares = ws_row();</div>
+<div class="line"><a name="l01357"></a><span class="lineno"> 1357</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
 <div class="line"><a name="l01358"></a><span class="lineno"> 1358</span>&#160; </div>
-<div class="line"><a name="l01359"></a><span class="lineno"> 1359</span>&#160;          <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
-<div class="line"><a name="l01360"></a><span class="lineno"> 1360</span>&#160;            <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
-<div class="line"><a name="l01361"></a><span class="lineno"> 1361</span>&#160;            <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
-<div class="line"><a name="l01362"></a><span class="lineno"> 1362</span>&#160;            <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
-<div class="line"><a name="l01363"></a><span class="lineno"> 1363</span>&#160; </div>
-<div class="line"><a name="l01364"></a><span class="lineno"> 1364</span>&#160;            <span class="comment">// Skip columns that are in the deflation zone</span></div>
-<div class="line"><a name="l01365"></a><span class="lineno"> 1365</span>&#160;            <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
-<div class="line"><a name="l01366"></a><span class="lineno"> 1366</span>&#160;              <span class="keywordflow">break</span>;</div>
-<div class="line"><a name="l01367"></a><span class="lineno"> 1367</span>&#160; </div>
-<div class="line"><a name="l01368"></a><span class="lineno"> 1368</span>&#160;            <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
-<div class="line"><a name="l01369"></a><span class="lineno"> 1369</span>&#160;            <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
-<div class="line"><a name="l01370"></a><span class="lineno"> 1370</span>&#160;              <span class="keyword">const</span> SizeType j_subm_el_lc = j_subm_lc * dist.blockSize().cols() + j_el_tl;</div>
-<div class="line"><a name="l01371"></a><span class="lineno"> 1371</span>&#160;              <span class="keyword">const</span> T vec_norm = std::sqrt(sum_squares[j_subm_el_lc]);</div>
+<div class="line"><a name="l01359"></a><span class="lineno"> 1359</span>&#160;        <span class="comment">// STEP 3b: Reduce to get the sum of all squares on all ranks</span></div>
+<div class="line"><a name="l01360"></a><span class="lineno"> 1360</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0)</div>
+<div class="line"><a name="l01361"></a><span class="lineno"> 1361</span>&#160;          tt::sync_wait(ex::just(std::cref(col_comm), MPI_SUM,</div>
+<div class="line"><a name="l01362"></a><span class="lineno"> 1362</span>&#160;                                 common::make_data(ws_row(), n_subm_el_lc)) |</div>
+<div class="line"><a name="l01363"></a><span class="lineno"> 1363</span>&#160;                        transformMPI(all_reduce_in_place));</div>
+<div class="line"><a name="l01364"></a><span class="lineno"> 1364</span>&#160; </div>
+<div class="line"><a name="l01365"></a><span class="lineno"> 1365</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l01366"></a><span class="lineno"> 1366</span>&#160; </div>
+<div class="line"><a name="l01367"></a><span class="lineno"> 1367</span>&#160;        <span class="comment">// STEP 3c: Normalize (compute norm of each column and scale column vector)</span></div>
+<div class="line"><a name="l01368"></a><span class="lineno"> 1368</span>&#160;        {</div>
+<div class="line"><a name="l01369"></a><span class="lineno"> 1369</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a name="l01370"></a><span class="lineno"> 1370</span>&#160; </div>
+<div class="line"><a name="l01371"></a><span class="lineno"> 1371</span>&#160;          <span class="keyword">const</span> T* sum_squares = ws_row();</div>
 <div class="line"><a name="l01372"></a><span class="lineno"> 1372</span>&#160; </div>
-<div class="line"><a name="l01373"></a><span class="lineno"> 1373</span>&#160;              <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
-<div class="line"><a name="l01374"></a><span class="lineno"> 1374</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * j_subm_lc;</div>
-<div class="line"><a name="l01375"></a><span class="lineno"> 1375</span>&#160;                <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
-<div class="line"><a name="l01376"></a><span class="lineno"> 1376</span>&#160;                <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
-<div class="line"><a name="l01377"></a><span class="lineno"> 1377</span>&#160;                <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
-<div class="line"><a name="l01378"></a><span class="lineno"> 1378</span>&#160; </div>
-<div class="line"><a name="l01379"></a><span class="lineno"> 1379</span>&#160;                <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
-<div class="line"><a name="l01380"></a><span class="lineno"> 1380</span>&#160;                blas::scal(m_el_tl, 1 / vec_norm, q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)].ptr({0, j_el_tl}), 1);</div>
-<div class="line"><a name="l01381"></a><span class="lineno"> 1381</span>&#160;              }</div>
-<div class="line"><a name="l01382"></a><span class="lineno"> 1382</span>&#160;            }</div>
-<div class="line"><a name="l01383"></a><span class="lineno"> 1383</span>&#160;          }</div>
-<div class="line"><a name="l01384"></a><span class="lineno"> 1384</span>&#160;        }</div>
-<div class="line"><a name="l01385"></a><span class="lineno"> 1385</span>&#160;      }));</div>
-<div class="line"><a name="l01386"></a><span class="lineno"> 1386</span>&#160;}</div>
-<div class="line"><a name="l01387"></a><span class="lineno"> 1387</span>&#160; </div>
-<div class="line"><a name="l01388"></a><span class="lineno"> 1388</span>&#160;<span class="comment">// Distributed version of the tridiagonal solver on CPUs</span></div>
-<div class="line"><a name="l01389"></a><span class="lineno"> 1389</span>&#160;<span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D, <span class="keyword">class</span> RhoSender&gt;</div>
-<div class="line"><a name="l01390"></a><span class="lineno"> 1390</span>&#160;<span class="keywordtype">void</span> mergeDistSubproblems(comm::CommunicatorGrid grid,</div>
-<div class="line"><a name="l01391"></a><span class="lineno"> 1391</span>&#160;                          common::Pipeline&lt;comm::Communicator&gt;&amp; full_task_chain,</div>
-<div class="line"><a name="l01392"></a><span class="lineno"> 1392</span>&#160;                          common::Pipeline&lt;comm::Communicator&gt;&amp; row_task_chain,</div>
-<div class="line"><a name="l01393"></a><span class="lineno"> 1393</span>&#160;                          common::Pipeline&lt;comm::Communicator&gt;&amp; col_task_chain, <span class="keyword">const</span> SizeType i_begin,</div>
-<div class="line"><a name="l01394"></a><span class="lineno"> 1394</span>&#160;                          <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end, RhoSender&amp;&amp; rho,</div>
-<div class="line"><a name="l01395"></a><span class="lineno"> 1395</span>&#160;                          WorkSpace&lt;T, D&gt;&amp; ws, WorkSpaceHost&lt;T&gt;&amp; ws_h,</div>
-<div class="line"><a name="l01396"></a><span class="lineno"> 1396</span>&#160;                          DistWorkSpaceHostMirror&lt;T, D&gt;&amp; ws_hm) {</div>
-<div class="line"><a name="l01397"></a><span class="lineno"> 1397</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l01398"></a><span class="lineno"> 1398</span>&#160; </div>
-<div class="line"><a name="l01399"></a><span class="lineno"> 1399</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; dist_evecs = ws.e0.distribution();</div>
-<div class="line"><a name="l01400"></a><span class="lineno"> 1400</span>&#160; </div>
-<div class="line"><a name="l01401"></a><span class="lineno"> 1401</span>&#160;  <span class="comment">// Calculate the size of the upper subproblem</span></div>
-<div class="line"><a name="l01402"></a><span class="lineno"> 1402</span>&#160;  <span class="keyword">const</span> SizeType n1 = dist_evecs.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i_split);</div>
-<div class="line"><a name="l01403"></a><span class="lineno"> 1403</span>&#160; </div>
-<div class="line"><a name="l01404"></a><span class="lineno"> 1404</span>&#160;  <span class="comment">// The local size of the subproblem</span></div>
-<div class="line"><a name="l01405"></a><span class="lineno"> 1405</span>&#160;  <span class="keyword">const</span> GlobalTileIndex idx_gl_begin(i_begin, i_begin);</div>
-<div class="line"><a name="l01406"></a><span class="lineno"> 1406</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_loc_begin{dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Row&gt;(i_begin),</div>
-<div class="line"><a name="l01407"></a><span class="lineno"> 1407</span>&#160;                                     dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(i_begin)};</div>
-<div class="line"><a name="l01408"></a><span class="lineno"> 1408</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_loc_end{dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Row&gt;(i_end),</div>
-<div class="line"><a name="l01409"></a><span class="lineno"> 1409</span>&#160;                                   dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(i_end)};</div>
-<div class="line"><a name="l01410"></a><span class="lineno"> 1410</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_loc_tiles = idx_loc_end - idx_loc_begin;</div>
-<div class="line"><a name="l01411"></a><span class="lineno"> 1411</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_begin_tiles_vec(i_begin, 0);</div>
-<div class="line"><a name="l01412"></a><span class="lineno"> 1412</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_tiles_vec(i_end - i_begin, 1);</div>
-<div class="line"><a name="l01413"></a><span class="lineno"> 1413</span>&#160; </div>
-<div class="line"><a name="l01414"></a><span class="lineno"> 1414</span>&#160;  <span class="comment">// Assemble the rank-1 update vector `z` from the last row of Q1 and the first row of Q2</span></div>
-<div class="line"><a name="l01415"></a><span class="lineno"> 1415</span>&#160;  assembleDistZVec(grid, full_task_chain, i_begin, i_split, i_end, rho, ws.e0, ws.z0);</div>
-<div class="line"><a name="l01416"></a><span class="lineno"> 1416</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws.z0, ws_hm.z0);</div>
+<div class="line"><a name="l01373"></a><span class="lineno"> 1373</span>&#160;          <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
+<div class="line"><a name="l01374"></a><span class="lineno"> 1374</span>&#160;            <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
+<div class="line"><a name="l01375"></a><span class="lineno"> 1375</span>&#160;            <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
+<div class="line"><a name="l01376"></a><span class="lineno"> 1376</span>&#160;            <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
+<div class="line"><a name="l01377"></a><span class="lineno"> 1377</span>&#160; </div>
+<div class="line"><a name="l01378"></a><span class="lineno"> 1378</span>&#160;            <span class="comment">// Skip columns that are in the deflation zone</span></div>
+<div class="line"><a name="l01379"></a><span class="lineno"> 1379</span>&#160;            <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
+<div class="line"><a name="l01380"></a><span class="lineno"> 1380</span>&#160;              <span class="keywordflow">break</span>;</div>
+<div class="line"><a name="l01381"></a><span class="lineno"> 1381</span>&#160; </div>
+<div class="line"><a name="l01382"></a><span class="lineno"> 1382</span>&#160;            <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
+<div class="line"><a name="l01383"></a><span class="lineno"> 1383</span>&#160;            <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
+<div class="line"><a name="l01384"></a><span class="lineno"> 1384</span>&#160;              <span class="keyword">const</span> SizeType j_subm_el_lc = j_subm_lc * dist.blockSize().cols() + j_el_tl;</div>
+<div class="line"><a name="l01385"></a><span class="lineno"> 1385</span>&#160;              <span class="keyword">const</span> T vec_norm = std::sqrt(sum_squares[j_subm_el_lc]);</div>
+<div class="line"><a name="l01386"></a><span class="lineno"> 1386</span>&#160; </div>
+<div class="line"><a name="l01387"></a><span class="lineno"> 1387</span>&#160;              <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
+<div class="line"><a name="l01388"></a><span class="lineno"> 1388</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * j_subm_lc;</div>
+<div class="line"><a name="l01389"></a><span class="lineno"> 1389</span>&#160;                <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
+<div class="line"><a name="l01390"></a><span class="lineno"> 1390</span>&#160;                <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
+<div class="line"><a name="l01391"></a><span class="lineno"> 1391</span>&#160;                <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
+<div class="line"><a name="l01392"></a><span class="lineno"> 1392</span>&#160; </div>
+<div class="line"><a name="l01393"></a><span class="lineno"> 1393</span>&#160;                <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
+<div class="line"><a name="l01394"></a><span class="lineno"> 1394</span>&#160;                blas::scal(m_el_tl, 1 / vec_norm, q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)].ptr({0, j_el_tl}), 1);</div>
+<div class="line"><a name="l01395"></a><span class="lineno"> 1395</span>&#160;              }</div>
+<div class="line"><a name="l01396"></a><span class="lineno"> 1396</span>&#160;            }</div>
+<div class="line"><a name="l01397"></a><span class="lineno"> 1397</span>&#160;          }</div>
+<div class="line"><a name="l01398"></a><span class="lineno"> 1398</span>&#160;        }</div>
+<div class="line"><a name="l01399"></a><span class="lineno"> 1399</span>&#160;      }));</div>
+<div class="line"><a name="l01400"></a><span class="lineno"> 1400</span>&#160;}</div>
+<div class="line"><a name="l01401"></a><span class="lineno"> 1401</span>&#160; </div>
+<div class="line"><a name="l01402"></a><span class="lineno"> 1402</span>&#160;<span class="comment">// Distributed version of the tridiagonal solver on CPUs</span></div>
+<div class="line"><a name="l01403"></a><span class="lineno"> 1403</span>&#160;<span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D, <span class="keyword">class</span> RhoSender&gt;</div>
+<div class="line"><a name="l01404"></a><span class="lineno"> 1404</span>&#160;<span class="keywordtype">void</span> mergeDistSubproblems(comm::CommunicatorGrid grid,</div>
+<div class="line"><a name="l01405"></a><span class="lineno"> 1405</span>&#160;                          common::Pipeline&lt;comm::Communicator&gt;&amp; full_task_chain,</div>
+<div class="line"><a name="l01406"></a><span class="lineno"> 1406</span>&#160;                          common::Pipeline&lt;comm::Communicator&gt;&amp; row_task_chain,</div>
+<div class="line"><a name="l01407"></a><span class="lineno"> 1407</span>&#160;                          common::Pipeline&lt;comm::Communicator&gt;&amp; col_task_chain, <span class="keyword">const</span> SizeType i_begin,</div>
+<div class="line"><a name="l01408"></a><span class="lineno"> 1408</span>&#160;                          <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end, RhoSender&amp;&amp; rho,</div>
+<div class="line"><a name="l01409"></a><span class="lineno"> 1409</span>&#160;                          WorkSpace&lt;T, D&gt;&amp; ws, WorkSpaceHost&lt;T&gt;&amp; ws_h,</div>
+<div class="line"><a name="l01410"></a><span class="lineno"> 1410</span>&#160;                          DistWorkSpaceHostMirror&lt;T, D&gt;&amp; ws_hm) {</div>
+<div class="line"><a name="l01411"></a><span class="lineno"> 1411</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l01412"></a><span class="lineno"> 1412</span>&#160; </div>
+<div class="line"><a name="l01413"></a><span class="lineno"> 1413</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; dist_evecs = ws.e0.distribution();</div>
+<div class="line"><a name="l01414"></a><span class="lineno"> 1414</span>&#160; </div>
+<div class="line"><a name="l01415"></a><span class="lineno"> 1415</span>&#160;  <span class="comment">// Calculate the size of the upper subproblem</span></div>
+<div class="line"><a name="l01416"></a><span class="lineno"> 1416</span>&#160;  <span class="keyword">const</span> SizeType n1 = dist_evecs.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i_split);</div>
 <div class="line"><a name="l01417"></a><span class="lineno"> 1417</span>&#160; </div>
-<div class="line"><a name="l01418"></a><span class="lineno"> 1418</span>&#160;  <span class="comment">// Double `rho` to account for the normalization of `z` and make sure `rho &gt; 0` for the root solver laed4</span></div>
-<div class="line"><a name="l01419"></a><span class="lineno"> 1419</span>&#160;  <span class="keyword">auto</span> scaled_rho = scaleRho(std::move(rho)) | ex::split();</div>
-<div class="line"><a name="l01420"></a><span class="lineno"> 1420</span>&#160; </div>
-<div class="line"><a name="l01421"></a><span class="lineno"> 1421</span>&#160;  <span class="comment">// Calculate the tolerance used for deflation</span></div>
-<div class="line"><a name="l01422"></a><span class="lineno"> 1422</span>&#160;  <span class="keyword">auto</span> tol = calcTolerance(i_begin, i_end, ws_h.d0, ws_hm.z0);</div>
-<div class="line"><a name="l01423"></a><span class="lineno"> 1423</span>&#160; </div>
-<div class="line"><a name="l01424"></a><span class="lineno"> 1424</span>&#160;  <span class="comment">// Initialize the column types vector `c`</span></div>
-<div class="line"><a name="l01425"></a><span class="lineno"> 1425</span>&#160;  initColTypes(i_begin, i_split, i_end, ws_h.c);</div>
-<div class="line"><a name="l01426"></a><span class="lineno"> 1426</span>&#160; </div>
-<div class="line"><a name="l01427"></a><span class="lineno"> 1427</span>&#160;  <span class="comment">// Step #1</span></div>
-<div class="line"><a name="l01428"></a><span class="lineno"> 1428</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01429"></a><span class="lineno"> 1429</span>&#160;  <span class="comment">//    i1 (out) : initial &lt;--- initial (identity map)</span></div>
-<div class="line"><a name="l01430"></a><span class="lineno"> 1430</span>&#160;  <span class="comment">//    i2 (out) : initial &lt;--- pre_sorted</span></div>
-<div class="line"><a name="l01431"></a><span class="lineno"> 1431</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01432"></a><span class="lineno"> 1432</span>&#160;  <span class="comment">// - deflate `d`, `z` and `c`</span></div>
-<div class="line"><a name="l01433"></a><span class="lineno"> 1433</span>&#160;  <span class="comment">// - apply Givens rotations to `Q` - `evecs`</span></div>
-<div class="line"><a name="l01434"></a><span class="lineno"> 1434</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01435"></a><span class="lineno"> 1435</span>&#160;  <span class="keywordflow">if</span> (i_split == i_begin + 1) {</div>
-<div class="line"><a name="l01436"></a><span class="lineno"> 1436</span>&#160;    initIndex(i_begin, i_split, ws_h.i1);</div>
-<div class="line"><a name="l01437"></a><span class="lineno"> 1437</span>&#160;  }</div>
-<div class="line"><a name="l01438"></a><span class="lineno"> 1438</span>&#160;  <span class="keywordflow">if</span> (i_split + 1 == i_end) {</div>
-<div class="line"><a name="l01439"></a><span class="lineno"> 1439</span>&#160;    initIndex(i_split, i_end, ws_h.i1);</div>
-<div class="line"><a name="l01440"></a><span class="lineno"> 1440</span>&#160;  }</div>
-<div class="line"><a name="l01441"></a><span class="lineno"> 1441</span>&#160;  addIndex(i_split, i_end, n1, ws_h.i1);</div>
-<div class="line"><a name="l01442"></a><span class="lineno"> 1442</span>&#160;  sortIndex(i_begin, i_end, ex::just(n1), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
-<div class="line"><a name="l01443"></a><span class="lineno"> 1443</span>&#160; </div>
-<div class="line"><a name="l01444"></a><span class="lineno"> 1444</span>&#160;  <span class="keyword">auto</span> rots =</div>
-<div class="line"><a name="l01445"></a><span class="lineno"> 1445</span>&#160;      applyDeflation(i_begin, i_end, scaled_rho, std::move(tol), ws_hm.i2, ws_h.d0, ws_hm.z0, ws_h.c);</div>
-<div class="line"><a name="l01446"></a><span class="lineno"> 1446</span>&#160; </div>
-<div class="line"><a name="l01447"></a><span class="lineno"> 1447</span>&#160;  <span class="comment">// Make sure Isend/Irecv messages don&#39;t match between calls by providing a unique `tag`</span></div>
+<div class="line"><a name="l01418"></a><span class="lineno"> 1418</span>&#160;  <span class="comment">// The local size of the subproblem</span></div>
+<div class="line"><a name="l01419"></a><span class="lineno"> 1419</span>&#160;  <span class="keyword">const</span> GlobalTileIndex idx_gl_begin(i_begin, i_begin);</div>
+<div class="line"><a name="l01420"></a><span class="lineno"> 1420</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_loc_begin{dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Row&gt;(i_begin),</div>
+<div class="line"><a name="l01421"></a><span class="lineno"> 1421</span>&#160;                                     dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(i_begin)};</div>
+<div class="line"><a name="l01422"></a><span class="lineno"> 1422</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_loc_end{dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Row&gt;(i_end),</div>
+<div class="line"><a name="l01423"></a><span class="lineno"> 1423</span>&#160;                                   dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(i_end)};</div>
+<div class="line"><a name="l01424"></a><span class="lineno"> 1424</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_loc_tiles = idx_loc_end - idx_loc_begin;</div>
+<div class="line"><a name="l01425"></a><span class="lineno"> 1425</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_begin_tiles_vec(i_begin, 0);</div>
+<div class="line"><a name="l01426"></a><span class="lineno"> 1426</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_tiles_vec(i_end - i_begin, 1);</div>
+<div class="line"><a name="l01427"></a><span class="lineno"> 1427</span>&#160; </div>
+<div class="line"><a name="l01428"></a><span class="lineno"> 1428</span>&#160;  <span class="comment">// Assemble the rank-1 update vector `z` from the last row of Q1 and the first row of Q2</span></div>
+<div class="line"><a name="l01429"></a><span class="lineno"> 1429</span>&#160;  assembleDistZVec(grid, full_task_chain, i_begin, i_split, i_end, rho, ws.e0, ws.z0);</div>
+<div class="line"><a name="l01430"></a><span class="lineno"> 1430</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws.z0, ws_hm.z0);</div>
+<div class="line"><a name="l01431"></a><span class="lineno"> 1431</span>&#160; </div>
+<div class="line"><a name="l01432"></a><span class="lineno"> 1432</span>&#160;  <span class="comment">// Double `rho` to account for the normalization of `z` and make sure `rho &gt; 0` for the root solver laed4</span></div>
+<div class="line"><a name="l01433"></a><span class="lineno"> 1433</span>&#160;  <span class="keyword">auto</span> scaled_rho = scaleRho(std::move(rho)) | ex::split();</div>
+<div class="line"><a name="l01434"></a><span class="lineno"> 1434</span>&#160; </div>
+<div class="line"><a name="l01435"></a><span class="lineno"> 1435</span>&#160;  <span class="comment">// Calculate the tolerance used for deflation</span></div>
+<div class="line"><a name="l01436"></a><span class="lineno"> 1436</span>&#160;  <span class="keyword">auto</span> tol = calcTolerance(i_begin, i_end, ws_h.d0, ws_hm.z0);</div>
+<div class="line"><a name="l01437"></a><span class="lineno"> 1437</span>&#160; </div>
+<div class="line"><a name="l01438"></a><span class="lineno"> 1438</span>&#160;  <span class="comment">// Initialize the column types vector `c`</span></div>
+<div class="line"><a name="l01439"></a><span class="lineno"> 1439</span>&#160;  initColTypes(i_begin, i_split, i_end, ws_h.c);</div>
+<div class="line"><a name="l01440"></a><span class="lineno"> 1440</span>&#160; </div>
+<div class="line"><a name="l01441"></a><span class="lineno"> 1441</span>&#160;  <span class="comment">// Step #1</span></div>
+<div class="line"><a name="l01442"></a><span class="lineno"> 1442</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01443"></a><span class="lineno"> 1443</span>&#160;  <span class="comment">//    i1 (out) : initial &lt;--- initial (identity map)</span></div>
+<div class="line"><a name="l01444"></a><span class="lineno"> 1444</span>&#160;  <span class="comment">//    i2 (out) : initial &lt;--- pre_sorted</span></div>
+<div class="line"><a name="l01445"></a><span class="lineno"> 1445</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01446"></a><span class="lineno"> 1446</span>&#160;  <span class="comment">// - deflate `d`, `z` and `c`</span></div>
+<div class="line"><a name="l01447"></a><span class="lineno"> 1447</span>&#160;  <span class="comment">// - apply Givens rotations to `Q` - `evecs`</span></div>
 <div class="line"><a name="l01448"></a><span class="lineno"> 1448</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01449"></a><span class="lineno"> 1449</span>&#160;  <span class="comment">// Note: i_split is unique</span></div>
-<div class="line"><a name="l01450"></a><span class="lineno"> 1450</span>&#160;  <span class="keyword">const</span> comm::IndexT_MPI tag = <a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(i_split);</div>
-<div class="line"><a name="l01451"></a><span class="lineno"> 1451</span>&#160;  applyGivensRotationsToMatrixColumns(grid.rowCommunicator(), tag, i_begin, i_end, std::move(rots),</div>
-<div class="line"><a name="l01452"></a><span class="lineno"> 1452</span>&#160;                                      ws.e0);</div>
-<div class="line"><a name="l01453"></a><span class="lineno"> 1453</span>&#160;  <span class="comment">// Placeholder for rearranging the eigenvectors: (local permutation)</span></div>
-<div class="line"><a name="l01454"></a><span class="lineno"> 1454</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws.e0, ws.e1);</div>
-<div class="line"><a name="l01455"></a><span class="lineno"> 1455</span>&#160; </div>
-<div class="line"><a name="l01456"></a><span class="lineno"> 1456</span>&#160;  <span class="comment">// Step #2</span></div>
-<div class="line"><a name="l01457"></a><span class="lineno"> 1457</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01458"></a><span class="lineno"> 1458</span>&#160;  <span class="comment">//    i2 (in)  : initial &lt;--- pre_sorted</span></div>
-<div class="line"><a name="l01459"></a><span class="lineno"> 1459</span>&#160;  <span class="comment">//    i3 (out) : initial &lt;--- deflated</span></div>
-<div class="line"><a name="l01460"></a><span class="lineno"> 1460</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01461"></a><span class="lineno"> 1461</span>&#160;  <span class="comment">// - reorder `d0 -&gt; d1`, `z0 -&gt; z1`, using `i3` such that deflated entries are at the bottom.</span></div>
-<div class="line"><a name="l01462"></a><span class="lineno"> 1462</span>&#160;  <span class="comment">// - solve the rank-1 problem and save eigenvalues in `d0` and `d1` (copy) and eigenvectors in `e2`.</span></div>
-<div class="line"><a name="l01463"></a><span class="lineno"> 1463</span>&#160;  <span class="comment">// - set deflated diagonal entries of `U` to 1 (temporary solution until optimized GEMM is implemented)</span></div>
-<div class="line"><a name="l01464"></a><span class="lineno"> 1464</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01465"></a><span class="lineno"> 1465</span>&#160;  <span class="keyword">auto</span> k =</div>
-<div class="line"><a name="l01466"></a><span class="lineno"> 1466</span>&#160;      stablePartitionIndexForDeflation(i_begin, i_end, ws_h.c, ws_h.d0, ws_hm.i2, ws_h.i3) | ex::split();</div>
-<div class="line"><a name="l01467"></a><span class="lineno"> 1467</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_h.d0, ws_hm.d1);</div>
-<div class="line"><a name="l01468"></a><span class="lineno"> 1468</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_hm.z0, ws_hm.z1);</div>
-<div class="line"><a name="l01469"></a><span class="lineno"> 1469</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.d1, ws_h.d0);</div>
-<div class="line"><a name="l01470"></a><span class="lineno"> 1470</span>&#160; </div>
+<div class="line"><a name="l01449"></a><span class="lineno"> 1449</span>&#160;  <span class="keywordflow">if</span> (i_split == i_begin + 1) {</div>
+<div class="line"><a name="l01450"></a><span class="lineno"> 1450</span>&#160;    initIndex(i_begin, i_split, ws_h.i1);</div>
+<div class="line"><a name="l01451"></a><span class="lineno"> 1451</span>&#160;  }</div>
+<div class="line"><a name="l01452"></a><span class="lineno"> 1452</span>&#160;  <span class="keywordflow">if</span> (i_split + 1 == i_end) {</div>
+<div class="line"><a name="l01453"></a><span class="lineno"> 1453</span>&#160;    initIndex(i_split, i_end, ws_h.i1);</div>
+<div class="line"><a name="l01454"></a><span class="lineno"> 1454</span>&#160;  }</div>
+<div class="line"><a name="l01455"></a><span class="lineno"> 1455</span>&#160;  addIndex(i_split, i_end, n1, ws_h.i1);</div>
+<div class="line"><a name="l01456"></a><span class="lineno"> 1456</span>&#160;  sortIndex(i_begin, i_end, ex::just(n1), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
+<div class="line"><a name="l01457"></a><span class="lineno"> 1457</span>&#160; </div>
+<div class="line"><a name="l01458"></a><span class="lineno"> 1458</span>&#160;  <span class="keyword">auto</span> rots =</div>
+<div class="line"><a name="l01459"></a><span class="lineno"> 1459</span>&#160;      applyDeflation(i_begin, i_end, scaled_rho, std::move(tol), ws_hm.i2, ws_h.d0, ws_hm.z0, ws_h.c);</div>
+<div class="line"><a name="l01460"></a><span class="lineno"> 1460</span>&#160; </div>
+<div class="line"><a name="l01461"></a><span class="lineno"> 1461</span>&#160;  <span class="comment">// Make sure Isend/Irecv messages don&#39;t match between calls by providing a unique `tag`</span></div>
+<div class="line"><a name="l01462"></a><span class="lineno"> 1462</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01463"></a><span class="lineno"> 1463</span>&#160;  <span class="comment">// Note: i_split is unique</span></div>
+<div class="line"><a name="l01464"></a><span class="lineno"> 1464</span>&#160;  <span class="keyword">const</span> comm::IndexT_MPI tag = <a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(i_split);</div>
+<div class="line"><a name="l01465"></a><span class="lineno"> 1465</span>&#160;  applyGivensRotationsToMatrixColumns(grid.rowCommunicator(), tag, i_begin, i_end, std::move(rots),</div>
+<div class="line"><a name="l01466"></a><span class="lineno"> 1466</span>&#160;                                      ws.e0);</div>
+<div class="line"><a name="l01467"></a><span class="lineno"> 1467</span>&#160;  <span class="comment">// Placeholder for rearranging the eigenvectors: (local permutation)</span></div>
+<div class="line"><a name="l01468"></a><span class="lineno"> 1468</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws.e0, ws.e1);</div>
+<div class="line"><a name="l01469"></a><span class="lineno"> 1469</span>&#160; </div>
+<div class="line"><a name="l01470"></a><span class="lineno"> 1470</span>&#160;  <span class="comment">// Step #2</span></div>
 <div class="line"><a name="l01471"></a><span class="lineno"> 1471</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01472"></a><span class="lineno"> 1472</span>&#160;  <span class="comment">//    i3 (in)  : initial &lt;--- deflated</span></div>
-<div class="line"><a name="l01473"></a><span class="lineno"> 1473</span>&#160;  <span class="comment">//    i2 (out) : initial ---&gt; deflated</span></div>
+<div class="line"><a name="l01472"></a><span class="lineno"> 1472</span>&#160;  <span class="comment">//    i2 (in)  : initial &lt;--- pre_sorted</span></div>
+<div class="line"><a name="l01473"></a><span class="lineno"> 1473</span>&#160;  <span class="comment">//    i3 (out) : initial &lt;--- deflated</span></div>
 <div class="line"><a name="l01474"></a><span class="lineno"> 1474</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01475"></a><span class="lineno"> 1475</span>&#160;  invertIndex(i_begin, i_end, ws_h.i3, ws_hm.i2);</div>
-<div class="line"><a name="l01476"></a><span class="lineno"> 1476</span>&#160; </div>
-<div class="line"><a name="l01477"></a><span class="lineno"> 1477</span>&#160;  <span class="comment">// Note: here ws_hm.z0 is used as a contiguous buffer for the laed4 call</span></div>
-<div class="line"><a name="l01478"></a><span class="lineno"> 1478</span>&#160;  matrix::util::set0&lt;Backend::MC&gt;(pika::execution::thread_priority::normal, idx_loc_begin, sz_loc_tiles,</div>
-<div class="line"><a name="l01479"></a><span class="lineno"> 1479</span>&#160;                                  ws_hm.e2);</div>
-<div class="line"><a name="l01480"></a><span class="lineno"> 1480</span>&#160;  solveRank1ProblemDist(row_task_chain(), col_task_chain(), i_begin, i_end, idx_loc_begin, sz_loc_tiles,</div>
-<div class="line"><a name="l01481"></a><span class="lineno"> 1481</span>&#160;                        k, std::move(scaled_rho), ws_hm.d1, ws_hm.z1, ws_h.d0, ws_hm.i2, ws_hm.e2);</div>
-<div class="line"><a name="l01482"></a><span class="lineno"> 1482</span>&#160; </div>
-<div class="line"><a name="l01483"></a><span class="lineno"> 1483</span>&#160;  <span class="comment">// Step #3: Eigenvectors of the tridiagonal system: Q * U</span></div>
-<div class="line"><a name="l01484"></a><span class="lineno"> 1484</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01485"></a><span class="lineno"> 1485</span>&#160;  <span class="comment">// The eigenvectors resulting from the multiplication are already in the order of the eigenvalues as</span></div>
-<div class="line"><a name="l01486"></a><span class="lineno"> 1486</span>&#160;  <span class="comment">// prepared for the deflated system.</span></div>
-<div class="line"><a name="l01487"></a><span class="lineno"> 1487</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws_hm.e2, ws.e2);</div>
-<div class="line"><a name="l01488"></a><span class="lineno"> 1488</span>&#160;  dlaf::multiplication::internal::generalSubMatrix&lt;B, D, T&gt;(grid, row_task_chain, col_task_chain,</div>
-<div class="line"><a name="l01489"></a><span class="lineno"> 1489</span>&#160;                                                            i_begin, i_end, T(1), ws.e1, ws.e2, T(0),</div>
-<div class="line"><a name="l01490"></a><span class="lineno"> 1490</span>&#160;                                                            ws.e0);</div>
-<div class="line"><a name="l01491"></a><span class="lineno"> 1491</span>&#160; </div>
-<div class="line"><a name="l01492"></a><span class="lineno"> 1492</span>&#160;  <span class="comment">// Step #4: Final permutation to sort eigenvalues and eigenvectors</span></div>
-<div class="line"><a name="l01493"></a><span class="lineno"> 1493</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01494"></a><span class="lineno"> 1494</span>&#160;  <span class="comment">//    i1 (in)  : deflated &lt;--- deflated  (identity map)</span></div>
-<div class="line"><a name="l01495"></a><span class="lineno"> 1495</span>&#160;  <span class="comment">//    i2 (out) : deflated &lt;--- post_sorted</span></div>
-<div class="line"><a name="l01496"></a><span class="lineno"> 1496</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01497"></a><span class="lineno"> 1497</span>&#160;  initIndex(i_begin, i_end, ws_h.i1);</div>
-<div class="line"><a name="l01498"></a><span class="lineno"> 1498</span>&#160;  sortIndex(i_begin, i_end, std::move(k), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
-<div class="line"><a name="l01499"></a><span class="lineno"> 1499</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.i2, ws_h.i1);</div>
-<div class="line"><a name="l01500"></a><span class="lineno"> 1500</span>&#160;}</div>
-<div class="line"><a name="l01501"></a><span class="lineno"> 1501</span>&#160;}</div>
+<div class="line"><a name="l01475"></a><span class="lineno"> 1475</span>&#160;  <span class="comment">// - reorder `d0 -&gt; d1`, `z0 -&gt; z1`, using `i3` such that deflated entries are at the bottom.</span></div>
+<div class="line"><a name="l01476"></a><span class="lineno"> 1476</span>&#160;  <span class="comment">// - solve the rank-1 problem and save eigenvalues in `d0` and `d1` (copy) and eigenvectors in `e2`.</span></div>
+<div class="line"><a name="l01477"></a><span class="lineno"> 1477</span>&#160;  <span class="comment">// - set deflated diagonal entries of `U` to 1 (temporary solution until optimized GEMM is implemented)</span></div>
+<div class="line"><a name="l01478"></a><span class="lineno"> 1478</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01479"></a><span class="lineno"> 1479</span>&#160;  <span class="keyword">auto</span> k =</div>
+<div class="line"><a name="l01480"></a><span class="lineno"> 1480</span>&#160;      stablePartitionIndexForDeflation(i_begin, i_end, ws_h.c, ws_h.d0, ws_hm.i2, ws_h.i3) | ex::split();</div>
+<div class="line"><a name="l01481"></a><span class="lineno"> 1481</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_h.d0, ws_hm.d1);</div>
+<div class="line"><a name="l01482"></a><span class="lineno"> 1482</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_hm.z0, ws_hm.z1);</div>
+<div class="line"><a name="l01483"></a><span class="lineno"> 1483</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.d1, ws_h.d0);</div>
+<div class="line"><a name="l01484"></a><span class="lineno"> 1484</span>&#160; </div>
+<div class="line"><a name="l01485"></a><span class="lineno"> 1485</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01486"></a><span class="lineno"> 1486</span>&#160;  <span class="comment">//    i3 (in)  : initial &lt;--- deflated</span></div>
+<div class="line"><a name="l01487"></a><span class="lineno"> 1487</span>&#160;  <span class="comment">//    i2 (out) : initial ---&gt; deflated</span></div>
+<div class="line"><a name="l01488"></a><span class="lineno"> 1488</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01489"></a><span class="lineno"> 1489</span>&#160;  invertIndex(i_begin, i_end, ws_h.i3, ws_hm.i2);</div>
+<div class="line"><a name="l01490"></a><span class="lineno"> 1490</span>&#160; </div>
+<div class="line"><a name="l01491"></a><span class="lineno"> 1491</span>&#160;  <span class="comment">// Note: here ws_hm.z0 is used as a contiguous buffer for the laed4 call</span></div>
+<div class="line"><a name="l01492"></a><span class="lineno"> 1492</span>&#160;  matrix::util::set0&lt;Backend::MC&gt;(pika::execution::thread_priority::normal, idx_loc_begin, sz_loc_tiles,</div>
+<div class="line"><a name="l01493"></a><span class="lineno"> 1493</span>&#160;                                  ws_hm.e2);</div>
+<div class="line"><a name="l01494"></a><span class="lineno"> 1494</span>&#160;  solveRank1ProblemDist(row_task_chain(), col_task_chain(), i_begin, i_end, idx_loc_begin, sz_loc_tiles,</div>
+<div class="line"><a name="l01495"></a><span class="lineno"> 1495</span>&#160;                        k, std::move(scaled_rho), ws_hm.d1, ws_hm.z1, ws_h.d0, ws_hm.i2, ws_hm.e2);</div>
+<div class="line"><a name="l01496"></a><span class="lineno"> 1496</span>&#160; </div>
+<div class="line"><a name="l01497"></a><span class="lineno"> 1497</span>&#160;  <span class="comment">// Step #3: Eigenvectors of the tridiagonal system: Q * U</span></div>
+<div class="line"><a name="l01498"></a><span class="lineno"> 1498</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01499"></a><span class="lineno"> 1499</span>&#160;  <span class="comment">// The eigenvectors resulting from the multiplication are already in the order of the eigenvalues as</span></div>
+<div class="line"><a name="l01500"></a><span class="lineno"> 1500</span>&#160;  <span class="comment">// prepared for the deflated system.</span></div>
+<div class="line"><a name="l01501"></a><span class="lineno"> 1501</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws_hm.e2, ws.e2);</div>
+<div class="line"><a name="l01502"></a><span class="lineno"> 1502</span>&#160;  dlaf::multiplication::internal::generalSubMatrix&lt;B, D, T&gt;(grid, row_task_chain, col_task_chain,</div>
+<div class="line"><a name="l01503"></a><span class="lineno"> 1503</span>&#160;                                                            i_begin, i_end, T(1), ws.e1, ws.e2, T(0),</div>
+<div class="line"><a name="l01504"></a><span class="lineno"> 1504</span>&#160;                                                            ws.e0);</div>
+<div class="line"><a name="l01505"></a><span class="lineno"> 1505</span>&#160; </div>
+<div class="line"><a name="l01506"></a><span class="lineno"> 1506</span>&#160;  <span class="comment">// Step #4: Final permutation to sort eigenvalues and eigenvectors</span></div>
+<div class="line"><a name="l01507"></a><span class="lineno"> 1507</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01508"></a><span class="lineno"> 1508</span>&#160;  <span class="comment">//    i1 (in)  : deflated &lt;--- deflated  (identity map)</span></div>
+<div class="line"><a name="l01509"></a><span class="lineno"> 1509</span>&#160;  <span class="comment">//    i2 (out) : deflated &lt;--- post_sorted</span></div>
+<div class="line"><a name="l01510"></a><span class="lineno"> 1510</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01511"></a><span class="lineno"> 1511</span>&#160;  initIndex(i_begin, i_end, ws_h.i1);</div>
+<div class="line"><a name="l01512"></a><span class="lineno"> 1512</span>&#160;  sortIndex(i_begin, i_end, std::move(k), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
+<div class="line"><a name="l01513"></a><span class="lineno"> 1513</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.i2, ws_h.i1);</div>
+<div class="line"><a name="l01514"></a><span class="lineno"> 1514</span>&#160;}</div>
+<div class="line"><a name="l01515"></a><span class="lineno"> 1515</span>&#160;}</div>
 <div class="ttc" id="ablas_2tile_8h_html"><div class="ttname"><a href="blas_2tile_8h.html">tile.h</a></div></div>
 <div class="ttc" id="aclassdlaf_1_1comm_1_1_communicator_html"><div class="ttname"><a href="classdlaf_1_1comm_1_1_communicator.html">dlaf::comm::Communicator</a></div><div class="ttdef"><b>Definition:</b> communicator.h:40</div></div>
 <div class="ttc" id="aclassdlaf_1_1common_1_1_index2_d_html"><div class="ttname"><a href="classdlaf_1_1common_1_1_index2_d.html">dlaf::common::Index2D&lt; SizeType, matrix::GlobalTile_TAG &gt;</a></div></div>