ループブロッキングでブロックのサイズが行列のサイズと同じ(≒ブロッキングしてにゃい)ほうが速いんだけど本当か?
@wakakyu 環境によるから一概には言えにゃいけど、キャッシュのアラインメントがズレてかえって転送が遅くにゃったりするかも
@wakakyu あとはSIMDが使えるかとかあまりに小さいとループアンローリングされるかもとか、色々思うところはありつつ全部環境依存だからよくわからん!ににゃる
Mastodon is the best way to keep up with what's happening.
Follow anyone across the fediverse and see it all in chronological order. No algorithms, ads, or clickbait in sight.