std::sortと独自バイトニックソートとthrust::sortの速度

約100万要素(1024 * 1024)の32bit整数のソート速度を以下のプログラムで測ってみた。
全て C++で書き、64bit、O3でコンパイルした。
実行したマシンはCore 2 Duo 2GHz, Geforce 9400M。

続きを読む

バイトニックソート

GPUでソートを行う必要があり、GPUソートにおける代表格であるバイトニックソートについて調べた。

続きを読む

CPUとGPU

以前作ってたフォトンベイカーを最近また新しく作り直してる。
以前のものは色んな技法の調査目的でコードを書いてたため、余分なコードが大量にある状態だった。
作り直してるといっても別の仕事でちょっと忙しいのであまり進んでない。

続きを読む

未だグダってます

ここ1週間ぐらいまとまったコードはあまり書いてないので書くネタがなかった。

続きを読む

cu.hppが一応Windowsでも使えた

この前公開したcu.hppをWindowsでも試してみたら使えた。
といっても確認したコンパイラはVC++ではなくてclang++。

続きを読む

nvccでアーキテクチャの設定は出来るだけ下げた方が速い?

自分とこのGTX 460(Ubuntu)でしか確認してないので全然確信は持てないんだけど、カーネルのコンパイルを

続きを読む

tex1D と tex1Dfetch の使い分け

私が思うCUDAの微妙な点の一つとして、tex1D と tex1Dfetchという2つのテクセルフェッチ関数の存在がある。

続きを読む

CUDAでatomicAddを減らして高速化

この記事には誤りがあります。それについて最後のほうに追記があります。

続きを読む