А не проще обратиться в ТГУ или ТПУ на уже имеющиеся кластеры? Там узлов не 10, как у вас, а минимум 24, и каждый - 8 Гб ОЗУ + пара двухъядерных Xeon 5150 2.66GHz. Сосредоточитесь сразу на программной части, вместо железок.
Кстати, касательно расчетов на видюхах - это тоже не всякая задача так программно распаралливаема именно под них, чтобы выжать всё, что можно. В HPC вообще очень многое зависит от задачи, вся соль в программной реализации, панацеи в железе - нет.