В данной работе описаны особенности реализации алгоритмов вейвлет-преобразований для платформы NVIDIA CUDA.
Архитектура CUDA обладает сложной структурой памяти, и для того, чтобы максимально использовать вычислительную мощность графического процессора, необходимо уделить пристальное внимание оптимизации работы с памятью.
В статье описаны несколько различных способов работы с памятью, приводится сравнение скорости работы. Так же из-за того, что для полноценной загрузки GPU нужны тысячи нитей, важным вопросом является разделение данных на подзадачи.Приводится зависимость скорости работы алгоритма от различных параметров при разделении данных. Ещё одной особенностью реализации, рассмотренной в статье, является оптимизация арифметических выражений.
Abstracts file: | Панин, Точёная – тезисы.doc |
Full text file: | Панин, Точёная_статья.pdf |