131. Несколько подходов к оптимизации алгоритма вейвлет-преобразования, реализованного на графическом процессоре

В данной работе описаны особенности реализации алгоритмов вейвлет-преобразований для платформы NVIDIA CUDA.

Архитектура CUDA обладает сложной структурой памяти, и для того, чтобы максимально использовать вычислительную мощность графического процессора, необходимо уделить пристальное внимание оптимизации работы с памятью.

В статье описаны несколько различных способов работы с памятью, приводится сравнение скорости работы. Так же из-за того, что для полноценной загрузки GPU нужны тысячи нитей, важным вопросом является разделение данных на подзадачи.Приводится зависимость скорости работы алгоритма от различных параметров при разделении данных. Ещё одной особенностью реализации, рассмотренной в статье, является оптимизация арифметических выражений.

 

Abstracts file: Панин, Точёная – тезисы.doc
Full text file: Панин, Точёная_статья.pdf