- Параллельные вычисления на видеокарте. Производительность решений GPGPU. Бенчмарки для параллельных вычислений на CUDA. Производительность решений GPGPU. Параллельные вычисления на GPU. Производительность GPU. Параллельные вычисления cuda. Параллельные вычисления GPGPU. Benchmarks for CUDA. Parallel computing on CUDA.
высокоскоростная съёмка скоростная съёмка
ГЛАВНАЯ
  ВИДЕОКАМЕРЫ
  ПРОГРАММЫ
  РЕШЕНИЯ
  ПРОЕКТЫ
  НОВОСТИ
  ИНФО
  ВАКАНСИИ
  АДРЕС
  КАРТА САЙТА
  ENGLISH VERSION
 
  Поиск по сайту:

Производительность параллельных вычислений GPGPU

Использование видеокарт для организации параллельных вычислений очень перспективно, причём это не описание ближайшего будущего, а суровая реальность. Для реализации возможностей современных видеокарт необходимо соответствующее программное обеспечение и алгоритмы, которые можно распараллелить. Большинство алгоритмов, используемых в программном обеспечении для процессоров Intel/AMD/Cell изначально являются последовательными, поэтому не всегда возможна их переделка для параллельной реализации. Примерами таких последовательных алгоритмов являются арифметическое кодирование, сжатие в JPEG без потерь (JPEG-LS), декодирование видеопотока и др.

Для демонстрации возможностей параллельных вычислений на видеокартах NVIDIA с технологией CUDA мы написали ряд программ, которые раскрывают потенциал этого направления. Эти примеры сделаны нами и не повторяют код из примеров CUDA SDK. Более того, наши результаты заметно лучше, чем можно найти в SDK.

Конфигурация компьютера

  • Для тестирования программного обеспечения использовалась такая конфигурация компьютера: ASUS P6T Deluxe V2 LGA1366, X58, Core i7 920, 2,67 ГГц, DDR-III 6 ГБайт
  • Видеокарта для вычислений: GeForce GTX 980 (технология Maxwell)
  • Операционная система Windows-7, 64-bit, CUDA 6.5, драйвер 347.90

Дополнительные условия

Для демонстрации результатов параллельных вычислений на видеокарте есть следующие варианты: данные перед вычислениями могут находиться в памяти компьютера или в памяти видеокарты. Такая постановка задачи позволяет оценить потенциал именно видеокарты, без учёта влияния других устройств, связанных с операциями ввода-вывода.

Цветовая интерполяция (дебайер) по алгоритму Malvar-He-Cutler

Для восстановления цвета после байеровской решётки необходимо выполнить цветовую интерполяцию. Для изображений формата 1920 х 1080 по алгоритму Malvar-He-Cutler (HQLI, набор фильтров для квадрата 5х5), получена скорость вычислений 2,4 ГБайт в секунду для видеокарты GeForce GTX 980 с учётом копирований.

Сжатие 8-битных изображений по алгоритму Baseline JPEG

При компрессии 8-битного изображения с разрешением 3840 х 2160 по алгоритму Baseline JPEG со сжатием примерно в 10 раз с учётом копирований, получена производительность кодирования 6,7 ГБайт в секунду.

Вейвлет-преобразование алгоритму Добеши 9/7

Для выполнения прямого или обратного одноуровнего вейвлет-преобразования CDF 9/7 для 8-битного изображения с разрешением 1920 х 1080 требуется всего 0.2 мс, что соответствует производительности 10 ГБайт в секунду.

Выводы

Сравнений с аналогичными программами на CPU мы не проводим, поскольку разница более чем очевидна. Насколько нам известно, лучшие коммерческие решения с похожим функционалом могуть сжать не более пятисот мегабайт в секунду при тех же самых условиях. Производительность наших систем на GPGPU даже выше по сравнению с аппаратными решениями на базе FPGA. Подробнее эта тема освещена с описании реализации алгоритма DCT, а также кодера и декодера JPEG (для гистограмм мы не нашли данных для сравнения).

Rambler's Top100 НПО Астек - официальный дилер "Фаствидео"
Москва, 129344, ул. Искры 17А, корп. 3, тел: +7 (495)-542-04-49
высокоскоростные камеры