Computação Paralela em GPU Usando CUDAcarciofi/WCCA/ricardo_wcca.pdf · Computação Paralela em...

Computação Paralela em Computação Paralela em GPU Usando CUDAGPU Usando CUDA

Ricardo FariasPrograma de Engenharia de Sistemas e Computação

COPPE / UFRJ

rfarias@cos.ufrj.br

MotivaçãoMotivação

O que é GPGPU?O que é GPGPU? General-Purpose Computing on a Graphics General-Purpose Computing on a Graphics

Processing Unit (GPU)Processing Unit (GPU) Usando Hardware gráfico para computação não-Usando Hardware gráfico para computação não-

gráficagráfica

O que é CUDA?O que é CUDA? Compute Unified Device ArchitectureCompute Unified Device Architecture Arquitetura de Software para gerenciar Arquitetura de Software para gerenciar

programação paralela orientada por dadosprogramação paralela orientada por dados

MotivaçãoMotivação

GPU Fermi TeslaGPU Fermi Tesla CPU AMD Opteron 12 coresCPU AMD Opteron 12 cores

Comparação das CPUs/GPUsComparação das CPUs/GPUs

Mais transistores dedicados para processamento de dados

CPU x GPUCPU x GPU

CPU Quantidade de Caches (L1, L2, L3) Previsão de Salto Alta-performance (pelas previsões)

GPU Muitas ALUs Memória onboard Rápida Grande quantidade de tarefas paralelas

• Executa programas em cada fragmento/vertice

GPUs são indicadas para paralelismo de dados

Arquitetura FermiArquitetura Fermi

3 Bilhões de transistores3 Bilhões de transistores 4 GPC 4 GPC (Grap.Proc.Cluster)(Grap.Proc.Cluster) 16 SM16 SM 32 Elementos/SM32 Elementos/SM 512 Cores512 Cores 6 GB DDR56 GB DDR5 64 bits float64 bits float 32K Registradores/SM32K Registradores/SM 64K Shared L164K Shared L1 768K Cache L2768K Cache L2

C U D AC U D A

Computer Unified Device ArchitectureComputer Unified Device Architecture

Introdução à Programação CUDAIntrodução à Programação CUDA

Programação CUDAProgramação CUDA

Um programa da GPU chama-se kernel.

A Programação de um kernel exige:

Reservar espaço na memória da placa gráfica. Copiar dados para a memória da placa. Chamar o código a ser executado na GPU. Copiar os resultados de volta da GPU.

Passos de um KernelPassos de um Kernel

Memória do Host Memória da GPU

h_array

Computador Placa Gráfica

d_array

cudaMalloc()cudaMalloc()

h_array

cudaMemcpy()cudaMemcpy()

d_arrayh_array

Função<<< b, t >>>()Função<<< b, t >>>()

d_arrayh_array

GPU Kernel

cudaMemcpy()cudaMemcpy()

d_arrayh_array

Diretivas CUDADiretivas CUDA

Tipos de Função e Diretivas de Compilação CUDA:

__host__ Função executa na CPU

__global__ Função executa na GPU, chamada pela CPU.

__device__ Executa na GPU, chamada por outra função GPU

Diretivas CUDADiretivas CUDA

Tipos de Função e Diretivas de Compilação CUDA:

__host__ Função executa na CPU

__global__ Função executa na GPU, chamada pela CPU.

__device__ Executa na GPU, chamada por outra função GPU

Como executar um kernel?

função<<< numero de blocos, quantidade de threads >>>( argumentos )

Entendendo Blocos e ThreadsEntendendo Blocos e Threads

func<<< 1, 1 >>>( )

bloco thread

func<<< 1, 4 >>>( )

bloco threads

func<<< 1, 32 >>>( )

bloco threads

func<<< 1, 32 >>>( )

bloco threads

Como uma thread sabe quem é ela?

func<<< 1, 32 >>>( )

dim3 → ( x, y, z )

func<<< 1, 32 >>>( )

dim3 → ( x, y, z )

Indices das Threads: threadIdx.x, threadIdx.y, threadIdx.zIndices dos Bloco: blockIdx.x, blockIdx.y, blockIdx,zTamanho dos Blocos blockDim.x, blockDim.y, blockDim.zTamanho da Grid: gridDim.x, gridDim.y, gridDim.z

func<<< 1, 32 >>>( )

(1,1,1)

(32,1,1)

blockIdx.x = 1

threadIdx.y = 1

threadIdx.x = 16

dim3 bloco( 4, 8 )func<<< 1, bloco >>>( )

(1,1,1)

(4,8,1)blockIdx.x = 1

threadIdx.x = 2

threadIdx.y = 4

blockDim.x = 4blockDim.y = 8blockDim.z = 1

func<<< 1, 32 >>>( )

Executado em 1 warps no mesmo SM

func<<< 2, 32 >>>( )

Executado em 1 warp em diferentes SM

Exemplos PráticosExemplos Práticos

Computação Paralela em GPU Usando CUDAcarciofi/WCCA/ricardo_wcca.pdf · Computação Paralela em...

Documents

Transcript of Computação Paralela em GPU Usando CUDAcarciofi/WCCA/ricardo_wcca.pdf · Computação Paralela em...

Computação Paralela e Otimização - Vetorização e Multithreading

Computação Embaraçosamente Paralela. Computação embaraçosamente paralela Um processamento que pode ser dividido em um número de partes completamente independentes,

Componente mediador para computação GPU de imagens … · Componente mediador para computação GPU de imagens médicas no 3D SLICER Alexandre Freitas Duarte Dissertação apresentada

Introdução na Computação Distribuída e Paralela · Tecnologias e Sistemas de Computação SISTEMAS DISTRIBUÍDOS E PARALELOS Uso de vários processadores trabalhando juntos para

Desempenho da Computação Paralela em Ambientes Virtualizados Rafael Lopes Gomes.

Programação em GPU

Computação Paralela em GPU Usando CUDAbosco.sobral/ensino/ine5645/Computacao... · 32K Registradores/SM 64K Shared L1 768K Cache L2. C U D A Computer Unified Device Architecture

ASPECTOS DE DESEMPENHO DA COMPUTAÇÃO PARALELA EM …

Estudo sobre a aplicação da Computação Paralela na ...€¦ · olução de sistemas lineares com computação paralela. 1.2 Organização do trabalho Este trabalho está dividido

Jackson Tavares da Costa - Universidade Federal de Sergipeclássico na literatura, implementado de forma paralela, utilizando CUDA da NVIDIA e uma GPU (Graphics Processing Unit) que

COMPUTAÇÃO PARALELA: UMA INTRODUÇÃO Guilherme Galante.

SSC#0742 PROGRAMAÇÃO(CONCORRENTE(wiki.icmc.usp.br/images/1/19/Aula-03-Terminologia-Computação-Par… · PROGRAMAÇÃO(CONCORRENTE(Aula(03(–Terminologia(Geral(de(Computação(Paralela(Prof.&Jó&Ueyama&

Java Cá & Lá - DECOM€¦ · Computação Paralela: Único processador ou vários processadores em um único equipamento utilizando uma memória compartilhada. Computação Distribuída:

Plataformas de computação paralela e distribuída

Síntese de Imagens Fisicamente Correctas: Aplicações e ...gec.di.uminho.pt/psantos/docs/Presentations/SImgFisCorr.pdf• Algoritmos mais eficientes • Computação Paralela •

Uma implementação paralela do algoritmo de evolução ... · Introdução Evolução Computacional Computação Paralela Pesquisa Operacional Otimização e Inteligência Computacional

Uma Abordagem Paralela da Evolução Diferencial em GPU

Sistemas Distribuídos - Computação Paralela

Arquitetura e Programação de GPU Nvidia - Home | INSTITUTO DE COMPUTAÇÃOducatte/mo401/1s2012/T2/G02-001963-023169... · A Figura 2 ilustra a arquitetura GPU Fermi. Figura 2: GPU

Tese de Doutorado - DBD PUC RIO€¦ · escala através da computação paralela, computação em grid ou computação em nuvem. Esta tese apresenta uma abordagem baseada em complex