Nesta pÃ¡gina oferecemos um Kit de ensino de GPGPU desenvolvido em uma colaboraÃ§Ã£o entre a NVIDIA e a Universidade de Illinois. Esse kit Ã© composto por uma sÃ©rie de video aulas divididas em mÃ³dulos. Cada mÃ³dulo cobre um tipo de assunto diferente e fornece material para ensino e treinamento em programaÃ§Ã£o de alto desempenho usando GPUs

ConteÃºdo

MÃ³dulo 1: IntroduÃ§Ã£o

Este mÃ³dulo contÃ©m trÃªs vÃdeo aulas e apresenta os objetivos do curso e introduz os conceitos de computaÃ§Ã£o heterogÃªnea e programaÃ§Ã£o paralela.

Aula 1.1: Uma visÃ£o geral do curso

Aula 1.2: IntroduÃ§Ã£o a computaÃ§Ã£o paralela heterogÃªnea

Aula 1.3: Portabilidade e escalabilidade na computaÃ§Ã£o paralela heterogÃªnea

MÃ³dulo 2: IntroduÃ§Ã£o ao CUDA C

Neste mÃ³dulo, cobriremos as funÃ§Ãµes bÃ¡sicas da API em um cÃ³digo de HOST do CUDA, e introduziremos as CUDA threads, que sÃ£o nosso principal mecanismo para explorar o paralelismo de dados.

Aula 2.1: CUDA C vs. Thrust vs. Bibliotecas CUDA

Aula 2.2: FunÃ§Ãµes da API para alocaÃ§Ã£o de memÃ³ria e movimentaÃ§Ã£o de dados

Aula 2.3: Threads e funÃ§Ãµes kernel

Aula 2.4: IntroduÃ§Ã£o ao CUDA Toolkit

MÃ³dulo 3: Modelo de paralelismo CUDA C

Neste mÃ³dulo introduzimos o kernel CUDA, padrÃµes de acesso a memÃ³ria eficientes, e thread scheduling.

Aula 3.1: ProgramaÃ§Ã£o paralela SPMD baseada em kernel

Aula 3.2: ConfiguraÃ§Ã£o de kernels multidimensionais

Aula 3.3: Exemplo – ConversÃ£o de imagem colorida para escala de cinza

Aula 3.4: Exemplo – Image blur

Aula 3.5: Thread scheduling

MÃ³dulo 4: Tipos de memÃ³ria e Data Locality

Neste mÃ³dulo introduzimos os diferentes tipos de memÃ³ria do CUDA e exploramos seu uso nos algoritmos de caixa em paralelo (tiled parallel algorithms).

Aula 4.1: TÃpos de memÃ³ria no CUDA

Aula 4.2: Algoritmos de caixa em paralelo (Tiled parallel algorithms)

Aula 4.3: Exemplo – MultiplicaÃ§Ã£o de matrizes usando o algoritmo de caixas (Tiled matrix multiplication)

Aula 4.4: Kernel para multiplicaÃ§Ã£o de matrizes usando o algoritmo de caixas

Aula 4.5: MultiplicaÃ§Ã£o de matrizes de tamanhos arbitrÃ¡rios usando o algoritmo de caixas

MÃ³dulo 5: AnÃ¡lise de eficiÃªncia na execuÃ§Ã£o de threads

Neste mÃ³dulo introduzimos o kernel CUDA, padrÃµes de acesso a memÃ³ria eficientes, e thread scheduling.

Aula 5.1: Warps e hardwares SIMD

Aula 5.2: Inpacto da divergÃªncia de controle no desempenho do kernel

MÃ³dulo 6: EficiÃªncia no Acesso a MemÃ³ria

Neste mÃ³dulo discutiremos a importÃ¢ncia da coalescÃªncia no acesso a memÃ³ria para o uso eficiente da banda de memÃ³ria em uma aplicaÃ§Ã£o CUDA.

Aula 6.1: A Largura de Banda DRAM

Aula 6.2: CoalescÃªncia no Acesso a MemÃ³ria em CUDA

VÃdeo Aulas

MÃ³dulo 1: IntroduÃ§Ã£o

Este mÃ³dulo contÃ©m trÃªs vÃdeo aulas e apresenta os objetivos do curso e introduz os conceitos de computaÃ§Ã£o heterogÃªnea e programaÃ§Ã£o paralela.

Aula 1.1: Uma visÃ£o geral do curso

PDF Slides
Lecture-1-1-overview.pdf
Power Point Slides
Lecture-1-1-overview.pptx

ConteÃºdo

MÃ³dulo 1: IntroduÃ§Ã£o

MÃ³dulo 2: IntroduÃ§Ã£o ao CUDA C

MÃ³dulo 3: Modelo de paralelismo CUDA C

MÃ³dulo 4: Tipos de memÃ³ria e Data Locality

MÃ³dulo 5: AnÃ¡lise de eficiÃªncia na execuÃ§Ã£o de threads

MÃ³dulo 6: EficiÃªncia no Acesso a MemÃ³ria

VÃ­deo Aulas

MÃ³dulo 1: IntroduÃ§Ã£o

Aula 1.1: Uma visÃ£o geral do curso

Aula 1.2: IntroduÃ§Ã£o a computaÃ§Ã£o paralela heterogÃªnea

Aula 1.3: Portabilidade e escalabilidade na computaÃ§Ã£o paralela heterogÃªnea

CapÃ­tulo de livro

MÃ³dulo 2: IntroduÃ§Ã£o ao CUDA C

Aula 2.1: CUDA C vs. Thrust vs. Bibliotecas CUDA

Aula 2.2: FunÃ§Ãµes da API para alocaÃ§Ã£o de memÃ³ria e movimentaÃ§Ã£o de dados

Aula 2.3: Threads e funÃ§Ãµes kernel

Aula 2.4: IntroduÃ§Ã£o ao CUDA Toolkit

Experimentos

CapÃ­tulo de livro

MÃ³dulo 3: Modelo de paralelismo CUDA C

Aula 3.1: ProgramaÃ§Ã£o paralela SPMD baseada em kernel

Aula 3.2: ConfiguraÃ§Ã£o de kernels multidimensionais

Aula 3.3: Exemplo – ConversÃ£o de imagem colorida para escala de cinza

Aula 3.4: Exemplo – Image blur

Aula 3.5: Thread scheduling

Experimentos

CapÃ­tulo de livro

MÃ³dulo 4: Tipos de memÃ³ria e Data Locality

Aula 4.1: TÃ­pos de memÃ³ria no CUDA

Aula 4.2: Algoritmos de caixa em paralelo (Tiled parallel algorithms)

Aula 4.3: Exemplo – MultiplicaÃ§Ã£o de matrizes usando o algoritmo de caixas (Tiled matrix multiplication)

Aula 4.4: Kernel para multiplicaÃ§Ã£o de matrizes usando o algoritmo de caixas

Aula 4.5: MultiplicaÃ§Ã£o de matrizes de tamanhos arbitrÃ¡rios usando o algoritmo de caixas

Experimentos

CapÃ­tulo de livro

MÃ³dulo 5: AnÃ¡lise de eficiÃªncia na execuÃ§Ã£o de threads

Aula 5.1: Warps e hardwares SIMD

Aula 5.2: Inpacto da divergÃªncia de controle no desempenho do kernel.

Quiz

CapÃ­tulo de livro

MÃ³dulo 6: EficiÃªncia no Acesso a MemÃ³ria

Aula 6.1: A Largura de Banda DRAM.

Aula 6.2: CoalescÃªncia no Acesso a MemÃ³ria em CUDA.

Quiz

CapÃ­tulo de livro

GPU

Support by:

Development:

VÃdeo Aulas

CapÃtulo de livro

CapÃtulo de livro

CapÃtulo de livro

Aula 4.1: TÃpos de memÃ³ria no CUDA

CapÃtulo de livro

CapÃtulo de livro

CapÃtulo de livro