MIPS Pipeline

Arquitetura de Computadores “A”

Aula 7

Pipeline

Em relação a performance...• O que é vantajoso no processador Monociclo?

• CPI = 1

• O que é desvantajoso no processador Monociclo?• Frequência baixa (Regrada pela instrução mais lenta)

• O que se ganhou na implementação Multiciclo?• Aumento na Frequência (Regrada pelo passo mais lento)

• O que se perdeu na implementação Multiciclo?• CPI > 1

Como agregar as vantagens das duas implementações?

CPI baixo e Frequência alta

Shiftleft 2

Memory

MemData

Writedata

RegistersWriteregister

Writedata

Readdata 1

Readdata 2

Readregister 1

Readregister 2

Instruction[15– 0]

Signextend

Instructionregister

ALUresult

ALUZero

Memorydata

register

ALUOut

Address

No multiciclo..o que se pode melhorar?

• Hardware dividido para executar os 5 passos• Somente uma parte do hardware está sendo utilizada por

ciclo (sempre UMA instrução dentro do processador)• Solução?

Sumário• Princípios Básicos• MIPS Pipeline: Caminho de Dados• MIPS Pipeline: Controle• Outros exemplos• Exercícios

• Analogia com o processo de lavagem de roupas• Dividido em 4 passos:

• Lavar• Secar• Dobrar• Guardar

• Assumindo que cada passo dure 30 minutos

• Cada processo dura 2 horas• Três processos duram 6 horas• Recursos ociosos na maior parte do tempo!

Multiciclo

• Eliminação da ociosidade dos recursos• Inicia-se um processo a cada passo• Um processo continua durando 2 horas• Três processos duram 3 horas e 30 minutos

Pipeline

Monociclo

Instructionfetch

Reg ALU Dataaccess

8 nsInstruction

fetchReg ALU Data

accessReg

8 nsInstruction

lw $1, 100($0)

lw $2, 200($0)

lw $3, 300($0)

2 4 6 8 10 12 14 16 18

Programexecutionorder(in instructions)

Assuma:• 2ns para acessos à memória e operação na ULA. • 1ns para acesso ao banco de registradores.

• Período do monociclo é 8 ns• CPI = 1• Tempo de execução de um load = 8ns• Tempo de execução de três loads = 24ns

Multiciclo

Instructionfetch

Reg ALU Dataaccess

lw $1, 100($0)

lw $2, 200($0)

lw $3, 300($0)

2 4 6 8 10 12 14 16 18Programexecutionorder(in instructions)

Assuma:• 2ns para acessos à memória e operação na ULA. • 1ns para acesso ao banco de registradores.

• Período do multiciclo é 2 ns• CPI > 1• Tempo de execução de um load = 10ns• Tempo de execução de três loads = 30ns

2 nsInstruction

fetchReg ALU Data

accessReg

2 nsInstruction

Pipeline Assuma:

• 2ns para acessos à memória e operação na ULA. • 1ns para acesso ao banco de registradores.

• Período do pipeline é 2 ns• CPI ~= 1• Tempo de execução de um load = 10ns• Tempo de execução de três loads = 14ns

2 4 6 8 10 12 14

Instructionfetch

Reg ALUData

accessReg

lw $1, 100($0)

lw $2, 200($0)

lw $3, 300($0)

2 nsInstruction

fetchReg ALU

Dataaccess

2 nsInstruction

fetchReg ALU

Dataaccess

2 ns 2 ns 2 ns 2 ns 2 ns

Programexecutionorder(in instructions)

Pipeline: preste atenção• Pipelining não reduz a latência de uma instrução, mas

aumenta o throughput (vazão) de todo workload • Executar bilhões de instruções, então throughput é o que

interessa; • Questões:

• O período do pipeline é limitado pelo estágio mais longo• Ganho em potencial = número de estágios• Períodos desbalanceados dos estágio reduzem o aumento de desempenho

em relação a frequência

• Há um tempo gasto para encher o pipeline e para esvaziá-lo• Múltiplas instruções estão no pipeline concomitantemente

• Uma em cada estágio do pipeline• Mas somente uma instrução pode terminar (write back) por ciclo

O MIPS facilita para o pipelining?• Todas instruções tem o mesmo comprimento

• Busca e decodificação são similares para todas instruções

• Poucos formatos de instruções• Simplifica a decodificação, que pode ser feita em um estágio

• Operandos de memória parecem apenas em loads/stores• Acessos à memória podem ser realizados em um estágio específico

Caminho de dados• Vamos construir o bloco operativo• Primeiro, lembre-se dos cinco passos

• Busca de Instruções e incremento do PC (IF)• Decodificação da instrução e busca dos registradores (ID)• Execução e cálculo do Endereço (EX)• Acesso à Memória (MEM)• Gravação do resultado no banco de registradores (WB)

Caminho de dados• No monociclo

• Todos os passos feitos em apenas um ciclo• Hardware dedicado para cada passo

• No multiciclo• Passos são realizados em ciclos diferentes• Alguns componentes de hardware são compartilhados

• Memórias, somadores,etc.

• No pipeline• Devemos implementá-lo a partir do caminho de dados do

monociclo ou multiciclo?• Monociclo

• Temos instruções diferentes em cada passo que necessitam de HW dedicado

(IF)Instruction Fetch

(ID)Instruction Decode

(EX)Execute

(MEM)Memory

(WB)Write Back

RN1 RN2 WN

WDRegister File ALU

DataMemory

Instruction I32

InstructionMemory

Revisão dos “passos”

Pipeline• Como iremos isolar os resultados de cada instrução

em cada estágio do pipeline?• Precisamos de registradores extras para guardar os dados entre

os ciclos• Registradores do pipeline

RN1 RN2 WN

WDRegister File ALU

DataMemory

Instruction I32

InstructionMemory

Registradores do Pipeline

ID/EX EX/MEM MEM/WB

64 bits97 bits 64 bits

128 bits

Largos o suficiente para manter os dados

Bloco operativo com pipeline

Exemplo no Pipeline• Considere a seguinte sequência de instruções

lw $t0, 10($t1) sw $t3, 20($t4) add $t5, $t6, $t7 sub $t8, $t9, $t10

Diagrama de ciclo: Ciclo 1LW

RegisterFile

DataMemory

InstructionMemory

IF/ID ID/EX EX/MEM MEM/WB

RegisterFile

DataMemory

InstructionMemory

Diagrama de ciclo: Ciclo 2

RegisterFile

DataMemory

InstructionMemory

LWSWADD

RegisterFile

DataMemory

InstructionMemory

LWSWADDSUB

RegisterFile

DataMemory

InstructionMemory

LWSWADDSUB

RegisterFile

DataMemory

InstructionMemory

SWADDSUB

RegisterFile

DataMemory

InstructionMemory

ADDSUB

RegisterFile

DataMemory

InstructionMemory

Exemplo no Pipeline• Considere a seguinte sequência de instruções

lw $t0, 10($t1) sw $t3, 20($t4) add $t5, $t6, $t7 sub $t8, $t9, $t10

Algo novo na execução?

Diagrama de ciclo: Ciclo 1LW

RegisterFile

DataMemory

InstructionMemory

RegisterFile

DataMemory

InstructionMemory

RegisterFile

DataMemory

InstructionMemory

LWSWADD

RegisterFile

DataMemory

InstructionMemory

LWSWADDSUB

RegisterFile

DataMemory

InstructionMemory

RN1 RN2 WN

WDRegister File ALU

DataMemory

Instruction I32

InstructionMemory

128 bits

Bloco operativo com pipeline (2)

Endereço do registrador de escrita vem de OUTRA instrução, que está após no pipeline

O número do registrador de destino também é passado através dos registradores ID/EX, EX/MEM e MEM/WB, que agora tem de ter 5 bits a mais

RN1 RN2 WN

WDRegister File ALU

DataMemory

Instruction I32

InstructionMemory

133 bits

RN1 RN2 WN

WDRegister File ALU

DataMemory

Instruction I32

InstructionMemory

128 bits

Dados sendo movidos da direita para a esquerda podem causar hazard de dados

• Branches e escrita no último passo

Visão alternativa – Diagramas com vários Ciclos de relógio

IM REG ALU DM REGlw $t0, 10($t1)

sw $t3, 20($t4)

add $t5, $t6, $t7

CC 1 CC 2 CC 3 CC 4 CC 5 CC 6 CC 7

IM REG ALU DM REG

sub $t8, $t9, $t10 IM REG ALU DM REG

Pipeline Completo

Address

Add Addresult

Shiftleft 2

Address

Writedata

Readdata 1

Readdata 2

Readregister 1

Readregister 2

16Sign

extend

Writeregister

Writedata

Readdata

ALUresult

64 bits 133 bits 102 bits 69 bits

Busca Decodificação Execução Memória Escr. Reg.

Notas• Uma diferença significativa na execução do tipo-R entre

multiciclo e pipeline• Escrita no banco de registradores é feito no 5º estágio do pipeline• No Multiciclo, é no 4º passo. Por quê?

• A grande diferença entre o pipeline e o multiciclo é o desacoplamento dos passos

• O CPI do pipeline ideal é de 1. Por quê?

Controle do Pipeline• Design inicial motivado pelo monociclo

• Mesmos sinais de controle

• Observe que• Não há sinal separado para gravação no PC• Não há sinais separados para registradores que são escritos

em todo o ciclo• Não há sinal de leitura para a memória de instruções• Não há sinal de leitura para o banco de registradores

• É necessário configurar os bits para cada estágio do pipeline

• Necessidade de agrupar os sinais de controle para cada estágio

Bloco Operativo com Controle I

Instructionmemory

Address

MemtoReg

Branch

RegDst

ALUSrc

16 32Instruction[15– 0]

0Registers

Writeregister

Writedata

Readdata 1

Readdata 2

Readregister 1

Readregister 2

Signextend

1Write

data Mux

ALUcontrol

RegWrite

MemRead

MemWrite

Address

Datamemory

AddAdd

result

Shiftleft 2

ALUresult

• 5 estágios• Busca de Instruções e incremento do PC

(IF)• Decodificação da instrução e busca dos

registradores (ID)• Execução e cálculo do Endereço (EX)• Acesso à Memória• Gravação do resultado no banco de

registradores (WB)

Sinais de controle I

Execution/Address Calculation stage control

linesMemory access stage

control lines

Write-back stage control

InstructionReg Dst

ALU Op1

ALU Op0

ALU Src

Branch

Mem Read

Mem Write

R-format 1 1 0 0 0 0 0lw 0 0 0 1 0 1 0sw X 0 0 1 0 0 1beq X 0 1 0 1 0 0

Nada para controlar porque a leitura na memória de instruções e a escrita no

PC estão sempre habilitadas

• Controle é propagado junto com os dados – cada registrador de pipeline é estendido para guardar os bits de controle para dos estágio seguintes

• Os 6 bits do campo FUNCT (tipo R) são recuperados no EX pelo campo de imediato que propaga nos registradores de dados do pipeline

Controle através dos Estágios

Control

Instruction

Instructionmemory

Branch

RegDst

ALUSrc

16 32Instruction[15– 0]

Add Addresult

RegistersWriteregister

Writedata

Readdata 1

Readdata 2

Readregister 1

Readregister 2

Signextend

ALUresult

Writedata

Readdata

ALUcontrol

Shiftleft 2

MemRead

Control

WBIF/ID

EX/MEM

MEM/WB

AddressData

memory

Address

Bloco Operativo com Controle II

Campo FUNCT

Execuçãocom controle• Sequência

de instruções:

lw $10, 20($1)sub $11, $2, $3and $12, $4, $7or $13, $6, $7add $14, $8, $9

“before<i>” significa a i-nésimaInstrução antes de lw

Ciclo 1 Ciclo 2

de instruções:

lw $10, 20($1)sub $11, $2, $3and $12, $4, $7or $13, $6, $7add $14, $8, $9

Ciclo 2

de instruções:

lw $10, 20($1)sub $11, $2, $3and $12, $4, $7or $13, $6, $7add $14, $8, $9

Ciclo 3

de instruções:

lw $10, 20($1)sub $11, $2, $3and $12, $4, $7or $13, $6, $7add $14, $8, $9

Ciclo 4

de instruções:

lw $10, 20($1)sub $11, $2, $3and $12, $4, $7or $13, $6, $7add $14, $8, $9

Ciclo 5

de instruções:

lw $10, 20($1)sub $11, $2, $3and $12, $4, $7or $13, $6, $7add $14, $8, $9

Ciclo 6“after <i>” significa a i-nésimaInstrução depois de add

de instruções:

lw $10, 20($1)sub $11, $2, $3and $12, $4, $7or $13, $6, $7add $14, $8, $9

de instruções:

lw $10, 20($1)sub $11, $2, $3and $12, $4, $7or $13, $6, $7add $14, $8, $9

Instructionmemory

Address

Branch

RegDst

ALUSrc

Add Addresult

ALUresult

ALUcontrol

Shiftleft 2

IF/ID EX/MEMID/EX

ID: after<3> EX: after<2> MEM: after<1> WB: add $14, . . .

MEM/WB

IF: after<4>

0Writedata

Control

Registers

Readdata 1

Readdata 2

Readregister 1

Readregister 2

Instruction[15– 0] Sign

extend

MemRead

ALUReaddata

Writeregister

Writedata

Datamemory

Address

Clock 9

Ciclo 9

de instruções:

lw $10, 20($1)sub $11, $2, $3and $12, $4, $7or $13, $6, $7add $14, $8, $9

“after <i>” significa a i-nésimaInstrução depois de add

Pipelines de Instruções• Evolução no número de estágios:

– 2 estágios

• fetch/decodificação, execução– 3 estágios

• fetch, decodificação/busca de operandos, execução– 4 estágios

• fetch, decodificação/busca de operandos, execução, store– 5 estágios

• fetch, decodificação/cálculo de endereço de operandos, busca de operandos, execução, store

– 6 estágios

• fetch, decodificação, cálculo de endereço de operandos, busca de operandos, execução, store

• Estágio só de decodificação é usual em processadores CISC. Por que?• Porque a tendência da evolução é quebrar o pipeline em mais estágios?

Exemplos Atuais – Pentium III e IV

Exemplos Atuais - ARM

Exemplos Atuais - Atom

Exemplos Atuais – Core i7

Mudança no Cenário

• 2000 – Pentium 4 – 20 estágios de pipeline • 1.3 – 2 GHz

• 2008 – Pentium D – Dual Core – 31 estágios de pipeline• 2.66 - 3.73 GHz

• 2012 – Corei 7 – 6 Cores – 14 estágios de pipeline• ~ 2GHz

Porque a frequência baixou?

Pipeline Aritmético• O pipeline pode ser empregado também em outros lugares.

• Ex.: pipeline aritmético

• O pipeline aritmético é empregado para acelerar as funções lógicas e aritméticas das ULAs.

• É a divisão das operações aritméticas em suboperações.• Todos microprocessadores modernos possuem pipeline aritmético.

• Pipeline de Somador de Ponto Flutuante com 5 estágios• Os cinco estágios:

• Comparação dos operandos A e B,• Ajuste da mantissa,• Soma dos operandos A e B• Verificação dos zeros da soma• Ajuste do expoente final

• Resulta no final um expoente e uma mantissa

Pipeline Aritmético

• Dado um processador com 5 estágios de pipeline (F,DR,E,M,W), Tciclo = 2ns, pede-se:• quanto tempo será tomado para executar 1B de instruções,

supondo CPI = 1?• qual a aceleração em relação a:

• uma máquina monociclo com Período = 8ns;• uma máquina multiciclo com Período = 2ns, CPI = 4;

• Graças a melhora na tecnologia, passa-se o pipeline a 8 estágios (F1,F2,DR,E1,E2,M1,M2,W), com Tciclo = 1ns. • Quanto tempo será tomado para executar 1B de instruções,

supondo CPI = 1?• Qual a aceleração em relação a:

• uma máquina single-cycle com Tcycle = 8ns;• uma máquina multi-cycle com Tcycle = 1ns, CPI = 5;

Exercícios

Para Ler• Patterson, 2ª Edição e 3ª Edição

• 6.1 – 6.3

• Dicas• Tempo de execução = Nº instruções x CPI x Tciclo• Pipeline => Cuidado => Tencher + Tesvaziar

Exercícios

MIPS Pipeline

Technology

Transcript of MIPS Pipeline

MIPS Monociclo Implementação em VHDL

Conjunto de Instruções MIPS

ASP.NET HTTP Pipeline

Usando o simulador MIPS

Farmacologia Clínica dos MIPS

O Pipeline de Renderização - cin.ufpe.brmarcelow/Marcelow/programacao pg_files...1 1 O Pipeline de Renderização Processamento Gráﬁco Marcelo Walter - UFPE 2 The Graphics Pipeline

Apendice a Mips

Cisc, risc e pipeline

MIPs: Aplicações - unifal-mg.edu.brunifal-mg.edu.br/latf/files/Aplicações MIP.pdf · MIPs: Aplicações Analitos Fármacos, enzimas, ... Síntese do MIP para Nicotina ... Metanol

Medicamentos Isentos de Prescrição Médica (MIPs)

Administração do Pipeline e Forecast

Conjunto de instruções mips - introdução

Normas MIPS Mar Del Plata

Pipeline de Liderança - mooc.campusvirtual.fiocruz.br

Pipeline 4 Bits

Conjunto de instruções mips - instruções de desvio

PIPELINE DE INSTRUÇÕES (estratégia e desempenho)adao/PIPELINE.pdf · 3 PIPELINE x LINHA DE MONTAGEM A estratégia PIPELINE assemelha-se a linha de montagem de uma Industria. –

CPU, Dados, Mips

SPP-aula04 - Conjunto de Instruções MIPS 3

Real Time Rendering. a. Pipeline Gráfico Pipeline Gráfico - Pipeline / Estágios - Gargalo - Otimização - Tipos de Processamento Paralelo referência Real.