Aspectos de Confiabilidade na Implementação da Unidade de Telecomando e Telemetria para...
Transcript of Aspectos de Confiabilidade na Implementação da Unidade de Telecomando e Telemetria para...
Aspectos de Confiabilidade naImplementação da Unidade de Telecomando e
Telemetria para Plataformas Orbitais
Luciano Rigelo AzevedoMestrando em Ciência da Computação
Pontifícia Universidade Católica do Rio Grande do Sul
PPGCC - Faculdade de Informática
Porto Alegre, 22 de Março de 2010
Eduardo Augusto BezerraProfessor Orientador
Introdução
Tolerância a Falhas e Confiabilidade
Estado da Arte
Arquitetura do Módulo UTMC
Técnicas Propostas
Resultados
Conclusões e Trabalhos Futuros
Sumário
2
Introdução
A importância dos Veículos Espaciais Sistemas distintos: Plataforma Orbital e Carga Útil Tecnologias para aplicações espaciais, FPGA SRAM,
Antifuse e ASIC Função da UTMC na Plataforma Orbital Padrão CCSDS/ESA na UTMC Tipos de TC e TM Aplicação de ordem crítica na missão
3
Introdução
Proteção contra SEUs é imperativo na UTMC Avanço tecnológico deixou sistemas altamente
suscetíveis a radiação oriundas do espaço Ambiente extremamente hostil: variações na
temperatura, variações na tensão de alimentação e EMI
Tolerância a falhas também é um fator importante para equipamentos a nível terrestre
4
Motivação
Grande demanda pelos serviços fornecidos nas plataformas orbitais: Exploração espacial Comunicação Aplicações Científicas Militar Meteorologia
Aplicações espaciais são exóticas e apresentam muitos desafios a respeito de sua confiabilidade
Utilizar FPGA no módulo UTMC é uma solução atrativa Agregar confiabilidade em todo o módulo UTMC é
essencial para o sucesso da missão
5
Objetivos
Analisar aspectos de confiabilidade existentes no projeto atual da UTMC Descrever os recursos
Descrever as técnicas de tolerância a falhas aplicáveis
TMR DWC-CED
Avaliar técnicas de confiabilidade no módulo da UTMC Avaliar o impacto da aplicação das técnicas na UTMC Determinar qual é a técnica de tolerância a falhas a ser
empregada na UTMC Relatar as dificuldades enfrentadas
6
Sumário Introdução
Tolerância a Falhas e Confiabilidade
Estado da Arte
Arquitetura do Módulo UTMC
Técnicas Propostas
Resultados
Conclusões e Trabalhos Futuros
7
Tolerância a Falhas e Confiabilidade
Tecnologia tolerante a radiação Objetivo das técnicas: eliminar ponto único de falha Inserir redundância é base de tudo
Hardware – TMR, módulos redundantes, EDAC RAM Software – Programação diversitária Informação – BCH, RS, Convolucional, Paridade Tempo – Repetição da operação, re-envio de mensagem
Mascarar falhas transientes e permanentes Custo da técnica deve ser observado
8
Tolerância a Falhas e Confiabilidade
Modelo Falha – Erro – Defeito
9
Medidas de Confiabilidade Índices de Confiabilidade
Confiança MTTF MTBF Taxa de Falha
Confiabilidade em Sistemas Espaciais Variação de Temperatura Variação na Tensão EMI Radiação
SEE – Single Event Effects SEU – Single Event Upset SHE – Single Hard Error SHL – Single Hard Latchup
Avanço tecnológico acentua esses problemas Menor tolerância a ruídos Maior ocorrência de perturbações Ocorrência desses efeitos a nível terrestre
10
Tolerância a Falhas e Confiabilidade
Sumário Introdução
Tolerância a Falhas e Confiabilidade
Estado da Arte
Arquitetura do Módulo UTMC
Técnicas Propostas
Resultados
Conclusões e Trabalhos Futuros
11
Trabalhos Relacionados
Projeto PUC#SAT – G. Almeida Improving FPGA Design Robustness with Partial
TMR – B. Pratt, M. Caffrey Fault Tolerance Implementation within SRAM Based
FPGA – D. Fay, A. Shye Evaluating TMR Techniques in the Presence of
Single Event Upsets – N. Rollins, M. Wirthlin, M. Caffrey
12
Trabalhos Relacionados
Designing Fault-Tolerant Techniques for SRAM-Based FPGAs – F. Kastensmidt, G. Neuberger, L. Carro,R. Rei
Fault-Tolerance in FPGAs through CRC Voting – H. Castro, A. Coelho, R. Silveira
Which Concurrent Error Detection Scheme to choose – S. Mitra, E. McCluskey
Antifuse FPGA Technology: Best Option for Satellite Applications – K. O’Neill
On Fault Modeling and Fault Tolerance of Antifuse Based FPGAs – K. Roy
13
Trabalhos Relacionados
An Adaptive Fault Tolerant Memory System for FPGA Based Architectures in Space Environment – K. O’Neill
Synchronous Resets? Asynchronous Resets?I am so confused!How will I ever know which to use? – Clifford E. Cummings
Understanding Metastability in FPGAs – J. Chen D. Fung R. Stephenson
Arquitetura de Hardware do Computador de Bordo para o Satélite Universitário ITASAT e Confiabilidade – E.Vinci, O. Saotome
14
Sumário Introdução
Tolerância a Falhas e Confiabilidade
Estado da Arte
Arquitetura do Módulo UTMC
Técnicas Propostas
Resultados
Conclusões e Trabalhos Futuros
15
Análise do Módulo da UTMC Implementa o protocolo de comunicação de acordo com
as recomendações CCSDS/ESA FPGA Actel ProAsic3e – migração para Antifuse A plataforma orbital possui duas UTMCs
16
Análise do Módulo da UTMC Implementação das camadas do padrão CCSDS/ESA
17
Análise do Módulo da UTMC Fluxo de TC
18
Análise do Módulo da UTMC
Fluxo de TM
19
Sumário Introdução
Tolerância a Falhas e Confiabilidade
Estado da Arte
Arquitetura do Módulo UTMC
Técnicas Propostas
Resultados
Conclusões e Trabalhos Futuros
20
Análise do Módulo da UTMC
Recursos de confiabilidades existentes Telecomando
BCH FARM CRC nos pacotes e frames
Telemetria RS com Interleaving Convolucional CRC nos pacotes e frames CLCW ACK/NACK
21
TMR – Triple Modular Redundancy Altos índices de confiabilidade Redundância completa do circuito
I/O (Input/Output) Clock Reset Registradores
Necessita de um circuito de seleção Aplicação de TMR depende da estrutura de dados
Lógica sem realimentação FSM I/Os Recursos específicos – ex: BRAMs
22
TMR – Triple Modular Redundancy Lógicas com realimentação
Votação com realimentação Recuperação autônoma do circuito aos efeitos de SEUs Triplicação dos votadores elimina ponto único de falha
23TMR com realimentação
TMR – Triple Modular Redundancy
Seleção de saída por votador de minoria Elimina a necessidade de um circuito adicional, externo
ao FPGA, para unificar as saídas do TMR
24
TMR – Triple Modular Redundancy
TMR na UTMC
25
TMR – Triple Modular Redundancy
Aplicação do TMR na camada de Codificação
26
TMR – Triple Modular Redundancy Votação do estado da FSM
27
TMR – Triple Modular Redundancy
Confiabilidade na Memória do FPGA Módulo IP – EDAC (Error Detection and Correction) TMR combinado com refresh de memória
Registradores protegidos por TMR com votador único Dados codificados em memória Cada palavra possui 1 bit de paridade associado Verificação periódica da memória
28
DWC-CED
TMR completo é custoso em termos de área, consumo, I/Os e complexidade.
DWC – Duplication with Comparison CED – Concurrent Error Detection Redundância Temporal Somente DWC não é suficiente
Detecta somente falhas transientes Não permite votação na saída do circuito
CED Aliado ao DWC detecta erros permanentes Permite seleção do canal de saída
29
DWC-CED
CED na UTMC Assinatura CRC de 16 bits Aplicação entre as camadas do fluxo de TC e TM A estrutura fixa dos dados de controle permite adição da
assinatura de CRC entre as camadas Codificação BCH somente adiciona bits de paridade Codificação RS e Convolucional não possuem CED CED não é garantia de funcionamento
30
DWC-CED
DWC-CED com redundância temporal
31
DWC-CED
CED no fluxo de TC
32
DWC-CED
CED no fluxo de TM
33
DWC-CED
DWC-CED na UTMC
34
Sumário Introdução
Tolerância a Falhas e Confiabilidade
Estado da Arte
Arquitetura do Módulo UTMC
Técnicas Propostas
Resultados
Conclusões e Trabalhos Futuros
35
Sistema desenvolvido a partir dos requisitos do INPE Duas entradas de dados de TC, de 4kbps (CLTUs) Uma saída de TC 4kbps duplicada para envio aos OBCs(TCRs) Duas entradas de dados de TM, de 650kbps Uma saída de TM de 650kbps Um clock global de 13Mhz
Total de 7 domínios de clocks Dificuldades
Multiplos Domínios de clock Sincronismo de reset Inferência de Memória Depuração do código
Dificuldades Enfrentadas
36
Dificuldades Enfrentadas
Metaestabilidade
37
Dificuldades Enfrentadas
Solução: Circuito sincronizador
38
Sincronismo de reset. Problema: Ruído pode acionar o reset
Dificuldades Enfrentadas
39
Inferência automática de memória realizada pelo Synplify
Migração de código a partir da plataforma Virtex II Pro da Xilinx
Inferência na Virtex II não apresentou problemas Utilização de IP core de memória solucionou o problema Proasic3e disponibiliza bancos de:
512x18 bits 4k9 bits
Inferência automática dos módulos de 512x18 bits IP core utilizado foi de 4k9 bits
Dificuldades Enfrentadas
40
Dificuldades Enfrentadas
Desenvolvimento da ferramenta de validação do fluxo de TC e TM
Depuração do código VHDL e depuração do código do LabView simultaneamente
Hardware da UTMC não estava validado Falhas de Hardware atrasaram o projeto
41
Resultados Obtidos
Metaestabilidade resolvida Margem de erro inicial de 40% Solução eliminou a margem de erro
Sincronismo de reset Margem de erro de 50% Solução eliminou a margem de erro
Aplicação das técnicas na camada de codificação Incremento de área e consumo para TMR e DWC Alta complexidade para a correta aplicação de TMR DWC adiciona funcionalidades antes inexistentes
42
Resultados Obtidos Área ocupada da FPGA (Sem codificação)
Core Cells : 13992 of 38400 (36%) Block Rams : 18 of 60 (30%)
Área ocupada da FPGA (RS+Convolucional) Core Cells : 21612 of 38400 (56%) Block Rams : 18 of 60 (30%)
Publicação de Artigo – 17 Março 2010 IEEE-NASA/ESA An Adaptive Communications Module for On-board Computers of
Satellites 2010 IEEE NASA/ESA Conference on Adaptive Hardware and
Systems (a ser realizada concomitantemente com o DAC)43
Sumário Introdução
Tolerância a Falhas e Confiabilidade
Estado da Arte
Arquitetura do Módulo UTMC
Técnicas Propostas
Resultados
Conclusões e Trabalhos Futuros
44
Conclusões Análise dos aspectos de confiabilidade da UTMC TMR na UTMC é eficaz porém complexo DWC é a solução mais atrativa Alternativas de implementação são apresentadas Solução de problemas requisitados pelo INPE Alteração do hardware protótipo é desejável Redução dos níveis de área e consumo ainda são uma
preocupação Falhas são por natureza assíncronas Encontrar uma solução 100% efetiva é impossível
45
Trabalhos Futuros
Implementação completa das técnicas apresentadas Alterar o hardware da UTMC Aplicar as técnicas no modelo de vôo Determinar procedimento de teste Plano de teste Documentação também é um item de confiabilidade
dentro do projeto da UTMC
46
Aspectos de Confiabilidade naImplementação da Unidade de Telecomando e
Telemetria para Plataformas Orbitais
Luciano Rigelo AzevedoMestrando em Ciência da Computação
Pontifícia Universidade Católica do Rio Grande do Sul
PPGCC - Faculdade de Informática
Porto Alegre, 22 de Março de 2010
Eduardo Augusto BezerraProfessor Orientador