Redes de Função de Base Radial

IntroduçãoTeorema de Cover sobre a separabilidade dos padrões

O problema XORFunções Radiais

Redes RBFAplicações da RBF

Comparativo RBF x MLPBibliogra�a

REDES NEURAIS: Redes de Função de Base Radial

Edson Anibal de Macedo Reis Batista

UERN - Universidade do Estado do Rio Grande do Norte.

Departamento de Ciências da Computação.

30 de janeiro de 2010

Edson Anibal de Macedo Reis Batista REDES NEURAIS: RBF





índice

1 Introdução

2 Teorema de Cover sobre a separabilidade dos padrões

3 O problema XOR

4 Funções Radiais

5 Redes RBF

6 Aplicações da RBF

7 Comparativo RBF x MLP

8 Bibliogra�a






Introdução

Na RBF, aprender é encontrar uma superfície, em um espaço

multidimensional, que forneçe o melhor ajuste para os dados

de treinamento.

Correspondentemente, generalização é o uso dessas superfícies

multidimensionais para interpolar os dados.

A camada oculta forneçe um conjunto de funções que

constituem uma base arbitrária para os padrões de entrada.






Teorema de Cover sobre a separabilidade dos padrões

�Um problema complexo de classi�cação de padrões

disposto não linearmente em um espaço de alta dimensão

tem maior probabilidade de ser linearmente separável do

que em um espaço de baixa dimensionalidade.�







OU EM OUTRASPALAVRAS ...







�Um determinado problema Não Linearmente Separável

pode, de forma probabilística, ser transformado em um

problema Linearmente Separável através de uma

transformação não linear que mapeia o espaço para

outro espaço de ordem maior.�Edson Anibal de Macedo Reis Batista REDES NEURAIS: RBF






Considere um conjunto de superfícies onde cada uma divide o

espaço de entrada em duas dimensões.

Considere que χ represente um conjunto de N padrões

(vetores) x1,x2, . . .xn. Onde cada padrão é atribuído a uma de

duas classes χ1 ou χ2.

Dizemos que esta dicotomia (partição binária) dos pontos é

separável em relação a família de superfícies, se existir uma

superfície da família que separe os pontos da classe χ1

daqueles da classe χ2.







Para cada padrão x ∈ χ , de�na um vetor constituído de um

conjunto de funções de valor real {ϕi (x) | i = 1,2, . . . ,m1},como mostrado por1:

ϕ (x) = [ϕ1 (x) ,ϕ2 (x) , . . . ,ϕm1 (x)]T

Suponha que o padrão x é um vetor em um espaço de entrada

de dimensão m0.

O vetor ϕ (x) mapeia pontos do espaço de entrada m0 para

pontos em um novo espaço de dimensão m1.

1Referimo-nos a ϕi (x) como função oculta, porque desempenha papel

similar a uma unidade oculta em uma rede feed foward. Correspondentemente,

o espaço abrangido pelo conjunto de funções ocultas é referido como espaço

oculto ou espaço de características.Edson Anibal de Macedo Reis Batista REDES NEURAIS: RBF






Uma dicotomia {χ1,χ2} de χ é dita ser separável por ϕ , se

existir um vetor w de dimensão m1 para o qual podemos

escrever (Cover, 1965):

wTϕ (x) > 0, x ∈ χ1

wTϕ (x) < 0, x ∈ χ2

O hiperplano de�nido pela equação wTϕ (x) = 0 descreve a

superfície de separação no espaço oculto ϕ .

A imagem inversa deste hiperplano, isto é, x : wTϕ (x) = 0

de�ne a superfície de separação no espaço de entrada.







Figura: Exemplos de dicotomias separáveis por ϕ de diferentes conjuntosde cinco pontos em duas dimensões: (a) dicotomia linearmente separável;(b) dicotomia esfericamente separável; (c) dicotomia quadraticamenteseparável.







Resumindo: O teorema de Cover sobre a separabilidade de

padrões engloba dois ingredientes básicos:

1 A formulação não-linear da função oculta de�nida por ϕi (x),onde x é o vetor de entrada e i = 1,2, . . . ,m1.

2 A alta dimensionalidade do espaço oculto comparado com oespaço de entrada; esta dimensionalidade é determinada pelovalor atribuído a m1 (i.e., o número de unidades ocultas).







Em geral, como dito anteriormente, um problema complexo de

classi�cação de padrões disposto não linearmente, tem maior

probabilidade de ser linearmente separável em um espaço de

alta dimensão que num espaço de baixa dimensão.

Entretanto, em alguns casos o uso do mapeamento não-linear

(i.e., ponto 1 do slide anterior) pode ser su�ciente para

produzir uma separabilidade linear sem ter que aumentar a

dimensionalidade do espaço das unidades ocultas.

Isto será ilustrado na resolução do problema do XOR






Porta lógica: OU EXCLUSIVO

p q

0 0 0

0 1 1

1 0 1

1 1 0

A saída é verdadeira se as proposições verdadeiras de entrada forem ímpar.Edson Anibal de Macedo Reis Batista REDES NEURAIS: RBF





O problema XOR

Existem quatro pontos (padrões) em um espaço de entrada

bidimensional:

O objetivo é construir um classi�cador de padrões que produza

a saída 0 em resposta ao padrão de entrada (1,1) ou (0,0), e a

saída 1 em resposta ao padrão de entrada (0,1) e (1,0).






O problema XOR

De�na um par de funções ocultas gausianas como segue:

ϕ1 (x) = e−‖x−t1‖2 , t1 = [1,1]T

ϕ2 (x) = e−‖x−t2‖2 , t2 = [0,0]T

Podemos então obter os resultados para os quatro padrões de

entrada:

Padrão de entrada, x Primeira função oculta, ϕ1 (x) Segunda função oculta, ϕ2 (x)

(1,1) 1 0,1353

(0,1) 0,3678 0,3678

(0,0) 0,1353 1

(1,0) 0,3678 0,3678






O problema XOR

Figura: Diagrama de tomada de decisão






O problema XOR

Neste exemplo, não há aumento da dimensionalidade do

espaço oculto, em relação ao espaço de entrada. A não

linearidade das funções gausianas foi su�ciente para

transformar o problema XOR em um problema linearmente

separável.






Funções Radiais

Funções radiais são uma classe especial de funções em que sua

resposta decresce (ou cresce) monotonicamente com o

distanciamento de um ponto central.






Funções Radiais

Uma típica função radial é a Gaussiana que decresce

monotonicamente com a distância do centro:

ϕ (x) = e

(− (x−c)2

r2

)onde 'c' é o centro, e 'r ' o raio.

Gaussiana de centro=0 e raio=1.Edson Anibal de Macedo Reis Batista REDES NEURAIS: RBF





Funções Radiais

Já a função multiquadrática cresce com a distância do centro:

ϕ (x) =

√r2+(x−c)2

r






Redes RBF

Uma rede de função de base radial é composta por 3 camadas:

Camada de entrada, onde há um neurônio para cada dimensão

de entrada.






Redes RBF

Uma única camada escondida - onde o número de neurônios é

variável e a quantidade ótima é obtida no treinamento. Cada

neurônio consiste de uma função de base radial e representa

uma dimensão. Os centros e o espalhamento é obtido durante

o treinamento.






Redes RBF

Camada de saída.






Aplicações da RBF

Processamento de Imagem

Reconhecimento de voz

Análise de séries temporais

Equalização adaptativa

Radar point source location

Reconhecimento de padrões






Aproximação de funções - Aproximador Universal

Uma RBF pode aproximar qualquer função contínua através

da combinação linear de funções gaussianas com centros

em diferentes posições do espaço de entrada.






Reconhecimento de caracteres

Uma RBF pode reconhecer padrões de caracteres em imagens

com uma performace excelente.






Comparativo RBF x MLP

Tanto as RBF quando MLP são aproximadores universais.

Porém existem algumas diferenças:

1 Uma rede RBF (na sua forma básica) tem apenas uma camada

oculta, enquanto o MLP pode ter várias.2 Normalmente os nós da camada escondida e de saída de uma

MLP compartilham um modelo neuronal comum. Já na RBF

os nós da camada oculta são bem diferentes e servem a um

propósito diferente.3 A camada oculta de uma RBF é não-linear, enquanto a

camada de saída é linear.4 MLP constroem aproximações globais, enquanto a RBF faz

aproximações locais.






BIBLIOGRAFIA


Redes de Função de Base Radial

Documents

Transcript of Redes de Função de Base Radial