repositorio.ufpe.br · 2019. 10. 25. · Catalogação na fonte Bibliotecária Monick Raquel...

Pós-Graduação em Ciência da Computação

CARLOS EDUARDO MARTINS BARBOSA

ALGORITMOS BIO-INSPIRADOS PARA SOLUÇÃO

DE PROBLEMAS DE OTIMIZAÇÃO

Universidade Federal de Pernambuco

[email protected]

www.cin.ufpe.br/~posgraduacao

RECIFE

2017

Carlos Eduardo Martins Barbosa

Algoritmos Bio-inspirados para Solução de Problemas de Otimização

ORIENTADOR: Germano Crispim Vasconcelos

RECIFE

2017

Este trabalho foi apresentado à Pós-Graduação em

Ciência da Computação do Centro de Informática da

Universidade Federal de Pernambuco como requisito

parcial para obtenção do grau de Mestre Profissional

em Ciência da Computação.

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

B238a Barbosa, Carlos Eduardo Martins

Algoritmos bio-inspirados para solução de problemas de otimização / Carlos Eduardo Martins Barbosa. – 2017.

193 f.: il., fig., tab. Orientador: Germano Crispim Vasconcelos. Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn,

Ciência da Computação, Recife, 2017. Inclui referências e apêndices.

1. Inteligência computacional. 2. Aprendizagem de máquina. I. Vasconcelos, Germano Crispim (orientador). II. Título. 006.3 CDD (23. ed.) UFPE- MEI 2017-117

Carlos Eduardo Martins Barbosa

Algoritmos Bio-inspirados para Solução de Problemas de Otimização

Dissertação apresentada ao Programa de Pós-

Graduação em Ciência da Computação da

Universidade Federal de Pernambuco, como

requisito parcial para a obtenção do título de

Mestre em Ciência da Computação.

Aprovado em: 09/05/2017

BANCA EXAMINADORA

__________________________________________________

Profa. Dra. Patricia Cabral de Azevedo Restelli Tedesco

Centro de Informática / UFPE

__________________________________________________

Prof. Dr. André Menezes Marques das Neves

Departamento de Design / UFPE

__________________________________________________

Prof. Dr. Germano Crispim Vasconcelos

Centro de Informática / UFPE

Dedico este trabalho a todos aqueles que, de alguma forma,

me deram forças para conclui-lo.

Agradecimentos

Gostaria de agradecer primeiramente a DEUS pela minha vida e saúde, com as quais tivea possibilidade de concluir mais este ciclo acadêmico.

Gostaria de agradecer também aos meus pais pela minha criação e educação, por tudo oque tenho e por ser quem eu sou hoje. Agradeço também aos meus irmãos, minha namorada edemais familiares, por estarem sempre ao meu lado, e sempre dispostos a me ajudar.

Agradeço também ao professor Dr. Germano Crispim Vasconcelos, por sua paciência,dedicação e orientação durante este projeto. Agradeço à Universidade Federal de Pernambuco,ao Centro de Informática e seu corpo docente e em especial a todos os meus amigos que meacompanharam neste difícil caminho durante os últimos anos.

Por fim, agradeço a todos os autores que compartilharam seus conhecimentos e, dessaforma, possibilitaram a realização deste trabalho.

Se muito vale o já feito, mais vale o que será. E o que foi feito é preciso

conhecer para melhor prosseguir.

—MILTON NASCIMENTO

Resumo

Muitos problemas do mundo real podem ser formulados como problemas de otimizaçãoem domínios contínuos. Nos últimos anos, algoritmos bio-inspirados, que fundamentam-se nocomportamento dos fenômenos naturais, têm sido cada vez mais empregados para resolver taisproblemas. Neste trabalho, são investigados 8 (oito) algoritmos inspirados na natureza: algo-ritmos genéticos (GA), otimização por colônia de formigas (ACO), otimização por enxame departículas (PSO), colônia de abelhas artificiais (ABC), algoritmo do vaga-lume (FA), algoritmode busca do pássaro cuco (CS), algoritmo do morcego (BAT) e algoritmo de busca autoadaptativado pássaro cuco (SACS). Estes algoritmos são analisados em três tipos de problemas distintos,que compreendem (1) funções de benchmark estudadas comumente em problemas de otimiza-ção, (2) previsão da energia eólica a partir da velocidade do vento com dados reais coletadosde dois parques eólicos, e (3) clusterização de padrões, necessária na solução de problemasnão-supervisionados. Os experimentos realizados com os diferentes algoritmos analisaram asprincipais vantagens e deficiências dos algoritmos em relação à (1) qualidade das soluções obti-das segundo métricas de desempenho específicas para cada problema, (2) tempo de execução doalgoritmo e (3) tempo de convergência para a melhor solução. Uma técnica de ajuste automáticodos parâmetros, também bio-inspirada, foi desenvolvida e empregada em todos os problemas ealgoritmos, para se determinar os valores ótimos para cada método e permitir uma comparaçãoconsistente dos resultados. Os experimentos realizados evidenciaram que o algoritmo do pássarocuco funciona de forma eficiente, robusta e superior aos outros métodos investigados para amaioria dos experimentos realizados, e que a propriedade de cauda longa da distribuição comvoos de Lévy, explorada neste trabalho, é a principal responsável pela eficiência deste algoritmo.

Palavras-chave: Algoritmos Bio-inspirados. Inteligência de Enxames. Problemas de Otimiza-ção. Busca do Pássaro Cuco. Voo de Lévy.

Abstract

Many real-world problems can be formulated as optimization problems in continuousdomains. In the last years, bio-inspired algorithms, whice are based on the behavior of naturalphenomena, have been increasingly employed to solve such problems. In this work, 8 (eight)algorithms inspired by nature are investigated: genetic algorithms (GA), ant colony optimization(ACO), particle swarm optimization (PSO), artificial bee colony (ABC), firefly algorithm (FA),cuckoo search algorithm (CS), bat algorithm (BAT) and self-adaptive cuckoo search algorithm(SACS). These algorithms are analyzed in three different types of problems, which comprise(1) benchmark functions commonly studied in optimization problems, (2) prediction of windenergy from wind speed with real data collected from two wind farms, and clustering patterns,required in solving unsupervised problems. The experiments performed with the differentalgorithms investigated the main advantages and disadvantages of the algorithms concerning (1)the quality of the solutions obtained according to specific metrics for each problem, (2) algorithmexecution time and (3) convergence time for the best solution. A bio-inspired technique ofautomatic parameter tuning was developed and employed in all problems and algorithms in orderto determine optimal values for each method and to allow a consistent comparison of the results.The performed experiments showed that the cuckoo search algorithm works efficiently, robustlyand superior to the other investigated methods for most of the experiments, and the long tailproperty of the Lévy Flight distribution, explored in this work, is the main responsible for theefficiency of this algorithm.

Keywords: Bio-inspired algorithms. Swarm Intelligence. Optimization Problems. CuckooSearch. Lévy Flight.

Lista de Figuras

3.1 GA - Processo de seleção natural . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.2 ACO - Situação 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.3 ACO - Situação 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.4 PSO - Movimento das partículas . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.5 ABC - Funções das abelhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.6 FA - Atratividade entre os vaga-lumes . . . . . . . . . . . . . . . . . . . . . . . . 403.7 CS - Processo de busca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.8 BAT - Ecolocalização dos morcegos . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.1 Benchmark - Função Sphere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.2 Benchmark - Função Rosenbrock . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.3 Benchmark - Função Rastrigin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.4 Benchmark - Função Griewank . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.5 Benchmark - Função Ackley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.6 Benchmark - Função Schwefel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.7 Benchmark - Convergência dos algoritmos na função Sphere . . . . . . . . . . . . 655.8 Benchmark - Movimentação dos indivíduos do algoritmo CS na função Sphere com

2 dimensões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

6.1 Wind - Energia eólica prevista x real do conjunto Montana . . . . . . . . . . . . . 816.2 Wind - Energia eólica prevista x real do conjunto Texas . . . . . . . . . . . . . . . 816.3 Wind - Convergência dos algoritmos no treinamento do conjunto Montana . . . . . 826.4 Wind - Convergência dos algoritmos no treinamento do conjunto Texas . . . . . . . 82

7.1 Clustering - Convergência dos algoritmos no treinamento da base Segmentation . . 99

8.1 Função de densidade de probabilidade das distribuições . . . . . . . . . . . . . . . 1058.2 Trajetória nas distribuições Uniforme, Gaussiana, Cauchy-Lorentz e Lévy . . . . . 1068.3 Tamanho da População - Convergência (Benchmark) . . . . . . . . . . . . . . . . 1128.4 Tamanho da População - Convergência (Wind) . . . . . . . . . . . . . . . . . . . . 1128.5 Tamanho da População - Convergência (Clustering) . . . . . . . . . . . . . . . . . 1138.6 Probabilidade - Convergência (Benchmark) . . . . . . . . . . . . . . . . . . . . . 1178.7 Probabilidade - Convergência (Wind) . . . . . . . . . . . . . . . . . . . . . . . . . 1188.8 Probabilidade - Convergência (Clustering) . . . . . . . . . . . . . . . . . . . . . . 1188.10 Distribuição de Probabilidade - Convergência (Wind) . . . . . . . . . . . . . . . . 1228.9 Distribuição de Probabilidade - Convergência (Benchmark) . . . . . . . . . . . . . 1238.11 Distribuição de Probabilidade - Convergência (Clustering) . . . . . . . . . . . . . 124

8.12 PSO-Lévy - Convergência (Benchmark) . . . . . . . . . . . . . . . . . . . . . . . 1278.13 PSO-Lévy - Convergência (Wind) . . . . . . . . . . . . . . . . . . . . . . . . . . 1288.14 PSO-Lévy - Convergência (Clustering) . . . . . . . . . . . . . . . . . . . . . . . . 128

A.1 Benchmark - Convergência dos algoritmos na função Rosenbrock . . . . . . . . . 161A.2 Benchmark - Convergência dos algoritmos na função Rastrigin . . . . . . . . . . . 162A.3 Benchmark - Convergência dos algoritmos na função Griewank . . . . . . . . . . . 163A.4 Benchmark - Convergência dos algoritmos na função Ackley . . . . . . . . . . . . 164A.5 Benchmark - Convergência dos algoritmos na função Schwefel . . . . . . . . . . . 165

B.1 Clustering - Convergência dos algoritmos (Parte I) . . . . . . . . . . . . . . . . . . 192B.2 Clustering - Convergência dos algoritmos (Parte II) . . . . . . . . . . . . . . . . . 193

Lista de Tabelas

4.1 Limites dos parâmetros dos algoritmos bio-inspirados no Tuning-PSO . . . . . . . 49

5.1 Benchmark - Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.2 Benchmark - Melhor configuração dos parâmetros (d = 2) . . . . . . . . . . . . . 585.3 Benchmark - Comparação entre os erros (d = 2) . . . . . . . . . . . . . . . . . . . 605.4 Benchmark - Diferença percentual entre os erros (d = 2) . . . . . . . . . . . . . . 615.5 Benchmark - Comparação do tempo de execução (d = 2) . . . . . . . . . . . . . . 625.6 Benchmark - Diferença percentual entre os tempos de execução (d = 2) . . . . . . 635.7 Benchmark - Teste de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . 635.8 Benchmark - Teste de Nemenyi (d = 2) . . . . . . . . . . . . . . . . . . . . . . . 68

6.1 Wind - Melhor configuração dos parâmetros . . . . . . . . . . . . . . . . . . . . . 756.2 Wind - Demais Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766.3 Wind - Comparação entre os erros (Montana) . . . . . . . . . . . . . . . . . . . . 766.4 Wind - Comparação entre os erros (Texas) . . . . . . . . . . . . . . . . . . . . . . 776.5 Wind - Diferença percentual entre os erros (Montana) . . . . . . . . . . . . . . . . 786.6 Wind - Diferença percentual entre os erros (Texas) . . . . . . . . . . . . . . . . . 786.7 Wind - Comparação do tempo de execução . . . . . . . . . . . . . . . . . . . . . 796.8 Wind - Diferença percentual entre os tempos de execução . . . . . . . . . . . . . 796.9 Wind - Teste de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 806.10 Wind - Teste de Nemenyi (Montana) . . . . . . . . . . . . . . . . . . . . . . . . . 846.11 Wind - Teste de Nemenyi (Texas) . . . . . . . . . . . . . . . . . . . . . . . . . . 85

7.1 Clustering - Bases de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 927.2 Clustering - Melhor configuração dos parâmetros (Parte I) . . . . . . . . . . . . . 947.3 Clustering - Comparação entre os erros (Segmentation) . . . . . . . . . . . . . . . 957.4 Clustering - Diferença percentual entre os erros (Segmentation) . . . . . . . . . . 967.5 Clustering - Comparação do tempo de execução (Parte I) . . . . . . . . . . . . . . 977.6 Clustering - Diferença percentual entre os tempos de execução (Parte I) . . . . . . 987.7 Clustering - Teste de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . 987.8 Clustering - Teste de Nemenyi (Segmentation) . . . . . . . . . . . . . . . . . . . 101

8.1 Tamanho da População - Comparação do tempo de execução (Benchmark) . . . . 1088.2 Tamanho da População - Comparação do tempo de execução (Wind) . . . . . . . . 1098.3 Tamanho da População - Comparação do tempo de execução (Clustering) . . . . . 1098.4 Tamanho da População - Comparação entre os erros (Benchmark) . . . . . . . . . 1108.5 Tamanho da População - Comparação entre os erros (Montana) . . . . . . . . . . 110

8.6 Tamanho da População - Comparação entre os erros (Texas) . . . . . . . . . . . . 1118.7 Tamanho da População - Comparação entre os erros (Balance) . . . . . . . . . . . 1118.8 Tamanho da População - Comparação entre os erros (Bupa) . . . . . . . . . . . . 1118.9 Probabilidade - Comparação do tempo de execução (Benchmark) . . . . . . . . . 1148.10 Probabilidade - Comparação do tempo de execução (Wind) . . . . . . . . . . . . . 1148.11 Probabilidade - Comparação do tempo de execução (Clustering) . . . . . . . . . . 1148.12 Probabilidade - Comparação entre os erros (Benchmark) . . . . . . . . . . . . . . 1158.13 Probabilidade - Comparação entre os erros (Montana) . . . . . . . . . . . . . . . 1158.14 Probabilidade - Comparação entre os erros (Texas) . . . . . . . . . . . . . . . . . 1168.15 Probabilidade - Comparação entre os erros (Balance) . . . . . . . . . . . . . . . . 1168.16 Probabilidade - Comparação entre os erros (Bupa) . . . . . . . . . . . . . . . . . 1168.17 Distribuição de Probabilidade - Comparação do tempo de execução (Benchmark) . 1198.18 Distribuição de Probabilidade - Comparação do tempo de execução (Wind) . . . . 1208.19 Distribuição de Probabilidade - Comparação do tempo de execução (Clustering) . . 1208.20 Distribuição de Probabilidade - Comparação entre os erros (Benchmark) . . . . . . 1218.21 Distribuição de Probabilidade - Comparação entre os erros (Montana) . . . . . . . 1218.22 Distribuição de Probabilidade - Comparação entre os erros (Texas) . . . . . . . . . 1218.23 Distribuição de Probabilidade - Comparação entre os erros (Balance) . . . . . . . 1228.24 Distribuição de Probabilidade - Comparação entre os erros (Bupa) . . . . . . . . . 1228.25 PSO-Lévy - Comparação do tempo de execução (Benchmark) . . . . . . . . . . . 1258.26 PSO-Lévy - Comparação do tempo de execução (Wind) . . . . . . . . . . . . . . 1258.27 PSO-Lévy - Comparação do tempo de execução (Clustering) . . . . . . . . . . . . 1258.28 PSO-Lévy - Comparação entre os erros (Benchmark) . . . . . . . . . . . . . . . . 1268.29 PSO-Lévy - Comparação entre os erros (Montana) . . . . . . . . . . . . . . . . . 1268.30 PSO-Lévy - Comparação entre os erros (Texas) . . . . . . . . . . . . . . . . . . . 1268.31 PSO-Lévy - Comparação entre os erros (Balance) . . . . . . . . . . . . . . . . . . 1268.32 PSO-Lévy - Comparação entre os erros (Bupa) . . . . . . . . . . . . . . . . . . . 127

A.1 Benchmark - Melhor configuração dos parâmetros (d = 5) . . . . . . . . . . . . . 142A.2 Benchmark - Melhor configuração dos parâmetros (d = 10) . . . . . . . . . . . . . 143A.3 Benchmark - Melhor configuração dos parâmetros (d = 20) . . . . . . . . . . . . . 144A.4 Benchmark - Melhor configuração dos parâmetros (d = 50) . . . . . . . . . . . . . 145A.5 Benchmark - Melhor configuração dos parâmetros (d = 100) . . . . . . . . . . . . 146A.6 Benchmark - Comparação entre os erros (d = 5) . . . . . . . . . . . . . . . . . . . 147A.7 Benchmark - Comparação entre os erros (d = 10) . . . . . . . . . . . . . . . . . . 147A.8 Benchmark - Comparação entre os erros (d = 20) . . . . . . . . . . . . . . . . . . 148A.9 Benchmark - Comparação entre os erros (d = 50) . . . . . . . . . . . . . . . . . . 148A.10 Benchmark - Comparação entre os erros (d = 100) . . . . . . . . . . . . . . . . . 149A.11 Benchmark - Diferença percentual entre os erros (d = 5) . . . . . . . . . . . . . . 149

A.12 Benchmark - Diferença percentual entre os erros (d = 10) . . . . . . . . . . . . . . 150A.13 Benchmark - Diferença percentual entre os erros (d = 20) . . . . . . . . . . . . . . 150A.14 Benchmark - Diferença percentual entre os erros (d = 50) . . . . . . . . . . . . . . 150A.15 Benchmark - Diferença percentual entre os erros (d = 100) . . . . . . . . . . . . . 151A.16 Benchmark - Comparação do tempo de execução (d = 5) . . . . . . . . . . . . . . 151A.17 Benchmark - Comparação do tempo de execução (d = 10) . . . . . . . . . . . . . 152A.18 Benchmark - Comparação do tempo de execução (d = 20) . . . . . . . . . . . . . 152A.19 Benchmark - Comparação do tempo de execução (d = 50) . . . . . . . . . . . . . 153A.20 Benchmark - Comparação do tempo de execução (d = 100) . . . . . . . . . . . . . 153A.21 Benchmark - Diferença percentual entre os tempos de execução (d = 5) . . . . . . 154A.22 Benchmark - Diferença percentual entre os tempos de execução (d = 10) . . . . . . 154A.23 Benchmark - Diferença percentual entre os tempos de execução (d = 20) . . . . . . 154A.24 Benchmark - Diferença percentual entre os tempos de execução (d = 50) . . . . . . 155A.25 Benchmark - Diferença percentual entre os tempos de execução (d = 100) . . . . . 155A.26 Benchmark - Teste de Nemenyi (d = 5) . . . . . . . . . . . . . . . . . . . . . . . 156A.27 Benchmark - Teste de Nemenyi (d = 10) . . . . . . . . . . . . . . . . . . . . . . . 157A.28 Benchmark - Teste de Nemenyi (d = 20) . . . . . . . . . . . . . . . . . . . . . . . 158A.29 Benchmark - Teste de Nemenyi (d = 50) . . . . . . . . . . . . . . . . . . . . . . . 159A.30 Benchmark - Teste de Nemenyi (d = 100) . . . . . . . . . . . . . . . . . . . . . . 160

B.1 Clustering - Melhor configuração dos parâmetros (Parte II) . . . . . . . . . . . . . 166B.2 Clustering - Melhor configuração dos parâmetros (Parte III) . . . . . . . . . . . . 167B.3 Clustering - Comparação entre os erros (Balance) . . . . . . . . . . . . . . . . . . 168B.4 Clustering - Comparação entre os erros (Bupa) . . . . . . . . . . . . . . . . . . . 168B.5 Clustering - Comparação entre os erros (Cancer) . . . . . . . . . . . . . . . . . . 169B.6 Clustering - Comparação entre os erros (Haberman) . . . . . . . . . . . . . . . . . 169B.7 Clustering - Comparação entre os erros (Hillvalley) . . . . . . . . . . . . . . . . . 170B.8 Clustering - Comparação entre os erros (Ionosphere) . . . . . . . . . . . . . . . . 170B.9 Clustering - Comparação entre os erros (Iris) . . . . . . . . . . . . . . . . . . . . 171B.10 Clustering - Comparação entre os erros (Pima) . . . . . . . . . . . . . . . . . . . 171B.11 Clustering - Comparação entre os erros (Sonar) . . . . . . . . . . . . . . . . . . . 172B.12 Clustering - Comparação entre os erros (Transfusion) . . . . . . . . . . . . . . . . 172B.13 Clustering - Comparação entre os erros (Vehicle) . . . . . . . . . . . . . . . . . . 173B.14 Clustering - Comparação entre os erros (Wine) . . . . . . . . . . . . . . . . . . . 173B.15 Clustering - Diferença percentual entre os erros (Balance) . . . . . . . . . . . . . 174B.16 Clustering - Diferença percentual entre os erros (Bupa) . . . . . . . . . . . . . . . 174B.17 Clustering - Diferença percentual entre os erros (Cancer) . . . . . . . . . . . . . . 174B.18 Clustering - Diferença percentual entre os erros (Haberman) . . . . . . . . . . . . 175B.19 Clustering - Diferença percentual entre os erros (Hillvalley) . . . . . . . . . . . . 175

B.20 Clustering - Diferença percentual entre os erros (Ionosphere) . . . . . . . . . . . . 175B.21 Clustering - Diferença percentual entre os erros (Iris) . . . . . . . . . . . . . . . . 176B.22 Clustering - Diferença percentual entre os erros (Pima) . . . . . . . . . . . . . . . 176B.23 Clustering - Diferença percentual entre os erros (Sonar) . . . . . . . . . . . . . . . 176B.24 Clustering - Diferença percentual entre os erros (Transfusion) . . . . . . . . . . . 177B.25 Clustering - Diferença percentual entre os erros (Vehicle) . . . . . . . . . . . . . . 177B.26 Clustering - Diferença percentual entre os erros (Wine) . . . . . . . . . . . . . . . 177B.27 Clustering - Comparação do tempo de execução (Parte II) . . . . . . . . . . . . . 178B.28 Clustering - Comparação do tempo de execução (Parte III) . . . . . . . . . . . . . 178B.29 Clustering - Diferença percentual entre os tempos de execução (Parte II) . . . . . . 179B.30 Clustering - Diferença percentual entre os tempos de execução (Parte III) . . . . . 179B.31 Clustering - Teste de Nemenyi (Balance) . . . . . . . . . . . . . . . . . . . . . . 180B.32 Clustering - Teste de Nemenyi (Bupa) . . . . . . . . . . . . . . . . . . . . . . . . 181B.33 Clustering - Teste de Nemenyi (Cancer) . . . . . . . . . . . . . . . . . . . . . . . 182B.34 Clustering - Teste de Nemenyi (Haberman) . . . . . . . . . . . . . . . . . . . . . 183B.35 Clustering - Teste de Nemenyi (Hillvalley) . . . . . . . . . . . . . . . . . . . . . 184B.36 Clustering - Teste de Nemenyi (Ionosphere) . . . . . . . . . . . . . . . . . . . . . 185B.37 Clustering - Teste de Nemenyi (Iris) . . . . . . . . . . . . . . . . . . . . . . . . . 186B.38 Clustering - Teste de Nemenyi (Pima) . . . . . . . . . . . . . . . . . . . . . . . . 187B.39 Clustering - Teste de Nemenyi (Sonar) . . . . . . . . . . . . . . . . . . . . . . . . 188B.40 Clustering - Teste de Nemenyi (Transfusion) . . . . . . . . . . . . . . . . . . . . 189B.41 Clustering - Teste de Nemenyi (Vehicle) . . . . . . . . . . . . . . . . . . . . . . . 190B.42 Clustering - Teste de Nemenyi (Wine) . . . . . . . . . . . . . . . . . . . . . . . . 191

Lista de Algoritmos

1 Algoritmo Genético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322 Otimização por Colônia de Formigas . . . . . . . . . . . . . . . . . . . . . . . . . . 353 Otimização por Enxame de Partículas . . . . . . . . . . . . . . . . . . . . . . . . . . 364 Colônia de Abelhas Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385 Algoritmo do Vaga-lume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416 Algoritmo de Busca do Cuco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 Algoritmo do Morcego . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

8 Técnica de Ajuste Automático dos Parâmetros . . . . . . . . . . . . . . . . . . . . . 50

9 Algoritmo de Clusterização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

Lista de Acrônimos

GA algoritmos genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

ACO otimização por colônia de formigas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

PSO otimização por enxame de partículas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

ABC colônia de abelhas artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

FA algoritmo do vaga-lume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

CS busca do cuco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

BAT algoritmo do morcego . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

SACS busca autoadaptativa do cuco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

WSA algoritmo de busca do lobo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

MAE erro médio absoluto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

MSE erro médio quadrático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

MAPE erro médio absoluto percentual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

POCID previsão de mudança de direção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

UTHEIL U de Theil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

ARV variância relativa média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

NWP previsão numérica do tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

ARIMA modelos auto-regressivos integrados de médias móveis . . . . . . . . . . . . . . . . . . . . . 71

SVR máquina de vetores de suporte para regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

LM algoritmo de Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

SCG método Scaled Conjugate Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

UCI UCI Machine Learning Repository . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

IRC índice de rand corrigido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

Sumário

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.1 Contextualização e Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.3 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.4 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.5 Notas de Publicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2 FUNDAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.1 Problemas de Otimização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.2 Métodos Exatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.3 Métodos Heurísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.4 Meta-heurísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.5 Algoritmos Bio-inspirados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.6 Computação Evolucionária . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.7 Inteligência de Enxames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.8 Exploração x Explotação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.9 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3 ALGORITMOS BIO-INSPIRADOS . . . . . . . . . . . . . . . . . . . . . . . . . 313.1 Algoritmos Genéticos (GA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.2 Otimização por Colônia de Formigas (ACO) . . . . . . . . . . . . . . . . . . . . 333.3 Otimização por Enxame de Partículas (PSO) . . . . . . . . . . . . . . . . . . . . 343.4 Colônia de Abelhas Artificiais (ABC) . . . . . . . . . . . . . . . . . . . . . . . . 363.5 Algoritmo do Vaga-lume (FA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.6 Algoritmo de Busca do Cuco (CS) . . . . . . . . . . . . . . . . . . . . . . . . . . 413.7 Algoritmo do Morcego (BAT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.8 Algoritmo Autoadaptativo de Busca do Cuco (SACS) . . . . . . . . . . . . . . . . 46

4 TÉCNICA PARA AJUSTE AUTOMÁTICO DOS PARÂMETROS . . . . . . . . . 474.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.3 Formulação da Técnica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5 FUNÇÕES DE BENCHMARK . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.2 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.3 Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.3.1 Sphere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.3.2 Rosenbrock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.3.3 Rastrigin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.3.4 Griewank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.3.5 Ackley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.3.6 Schwefel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.4 Análise dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.4.1 Ajuste dos Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.4.2 Análise de Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.4.3 Testes Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635.4.4 Análise de Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6 PREVISÃO DE ENERGIA EM PARQUES EÓLICOS . . . . . . . . . . . . . . . . 696.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 696.2 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706.3 Formulação do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.3.1 Bases de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726.3.2 Medidas de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 736.4 Análise dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746.4.1 Ajuste dos Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746.4.2 Análise de Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 756.4.3 Testes Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.4.4 Visualização da Previsão e Análise de Convergência . . . . . . . . . . . . . . . . 806.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

7 CLUSTERIZAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 867.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 867.2 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 877.3 Formulação do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887.3.1 Bases de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 897.3.2 Medidas de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 927.4 Análise dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 947.4.1 Ajuste dos Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 947.4.2 Análise de Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 957.4.3 Testes Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 987.4.4 Análise de Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 997.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

8 ANÁLISE DA EFICIÊNCIA DO ALGORITMO DE BUSCA DO CUCO . . . . . . . 1028.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1028.2 Distribuições α-estáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1038.3 Análise dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1078.3.1 Tamanho da População (N) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1088.3.2 Probabilidade (pa) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1138.3.3 Distribuição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1178.3.4 PSO-Lévy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1228.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

9 CONSIDERAÇÕES FINAIS E TRABALHOS FUTUROS . . . . . . . . . . . . . . 1309.1 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1309.2 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1319.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

APÊNDICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

A RESULTADOS DO PROBLEMA BENCHMARK . . . . . . . . . . . . . . . . 142

B RESULTADOS DO PROBLEMA CLUSTERING . . . . . . . . . . . . . . . . 166

202020

1INTRODUÇÃO

1.1 Contextualização e Motivação

Problemas de otimização ocorrem frequentemente em uma grande quantidade de apli-cações científicas, financeiras, industriais e de gerenciamento. Entretanto, existem inúmerosproblemas cotidianos que necessitam de otimização e nos quais até mesmo os computadoresmais modernos demandariam muito tempo para encontrar uma solução ótima através de métodosexatos. Tais métodos são capazes de obter a solução ótima para um problema de otimização,mas apresentam uso prático limitado, por apresentarem uma modelagem mais complexa e se-rem eficientes apenas em instâncias de pequeno porte, já que o tempo de execução aumentaconsideravelmente com o tamanho da instância.

Aplicações de otimização requerem algoritmos eficientes. Muitos dos avanços em proble-mas de otimização que têm sido alcançados ao longo do tempo inspiram-se em sistemas naturais,dada a sua adaptabilidade, vista como uma ótima estratégia para resolução de diversos tipos deproblemas. Nesse contexto, algoritmos meta-heurísticos bio-inspirados têm se transformadocrescentemente em poderosas ferramentas para solução de problemas de otimização, ao abriremmão da solução exata ótima por um conjunto de soluções aproximadas que são viáveis e queresolvem o problema em tempo computacional aceitável (YANG, 2010a). Dentre eles, algoritmoscomputacionais como os algoritmos genéticos (GA), otimização por colônia de formigas (ACO),otimização por enxame de partículas (PSO), colônia de abelhas artificiais (ABC), algoritmo

do vaga-lume (FA), busca do cuco (CS), algoritmo do morcego (BAT) e busca autoadaptativa

do cuco (SACS) têm apresentado melhores resultados quando comparados a outras técnicas naliteratura em várias aplicações (TALBI; MELAB; CAHON, 2006).

Este trabalho investiga os conceitos fundamentais e o comportamento de um conjuntode 8 algoritmos bio-inspirados, em um conjunto de 3 problemas com características diferentes,visando descobrir o nível de eficiência, as diferenças relevantes entre os métodos e as vantagense deficiências desses métodos bio-inspirados.

1.2. OBJETIVOS 21

1.2 Objetivos

Este trabalho investiga o emprego de algoritmos bio-inspirados na resolução de problemasde otimização e analisa a eficiência dos métodos em relação à qualidade dos algoritmos em umgrupo de aplicações com características diversas: otimização de funções de benchmark comoproblemas de minimização de funções, otimização de um modelo de previsão de energia eólicacom dados reais e agrupamento de dados. Os 8 algoritmos são avaliados em um procedimentoexperimental com diversas variações com respeito a um conjunto de métricas de desempenhoque atestam a qualidade da solução obtida, o tempo de convergência dos algoritmos e o tempode execução. Para alcançar o objetivo geral, foram definidos os seguintes objetivos específicos:

� Desenvolvimento de uma técnica para otimização dos parâmetros dos algoritmosbio-inspirados, a fim de aplicá-los em suas melhores condições;

� Comparação dos resultados apresentados pelos algoritmos bio-inspirados na otimiza-ção de funções de benchmark;

� Comparação dos resultados dos algoritmos bio-inspirados na otimização de ummodelo de previsão da energia do vento em parques eólicos;

� Comparação dos resultados dos algoritmos bio-inspirados na otimização de umprocesso de clusterização de dados para posterior classificação de padrões;

� Análise da influência dos principais parâmetros dos algoritmos nos resultados obtidos;

� Identificação das principais vantagens e desvantagens dos algoritmos bio-inspiradosem estudo e investigação mais detalhada dos parâmetros que mais influenciam o(s)método(s) que apresentam o melhor desempenho.

1.3 Metodologia

Inicialmente neste trabalho, foi realizado um estudo bibliográfico sobre as técnicasde computação natural mais empregadas atualmente, os problemas e aplicações em que osalgoritmos têm sido mais utilizadas e as características conceituais de cada uma delas.

Em seguida, como forma de analisar as características, vantagens e limitações, algumasdas técnicas mais conhecidas foram implementadas em MATLAB. Foram elas: GA, ACO, PSO,ABC, FA, CS, BAT e SACS.

Os algoritmos desenvolvidos foram analisados e comparados a partir de sua aplicaçãoem um conjunto de 3 problemas. O primeiro consistiu na otimização (minimização) de funçõesde benchmark conhecidas, tipicamente empregadas na comparação de técnicas de otimização. Osegundo compreende um modelo matemático de previsão da energia eólica com dados oriundos

1.4. ESTRUTURA DO TRABALHO 22

de parques eólicos do Texas e de Montana, nos Estados Unidos, a partir da velocidade do ventoregistrada em um determinado momento. O terceiro problema foi a aplicação dos algoritmos naclusterização de dados seguida de classificação de padrões. Os problemas foram escolhidos porrepresentarem classes de problemas com características distintas entre si, a fim de possibilitaruma maior consistência na análise experimental dos diferentes algoritmos.

Para todos os problemas escolhidos, a comparação entre os algoritmos é dada em termosde performance e desempenho, ao analisar os valores de erro, tempo de execução e tempo deconvergência obtidos por cada um dos métodos. Os resultados experimentais são apresentadosatravés de diferentes medidas de desempenho, tais como erro médio absoluto (MAE), erro

médio quadrático (MSE), erro médio absoluto percentual (MAPE), previsão de mudança de

direção (POCID), U de Theil (UTHEIL) e variância relativa média (ARV), e dos gráficos deconvergência.

Como estes algoritmos são técnicas estocásticas, medir a robustez após várias execuçõesindependentes tem um importante papel em determinar sua aplicabilidade em problemas domundo real. Dessa forma, várias execuções são realizadas e a média e o desvio padrão dosresultados são calculados. Além disso, para avaliar a relevância estatística dos resultadosobservados, os testes estatísticos consolidados de Friedman e Nemenyi (HOLLANDER; WOLFE;CHICKEN, 2013) também foram empregados.

Com os resultados dos experimentos, foi analisado o comportamento dos algoritmosbio-inspirados, buscando identificar quais de suas características influenciam mais em seudesempenho, tornando-os mais ou menos eficientes em relação aos demais.

1.4 Estrutura do Trabalho

Este trabalho organiza-se da seguinte forma:

� Capítulo 1: introduz as motivações para a realização deste trabalho, os principaisobjetivos e a metodologia utilizada em seu desenvolvimento.

� Capítulo 2: apresenta alguns conceitos fundamentais para o entendimento dos capítu-los posteriores deste trabalho.

� Capítulo 3: descreve brevemente os oito algoritmos bio-inspirados investigados.

� Capítulo 4: descreve a técnica desenvolvida para ajuste automático dos parâmetrosdos algoritmos bio-inspirados.

� Capítulo 5: apresenta, como o primeiro problema investigado, a otimização de seisfunções de benchmark constantemente empregadas na literatura.

1.5. NOTAS DE PUBLICAÇÃO 23

� Capítulo 6: apresenta, como o segundo problema investigado, a otimização de ummodelo matemático de previsão da energia eólica a partir da velocidade do vento emdois parques eólicos localizados nos Estados Unidos.

� Capítulo 7: apresenta, como o último problema investigado, a otimização de umafunção de agrupamento, com desempenho medido a partir de métricas de classificaçãoempregadas em treze bases de dados do UCI Machine Learning Repository (UCI).

� Capítulo 8: apresenta uma análise da eficiência do algoritmo de busca do cuco, apartir da investigação da influência de seus parâmetros e da distribuição utilizadapara criação de novos indivíduos na sua população.

� Capítulo 9: apresenta as conclusões do trabalho, contribuições e sugestões de pesqui-sas futuras.

1.5 Notas de Publicação

A seguinte publicação foi realizada durante o desenvolvimento deste trabalho:

1. BARBOSA, C. E. M.; VASCONCELOS, G. C. Cuckoo search optimization for shortterm windenergy forecasting. In: EVOLUTIONARY COMPUTATION (CEC), 2016IEEE CONGRESSON. Anais. . .[S.l.: s.n.], 2016. p.1765–1772.

242424

2FUNDAMENTOS

Neste capítulo serão definidos alguns fundamentos importantes que serão utilizadosao longo do trabalho. O objetivo não é apresentar uma descrição profunda e exaustiva dosfundamentos, e sim registrar o necessário para o entendimento de suas referências nos capítulosseguintes.

2.1 Problemas de Otimização

Um problema de otimização consiste em encontrar a melhor combinação que maximizeou minimize uma determinada função, geralmente chamada de função objetivo ou de aptidão.Pode ser contínua, quando as variáveis assumem valores reais; combinatória ou discreta, quandoas variáveis assumem valores inteiros ou discretos; e mista, quando contém variáveis contínuas einteiras. Neste trabalho utilizaremos apenas problemas de otimização contínua.

Um problema de otimização pode ser caracterizado pela busca dos pontos extremos deuma função, isto é, o maior ou o menor valor que uma função pode assumir em um dado intervalo.Estes valores são conhecidos como ponto de máximo, caracterizando os problemas de maximi-zação, ou ponto de mínimo, caracterizando os problemas de minimização, respectivamente. Oproblema é dito ser de otimização porque as soluções encontradas são as melhores possíveisentre todas as soluções viáveis para cada caso, as chamadas soluções ótimas (BECCENERI,2008).

A definição matemática formal para problemas de otimização é a seguinte: dada umafunção f : C→ R de algum conjunto C de números reais, busca-se um elemento x0 em C tal que:

� f (x0)≤ f (x),∀x ∈C (minimização),

� f (x0)≥ f (x),∀x ∈C (maximização)

Estes problemas podem ser facilmente associados a problemas reais extremamentecomuns em nosso cotidiano. Por exemplo, a busca por um caminho mais curto para se chegar aotrabalho ou a busca por produtos com menor preço em uma feira de supermercado correspondem

2.2. MÉTODOS EXATOS 25

a problemas de minimização. Já a busca por maiores lucros em um investimento ou a maiorprodução de um determinado produto industrial correspondem a problemas de maximização.

A otimização é um processo de busca cujo objetivo é explorar o espaço de soluçõesde forma eficiente para encontrar a melhor solução. Ela engloba as mais diversas áreas doconhecimento, desde problemas matemáticos e de engenharia, até problemas de economia,administração e biologia. Mas, independentemente da área de conhecimento, a primeira tarefapara otimização de um problema consiste em modelá-lo matematicamente. A modelagemmatemática para problemas de otimização apresenta como métrica de desempenho uma funçãoque é responsável por avaliar quão boa é uma solução. Esta função é chamada de função objetivo,também conhecida como função fitness ou função de aptidão. É ela que desejamos minimizar oumaximizar, podendo ser simples, com apenas duas dimensões, ou complexa, com n dimensões(SOUZA, 2008).

Muitos problemas de otimização são complexos, sendo impossível resolvê-los rapida-mente, o que torna imprescindível o uso de ótimos recursos computacionais. Eles podem serdeterminísticos ou estocásticos. Os determinísticos são aqueles que para uma determinada en-trada sempre dão como resultado uma mesma saída. São exemplos de algoritmos determinísticoso método Simplex, o gradiente conjugado e o método de Newton (LUENBERGER; MATEOS,1989). Já os estocásticos são aqueles que, durante o processo de busca, tomam decisões ba-seadas em probabilidade, o que faz com que o resultado final possa variar para uma mesmaentrada, motivo pelo qual eles também são conhecidos como problemas não-determinísticos.Os algoritmos estocásticos nem sempre produzem o melhor resultado possível, mas geralmenteencontram boas soluções, e seu desempenho costuma ser avaliado empiricamente e não porprovas matemáticas formais (BECCENERI, 2008). São exemplos de algoritmos estocásticosos algoritmos bio-inspirados baseados em computação evolucionária (CARVALHO; BRAGA;LUDERMIR, 2003) e em inteligência de enxames (KENNEDY et al., 2001).

2.2 Métodos Exatos

Os métodos exatos para problemas de otimização, dentre os quais podemos destacar aprogramação dinâmica, o A∗, o branch-and-bound e o branch-and-cut, são aqueles que garantema obtenção da solução ótima para o problema, porém possuem uso prático restrito porque sócostumam ser eficientes em problemas com instâncias suficientemente pequenas, pois o tempode execução aumenta com o tamanho da instância do problema (LUENBERGER; MATEOS,1989). Quanto maior o problema, mais inviável ele se torna, por causa da grande quantidade desoluções a serem avaliadas. Sendo assim, devido à elevada complexidade computacional que énecessária para se determinar a solução exata para muitos problemas de otimização, diversosalgoritmos propostos para resolvê-los adotam uma abordagem que balanceia a qualidade dasolução obtida com o tempo total de processamento. É nesse contexto que entram os algoritmosaproximativos ou heurísticas, que buscam encontrar boas aproximações da solução ótima em um

2.3. MÉTODOS HEURÍSTICOS 26

tempo de processamento aceitável (REEVES, 1993).

2.3 Métodos Heurísticos

A palavra heurística tem origem no nome grego heuriskein, que significa descobrir. Sendoassim, na sua forma mais genérica, heurística pode ser definida como um conjunto de métodos eregras que levam à descoberta, invenção e resolução de diversos tipos de problemas. Quandodesenvolvemos um algoritmo, o ideal é que ele apresente um tempo de execução aceitável eseja a solução ótima para o problema em todos os casos. Heurísticas não satisfazem essas duaspropriedades. Geralmente elas ou encontram boas soluções, mas sem garantias de que sempre asencontrarão, ou apresentam um tempo de execução aceitável, mas sem garantias de que manteráesse desempenho em todas as situações (MICHALEWICZ; FOGEL, 2013).

A ideia desse fundamento na área de Inteligência Artificial e otimização está no uso deinformações do problema para direcionar a busca para uma solução ótima. No problema docaixeiro viajante, por exemplo, a solução poderia ser construída partindo-se de um vértice iniciale adicionando o vértice mais próximo, de modo sequencial, até formar um caminho completo.Neste caso, a heurística seria a distância entre os vértices, utilizada para se determinar qual ovértice mais próximo a ser adicionado.

2.4 Meta-heurísticas

O prefixo meta vem do grego e significa mudança. Sendo assim, no contexto de Inteligên-cia Artificial, uma meta-heurística pode ser definida como uma heurística que define heurísticas,ou uma heurística generalizada que possa resolver diversos tipos de problemas sem que sejamnecessárias grandes alterações na estrutura de seu método. Em outras palavras, ela é um métodoheurístico utilizado para resolver, de forma genérica, problemas de otimização que os métodosexatos não são capazes de solucionar de forma eficiente.

As meta-heurísticas utilizam uma combinação de escolhas aleatórias com um conhe-cimento prévio do problema, e assim realizam suas buscas nas vizinhanças dentro do espaçode soluções, tentando evitar paradas prematuras em ótimos locais, e varrendo de forma maiseficiente o espaço de busca.

Um exemplo é a busca tabu (GLOVER; LAGUNA, 2013), onde uma busca local érealizada salvando os passos da busca em uma memória, conhecida, neste problema, como listatabu. Em um determinado momento, em que não ocorrem melhorias, o algoritmo procura umasolução diferente das que existem na memória, indo na direção de outros ótimos locais. Nesteproblema, a meta-heurística seria representada pela utilização da memória, enquanto a heurísticaseria a utilização da busca local, que deve ser diferente para cada problema.

2.5. ALGORITMOS BIO-INSPIRADOS 27

2.5 Algoritmos Bio-inspirados

Os algoritmos bio-inspirados são métodos meta-heurísticos que têm recebido grandeatenção nos últimos anos. Também conhecida como Computação Natural, é uma área de pesquisada Ciência da Computação e afins que procura compreender os padrões encontrados na natureza,para aplicá-los no desenvolvimento de ferramentas computacionais e assim resolver problemascomplexos ou aperfeiçoar sistemas já existentes, sem necessariamente capturar todos os detalhese, quando necessário, utilizando simplificações (CASTRO; VON ZUBEN, 2004).

Estes algoritmos são derivados a partir do estudo de sistemas naturais (BLUM; LI, 2008),e sua eficiência pode ser atribuída ao fato de imitarem as melhores características presentes nanatureza, como por exemplo a seleção do mais apto e a adaptação ao ambiente em sistemasbiológicos que têm evoluído pela seleção natural ao longo de milhões de anos (BONABEAU;DORIGO; THERAULAZ, 1999).

Um dos primeiros algoritmos bio-inspirados surgiu a partir da tentativa de entendero funcionamento do sistema nervoso (MCCULLOCH; PITTS, 1943), a partir do qual surgiuo primeiro modelo matemático do funcionamento de um neurônio biológico. Anos depois,(ROSENBLATT, 1957) criou a primeira rede neural capaz de aprender a classificar padrõeslinearmente separáveis. Depois surgiram os primeiros algoritmos evolucionários, baseados noconceito de evolução das espécies, de Charles Darwin, segundo o qual cada espécie evoluiatravés da competição entre indivíduos pela reprodução e sobrevivência (HOLLAND, 1992).

Como esses algoritmos utilizam uma abordagem baseada em população, cada um deseus indivíduos representa uma potencial solução para o problema de otimização em estudo.A métrica que é usada para determinar o quanto uma solução é boa para um dado problemaé chamada de função de aptidão ou função fitness, e é através dela que se determina qual é omelhor indivíduo da população em um determinado momento.

Diversas tecnologias conhecidas foram construídas a partir da inspiração na natureza.Dentre elas podemos destacar os submarinos, que foram inspirados no nado dos peixes; o sonar,que foi inspirado no comportamento dos morcegos; os aviões, que foram inspirados no voo dospássaros; o velcro, inspirado nas plantas; dentre tantos outros.

A área da Computação Natural inclui a simulação e emulação de fenômenos naturais,a computação utilizando meios naturais e a computação inspirada na natureza. Esta última é aestudada neste trabalho, e inclui, dentre outras subáreas, as Redes Neurais Artificiais (WANG,2003), os Sistemas Imunológicos Artificiais (DE CASTRO; TIMMIS, 2002), a ComputaçãoEvolucionária (CARVALHO; BRAGA; LUDERMIR, 2003) e a Inteligência de Enxames ouInteligência Coletiva (KENNEDY et al., 2001). Estas duas últimas subáreas são aquelas cujosalgoritmos são investigados neste trabalho, escolhidas em razão da grande variedade de métodosde otimização que possuem. Da Computação Evolucionária são aplicados os algoritmos genéticos(HOLLAND, 1992). Da Inteligência de Enxames são aplicados a otimização por colôniade formigas (DORIGO; DI CARO; GAMBARDELLA, 1999), a otimização por enxame de

2.6. COMPUTAÇÃO EVOLUCIONÁRIA 28

partículas (KENNEDY, 2011), a colônia de abelhas artificiais (KARABOGA, 2005), o algoritmodo vaga-lume (YANG, 2010b), o algoritmo de busca do pássaro cuco (YANG; DEB, 2009), oalgoritmo do morcego (YANG, 2010c) e o algoritmo de busca autoadaptativa do pássaro cuco (LI;YIN, 2015). Todos estes algoritmos são métodos heurísticos estocásticos, não determinísticos,e que portanto não garantem que a solução ótima será encontrada, mas sim que tenderá a umasolução ótima ou quase ótima.

2.6 Computação Evolucionária

A Computação Evolucionária é uma das áreas da Computação Natural e compreende umconjunto de técnicas de busca e otimização baseados nos mecanismos evolutivos encontrados nanatureza, tais como reprodução, mutação, recombinação e seleção natural. Esses mecanismosestão diretamente relacionados com a teoria da evolução de Charles Darwin, segundo a qual avida é o resultado de um processo de seleção, realizado pelo meio ambiente, em que os indivíduosmais adaptados possuem maior probabilidade de sobrevivência e reprodução.

Um dos principais métodos de computação evolucionária são os algoritmos genéticos(HOLLAND, 1992), que surgiram nos anos 60 como uma alternativa às estratégias evolutivasiniciais. Além dos algoritmos genéticos, outras técnicas pertencem ao grupo dos algoritmosevolucionários. São elas: a programação genética (KOZA, 1992), as estratégias evolutivas(RECHENBERG, 1978), a programação evolutiva (FOGEL, 1966) e os sistemas classificadores(BOOKER; GOLDBERG; HOLLAND, 1989). Estas técnicas estão sendo cada vez mais utiliza-das para obtenção de modelos de inteligência computacional, pois costumam oferecer soluçõesrobustas e adaptativas. Nestas técnicas três componentes importantes devem ser definidos: a re-presentação da população ou conjunto de indivíduos, a função fitness, e os operadores genéticos.Novos operadores podem ser definidos especificamente para o problema em estudo.

A Computação Evolucionária possui diversas áreas de aplicação, tais como: engenharia,modelos financeiros, jogos, bioinformática, modelagem e design de circuitos (EIBEN; SMITH,2003).

2.7 Inteligência de Enxames

Inteligência de Enxames (Swarm Intelligence) é um ramo da Inteligência Artificial queinclui projeto de algoritmos e desenvolvimento de ferramentas computacionais para solucionarproblemas inspirados em comportamentos coletivos e sociais de organismos ou indivíduos quevivem e interagem em grupos simples e autônomos. Apesar de estes indivíduos utilizarem regrasrelativamente simples para executar suas ações, alguns comportamentos coletivos inteligentesemergem a partir das interações entre eles, o que os permite solucionar problemas complexosde forma bastante eficiente. Este ramo foi proposto no fim da década de 80, quando se referiaa estratégias de coordenação e controle de sistemas celulares robóticos, que se comportavam

2.8. EXPLORAÇÃO X EXPLOTAÇÃO 29

de acordo com um conjunto de regras (BENI; WANG, 1993). Aqui o termo "enxame" não selimita apenas a enxames de abelhas. Ele é utilizado de modo genérico para se referir a qualquerconjunto de agentes que sejam capazes de interagir localmente entre si e com o ambiente em queestão imersos. Sendo assim, uma colônia de formigas, uma revoada de pássaros, uma multidãode pessoas, um cardume de peixes, um sistema imunológico e muitos outros sistemas comcomportamento coletivo e arquitetura similar podem ser vistos como um enxame (GARNIER;GAUTRAIS; THERAULAZ, 2007).

Os algoritmos de inteligência de enxames têm atraído muita atenção, sendo muitoaplicados em problemas de otimização, e novas técnicas têm aparecido quase todos os anos. Em2008, Yang desenvolveu o algoritmo dos vaga-lumes, que imita o comportamento luminoso destesinsetos (YANG, 2010b). Em 2009, Yang e Deb introduziram o algoritmo de busca do cuco, que semostrou mais eficaz do que a maioria dos algoritmos meta-heurísticos existentes nos problemastratados (YANG; DEB, 2009). Em 2010, Yang desenvolveu o algoritmo BAT, inspirado nocomportamento de ecolocalização dos morcegos (YANG, 2010c). Mais recentemente, em 2015,Li e Yin introduziram o SACS, variação autoadaptativa do CS que inclui regras de mutação eque apresentou uma convergência ainda mais rápida quando aplicado em algumas funções debenchmark (LI; YIN, 2015).

Tanto os algoritmos da área de Inteligência de Enxames quanto os da ComputaçãoEvolucionária são baseados na inicialização aleatória de uma população de possíveis soluçõesque vão se aperfeiçoando à medida que as iterações vão sendo executadas, até alcançarem umresultado satisfatório ou até um número máximo de iterações pré-definido. Desta forma, todasas etapas dos algoritmos são realizadas repetidas vezes para cada indivíduo presente em suapopulação.

O que difere a área de Inteligência de Enxames da Computação Evolucionária (Seção 2.6)é a ausência, originalmente, de um método de seleção em seus algoritmos. Existem atualizaçõesnas soluções candidatas encontradas no processo de busca, mas a identidade de cada indivíduopermanece a mesma. Na Inteligência de Enxames os indivíduos se aperfeiçoam com o tempo,enquanto que na Computação Evolucionária existe uma competição para sobrevivência, a cadaiteração, entre os indivíduos e seus descendentes (EIBEN; SMITH, 2003).

Dentre as vários aplicações em que estas técnicas já foram utilizadas para resolver proble-mas, destacam-se treinamento de redes neurais artificiais (VAN DEN BERGH; ENGELBRECHT,2001), otimização multiobjetiva (HU; EBERHART, 2002), controle descentralizado de veículosautônomos (BARAS; TAN; HOVARESHTI, 2003), entre outras.

2.8 Exploração x Explotação

Além das dificuldades de complexidade, os algoritmos bio-inspirados, sendo métodosmeta-heurísticos, enfrentam também o problema da exploração x explotação, que consiste emdecidir entre explorar amplamente todo o espaço de soluções (busca global), diversificando a

2.9. CONSIDERAÇÕES FINAIS 30

busca pela solução, ou intensificar a busca em uma região específica do espaço de soluções(busca local) (YANG, 2014). Em outras palavras, o dilema consiste em escolher entre intensificara busca nas regiões até então consideradas promissoras ou explorar todo o espaço na expectativade encontrar regiões ainda melhores no futuro. Os algoritmos buscam o equilíbrio entre essesdois processos, com o objetivo de percorrer o espaço de soluções da melhor maneira possívelLIMA JÚNIOR (2009).

O conhecimento empírico das observações e as simulações do comportamento de conver-gência de algoritmos de otimização sugerem que a explotação tende a aumentar a velocidade deconvergência, enquanto a exploração tende a diminui-la. Por outro lado, uma forte exploraçãoaumenta a probabilidade de encontrar o ótimo global, enquanto uma intensa explotação tende afazer o algoritmo cair em um ótimo local. Com cada um dos dois processos possuindo vantagense desvantagens, fica claro que um equilíbrio entre ambos torna-se necessário para tornar umalgoritmo mais eficiente, mas não existe nenhum guia prático de como balanceá-los (YANG;DEB; FONG, 2014).

2.9 Considerações Finais

Neste capítulo foram apresentados os principais conceitos e fundamentos de otimizaçãoque serão utilizados daqui em diante nessa dissertação: problemas de otimização, métodos exatos,métodos heurísticos, meta-heurísticas, algoritmos bio-inspirados, computação evolucionária,inteligência de enxames e exploração x explotação.

313131

3ALGORITMOS BIO-INSPIRADOS

Os algoritmos bio-inspirados têm sido muito utilizados para descobrir as melhoressoluções para vários problemas de otimização que não são resolvidos por métodos convencionais.A principal vantagem destes algoritmos é que eles realizam buscas iterativas de forma eficiente,utilizando suas características de exploração e explotação, isto é, a investigação de todo o espaçode busca e a intensificação da busca por um ótimo em uma região específica, respectivamente(EIBEN; SMITH, 2003).

Neste capítulo serão descritos sucintamente os oito algoritmos bio-inspirados utilizadosneste trabalho: GA, ACO, PSO, ABC, FA, CS, BAT e SACS. Eles serão apresentados dos maisantigos e tradicionais aos mais recentes.

3.1 Algoritmos Genéticos (GA)

Algoritmo genético (Genetic Algorithm - GA) é um método heurístico de busca eotimização, da área de Computação Evolucionária, introduzido por HOLLAND (1992), em 1975.É baseado no processo de seleção natural existente na natureza (Figura 3.1), introduzido porCharles Darwin, e busca convergir uma população inicial aleatória para uma solução de boaqualidade para o problema. Cada indivíduo da população é também chamado de cromossomo erepresenta uma solução no espaço de busca do problema. O algoritmo avalia a qualidade doscromossomos através da função de fitness ou aptidão, que avalia como cada um deles se adaptaao problema. A partir daí, os indivíduos com maior aptidão apresentam maiores chances deserem selecionados para sobreviverem e se reproduzirem. Esta seleção pode ser feita de formaaleatória, através da técnica de torneio, ou da técnica da roleta. Não está nos objetivos destetrabalho explicar cada uma destas técnicas. A geração de novos indivíduos se dá a partir daaplicação de operadores genéticos de cruzamento e mutação, que modificam a estrutura dosgenes dos cromossomos, produzindo uma nova e diferente população. Este processo se repeteaté que um critério de parada seja alcançado. Neste trabalho o critério de parada utilizado é umnúmero máximo pré-definido de gerações.

Os parâmetros utilizados neste algoritmo são: o tamanho da população (N), o percentualde cruzamentos (pc), o percentual de mutações (pm), o fator para cruzamentos (tc) e a taxa de

3.1. ALGORITMOS GENÉTICOS (GA) 32

Figura 3.1: GA - Processo de seleção natural

mutação (tm).O Algoritmo 1 mostra o pseudocódigo do algoritmo genético.

Algoritmo 1: Algoritmo Genético1 início2 Definir o número de dimensões d do problema;3 Definir a função objetivo f (x),x = (x1, ...,xd)

T ;4 Definir o número de cromossomos, a taxa de cruzamento, a taxa de mutação e o

número máximo de gerações;5 Gerar uma população inicial de n cromossomos xi(i = 1,2, ...,n);6 Avaliar os cromossomos da população inicial usando a função objetivo;7 repita8 Selecionar os cromossomos para reprodução;9 Aplicar os operadores de cruzamento e mutação;

10 Avaliar os cromossomos da população atual usando a função objetivo;11 Manter as melhores soluções;12 até critério de parada ser atingido;13 fim

Como podemos ver no pseudocódigo, inicialmente são definidos os parâmetros doalgoritmo. Em seguida, uma população de indivíduos é criada aleatoriamente e avaliada de acordocom a função de fitness que, como já dissemos, representa o quão apto está o indivíduo para umasolução do problema. Depois um laço de repetição é utilizado para criar e selecionar uma novapopulação. A seleção de dois cromossomos da população atual pode ser feita aleatoriamenteou através das técnicas de torneio ou roleta. Neste trabalho foi escolhida a técnica da roleta,pois foi a que apresentou os melhores resultados nos experimentos iniciais. Após os doiscromossomos terem sido selecionados, é feita a reprodução, que gera dois filhos através dométodo de cruzamento, que consiste em dividir cada um dos cromossomos pais em duas partes e

3.2. OTIMIZAÇÃO POR COLÔNIA DE FORMIGAS (ACO) 33

associá-los gerando novos indivíduos. Depois aplica-se a mutação, que é uma mudança aleatóriaem uma das dimensões do cromossomo. Em seguida calcula-se o valor de aptidão dos filhosgerados, que são incorporados à nova população, substituindo a população anterior. O algoritmotermina quando a condição de parada é alcançada.

3.2 Otimização por Colônia de Formigas (ACO)

O algoritmo de otimização por colônia de formigas (Ant Colony Optimization – ACO)foi inicialmente proposto por Marco Dorigo, em 1992. Sua versão inicial realizava a buscade um caminho ótimo em um gráfico, baseado no comportamento de formigas que procuramo melhor caminho entre sua colônia e uma fonte de alimento, através de uma comunicaçãoindireta, utilizando uma substância conhecida como feromônio (GOSS et al., 1989). O algoritmodesde então diversificou-se para resolver uma classe mais ampla de problemas numéricos, ecomo resultado, surgiram vários problemas baseados em vários aspectos do comportamento dasformigas (DORIGO; DI CARO; GAMBARDELLA, 1999).

Estudos realizados por GOSS et al. (1989) mostraram que as formigas, durante a buscapor fontes de alimento, tendem a seguir um mesmo caminho, com pequenas variações. Omais interessante é que esse caminho costuma ser o caminho ótimo, ou quase ótimo, quandocomparado a todos os demais caminhos do espaço.

Em um experimento inicial, foram criados dois caminhos A e B para uma colônia deformigas ir do ninho à fonte de alimentos e retornar ao ninho, sendo o caminho A mais curtoque o caminho B. Verificou-se inicialmente uma distribuição uniforme das formigas nos doiscaminhos, porém com o tempo a densidade de formigas percorrendo o caminho A tornou-semuito maior que a densidade de formigas percorrendo o caminho B (Figura 3.2).

Figura 3.2: ACO - Situação 1

Em um segundo experimento, ao colocar-se um obstáculo no caminho A, as densidadesse inverteram, com um maior número de formigas percorrendo o caminho B, que passou a ser amelhor opção (Figura 3.3).

O que ocorre com o comportamento das formigas é que toda vez que elas encontram umafonte de alimento e retornam ao ninho, elas liberam no caminho uma substância denominada

3.3. OTIMIZAÇÃO POR ENXAME DE PARTÍCULAS (PSO) 34

Figura 3.3: ACO - Situação 2

feromônio, que avisa as outras formigas que nesse caminho há uma fonte de alimento. Asformigas tendem a optar pelo caminho com maior concentração de feromônio. Esse caminhotermina sendo o caminho mais curto, pois este é percorrido de forma mais rápida, o que faz comque a concentração de feromônio cresça mais rápido do que a evaporação do mesmo. Isso atraimais formigas para esse caminho e assim a concentração de feromônio vai sendo reforçada. Oscaminhos mais longos vão sendo esquecidos porque a taxa de reposição do feromônio não érápida o suficiente para compensar a sua evaporação.

O algoritmo de otimização por colônia de formigas é um dos mais antigos na área deInteligência de Enxames e mesmo assim continua sendo um dos mais estudados atualmente. Eletem sido aplicado em vários problemas de otimização, tais como roteamento de otimização deredes de comunicação, programação de fábricas e roteamento de veículos.

Os parâmetros utilizados neste algoritmo são: o tamanho da população (N), o tamanhoda amostra (S), o fator de intensificação (q) e a taxa de desvio da distância (ζ ).

O Algoritmo 2 mostra o pseudocódigo da otimização por colônia de formigas.

3.3 Otimização por Enxame de Partículas (PSO)

O algoritmo de otimização por enxame de partículas (Particle Swarm Optimization - PSO)foi proposto por Kennedy e Eberhart, em 1995, sendo inspirado no comportamento dinâmico esocial de alguns grupos de animais, como cardumes de peixes e bandos de pássaros, durante a suabusca por alimentos. O PSO foi um dos precursores da área de Inteligência de Enxames e é umalgoritmo estocástico que consiste na otimização de uma função objetivo por meio da troca deinformações entre indivíduos (partículas) de uma população (enxame) (EBERHART; KENNEDYet al., 1995). O comportamento do enxame é influenciado pela experiência individual acumuladade cada uma das partículas e também pela experiência acumulada do grupo como um todo(KENNEDY et al., 2001).

O algoritmo inicia criando n partículas e distribuindo-as aleatoriamente no espaço debusca. Cada partícula representa uma solução do problema, e armazena sua posição no espaço de

3.3. OTIMIZAÇÃO POR ENXAME DE PARTÍCULAS (PSO) 35

Algoritmo 2: Otimização por Colônia de Formigas1 início2 Definir o número de dimensões d do problema;3 Definir a função objetivo f (x),x = (x1, ...,xd)

T ;4 Definir o número de indivíduos e o número máximo de gerações;5 Gerar uma população inicial de n formigas xi(i = 1,2, ...,n);6 Avaliar as formigas da população inicial usando a função objetivo;7 repita8 j← 0;9 enquanto j < n faça

10 Construir novas soluções;11 Avaliar as novas soluções usando a função objetivo;12 j← j+1;13 fim14 Evaporar feromônio;15 Ordenar soluções;16 Atualizar feromônio;17 até critério de parada ser atingido;18 fim

busca, uma velocidade de deslocamento vi e sua melhor posição encontrada até a iteração atual(pbesti). A melhor posição de todas as partículas também é armazenada, chamada de melhorposição global (gbest). A cada iteração as partículas vão se movendo para mais perto da soluçãoótima, através da atualização do vetor velocidade (Equação (3.1)) e da posição (Equação (3.2)),através das direções da melhor posição global e da sua melhor posição encontrada até o momento,como ilustrado na Figura 3.4. O fitness de cada partícula é calculado, e as melhores posiçõesglobal e individual de cada partícula são atualizadas. Este processo se repete até que o critério deparada do algoritmo seja alcançado.

vi(t +1) = w× vi(t)+ c1× r1× (pbesti− xi(t))+ c2× r2× (gbest− xi(t))� �3.1

xi(t +1) = xi(t)+ vi(t +1)� �3.2

Os parâmetros utilizados neste algoritmo são: o tamanho da população (N), o peso deinércia para limitar o valor da velocidade das partículas (w), o coeficiente cognitivo referente àimportância da informação local ou melhor posição encontrada pela própria partícula (c1), ocoeficiente social referente à importância da informação global ou melhor posição encontradadentre todas as partículas (c2), e a taxa de velocidade (vr). Além destes parâmetros, o algoritmoutiliza as variáveis aleatórias rand1 e rand2, que são geradas uniformemente no intervalo [0, 1] esão responsáveis pelo não-determinismo do algoritmo.

A principal desvantagem que tem sido observada na maioria das versões do algoritmoPSO que foram desenvolvidas nos últimos anos ocorre na otimização de funções com muitos

3.4. COLÔNIA DE ABELHAS ARTIFICIAIS (ABC) 36

Figura 3.4: PSO - Movimento das partículas

mínimos locais em espaços de alta dimensionalidade. O bom desempenho em problemas debaixa dimensionalidade não se mantém quando o número de dimensões do problema aumenta, oque indica uma baixa robustez do algoritmo (KENNEDY, 2011).

O Algoritmo 3 mostra o pseudocódigo da otimização por enxame de partículas.

Algoritmo 3: Otimização por Enxame de Partículas1 início2 Definir o número de dimensões d do problema;3 Definir a função objetivo f (x),x = (x1, ...,xd)

T ;4 Definir o número de indivíduos e o número máximo de gerações;5 Gerar uma população inicial de n partículas com posição xi e velocidade

vi(i = 1,2, ...,n);6 Definir o peso de inércia w e os coeficientes cognitivo (c1) e social (c2);7 Avaliar as partículas da população inicial usando a função objetivo;8 Defina pbesti como a melhor posição encontrada pela partícula i;9 Defina gbest como a melhor solução encontrada por todas as partículas;

10 repita11 Mova todas as partículas na direção da melhor posição encontrada até então

(gbest), usando as equações Equação (3.1) e Equação (3.2);12 Atualize a melhor posição de cada partícula (pbesti);13 Atualize a melhor posição encontrada por todas as partículas (gbest);14 até critério de parada ser atingido;15 fim

3.4 Colônia de Abelhas Artificiais (ABC)

O algoritmo de colônia de abelhas artificiais (Artificial Bee Colony - ABC) é inspiradono comportamento de colônias de abelhas na sua busca por fontes de alimento (KARABOGA,2005). Nesse algoritmo, a função objetivo avalia as fontes de alimento encontradas pelas abelhas.Cada fonte é uma possível solução para o problema, e seu fitness é diretamente proporcional àquantidade de néctar nela contida. No ABC as abelhas podem ser de três tipos:

3.4. COLÔNIA DE ABELHAS ARTIFICIAIS (ABC) 37

1. Abelhas trabalhadoras, também chamadas de abelhas operárias ou campeiras, queestão alocadas em alguma fonte de alimento próxima à colmeia, e realizam viagensà colônia levando o néctar colhido da fonte. Em um local conhecido como áreade dança, estas abelhas realizam movimentos para transmitir às demais abelhas ainformação de proximidade e quantidade de néctar da fonte a que estão alocadas,

2. Abelhas oportunistas ou observadoras, que assistem à dança das abelhas trabalhadorase decidem qual fonte querem visitar naquele momento, baseando-se na proximidadee na quantidade de néctar de cada uma delas. Então, elas visitam a fonte e retornam àcolmeia com mais néctar, onde aguardam o retorno de outras abelhas trabalhadoraspara repetirem o processo,

3. Abelhas exploradoras, que realizam buscas aleatórias nas vizinhanças da colmeia,procurando por novas fontes de alimento. Quando uma abelha trabalhadora esgota asua fonte de alimento, ela se torna uma abelha exploradora.

A Figura 3.5 ilustra bem este processo.

Figura 3.5: ABC - Funções das abelhas

Caso a quantidade de néctar de uma nova fonte encontrada seja maior que a anteriorna memória de uma abelha, esta irá se deslocar para a nova posição, esquecendo a posiçãoanterior. Se uma fonte de alimento ou solução não melhorar após um número pré-definido detentativas, ela será abandonada pela abelha trabalhadora correspondente, que por sua vez setornará uma abelha exploradora. O algoritmo ABC consegue equilibrar a exploração (buscaglobal), utilizando as abelhas exploradoras, com a intensificação (busca local), utilizando asabelhas trabalhadoras e observadoras.

3.5. ALGORITMO DO VAGA-LUME (FA) 38

Os parâmetros utilizados neste algoritmo são: o tamanho da população (N) e o limitesuperior do coeficiente de aceleração (a).

O Algoritmo 4 mostra o pseudocódigo do algoritmo ABC.

Algoritmo 4: Colônia de Abelhas Artificiais1 início2 Definir o número de dimensões d do problema;3 Definir a função objetivo f (x),x = (x1, ...,xd)

T ;4 Definir o número de indivíduos, o valor limite para abandonar uma fonte de

alimento e o número máximo de gerações;5 Gerar uma população inicial de n fontes de alimento xi(i = 1,2, ...,n);6 Avaliar as fontes de alimento da população inicial usando a função objetivo;7 repita8 Posicione as abelhas trabalhadoras em suas fontes de alimento;9 Calcule a probabilidade de escolha da fonte de alimento pelas abelhas

observadoras;10 Posicione as abelhas observadoras nas fontes de alimento dependendo de

seus valores de probabilidade;11 Interrompa a exploração de fontes com limite de tentativas esgotado;12 Envie abelhas exploradoras para buscar novas fontes de alimento;13 Memorize a melhor fonte de alimento encontrada até então;14 até critério de parada ser atingido;15 fim

Como podemos ver no pseudocódigo, inicialmente são definidos os parâmetros doalgoritmo. Em seguida, uma população inicial é criada aleatoriamente, dividida igualmenteentre abelhas trabalhadoras e observadoras, e avaliada de acordo com a função de fitness.Depois um laço de repetição é utilizado no número máximo de iterações, gerando modificaçõesbuscando melhores soluções, calculando a probabilidade da abelha se tornar uma observadora eselecionando as melhores soluções. Depois são geradas novamente modificações, substituindoas soluções que atingiram o limite de tentativas, e memorizando a melhor solução encontrada. Oprocesso se repete e o algoritmo termina quando o número máximo de iterações é alcançado.

3.5 Algoritmo do Vaga-lume (FA)

Vaga-lumes são insetos capazes de gerar luz dentro de si, devido a uma espécie de reaçãoquímica. Existem cerca de duas mil espécies de vaga-lume, e a maioria delas produz brilhoscurtos e rítmicos. O ritmo, a velocidade e a duração do brilho são padrões únicos para cadaespécie, de modo que a fêmea de uma espécie só responde ao padrão individual do macho damesma espécie.

O algoritmo do vaga-lume (Firefly Algorithm - FA) foi introduzido por X.S. Yang, em2008, e é inspirado no processo de bioluminescência dos vaga-lumes. A principal razão para este


efeito natural de emissão de luz é atrair presas e vaga-lumes do sexo oposto, mas também podeser utilizado para encontrar comida e se proteger de predadores. Inicialmente este algoritmo foidesenvolvido para resolver problemas de otimização contínua, mas depois foi aplicado tambémem problema discretos, como o problema do caixeiro viajante, e nas áreas de clusterização,processamento digital e compressão de imagens (YANG, 2010b).

As três regras básicas desse algoritmo são:

1. Todos os vaga-lumes serão atraídos por cada um dos outros, independente do seusexo,

2. A atratividade dos vaga-lumes é diretamente proporcional ao seu brilho, e ambos sereduzem com o aumento da distância entre eles. Um vaga-lume de menor brilho iráse mover na direção de um vaga-lume de maior brilho. Em nenhuma hipótese umvaga-lume menos brilhante pode atrair um vaga-lume mais brilhante do que ele. Estebrilho é determinado pela função objetivo,

3. Caso não haja um vaga-lume mais brilhante do que um determinado vaga-lume, estese moverá aleatoriamente.

O algoritmo Firefly começa com a inicialização aleatória da população de vaga-lumes,onde cada um deles corresponde a uma possível solução para o problema (Equação (3.3)).

X = Xmin +(Xmax−Xmin)× rand� �3.3

A distância entre dois vaga-lumes quaisquer i e j, posicionados respectivamente em xi ex j pode ser calculada como a distância euclidiana dada pela Equação (3.4).

ri j =∥∥xi− x j

∥∥=√√√√ d

∑k=1

(xik− x jk)2

� �3.4

Onde:

� xik é a k-ésima componente da coordenada espacial xi do i-ésimo vaga-lume,

� d é o número de dimensões do problema.

Uma vez que a atratividade de um vaga-lume é proporcional à intensidade luminosaobservada pelos vaga-lumes adjacentes, a atratividade de um vaga-lume pode ser calculada deacordo com a Equação (3.5).

β = β0e−γrm,m≥ 1

� �3.5

Onde:


� r é a distância entre dois vaga-lumes,

� β0 é a atratividade inicial em r = 0,

� γ é um coeficiente de absorção que controla a diminuição da intensidade de luz.

Um vaga-lume i se move em direção a um vaga-lume mais brilhante ou mais atrativo j.Isso é dado por Equação (3.6).

xi(t +1) = xi(t)+β (x j(t)− xi(t))+α(rand−0.5)� �3.6

Onde:

� A primeira parcela corresponde à posição atual do vaga-lume i, a segunda parcelacorresponde à atração entre os vaga-lumes i e j e a terceira parcela é a parte aleatória,limitada pelo parâmetro α ∈ [−1,1],

� rand é um número gerado aleatoriamente no intervalo [0, 1], geralmente seguindouma distribuição uniforme.

Este processo é ilustrado na Figura 3.6.

Figura 3.6: FA - Atratividade entre os vaga-lumes

Os parâmetros utilizados neste algoritmo são: o tamanho da população (N), o coeficientede mutação (α), o valor base do coeficiente de atração (β0), o coeficiente de absorção quecontrola o decaimento da intensidade de luz (γ) e a taxa de redução do coeficiente de mutação(αr).

O pseudocódigo do algoritmo Firefly pode ser visto no Algoritmo 5, apresentado a seguir:

3.6. ALGORITMO DE BUSCA DO CUCO (CS) 41

Algoritmo 5: Algoritmo do Vaga-lume1 início2 Definir o número de dimensões d do problema;3 Definir a função objetivo f (x),x = (x1, ...,xd)

T ;4 Definir o número de indivíduos e o número máximo de gerações;5 Gerar uma população inicial de n vaga-lumes xi(i = 1,2, ...,n);6 Definir o coeficiente de absorção de luz γ ;7 Intensidade de luz Ii em xi é determinada por f (xi);8 Avaliar os vaga-lumes da população inicial usando a função objetivo;9 repita

10 para cada vaga-lume i faça11 para cada vaga-lume j faça12 se (Ii < I j) então13 Mover o vaga-lume i em direção ao vaga-lume j;14 fim15 Variar a atratividade com distância r por exp[- γ r];16 Calcular novas soluções e atualizar a intensidade de luz;17 fim18 fim19 Ordenar os vaga-lumes e encontrar a melhor solução global;20 até critério de parada ser atingido;21 fim

3.6 Algoritmo de Busca do Cuco (CS)

O algoritmo de busca do cuco (Cuckoo Search - CS) é um algoritmo evolucionário meta-heurístico desenvolvido por Yang e Deb (YANG; DEB, 2009), baseando-se no comportamentoparasita da reprodução de algumas espécies do pássaro cuco. No processo, essas espécies deposi-tam seus ovos nos ninhos de outros pássaros. Alguns desses ovos, que são muito semelhantesaos ovos do pássaro hospedeiro, têm a oportunidade de crescer e se tornar cucos adultos. Outrossão descobertos e jogados fora pelo pássaro hospedeiro, que nesse caso pode ainda abandonar oninho e construir outro ninho em um novo local.

Esta técnica tem sido muito aplicada em problemas de otimização global, por suasimplicidade e eficácia, além de sua rápida convergência e capacidade de evitar os mínimoslocais (YANG; DEB, 2009; BISWAS; KUNDU; DAS, 2015). Também tem sido aplicado emvárias outras áreas, como processamento de imagens, agendamento, planejamento, seleção decaracterísticas e previsão.

Neste algoritmo, uma solução é representada por um ovo em um ninho e uma nova solu-ção é representada por um ovo de cuco. Cada solução em um ninho é analisada de acordo com afunção de aptidão que avalia sua capacidade de resolver o problema. Novas e potenciais melhoressoluções são utilizadas para substituir as piores soluções atuais se elas de fato apresentaremmelhores valores de aptidão. Soluções candidatas para as próximas épocas são obtidas através


de uma busca estilo random-walk (YANG; DEB, 2009), a fim de explorar novas possibilidades.Finalmente, um ovo de cuco presente nos piores ninhos é descoberto e descartado com uma dadaprobabilidade (pa).

Na sua forma mais simples, o algoritmo considera cada ninho com apenas um ovo,havendo assim apenas uma solução por ninho. Entretanto, isto pode ser estendido para casosonde cada ninho tem múltiplos ovos, havendo assim um conjunto de soluções por ninho. A sim-plicidade é uma importante vantagem deste algoritmo, visto que além do tamanho da população(número de ninhos), o único parâmetro a ser definido é a probabilidade de um ovo de cuco serdescoberto pa. As três regras básicas desse algoritmo são:

1. Cada cuco deposita um ovo de cada vez em um ninho escolhido aleatoriamente,

2. Os melhores ninhos são mantidos para a próxima geração,

3. Cada ninho contém apenas um ovo, o número de ninhos disponíveis é fixo e o ovodepositado pelo cuco é descoberto pelo pássaro hospedeiro com um certo valor deprobabilidade, que implica que uma fração dos ninhos é substituída por novos ninhosou novas soluções aleatórias (YANG; DEB, 2009).

Inicialmente, cada solução é gerada aleatoriamente e atualizada a cada iteração usandovoos de Lévy (YANG; DEB, 2009), de acordo com a Equação (3.7), uma espécie de movimentoaleatório observado em muitos animais, em sua busca por água, comida, parceiros, e fuga depredadores. Neste movimento, o tamanho do deslocamento se distribui com uma densidadede probabilidade que decai como uma lei de potência, onde o índice de Lévy α = λ −1, com0 < α ≤ 2, de modo que λ varia no intervalo 1 < λ ≤ 3. Nos casos em que λ = 1 o movimentoé dito balístico e nos casos em que λ > 3 o movimento é dito browniano.

Lévy∼ u = t−λ� �3.7

A Figura 3.7 ilustra o conceito simples deste algoritmo.

Figura 3.7: CS - Processo de busca


Alguns trabalhos relacionados utilizaram o algoritmo CS sem a distribuição dos voos deLévy. Neste trabalho esta distribuição foi utilizada, pois estudos mostram que é esta propriedadeque garante que todo o espaço de busca é coberto de maneira eficiente.

Após produzir uma nova solução de acordo com a Equação (3.8), ela será avaliada ecomparada com a solução atual. Se o valor do fitness for menor do que o fitness da solução atual,ela é então aceita como nova solução.

x(t+1)i = x(t)i +α⊕Lévy(λ )

� �3.8

Onde:

� x(t)i : solução atual,

� x(t+1)i : nova solução produzida,

� α : tamanho do passo para explorar novas e potenciais soluções. É ajustado de acordocom a escala do problema, sendo em geral igual a um. Às vezes um valor menor,como por exemplo 0.01, é utilizado para evitar que os voos sejam muito grandes, oque faria com que novas soluções fossem geradas fora do domínio do problema.

Além disso, a cada iteração, as piores soluções podem ser descartadas e substituídaspor novas soluções, de acordo com a probabilidade de abandonar o ninho pa definida comoparâmetro do algoritmo. Se a nova solução produzida aleatoriamente a partir de duas outrassoluções aleatoriamente selecionadas é melhor do que a solução atual, ela substitui a soluçãoatual no ninho. Este comportamento está definido na Equação (3.9):

vi =

Xi + rand× (Xr1−Xr2), randi < pa

Xi, caso contrário

� �3.9

Onde:

� pa: probabilidade do ninho ser abandonado,

� rand: número aleatório gerado entre 0 e 1,

� Xi: solução atual cuja substituição está sendo avaliada,

� Xr1 e Xr2: soluções aleatoriamente selecionadas.

Os parâmetros utilizados neste algoritmo são: o tamanho da população (N) e a probabili-dade de descobrir o ovo do cuco e a solução ser abandonada (pa). Seu pseudocódigo pode servisualizado no Algoritmo 6.

3.7. ALGORITMO DO MORCEGO (BAT) 44

Algoritmo 6: Algoritmo de Busca do Cuco1 início2 Definir o número de dimensões d do problema;3 Definir a função objetivo f (x),x = (x1, ...,xd)

T ;4 Definir o número de indivíduos, o número máximo de gerações e a probabilidade

pa;5 Gerar uma população inicial de n ninhos hospedeiros xi(i = 1,2, ...,n);6 Avaliar os ninhos da população inicial usando a função objetivo;7 repita8 Obter um cuco aleatoriamente por voos de Lévy;9 Avaliar a qualidade do ninho através de fi;

10 Escolher aleatoriamente um novo ninho j;11 se ( fi > f j) então12 Substitua o ninho i pelo novo ninho j;13 fim14 Uma fração pa dos piores ninhos são abandonados e novos ninhos são

construídos;15 Manter os melhores ninhos;16 Ordenar os ninhos e encontrar o melhor ninho atual;17 até critério de parada ser atingido;18 fim

3.7 Algoritmo do Morcego (BAT)

O algoritmo do morcego (Bat Algorithm - BAT) foi criado por X.S. Yang, em 2010, eé inspirado no processo de ecolocalização dos morcegos durante o seu voo. Possui três regrasbásicas:

1. O morcego usa sua capacidade de ecolocalização para detectar a distância e a posiçãode fontes de alimentos, presas e obstáculos,

2. Os morcegos costumam voar aleatoriamente para buscar uma presa, com característi-cas como velocidade e frequência fixa,

3. Apresenta também variações na intensidade sonora.

A ecolocalização dos morcegos se baseia na emissão de ondas ultrassônicas e a corres-pondente medição do tempo gasto para estas ondas voltarem à fonte após serem refletidas peloalvo, seja este uma presa ou um obstáculo (Figura 3.8). A taxa de pulso e a amplitude dos sonsemitidos pelos morcegos variam com a estratégia de caça. Quando o alvo é identificado, a taxade pulso (r) e a amplitude (A) são aumentadas para evitar perdê-lo. Por outro lado, quando oalvo encontra-se sob domínio, a amplitude é diminuída (YANG, 2010c).

Os morcegos encontram suas presas através de variação de comprimento de onda eintensidade sonora, enquanto mantém sua frequência, posição e velocidade fixas. Eles podem

3.7. ALGORITMO DO MORCEGO (BAT) 45

Figura 3.8: BAT - Ecolocalização dos morcegos

ajustar suas frequências de acordo com o pulso emitido e a taxa de pulso.O algoritmo começa com a inicialização aleatória da população de morcegos. Cada

morcego representa uma solução candidata para o problema, e é composto por sua posição inicial,velocidade, frequência (Equação (3.10)), taxa de pulso e amplitude sonora. Cada morcego irá semover no espaço de busca do problema, seguindo a melhor solução encontrada pela população, àprocura de melhores posições após cada iteração, atualizando continuamente seus valores defrequência, velocidade (Equação (3.11)) e posição (Equação (3.12)). Assim como os outrosalgoritmos, também há o controle da exploração e da explotação, sendo a primeira realizada pelavariação da amplitude sonora e a segunda pela variação da taxa de pulso. Este processo continuaaté que um critério de parada seja satisfeito, e a solução assim obtida representa a melhor soluçãoglobal para o problema.

fi = fmin +( fmax− fmin)β ,β ∈ [0,1]� �3.10

vi(t +1) = vi(t)+(xi(t)− x∗) fi� �3.11

Onde:

� x∗ é a melhor posição global,

� xi(t +1) = xi(t)+ εAt , ε ∈ [−1,1],

� At é a média das amplitudes sonoras de todos os morcegos no instante t.

xi(t +1) = xi(t)+ vi(t +1)� �3.12

Os parâmetros utilizados neste algoritmo são: o tamanho da população (N), o coeficientede atualização da amplitude sonora (α) e o coeficiente de atualização da taxa de pulso (λ ).

O Algoritmo 7 mostra o pseudocódigo do algoritmo BAT.

3.8. ALGORITMO AUTOADAPTATIVO DE BUSCA DO CUCO (SACS) 46

Algoritmo 7: Algoritmo do Morcego1 início2 Definir o número de dimensões d do problema;3 Definir a função objetivo f (x),x = (x1, ...,xd)

T ;4 Definir o número de indivíduos e o número máximo de gerações;5 Gerar uma população inicial de n morcegos com posição xi e velocidade

vi(i = 1,2, ...,n);6 Definir a taxa inicial de emissão de pulsos r0 e a frequência inicial f0;7 Avaliar os morcegos da população inicial usando a função objetivo;8 repita9 Gerar novas soluções ajustando-se a frequência e atualizando a velocidade e

a posição dos morcegos (solução do problema);10 para i = 1 até número de indivíduos faça11 se número randômico < ri então12 Selecionar uma solução entre as melhores soluções;13 Gerar uma solução local ao redor da melhor solução;14 fim15 Gerar nova solução através de um voo randômico;16 se número randômico < Ai ou f(xi) < f(xmelhor) então17 Aceitar a nova solução;18 Aumentar ri e reduzir Ai;19 fim20 Avaliar as posições dos morcegos;21 Ranquear as posições dos morcegos;22 Encontrar a melhor posição atual para os morcegos xmelhor;23 fim24 até critério de parada ser atingido;25 fim

3.8 Algoritmo Autoadaptativo de Busca do Cuco (SACS)

O algoritmo autoadaptativo de busca do cuco (Self Adaptive Cuckoo Search - SACS)é uma modificação do algoritmo padrão de busca do cuco e está definido em (LI; YIN, 2015).Ele inclui a adição de duas regras de mutação e um parâmetro autoadaptativo (probabilidade doninho ser abandonado), inspirando-se na evolução diferencial, um dos mais poderosos métodosde busca estocástica utilizados em problemas de otimização contínua. LI; YIN (2015) mostram,a partir de testes em dezesseis funções escolhidas da literatura, que com estas alterações oalgoritmo apresenta resultados ainda melhores e converge mais rapidamente. Isso aconteceporque as alterações permitem que o algoritmo proposto por eles equilibre a exploração e aexplotação do algoritmo na busca pela melhor solução.

O único parâmetro utilizado neste algoritmo é o tamanho da população (N), pois diferen-temente do CS este algoritmo encontra a probabilidade de descobrir o ovo do cuco e a soluçãoser abandonada (pa) de maneira autoadaptativa.

474747

4TÉCNICA PARA AJUSTE AUTOMÁTICO DOS PARÂMETROS

4.1 Introdução

A partir da experiência obtida com a análise da literatura e a realização de experimentos,sabemos que a configuração dos valores dos parâmetros de qualquer algoritmo pode afetar seucomportamento e a sua performance significativamente (EIBEN; SMIT, 2011).

Cada um dos algoritmos bio-inspirados apresentados no capítulo anterior possui diversosparâmetros. Estes parâmetros precisam ser ajustados para os seus valores ótimos, a fim de me-lhorar a performance de seus algoritmos. Muitos trabalhos utilizam os valores usuais disponíveisna literatura, mas neste trabalho um ajuste mais refinado dos parâmetros é realizado, a fim de setentar alcançar melhores resultados.

4.2 Trabalhos Relacionados

O problema de identificação dos melhores valores para os parâmetros de um algoritmo deotimização, em termos de performance, é uma área de pesquisa que vem sendo bastante estudadanos últimos anos.

GREFENSTETTE (1986) introduziu a ideia de aplicar algoritmos genéticos para obtercandidatos eficientes para problemas de otimização numérica.

Técnicas híbridas como as de PARSOPOULOS; VRAHATIS (2002) aplicam uma com-posição de evolução diferencial com PSO. Eles utilizaram DE para ajustar o peso de inércia e osdois coeficientes de aceleração do PSO, obtendo ótimos resultados nas funções de benchmarkem que foram aplicados.

MEISSNER; SCHMUKER; SCHNEIDER (2006) propôs um método baseado no algo-ritmo PSO, com ajuste automático do peso de inércia e dos coeficientes de aceleração, demons-trando a eficácia do método em funções matemáticas de benchmark e em treinamento de redesneurais.

A técnica que adotamos neste trabalho será semelhante a esta última, com a diferença de

4.3. FORMULAÇÃO DA TÉCNICA 48

que irá otimizar também o tamanho da população, além dos demais parâmetros dos algoritmosbio-inspirados em estudo. Ela será explicada em detalhes na Seção 4.3. O algoritmo PSO foi ométodo escolhido devido à sua facilidade de entendimento e implementação, tornando-se maissimples de adaptar ao problema de ajuste dos parâmetros.

NAWI et al. (2015) propôs o uso de uma estimação populacional no algoritmo CS paraminimizar o erro de treinamento, alcançar uma convergência mais rápida e evitar o problema dosmínimos locais. Foram variados os valores do parâmetro N de 10 a 40, aumentando de 5 em5, e do parâmetro pa de 0.05 a 0.25, aumentando de 0.05 em 0.05. Os melhores valores eramdeterminados e utilizados para comparar o desempenho deste algoritmo com PSO, ABC e oalgoritmo de busca do lobo (WSA), em cinco funções de benchmark. Os resultados mostraramque o CS com voos de Lévy superou os demais algoritmos. O problema desta técnica é que avariação dos parâmetros não cobre todo o intervalo de valores possíveis, podendo haver algumvalor intermediário dos parâmetros que apresentasse resultados ainda melhores. Além disso, énecessário comparar todos os resultados a fim de encontrar os valores ótimos, não havendo umajuste automático dos parâmetros de acordo com uma dada função objetivo.

4.3 Formulação da Técnica

A função objetivo utilizada para medir a qualidade dos parâmetros do algoritmo sendoajustado é formulada como uma combinação do número de iterações necessárias para alcançar umdeterminado valor limiar de erro, o mínimo valor de função alcançado ao fim do número máximode iterações pré-definido, e o número total de indivíduos utilizados no algoritmo. Desta forma,a técnica utilizada tenta obter os parâmetros ótimos que minimizam o número de avaliaçõesda função ao mesmo tempo em que permite ao algoritmo alcançar um alto grau de sucesso naminimização do erro, utilizando o menor número possível de indivíduos.

O algoritmo de ajuste dos parâmetros será chamado a partir de agora de Tuning-PSO.Este algoritmo apresenta, para o algoritmo PSO, cinco parâmetros a serem ajustados: o tamanhodo enxame, o peso de inércia, o coeficiente de aprendizagem cognitivo, o coeficiente de apren-dizagem social e a taxa de velocidade. Sendo assim, na otimização do PSO, o Tuning-PSO édefinido em um espaço 5-dimensional, onde cada partícula é inicializada e otimizada dentro deum certo limite de espaço de busca para as variáveis. A Tabela 4.1 mostra quais são esses limitesde variação dos parâmetros, não só para o PSO, mas também para todos os demais algoritmosbio-inspirados em estudo.

Já os parâmetros utilizados na técnica Tuning-PSO são os valores usuais do PSO encon-trados na literatura:

� tamanho do enxame = 20,

� peso de inércia = 0.729,

4.3. FORMULAÇÃO DA TÉCNICA 49

Tabela 4.1: Limites dos parâmetros dos algoritmos bio-inspirados no Tuning-PSO

Algoritmo Limites de Variação dos Parâmetros

GA

tamanho da população (N): 10 a 50percentual de cruzamentos (pc): 0.1 a 1.0

fator para cruzamentos (tc): 0.1 a 1.0percentual de mutações (pm): 0.1 a 1.0

taxa de mutação (tm): 0.1 a 1.0

ACO

tamanho da população (N): 10 a 50tamanho da amostra (S): 10 a 50

fator de intensificação (q): 0.1 a 1.0taxa de desvio da distância (ζ ): 0.1 a 1.0

PSO

tamanho da população (N): 10 a 50coeficiente de inércia (w): 0.4 a 0.9coeficiente cognitivo (c1): 0.5 a 2.5

coeficiente social (c2): 0.5 a 2.5taxa de velocidade (vr): 0.1 a 1.0

ABCtamanho da população (N): 10 a 50

limite superior do coeficiente de aceleração (a): 0.2 a 1.2

FA

tamanho da população (N): 10 a 50coeficiente de mutação (α): 0.1 a 1.0

valor base do coeficiente de atração (β0): 0.1 a 3.0coeficiente de absorção ou decaimento da intensidade de luz (γ): 0.1 a 1.0

taxa de redução do coeficiente de mutação (αr): 0.1 a 1.0

CStamanho da população (N): 10 a 50

probabilidade de descobrir o ovo do cuco (pa): 0.1 a 1.0

BATtamanho da população (N): 10 a 50

coeficiente de atualização da amplitude sonora (α): 0.1 a 1.0coeficiente de atualização da taxa de pulso (λ ): 0.1 a 1.0

SACS tamanho da população (N): 10 a 50

� c1 = 2.05,

� c2 = 2.05,

� taxa de velocidade = 0.1

Visto que a posição inicial aleatória das partículas afeta o desempenho dos algoritmos, nóstentamos minimizar a influência de diferentes inicializações usando um mesmo valor de sementepara as diferentes inicializações das posições das partículas dos algoritmos sendo ajustados.Dessa forma, qualquer diferença de desempenho entre as execuções passará a ser atribuídaprincipalmente às diferenças nos valores dos parâmetros que estamos buscando otimizar.

O valor de fitness da partícula no Tuning-PSO é computado como o desempenho médiodas execuções do algoritmo com parâmetros definidos pelas dimensões dessa partícula. Estedesempenho é obtido pela média, calculada em 10 execuções independentes, do produto do valorfitness obtido pelo algoritmo definido pela partícula m ao fim do número máximo de iterações, otamanho do enxame definido pela partícula m e o número de iterações necessárias para alcançar


o valor limiar de erro estipulado. Esta formulação tenta otimizar o desempenho do algoritmo emtermos de qualidade da solução e custo computacional.

O Algoritmo 8 ilustra o passo-a-passo do comportamento da técnica Tuning-PSO.

Algoritmo 8: Técnica de Ajuste Automático dos Parâmetros1 início2 Definir a função objetivo f (x),x = (x1, ...,xd)

T ;3 Definir o número de indivíduos e o número máximo de gerações;4 Gerar uma população inicial de n partículas com posição xi e velocidade vi (i =

1,2,...,n);5 Definir o peso de inércia w e os coeficientes cognitivo (c1) e social (c2);6 Avaliar as partículas da população inicial usando a função objetivo;7 Defina pbesti como a melhor posição encontrada pela partícula i;8 Defina gbest como a melhor solução encontrada por todas as partículas;9 repita

10 Gerar um novo valor de semente para o gerador de números aleatórios;11 para cada partícula m no enxame faça12 Atribua o valor de semente ao gerador de números aleatórios;13 Use os valores da posição de m como parâmetros para instanciar uma

nova população do algoritmo bio-inspirado cujos parâmetros se querotimizar;

14 Aplique este algoritmo bio-inspirado na população recém instanciada,avaliando as soluções de acordo com a função objetivo;

15 Repita os passos 12 a 14 um certo número de vezes para calcular odesempenho médio do algoritmo bio-inspirado para os parâmetrosdefinidos por m;

16 Mova todas as partículas na direção da melhor posição encontrada atéentão (gbest), usando as equações Equação (3.1) e Equação (3.2);

17 Atualize a melhor posição de cada partícula (pbesti);18 Atualize a melhor posição encontrada por todas as partículas (gbest);19 fim20 Retorne os valores da posição gbest como sendo os parâmetros ótimos do

algoritmo bio-inspirado sendo otimizado;21 até critério de parada ser atingido;22 fim


Este capítulo apresentou uma estratégia de ajuste automático dos parâmetros para osalgoritmos bio-inspirados em estudo. Apesar de essa estratégia implicar um considerável custode execução adicional, os experimentos realizados mostrarão a sua eficácia.

Na área de Computação Evolucionária e Inteligência de Enxames, é comum comparardiferentes algoritmos em diferentes problemas. Porém, a eficácia de um algoritmo não podeser medida a partir do número de problemas que ele resolve melhor do que outro algoritmo.


Na verdade, se compararmos dois algoritmos utilizando todos os problemas possíveis, elesapresentarão desempenhos, em média, iguais (WOLPERT; MACREADY et al., 1995). Por isso,quando estamos avaliando um algoritmo, estamos procurando os tipos de problemas em queseu desempenho é bom ou aceitável. Isso nos permite obter conclusões dos desempenhos doalgoritmos dependendo do tipo de problema em que são aplicados.

Analisar e comparar o desempenho de algoritmos bio-inspirados é uma tarefa bastanteimportante, mas também extremamente complexa. Para investigar a performance dos algoritmosbio-inspirados apresentados no capítulo anterior, decidimos aplicá-los e compará-los em trêsdiferentes problemas: otimização através de minimização de funções de benchmark, previsão daenergia eólica produzida por parques eólicos a partir da velocidade do vento, e clusterização paraclassificação de dados em bases do UCI. Estes três problemas serão abordados nos capítulosseguintes e refletem apenas algumas das várias aplicações em que estes algoritmos têm sidoempregados por pesquisadores na comunidade científica.

525252

5FUNÇÕES DE BENCHMARK

Este capítulo aborda o primeiro dos três problemas investigados, que consiste na otimiza-ção de seis funções de benchmark bem estabelecidas na literatura e com características distintas.São elas: Sphere, Rosenbrock, Rastrigin, Ackley, Griewank e Schwefel.

5.1 Introdução

Funções de benchmark são instâncias de teste de problemas para os quais o valor ótimo éconhecido. Estas funções são utilizadas para testar algoritmos, e a relevância de seus resultadosse dá pela proximidade entre a solução encontrada e o valor ótimo conhecido.

Embora funções de benchmark não forneçam com precisão uma medida do quão eficazesserão os algoritmos em problemas do mundo real desconhecidos, elas são úteis na investigaçãode alguns aspectos importantes sobre os algoritmos propostos, como convergência prematura erobustez (MENDEL; KROHLING; CAMPOS, 2011).

O principal critério empregado na seleção das seis funções utilizadas foi a quantidade demínimos ou máximos locais existentes para cada função. Para isso, foram empregadas funçõescom apenas um mínimo ou unimodais (Sphere e Rosenbrock), e funções multimodais compoucos ou muitos mínimos locais (Rastrigin, Ackley, Griewank e Schwefel). Isso permitiuavaliar a robustez dos algoritmos quanto à convergência prematura e possíveis vulnerabilidadesno processo de otimização das funções. O problema de otimização se torna particularmente maisdifícil quando a função é multimodal, porque o algoritmo deve ser capaz de evitar as regiões emtorno de mínimos locais, aproximando-se, na medida do possível, do ótimo global. A situaçãose torna ainda mais complexa quando os mínimos locais estão distribuídos aleatoriamente noespaço de busca.


Trabalhos anteriores foram publicados sobre a análise do desempenho de algoritmosbio-inspirados em problemas de otimização de funções de benchmark.

5.3. FUNÇÕES 53

(YANG; DEB, 2009) comparou os algoritmos CS, PSO e GA em várias funções debenchmark e mostrou que o algoritmo do cuco é superior aos outros dois algoritmos, e que essasuperioridade foi mais acentuada nas funções multimodais.

(NAWI et al., 2015) comparou o desempenho do CS com voos de Lévy com o PSO, oABC e o algoritmo de busca do lobo (WSA) (TANG et al., 2012), em cinco funções de bench-mark: Ackley, Griewank, Rastrigin, Rosenbrock e Schwefel. Os experimentos mostraram que oCS com voos de Lévy obteve ótimos resultados e foi mais eficiente na busca pelo ótimo globalna comparação com os outros três algoritmos. Além disso, melhorou a taxa de convergência eevitou o problema dos mínimos locais.

(LI; YIN, 2015) verificou o desempenho do SACS em 16 funções de benchmark escolhi-das da literatura, e os resultados experimentais mostraram que o algoritmo apresentou, no geral,um desempenho melhor ou pelo menos igual a um grupo de outros 13 algoritmos, dentre osquais incluíam-se o CS, o ABC, algoritmos de evolução diferencial e algumas variações destes.Além disso, na maioria dos experimentos, o SACS apresentou também uma convergência maisrápida que os demais.

A principal contribuição deste trabalho neste tipo de problema, além da comparaçãoentre os resultados obtidos por um maior número de algoritmos bio-inspirados, é a utilizaçãoda técnica para ajuste automático dos parâmetros, visto que nos trabalhos relacionados sãogeralmente utilizados valores obtidos por tentativa e erro ou obtidos da literatura.

5.3 Funções

A Tabela 5.1 apresenta as características gerais das seis funções de benchmark utilizadas,todas elas associadas a problemas de minimização. A primeira coluna refere-se ao nome dafunção, a segunda coluna apresenta a dimensão do espaço de busca da função utilizado nosexperimentos, a terceira refere-se à melhor solução para o problema (x∗) e a última correspondeao valor de função correspondente ( f (x∗)). A função Sphere é uma função unimodal. Afunção Rosenbrock é unimodal com duas dimensões, mas torna-se multimodal à medida quea dimensionalidade do problema aumenta. Todas as demais (Rastrigin, Griewank, Ackley eSchwefel) são funções de otimização multimodais (JAMIL; YANG, 2013).

O número de dimensões (d) do espaço de busca também é um fator importante nacomplexidade do problema. Um estudo do problema da dimensionalidade foi realizado por(FRIEDMAN, 1994). Para estabelecer o mesmo grau de dificuldade em todas as funções, no quediz respeito à dimensionalidade, escolhemos os valores 2, 5, 10, 20, 50 e 100 como número dedimensões para todas elas. As tabelas com os resultados para 2 dimensões serão apresentadasneste capítulo, enquanto os resultados para 5, 10, 20, 50 e 100 dimensões podem ser encontradosno Apêndice A.

Nas subseções a seguir introduziremos cada uma destas funções, representando-as grafi-camente com o objetivo de visualizar suas principais características. Para efeito de visualização,

5.3. FUNÇÕES 54

Tabela 5.1: Benchmark - Funções

Nome da Função Espaço de Busca x* f(x*)Sphere [-5.12,5.12] [0,...,0] 0

Rosenbrock [-2.048,2.048] [1,...,1] 0Rastrigin [-5.12,5.12] [0,...,0] 0Griewank [-600,600] [0,...,0] 0

Ackley [-32.768,32.768] [0,...,0] 0Schwefel [-500,500] [420.9687,...,420.9687] 0

o espaço de busca nos gráficos foi reduzido para apenas três dimensões.

5.3.1 Sphere

A função Sphere é uma função simples, que possui um único mínimo global de valor zero,localizado na origem. Sendo assim, espera-se que qualquer algoritmo de otimização numéricaseja capaz de solucioná-la. Ela é utilizada como a primeira das funções para verificar se oalgoritmo consegue convergir em situações simples em que algoritmos de busca convencionaisconvergem rapidamente. Além disso, sua simplicidade também ajuda a realçar os efeitos dadimensionalidade nos algoritmos de otimização. É definida pela Equação (5.1) e ilustrada naFigura 5.1.

f1(x) =d

∑i=1

x2i

� �5.1

Figura 5.1: Benchmark - Função Sphere

5.3.2 Rosenbrock

A função Rosenbrock ilustra um bom exemplo de situação onde nem todas as funçõesunimodais são fáceis de otimizar. O desenho dessa função possui formato semelhante a uma sela,situada perto do único mínimo global da função, que possui valor zero e está localizado no vetor1. Esta função apresenta uma inclinação muito pequena de sua curva, criando uma superfície

5.3. FUNÇÕES 55

de decrescimento lento que retarda a convergência da maioria dos algoritmos de otimização. Édefinida pela Equação (5.2) e ilustrada na Figura 5.2.

Figura 5.2: Benchmark - Função Rosenbrock

f2(x) =d−1

∑i=1

[100(xi+1− x2

i)2

+(xi−1)2] � �5.2

5.3.3 Rastrigin

A função Rastrigin é a versão multimodal da função Sphere, caracterizada por umaprofunda organização de mínimos locais com alturas parecidas, que dificultam o processo debusca pelo ótimo global, pois um algoritmo de otimização pode facilmente ficar preso em ummínimo local. Isto pode ser visto na Figura 5.3. Esta função possui mínimo global de valor zero,localizado na origem, e é definida pela Equação (5.3).

Figura 5.3: Benchmark - Função Rastrigin

f3(x) = 10d +d

∑i=1

[x2

i −10cos(2πxi)] � �5.3

5.3. FUNÇÕES 56

5.3.4 Griewank

A função Griewank é uma função considerada altamente multimodal com significativainteração entre suas variáveis causada pelo termo do produto. Assim como a função Rastrigin, agrande quantidade de mínimos locais com alturas parecidas dificulta a busca pelo ótimo globalmínimo, que apresenta valor zero e está localizado na origem. Uma característica interessantedessa função é que apesar de a quantidade de mínimos locais aumentar com a dimensionalidade,a influência do termo do produto diminui consideravelmente nessas circunstâncias, tornando-seinsignificante quando o número de dimensões é superior a 30. É definida pela Equação (5.4) eilustrada na Figura 5.4.

f4(x) =d

∑i=1

x2i

4000−

d

∏i=1

cos(

xi√i

)+1

� �5.4

Figura 5.4: Benchmark - Função Griewank

5.3.5 Ackley

A função Ackley é uma função multimodal com dificuldade de otimização decorrenteda facilidade com que os algoritmos de otimização são enganados pelos muitos mínimos locaisencontrados durante a busca pelo mínimo global e induzidos a convergir prematuramente. Écaracterizada pela Equação (5.5) e ilustrada na Figura 5.5.

f5(x) =−aexp

−b

√√√√1d

d

∑i=1

x2i

− exp

(1d

d

∑i=1

cos(cxi)

)+a+ exp(1)

� �5.5

Onde:

� a = 20

� b = 0.2

5.4. ANÁLISE DOS EXPERIMENTOS 57

� c = 2π

Figura 5.5: Benchmark - Função Ackley

5.3.6 Schwefel

A função Schwefel é uma função multimodal com mínimo global localizado geome-tricamente distante dos melhores mínimos locais no espaço de busca. Isso faz com que osalgoritmos de otimização apresentem tendência de convergir na direção errada. É definida pelaEquação (5.6) e ilustrada na Figura 5.6.

f6(x) = 418.9829d−d

∑i=1

x1 sin√|xi|

� �5.6

Figura 5.6: Benchmark - Função Schwefel

5.4 Análise dos Experimentos

Os experimentos realizados com as funções de benchmark compararam os resultados dosalgoritmos GA, ACO, PSO, ABC, FA, CS, BAT e SACS. Todas as simulações foram realizadasno MATLAB R2015b, em um computador AMD Phenom(tm) X4 B97 3.20 GHz, com 8.00 GBRAM.


5.4.1 Ajuste dos Parâmetros

O algoritmo Tuning-PSO descrito no Capítulo 4 foi utilizado para determinar os parâme-tros ótimos para cada algoritmo em cada uma das funções. Neste procedimento, cada algoritmotem seu conjunto de parâmetros variado e cada uma das configurações é executada 10 vezes. Onúmero máximo de iterações escolhido é 100.

A configuração que apresenta menor média de erro para o problema em questão éescolhida como configuração ótima. As tabelas Tabela 5.2, Tabela A.1, Tabela A.2, Tabela A.3,Tabela A.4 e Tabela A.5 mostram os valores dos parâmetros ótimos de cada um dos algoritmospara as seis funções de benchmark, com 2, 5, 10, 20, 50 e 100 dimensões, respectivamente.

Tabela 5.2: Benchmark - Melhor configuração dos parâmetros (d = 2)

Sphere Rosenbrock Rastrigin Griewank Ackley Schwefel

GA

N: 43pc: 1.00tc: 0.26

pm: 0.12tm: 0.38

N: 40pc: 0.33tc: 0.65

pm: 0.61tm: 0.62

N: 19pc: 0.81tc: 0.45

pm: 0.36tm: 0.72

N: 39pc: 0.77tc: 0.25

pm: 0.22tm: 0.44

N: 18pc: 1.00tc: 0.36

pm: 0.45tm: 0.50

N: 10pc: 0.72tc: 0.85

pm: 0.75tm: 0.13

ACO

N: 10S: 40

q: 0.10ζ : 0.51

N: 18S: 30

q: 0.48ζ : 0.78

N: 11S: 45

q: 0.46ζ : 0.23

N: 26S: 48

q: 0.13ζ : 0.25

N: 10S: 48

q: 0.10ζ : 0.59

N: 12S: 22

q: 0.29ζ : 0.17

PSO

N: 24w: 0.40c1: 0.89c2: 0.82vr: 0.62

N: 46w: 0.44c1: 1.59c2: 1.57vr: 0.48

N: 10w: 0.40c1: 0.94c2: 1.08vr: 0.32

N: 35w: 0.40c1: 1.15c2: 1.00vr: 0.56

N: 10w: 0.40c1: 0.71c2: 0.56vr: 0.82

N: 10w: 0.62c1: 1.39c2: 1.75vr: 0.38

ABC N: 50a: 1.18

N: 34a: 0.37

N: 47a: 1.09

N: 31a: 1.07

N: 50a: 1.13

N: 39a: 0.29

FA

N: 36α: 0.54β0: 1.75γ: 0.40αr: 0.10

N: 30α: 0.50β0: 1.52γ: 0.47αr: 0.38

N: 11α: 0.83β0: 1.85γ: 0.34αr: 0.10

N: 39α: 0.97β0: 2.32γ: 0.49αr: 0.10

N: 10α: 0.56β0: 1.89γ: 0.92αr: 0.11

N: 10α: 0.62β0: 1.83γ: 0.62αr: 0.46

CS N: 41pa: 0.44

N: 26pa: 0.33

N: 42pa: 0.63

N: 36pa: 0.75

N: 13pa: 0.23

N: 10pa: 0.27

BATN: 37

α: 0.32λ : 0.53

N: 33α: 0.85λ : 0.96

N: 45α: 0.63λ : 0.31

N: 27α: 0.42λ : 0.82

N: 39α: 0.50λ : 0.73

N: 32α: 0.37λ : 0.64

SACS N: 38 N: 40 N: 10 N: 33 N: 11 N: 10

A técnica Tuning-PSO demandou, como esperado, um elevado custo computacional,com cada um dos algoritmos bio-inspirados sendo executados cerca de N ∗(iter+1)∗exec vezes,onde:

� N é o tamanho do enxame de partículas definido na técnica Tuning-PSO (Capítulo 4),ou seja, 20.


� (iter + 1) é o número de iterações utilizadas na técnica para movimentação daspartículas mais a inicialização aleatória das mesmas, ou seja, (100 + 1) = 101.

� exec é o número de execuções de cada configuração, que é definida por cada partículaem uma iteração nesta técnica, para cálculo do desempenho médio, ou seja, 10.

Apesar disso, comparada à abordagem de tentativa e erro de escolha dos parâmetros, estatécnica melhorou o resultados dos experimentos encontrando os parâmetros ótimos (dentre asconfigurações automaticamente testadas) de cada algoritmo.

5.4.2 Análise de Consistência

Definidos os valores ótimos para os parâmetros de cada algoritmo, os experimentosforam realizados em cada uma das funções de benchmark, com os algoritmos bio-inspiradossendo executados até alcançar o número máximo de iterações, critério de parada escolhido.Para permitir uma comparação adequada, e baseado na complexidade e escala do problemaconsiderado, o número máximo de iterações foi definido em 10000 (dez mil) para todos osalgoritmos em todas as funções e número de dimensões, e os resultados de todos os experimentossão obtidos a partir da média do erro (Equação (5.7)), obtido em 20 execuções independentes, afim de eliminar discrepâncias aleatórias.

µ =∑

Ni=1 xi

N

� �5.7

Como os algoritmos utilizados são estocásticos, a consistência de seus resultados paracada execução tem um papel muito importante na determinação de sua aplicabilidade emproblemas do mundo real. Sendo assim, para avaliar o desempenho da qualidade das técnicas,foi calculado o desvio padrão (Equação (5.8)) do erro, baseado na variância do valor médio doerro nas 20 execuções independentes.

SD =

√1

N−1×

N

∑i=1

(xi−µ)2� �5.8

As tabelas Tabela 5.3, Tabela A.6, Tabela A.7, Tabela A.8, Tabela A.9 e Tabela A.10apresentam os resultados experimentais em termos de média e desvio padrão do erro nas 20execuções independentes, para 2, 5, 10, 20, 50 e 100 dimensões, respectivamente. Os melhoresresultados são mostrados em negrito.

Os valores iguais a 4.94e-324 indicam que o erro obtido foi menor ou igual ao mínimovalor numérico real positivo que pode ser utilizado pelo MATLAB. Este número é obtido peloproduto entre duas variáveis do MATLAB: realmin e eps. A primeira delas é o menor númeropositivo normalizado, e é aproximadamente igual a 2.2251e−308, enquanto a segunda representaa precisão relativa de ponto flutuante da máquina, e é aproximadamente igual a 2.2204e−16.Sendo assim, se uma operação produz um número positivo menor que realmin∗ eps, então seu


Tabela 5.3: Benchmark - Comparação entre os erros (d = 2)


GA 1.98e-35(8.84e-35)

2.76e-06(5.35e-06)

3.14e-04(1.28e-03)

3.70e-03(3.79e-03)

6.35e-05(1.41e-04)

71.06(70.85)

ACO 2.93e-13(1.01e-12)

2.89e-05(2.41e-05)

1.00(1.37)

2.75e-02(3.16e-02)

1.61e-02(7.20e-02)

57.56(81.81)

PSO 4.94e-324(0)

1.23e-32(0)

1.64(1.22)

1.85e-03(3.29e-03)

0.44(1.93)

82.91(67.66)

ABC 5.48e-21(5.14e-21)

1.17e-05(1.16e-05)

1.01e-11(1.03e-11)

3.77e-04(3.53e-04)

1.42e-08(6.28e-09)

1.06e-02(1.00e-02)

FA 4.94e-324(0)

9.85e-05(3.61e-04)

0.55(0.82)

4.94e-324(0)

0.64(1.56)

116.51(86.44)

CS 4.94e-324(0)

1.23e-32(0)

3.55e-15(0)

4.94e-324(0)

2.22e-15(0)

2.55e-05(0)

BAT 2.34e-09(4.12e-09)

5.38e-03(9.05e-03)

3.89e-07(5.69e-07)

2.25e-03(3.47e-03)

7.36e-04(6.14e-04)

3.00e-05(5.90e-06)

SACS 4.94e-324(0)

1.42e-32(8.27e-33)

0.55(0.99)

4.19e-03(7.42e-03)

2.22e-15(0)

17.77(43.39)

resultado é dito estar em underflow range. Como isto não pode ser representado, o valor zero (0)costuma ser retornado em seu lugar (GANDER, 2015), mas para efeitos de comparação optamospor manter o valor 4.94e-324. Em um caso em que mais de um algoritmo tenha alcançado estemesmo valor de erro (por causa do underflow range), a melhor comparação seria analisar qualdeles alcançou primeiro este valor. Isto será visto em uma seção posterior neste capítulo sobreanálise de convergência.

O algoritmo CS obteve os melhores resultados de média do erro na maioria dos casos,com exceção da função Sphere com 10 e 20 dimensões, casos em que obteve um erro médiosuperior aos algoritmos SACS e PSO, respectivamente. Com 2 dimensões obteve o mesmovalor de erro que os algoritmos PSO, FA e SACS na função Sphere, PSO e SACS na funçãoRosenbrock, FA na função Griewank e SACS na função Ackley. Com 5 dimensões obteve omesmo valor de erro que os algoritmos FA e SACS na função Sphere, e PSO e SACS na funçãoAckley. Com 10 e 20 dimensões obteve o mesmo valor de erro que o SACS na função Ackley.Em todos os demais casos o valor médio do erro obtido pelo CS foi menor que o dos demaisalgoritmos. Foi possível observar também que, com o aumento do número de dimensões, oalgoritmo CS manteve seu bom desempenho e continuou obtendo as melhores soluções, enquantoque o desempenho dos demais algoritmos decaiu. Conclui-se assim que o CS é insensível aoaumento do número de dimensões e possui uma maior escalabilidade e robustez.

Ainda sobre o aumento da dimensionalidade, em todos os algoritmos, no geral, observou-se uma grande tendência ao aumento do valor do erro, o que já era esperado, visto que quantomaior a dimensionalidade do problema mais complexo ele se torna.

Com relação às funções utilizadas, observou-se que a função Schwefel foi, dentre asescolhidas, a mais complexa e de mais difícil convergência. Isto ocorreu porque esta função é


multimodal e seu mínimo global está localizado geometricamente distante dos melhores mínimoslocais. Isso faz com que os algoritmos de otimização apresentem a tendência de convergir nadireção errada. Com 2 dimensões apenas os algoritmos ABC, CS e BAT convergiram para umerro próximo de zero nesta função, dentro das 10000 iterações realizadas. Com 5, 10, 20 e 50dimensões apenas os algoritmos CS, BAT e SACS convergiram para um erro próximo de zero.Com 100 dimensões apenas o CS convergiu para um erro próximo de zero. Enquanto isso, afunção Sphere foi a de mais fácil convergência, por ser uma função unimodal muito simples.

Para medir a diferença entre os resultados, foi calculada a diferença percentual entre astécnicas (Equação (5.9)).

PD =

∣∣∣∣MEDIDAi−MEDIDABEST

MEDIDABEST

∣∣∣∣×100%� �5.9

Os resultados comparativos que mostram as diferenças percentuais do erro entre todos osalgoritmos e o algoritmo que obteve os melhores resultados, para as seis funções de benchmark,são mostrados nas tabelas Tabela 5.4, Tabela A.11, Tabela A.12, Tabela A.13, Tabela A.14 eTabela A.15, para 2, 5, 10, 20, 50 e 100 dimensões, respectivamente. Valores iguais a zerorepresentam os melhores resultados, sendo mostrados em negrito.

Tabela 5.4: Benchmark - Diferença percentual entre os erros (d = 2)

Sphere Rosenbrock Rastrigin Griewank Ackley SchwefelGA 4.00e+290 2.24e+28 8.85e+12 Inf 2.86e+12 2.79e+08

ACO Inf 2.34e+29 2.81e+16 Inf 7.25e+14 2.26e+08PSO 0 0 4.62e+16 Inf 1.97e+16 3.26e+08ABC 1.11e+305 9.48e+28 2.83e+05 Inf 6.41e+08 4.14e+04FA 0 7.99e+29 1.54e+16 0 2.90e+16 4.58e+08CS 0 0 0 0 0 0

BAT Inf 4.37e+31 1.09e+10 Inf 3.31e+13 17.94SACS 0 15.00 1.54e+16 Inf 0 6.98e+07

Os valores iguais a In f indicam que a diferença percentual do erro obtida foi maior doque o máximo valor numérico real positivo que pode ser utilizado pelo MATLAB, o realmax,que é aproximadamente igual a 1.7977e+308.

A fim de analisar o custo computacional de cada algoritmo, os tempos de execuçãotambém foram calculados, e são apresentados nas tabelas Tabela 5.5, Tabela A.16, Tabela A.17,Tabela A.18, Tabela A.19 e Tabela A.20, em termos de média e desvio padrão, em segundos,para 2, 5, 10, 20, 50 e 100 dimensões, respectivamente. Os melhores resultados são mostradosem negrito.

A comparação entre os resultados encontrados para os tempos de execução em cadauma das funções de benchmark depende, além da complexidade dos algoritmos e do númeromáximo de iterações, dos parâmetros utilizados por eles. Em geral, quanto maior o tamanhoda população N maior o tempo de execução do algoritmo, pois haverá mais indivíduos aserem processados. Essa influência do tamanho da população é ainda maior no algoritmo FA,


Tabela 5.5: Benchmark - Comparação do tempo de execução (d = 2)


GA 27.54(0.30)

29.56(3.19e-02)

19.05(7.27e-02)

28.09(0.23)

22.05(2.89e-02)

14.93(2.75e-02)

ACO 16.63(0.10)

18.36(4.03e-02)

24.00(6.21e-02)

28.92(5.16e-02)

28.10(5.02e-02)

14.78(4.50e-02)

PSO 16.45(0.13)

36.49(7.53e-02)

8.14(2.23e-02)

28.34(8.99e-02)

8.85(3.59e-02)

8.54(1.20e-02)

ABC 57.22(0.20)

46.67(0.10)

65.21(0.12)

42.73(9.51e-02)

76.78(0.13)

57.32(6.12e-02)

FA 33.67(8.66e-02)

22.65(0.22)

3.37(4.63e-02)

40.97(0.23)

2.91(6.82e-02)

2.83(3.87e-02)

CS 31.47(6.09e-02)

27.39(0.14)

45.40(9.54e-02)

37.67(0.13)

16.31(5.04e-02)

11.36(1.86e-02)

BAT 36.55(0.10)

34.94(0.18)

54.25(0.15)

27.33(1.55)

47.39(7.59e-02)

34.90(0.12)

SACS 104.06(0.53)

123.80(0.24)

18.41(0.12)

90.86(1.46)

22.52(8.49e-02)

19.15(8.84e-02)

pois apresenta uma maior complexidade, conforme pode ser confirmado nos dois laços deseu pseudocódigo (Algoritmo 5) sobre o número de indivíduos ou vaga-lumes. Sendo assim,observa-se que quanto maior o número de vaga-lumes N, maior também é, e exponencialmente,o tempo de execução do algoritmo FA. Isso pode ser observado, por exemplo, no maior tempo deexecução das funções Griewank (40.97s), Sphere (33.67s) e Rosenbrock (22.65s), nessa ordem,em comparação com as outras funções, no caso com 2 dimensões. Isto ocorreu porque a técnicade ajuste automático de parâmetros encontrou um valor ótimo elevado para o parâmetro N apenaspara estas três funções. Isto também pode ser observado nas funções Rosenbrock e Griewankpara 5, 10 e 20 dimensões.

Os algoritmos ACO (12 casos) e SACS (11 casos) obtiveram maior tempo de execuçãona maioria dos casos, destacando-se o ACO para todas as funções com 50 e 100 dimensões,com exceção da função Schwefel com 50 dimensões, em que seu tempo de execução foi inferiorapenas ao do algoritmo SACS. Tal comportamento já era esperado, uma vez que o algoritmoSACS inclui um processamento adicional com regras de mutação e ajuste autoadaptativo doparâmetro pa, e o algoritmo ACO inclui, além da população de tamanho N, uma amostra detamanho S, que aumenta o custo de execução, sobretudo em maiores dimensionalidades. Emcontrapartida, os algoritmos ABC (9 casos), FA (9 casos), PSO (6 casos) e BAT (6 casos) são osque apresentaram menor tempo de execução em mais casos, justificando-se o FA por apresentarbaixo valor de N (inferior a 20) nestes casos e os demais pela simplicidade de seus algoritmos.

Observa-se também que, no geral, mas dependendo também dos valores dos parâmetros,com o aumento da dimensionalidade do problema houve um aumento do tempo de execuçãodos algoritmos, devido ao aumento da complexidade das funções e do tamanho do espaço desoluções.


Com relação às funções de benchmark utilizadas, não observou-se nenhum padrão devariação, com o tempo de execução mostrando-se mais associado à complexidade dos algoritmosdo que à complexidade das funções.

A diferença percentual entre os tempos de execução dos algoritmos também foi compu-tada. Os resultados comparativos que mostram as diferenças percentuais do tempo de execuçãoentre todos os algoritmos e o algoritmo mais rápido, para as seis funções de benchmark, são mos-trados nas tabelas Tabela 5.6, Tabela A.21, Tabela A.22, Tabela A.23, Tabela A.24 e Tabela A.25.

Tabela 5.6: Benchmark - Diferença percentual entre os tempos de execução (d = 2)

Sphere Rosenbrock Rastrigin Griewank Ackley SchwefelGA 67.39 60.97 465.59 2.79 656.74 426.56

ACO 1.07 0 612.64 5.82 864.11 421.40PSO 0 98.71 141.65 3.71 203.77 201.40ABC 247.74 154.19 1.84e+03 56.36 2.53e+03 1.92e+03FA 104.63 23.38 0 49.95 0 0CS 91.26 49.17 1.25e+03 37.85 459.62 300.71

BAT 122.11 90.32 1.51e+03 0 1.53e+03 1.13e+03SACS 532.42 574.24 446.82 232.53 672.86 575.52

5.4.3 Testes Estatísticos

Testes estatísticos são realizados para verificar se os resultados dos experimentos sãoconsistentes, ou seja, se independente das posições iniciais aleatórias das soluções nos algoritmos,eles irão convergir para a posição global ótima do problema. Dessa forma, o algoritmo quepossuir melhor desempenho apresentará sempre melhor desempenho quando executado sob asmesmas condições iniciais. Nesse trabalho, o teste de Friedman foi utilizado para verificar seexiste diferença estatística entre o desempenho dos algoritmos. Havendo alguma diferença, opós-teste de Nemenyi é utilizado para descobrir que pares de algoritmos diferem estatisticamente.

A Tabela 5.7 mostra os resultados do teste de Friedman, realizado com nível de signi-ficância (α) igual a 5%. São mostrados em negrito os resultados cujo valor de p-value obtidopelo teste foi inferior a α , ou seja, os resultados em que houve diferença estatística entre osalgoritmos, para os quais será realizado o pós-teste de Nemenyi.

Tabela 5.7: Benchmark - Teste de Friedman

Sphere Rosenbrock Rastrigin Griewank Ackley Schwefeld = 2 0 0 1.50e-10 2.22e-16 0 8.73e-10d = 5 0 0 0 0 1.88e-12 0d = 10 0 0 0 0 7.68e-14 0d = 20 0 0 0 0 0 0d = 50 0 0 0 0 0 0d = 100 0 0 0 0 0 0


Os valores iguais a zero indicam que o p-value obtido foi menor do que 4.94e-324,mínimo valor numérico real positivo que pode ser utilizado pelo MATLAB.

Podemos observar que em todas as funções, e para todos os valores de dimensionalidade,o valor do p-value foi inferior ao nível de significância do teste (α = 0.05), indicando queexistem diferenças estatísticas significativas entre os algoritmos. A fim de mostrar os pares dealgoritmos em que essas diferenças ocorreram, o pós-teste de Nemenyi foi realizado.

As tabelas Tabela 5.8, Tabela A.26, Tabela A.27, Tabela A.28, Tabela A.29 e Tabela A.30mostram os resultados dos testes de Nemenyi das funções para 2, 5, 10, 20, 50 e 100 dimensões,respectivamente. Os pares de algoritmos em que houve diferença estatística significativa sãorepresentados em negrito na tabela com o valor 1.

Analisando os resultados do pós-teste de Nemenyi, com 95% de confiança, concluímosque nas funções unimodais (Sphere e Rosenbrock), houve diferenças estatísticas entre o CS e osalgoritmos GA, ACO e ABC, para todas as dimensionalidades, com exceção do algoritmo GA nafunção Sphere com 2 dimensões e do algoritmo ACO na função Sphere com 50 dimensões. Nafunção Rastrigin, o CS apresenta diferenças estatisticamente significativas quando comparadoaos algoritmos ABC e FA, para todas as dimensionalidades, com exceção do algoritmo ABCcom 2 dimensões. Na função Griewank, há diferenças entre o CS e os algoritmos GA eABC, exceto o GA para 10 dimensões. Na função Ackley, a partir de 10 dimensões o CSsuperou estatisticamente os algoritmos GA, PSO e ABC, tendo superado o ABC também para2 e 5 dimensões e o GA para 2 dimensões. Na função Schwefel, para todos os valores dedimensionalidade, o CS só não foi estatisticamente diferente do BAT e do SACS, tendo sidosuperior a todos os demais algoritmos.

5.4.4 Análise de Convergência

As figuras Figura 5.7, Figura A.1, Figura A.2, Figura A.3, Figura A.4 e Figura A.5mostram os gráficos de convergência média dos algoritmos bio-inspirados para as seis funçõesde benchmark. Neles, o eixo horizontal representa a iteração e o eixo vertical representa o valormédio da função objetivo obtido a partir das 20 execuções independentes.


Figura 5.7: Benchmark - Convergência dos algoritmos na função Sphere

Podemos observar no gráfico com apenas 2 dimensões que o PSO apresentou melhorconvergência do que os algoritmos de busca do cuco (CS e SACS) nas funções unimodais (Spheree Rosenbrock). O mesmo aconteceu com 20 dimensões na função Sphere. Da mesma forma, oalgoritmo FA também superou os algoritmos CS e SACS em convergência na função Sphere,com 2 e 5 dimensões, e na função Griewank, com 2 dimensões. Porém, este comportamento nãoé observado nas demais funções e não se mantém nestas mesmas funções à medida que vamos


aumentando a dimensionalidade do problema, de modo que para todos os demais 31 casos (de36 possíveis, já que há 6 funções e 6 valores de dimensionalidade) o algoritmo CS apresentoumelhor convergência, mostrando a robustez do algoritmo do cuco, na sua capacidade de mantero bom desempenho e convergência do algoritmo, enquanto os demais algoritmos ficaram presosa mínimos locais.

A Figura 5.8 mostra quatro momentos distintos da movimentação dos indivíduos doalgoritmo CS em busca da melhor solução na função Sphere com 2 dimensões. No primeiromomento (apenas 1 iteração), os indivíduos são distribuídos aleatoriamente pelo espaço desoluções. No segundo momento (10 iterações) pode-se observar que os indivíduos ainda seencontram um pouco espalhados, explorando o espaço de busca, mas que alguns deles jáencontraram a posição de mínimo global. No terceiro momento (50 iterações) todos os indivíduosjá se moveram na direção do mínimo global e a solução está sendo refinada (explotação). Noquarto e último momento (ao fim das 10000 iterações), todos os indivíduos já se encontram namelhor solução global.

Figura 5.8: Benchmark - Movimentação dos indivíduos do algoritmo CS na funçãoSphere com 2 dimensões



Este capítulo abordou o uso dos algoritmos bio-inspirados na otimização de seis funçõesde benchmark bem conhecidas na literatura: Sphere, Rosenbrock, Rastrigin, Griewank, Ackley eSchwefel.

Os experimentos evidenciaram que o algoritmo CS é mais eficiente e robusto do queos demais algoritmos meta-heurísticos para a maioria das funções de benchmark, e que essadiferença é mais perceptível quanto maior a complexidade das funções, ou seja, nas funçõesmultimodais ou em problemas com maior dimensionalidade. O algoritmo CS foi o único amanter seu melhor desempenho quando aumentamos o número de dimensões do problema.


Tabela 5.8: Benchmark - Teste de Nemenyi (d = 2)

Função GA ACO PSO ABC FA CS BAT

Sphere

ACO 1PSO 1 1ABC 1 0 1FA 1 1 0 1CS 1 1 0 1 0

BAT 1 1 1 0 1 1SACS 1 1 0 1 0 0 1

Rosenbrock

ACO 0PSO 1 1ABC 0 0 1FA 1 1 1 1CS 1 1 0 1 1

BAT 1 0 1 1 1 1SACS 1 1 0 1 1 0 1

Rastrigin

ACO 1PSO 1 0ABC 0 1 1FA 0 1 1 0CS 1 1 1 1 1

BAT 1 0 0 1 0 1SACS 0 1 1 0 0 1 1

Griewank

ACO 1PSO 1 1ABC 0 1 1FA 1 1 0 1CS 1 1 1 1 0

BAT 0 1 1 0 1 1SACS 1 1 0 1 1 1 1

Ackley

ACO 1PSO 1 0ABC 0 1 1FA 0 1 1 0CS 1 1 1 1 1

BAT 0 1 1 1 0 1SACS 1 0 0 1 1 0 1

Schwefel

ACO 1PSO 0 1ABC 0 1 0FA 1 0 1 1CS 1 1 1 1 1

BAT 0 1 0 0 1 0SACS 1 1 1 1 1 1 1

696969

6PREVISÃO DE ENERGIA EM PARQUES EÓLICOS

Este capítulo aborda o segundo dos três problemas investigados: o problema Wind, queconsiste na previsão da energia eólica em dois parques localizados nos Estados Unidos.

Parques eólicos são responsáveis por uma considerável porção da energia renovávelmundial. Como a energia produzida por eles é altamente dependente da velocidade do vento,eles não apresentam um valor constante de saída. Assim, para que haja um fornecimento nãodisruptivo de eletricidade é necessário um bom sistema de agendamento e previsão. Este capítulopretende analisar o desempenho dos algoritmos bio-inspirados na previsão da energia eólica dedois parques eólicos: um localizado em Montana e outro no Texas, utilizando dados históricospara treinamento de um modelo de previsão numérica do tempo (NWP) que utiliza uma funçãocurva S, cuja variável independente é a velocidade do vento.

6.1 Introdução

Energia sempre foi uma parte importante da civilização moderna, suprindo as necessida-des das mais diversas unidades consumidoras, sejam elas institucionais ou residenciais. Em 2013,de acordo com pesquisas da International Energy Agency (IEA), os gastos com combustíveisfósseis totalizaram US$550 bilhões em 2013, representando mais de quatro vezes o que foi gastoem energia renovável (BIROL, 2014).

Desde então, a transformação no setor de energia, com a queda nos preços dos combus-tíveis fósseis e também um processo de conscientização sobre mudanças climáticas e reformade gastos que vem ocorrendo em muitos países, estes valores caíram para US$500 bilhões em2014 e US$325 bilhões em 2015. Em sentido oposto, uma fatia de aproximadamente US$1,8trilhão de investimentos por ano vem sendo atraída para o setor de energia por fontes de energiamais limpas, sobretudo as renováveis. O Acordo de Paris sobre as mudanças climáticas, queentrou em vigor em novembro de 2016, constitui um movimento global sobre energia e veiopara reduzir as emissões de gases de efeito estufa no contexto do desenvolvimento sustentável(BIROL, 2016).

O problema da energia produzida através dos combustíveis fósseis é a sua contribuiçãopara a produção de gases de efeito estufa, o aquecimento global e fontes de poluição natural.

6.2. TRABALHOS RELACIONADOS 70

Além disso, a instabilidade atual nas relações políticas entre países produtores de petróleoaumentou a necessidade de fontes de energias sustentáveis e renováveis, sendo a energia eólica aprincipal delas.

A energia eólica vem sendo usada durante séculos, seja para a condução de navios,moinhos de vento ou bombas d’água. Com os avanços nas tecnologias das turbinas eólicas, quesão distribuídas em grande número em parques eólicos, tornou-se possível colher esta energia emgrande escala. A principal motivação para obtenção dessa forma de energia é a disponibilidadede grande potencial de extração, o baixo custo de manutenção e impostos governamentais e porser uma fonte livre de energia, limpa e sem poluição ambiental (ISLAM; MEKHILEF; SAIDUR,2013).

Como a quantidade de energia produzida em um parque eólico é altamente dependenteda velocidade do vento, não apresenta um valor constante. Assim, para que sejam possíveisa tomada de decisão, a manutenção e planejamento de recursos e a programação e integraçãocom sistemas de energia, torna-se necessário prever os valores de saída através de técnicas deprevisão (ISLAM; MEKHILEF; SAIDUR, 2013).

Para esta previsão, muitas técnicas têm sido utilizadas na literatura (ZHAO; WANG; LI,2011). Dentre os estudos que têm sido realizados, dois grupos principais de abordagens temsido considerados. A primeira abordagem analisa os dados históricos da energia eólica, queprovê boas saídas para escalas altas de previsão (intervalos mensais ou maiores). A segundaabordagem é o modelo NWP, que provê melhores saídas para previsões de intervalos curtos emuito curtos, com base no estudo da atmosfera em determinado período de tempo. Esta últimaé a abordagem empregada neste trabalho, permitindo o treinamento do modelo de previsão daenergia eólica a partir da velocidade do vento.

Este problema foi escolhido para investigação por causa de sua relevância em escalaglobal, com o mundo buscando cada vez mais fontes de energia limpa e renovável, o que reforçaa importância de métodos de estimação da energia produzida por parque eólicos. Além disso, porapresentar dados reais, este problema permite uma comparação mais consistente do desempenhodos algoritmos utilizados neste trabalho.


Para aumentar a precisão dos modelos de previsão, estão sendo utilizados algoritmoscomputacionais evolucionários, como algoritmos genéticos (HOLLAND, 1992), e algoritmosde inteligência de enxame, como otimização por enxame de partículas (KENNEDY, 2011) eotimização por colônia de formigas (DORIGO; DI CARO; GAMBARDELLA, 1999). Issoporque os estudos com estes métodos para otimizar o modelo de previsão têm apresentadoresultados promissores.

(DAMOUSIS; DOKOPOULOS, 2001) utilizaram algoritmos genéticos para otimizar osparâmetros de uma lógica fuzzy, com o objetivo de prever a energia de saída de parques eólicos,

6.3. FORMULAÇÃO DO PROBLEMA 71

e obtiveram um erro MAPE de 9,5%.(JURSA; ROHRIG, 2008) combinaram redes neurais artificiais (RNA) com uma técnica

dos vizinhos mais próximos (kNN) para otimizar um modelo de previsão em parques eólicos daAlemanha, obtendo um erro RMSE de 10,75%.

(POUSINHO; MENDES; CATALãO, 2011) utilizaram o algoritmo PSO para otimizaros parâmetros de um modelo adaptativo neuro-fuzzy, na previsão de curto prazo da velocidadedo vento em Portugal, obtendo resultados atraentes, com um erro MAPE de 5,41%.

(RAHMANI et al., 2013) combinaram o PSO com o ACO por meio de uma técnicahíbrida denominada HAP, treinando um modelo NWP que combinava funções curva S e parábola,através de uma estratégia de extrapolação determinística (KOTHARI; NAGRATH, 2003), comdados históricos de velocidade do vento, temperatura e energia eólica do parque eólico deBinaloud, no Irã. Esta técnica híbrida obteve um erro MAPE de apenas 3,513%, além de umaconvergência mais rápida quando comparada com os algoritmos PSO e ACO isolados. A mesmatécnica já havia sido proposta anteriormente por (KIRAN et al., 2012), para previsão de médio elongo prazo da demanda de energia na Turquia.

(KAVOUSI-FARD; KAVOUSI-FARD, 2013) combinaram o CS com modelos auto-

regressivos integrados de médias móveis (ARIMA) e de máquina de vetores de suporte para

regressão (SVR), a fim de alcançar um modelo de previsão mais confiável. Neste método híbrido,o papel do CS, como um algoritmo de otimização, foi encontrar os parâmetros ideais para omodelo SVR realizar previsões mais precisas. Este método foi aplicado aos dados de carga daFars, empresa de energia elétrica do Irã.

(KUOK et al., 2016) utilizaram o CS para treinar uma rede neural feedforward e re-corrente para a previsão de precipitações a longo prazo, comparando-o com o método Scaled

Conjugate Gradient (SCG) e o algoritmo de Levenberg-Marquardt (LM). Tais métodos foramavaliados através dos dados históricos de precipitação, e os resultados mostraram que o CS foicapaz de prever a precipitação com nível de confiança entre 90% e 100%, apresentando errosMAE e MSE menores que os obtidos com o SCG e o LM.

(WANG et al., 2015) combinaram o CS com OP-ELM (Optimally Pruned ExtremeLearning Machine), em um método híbrido chamado CS-OP-ELM, para previsão de radiaçãosolar em seis bases de dados coletadas nos Estados Unidos. Os resultados do CS-OP-ELMforam comparados com redes neurais usando BP (Back Propagation), modelos ARMA (AutoRegression Moving Average) e o OP-ELM individualmente. Os resultados mostraram que ométodo híbrido otimizado pelo CS obteve melhor desempenho de previsão.

6.3 Formulação do Problema

Esta seção apresenta as bases de dados utilizadas nos experimentos e as métricas dedesempenho utilizadas para comparação dos algoritmos.


6.3.1 Bases de Dados

As bases de dados históricos de Montana e do Texas utilizadas para treinamento domodelo de previsão numérica encontram-se disponíveis no portal do Laboratório Nacional deEnergias Renováveis dos Estados Unidos (NREL). Elas apresentam valores de velocidade dovento e energia eólica produzida a cada dez minutos, entre os anos de 2004 a 2006.

Um pré-processamento dos dados foi necessário, de forma a ignorar valores de saídapróximos a zero, visto que causariam problemas no cálculo do erro MAPE. Além disso, foiconsiderado um intervalo de previsão de hora em hora, calculando estes valores a partir da médiados valores a cada dez minutos.

Dois conjuntos de dados distintos foram utilizados nos experimentos: o conjunto quecontém as primeiras 8760 (365 dias, sendo 24 registros por dia) amostras válidas (após o pré-processamento) da base de dados de Montana; e o conjunto que contém as primeiras 8760amostras válidas da base de dados do Texas. Nestes conjuntos, os primeiros 4380 registros (50%)foram usados para treinamento do modelo, os próximos 2190 registros (25%) para validação eos últimos 2190 (25%) para teste da performance e acurácia do modelo.

O modelo matemático para uma variável (velocidade do vento) a ser treinado com estesdados baseia-se em uma técnica de extrapolação determinística, mais especificamente a funçãocurva S definida na Equação (6.1):

Y previstor = a+b×X r + c× (X r)2 +d× (X r)3

� �6.1

Onde:

� r: número da amostra,

� X : variável de entrada (velocidade do vento),

� a,b,c,d: parâmetros a serem otimizados,

� Y previstor : valor de energia eólica estimado ou previsto.

O algoritmo bio-inspirado é utilizado para encontrar os valores dos coeficientes domodelo NWP para a velocidade do vento, de forma a minimizar o erro entre o valor observado eo valor estimado. Como são quatro valores de coeficientes a serem determinados, cria-se umproblema com espaço de busca 4-dimensional para o algoritmo.

A avaliação das soluções após cada iteração do algoritmo de treinamento é realizadausando a seguinte função objetivo (Equação (6.2)):

ψ =R

∑r=1

∣∣∣Y previstor −Y observado

r

∣∣∣ � �6.2

Onde:


� r: índice da amostra,

� R: número máximo de amostras usadas no processo de previsão (conjunto de treina-mento),

� Y observador : valor de energia eólica real ou observado.

6.3.2 Medidas de Desempenho

Para avaliar a acurácia do modelo, foram aplicadas seis das medidas de desempenho maisutilizadas na área de previsão de séries temporais, a fim de proporcionar uma análise consistentedo desempenho dos métodos. São elas: MAE, MAPE, MSE, POCID, UTHEIL e ARV.

MAE (Equação (6.3)) representa o erro médio absoluto, ou seja, o módulo da diferençaentre o valor previsto e o valor real observado.

MAE =1N

N

∑r=1

∣∣∣Y previstor −Y observado

r

∣∣∣ � �6.3

Onde:

� N: número máximo de amostras usadas no teste de performance (conjunto de teste).

MSE (Equação (6.4)) representa o erro médio quadrático, ou seja, o quadrado da diferençaentre o valor previsto e o valor real observado.

MSE =1N

N

∑r=1

(Y previsto

r −Y observador

)2 � �6.4

MAPE (Equação (6.5)) representa o erro médio absoluto percentual, ou seja, expressaa precisão do modelo como uma porcentagem do erro médio absoluto. Como seu valor é umaporcentagem, esta métrica costuma ser mais facilmente compreendida do que as outras, além serindependente de escala.

MAPE =1N×

N

∑r=1

∣∣∣∣∣(Y previstor −Y observado

r )

Y observador

∣∣∣∣∣×100%� �6.5

POCID (Equação (6.6)) representa o percentual de acerto sobre a tendência do modelo,ou seja, o percentual de vezes em que a direção do valor previsto pelo modelo estava correta,acertando se a variação seria positiva ou negativa.

POCID =1N×

N

∑r=1

Dr×100%

Dr =

1, w>0

0, caso contrário

w = (Y observador −Y observado

r−1 )× (Y previstor −Y previsto

r−1 )

� �6.6


Onde:

� Y observador−1 : valor de energia eólica observado no instante ou amostra anterior,

� Y previstor−1 : valor de energia eólica previsto no instante ou amostra anterior.

UTHEIL (Equação (6.7)), também conhecida como NMSE, representa o erro médioquadrático do modelo normalizado pelo erro de previsão de um modelo Random Walk, queconsidera que o melhor valor para prever cada ponto é o seu valor anterior;

UTHEIL =∑

Nr=1

(Y observado

r −Y previstor

)2

∑Nr=1

(Y previsto

r −Y previstor−1

)2

� �6.7

Idealmente o valor de UTHEIL deve tender a 0 (zero). Valores iguais, maiores oumenores que 1 (um) indicam que o modelo é equivalente, inferior ou superior a um modelorandom walk, respectivamente.

ARV (Equação (6.8)) representa o ganho de desempenho de previsão relativo a umaprevisão da média da série.

ARV =∑

Nr=1

(Y previsto

r −Y observador

)2

∑Nr=1

(Y previsto

r −Y observado)2

� �6.8

� Y observado: valor médio da energia eólica observada.

Idealmente o valor de ARV deve tender a 0 (zero). Valores iguais, maiores ou menoresque 1 (um) indicam que o modelo é equivalente, inferior ou superior a um modelo que sempreretorna a média da série como valor previsto.


Os experimentos compararam os resultados dos algoritmos GA, ACO, PSO, ABC,FA, CS, BAT e SACS. Todas as simulações foram realizadas no MATLAB R2015b, em umcomputador AMD Phenom(tm) X4 B97 3.20 GHz, com 8.00 GB RAM.


O algoritmo Tuning-PSO descrito no Capítulo 4 foi utilizado para determinar os parâme-tros ótimos para cada algoritmo em cada uma das bases de dados. Neste procedimento, cadaalgoritmo tem seu conjunto de parâmetros variado e cada uma das configurações é executada 10vezes. O número máximo de iterações escolhido é 100.


A configuração que apresenta menor média de erro para o problema em questão éescolhida como configuração ótima. A tabela Tabela 6.1 mostra os valores dos parâmetrosótimos de cada um dos algoritmos para as duas bases de dados.

Tabela 6.1: Wind - Melhor configuração dos parâmetros

Montana Texas

GA

N: 45pc: 0.78tc: 0.77

pm: 0.51tm: 0.46

N: 25pc: 0.54tc: 0.59

pm: 0.42tm: 0.41

ACO

N: 24S: 36

q: 0.41ζ : 0.16

N: 25S: 32

q: 0.87ζ : 0.71

PSO

N: 45w: 0.56c1: 1.38c2: 1.54vr: 0.64

N: 23w: 0.42c1: 1.02c2: 0.79vr: 0.49

ABC N: 28a: 0.57

N: 37a: 0.85

FA

N: 28α: 0.16β0: 1.03γ: 0.36αr: 0.65

N: 40α: 0.71β0: 1.04γ: 0.37αr: 0.35

CS N: 48pa: 0.12

N: 46pa: 0.14

BATN: 20

α: 0.45λ : 0.57

N: 24α: 0.49λ : 0.83

SACS N: 29 N: 32

Observou-se que a técnica Tuning-PSO demandou novamente um elevado tempo deexecução, mais até do que nas funções de benchmark (Capítulo 5), visto que uma iteração doproblema Wind demorou, em média, cerca de 50 vezes mais do que uma iteração do problemaBenchmark, a depender da função de benchmark e da base de dados sendo comparadas.

Os demais valores dos parâmetros dos experimentos realizados podem ser vistos naTabela 6.2 e foram determinados através de experimentos e da análise da literatura.


Definidos os valores ótimos para os parâmetros de cada algoritmo, os experimentosforam realizados em cada uma das bases, com os algoritmos bio-inspirados sendo executados atéalcançar 10000 (dez mil) iterações. Como existe a possibilidade de o modelo se sobreajustar


Tabela 6.2: Wind - Demais Parâmetros

Parâmetro ValorNúmero de amostras do conjunto de treinamento (R) 4380Número de amostras do conjunto de validação (V ) 2190Número de amostras do conjunto de teste (N) 2190Limite inferior das variáveis do espaço de soluções -25Limite superior das variáveis do espaço de soluções 25

ao conjunto de treinamento (over f itting), o conjunto de validação é utilizado para determinaro melhor momento em que o treinamento deve ser interrompido. Dessa forma, para efeitode comparação dos algoritmos, as suas melhores soluções foram consideradas aquelas queminimizaram o erro MSE do conjunto de validação.

Como os algoritmos utilizados são métodos heurísticos com valores iniciais aleatórios,os resultados finais podem variar de acordo com a semente aleatória utilizada na criação dapopulação inicial. Isso faz com que os algoritmos possam apresentar soluções diferentes a cadaexecução, criando a necessidade de avaliá-los diversas vezes, e não em uma única execução.Desta forma, para cada algoritmo foram calculados a média (Equação (5.7)) e o desvio padrão(Equação (5.8)) de 20 execuções independentes, cada uma com uma semente aleatória diferente.Estas medidas são muito importantes e representam a robustez de cada algoritmo.

As tabelas Tabela 6.3 e Tabela 6.4 mostram os resultados da análise de consistência doerro dos algoritmos para os conjuntos Montana e Texas, em termos de média e desvio padrãopara as 20 execuções independentes. Os melhores resultados são mostrados em negrito.

Tabela 6.3: Wind - Comparação entre os erros (Montana)

Montana - Média (Desvio Padrão)MAE MAPE MSE POCID UTHEIL ARV

GA 2.25(1.56)

18.88(12.45)

36.56(31.32)

86.62(14.10)

1.71(1.22)

9.53e-05(1.82e-05)

ACO 8.12(6.40)

162.69(111.23)

232.69(226.54)

75.94(11.69)

3.43(1.64)

3.63e-04(1.27e-04)

PSO 14.44(2.10)

283.96(114.47)

797.13(332.87)

68.94(12.46)

3.83(1.21)

3.79e-04(1.64e-04)

ABC 2.02(1.01)

36.87(19.92)

5.68(2.64)

86.62(2.37)

0.47(0.17)

2.17e-05(3.05e-05)

FA 1.39(0.28)

22.23(6.56)

3.74(2.54)

86.62(15.56)

0.38(0.34)

1.71e-05(1.58e-05)

CS 0.83(2.20e-04)

9.21(3.67e-04)

1.39(1.22e-03)

86.67(0)

0.14(1.28e-04)

5.93e-06(5.32e-09)

BAT 27.17(13.05)

363.92(150.96)

3.76e+03(2.86e+03)

66.35(11.25)

4.75(0.98)

5.16e-04(1.08e-04)

SACS 0.85(0.21)

9.19(1.28)

1.45(0.35)

86.67(7.74e-02)

0.14(3.30e-02)

5.93e-06(2.15e-06)

Podemos observar que, na base Montana, o algoritmo CS obteve os melhores resultadospara todas as métricas, exceto para o MAPE, na qual foi superado pelo algoritmo SACS, que


Tabela 6.4: Wind - Comparação entre os erros (Texas)

Texas - Média (Desvio Padrão)MAE MAPE MSE POCID UTHEIL ARV

GA 18.86(16.60)

333.62(412.36)

1.12e+03(9.56e+02)

63.91(12.32)

3.44(0.98)

4.77e-04(2.56e-04)

ACO 3.31(1.25)

57.85(22.28)

208.10(188.88)

70.27(7.45)

2.46(1.23)

3.93e-04(2.42e-03)

PSO 9.29(4.25)

229.76(135.64)

118.07(104.25)

87.81(4.85)

2.45(0.32)

1.69e-04(1.20e-04)

ABC 3.20(1.43)

84.15(36.21)

22.18(18.85)

69.22(7.77)

0.78(0.54)

8.93e-05(8.45e-05)

FA 24.90(23.41)

169.31(57.85)

5.15e+03(3.12e+03)

56.62(18.54)

3.74(2.86)

3.95e-04(3.33e-04)

CS 2.30(0.75)

26.55(13.58)

13.04(2.10)

88.26(0.23)

0.66(0.24)

5.76e-05(4.44e-05)

BAT 35.96(25.64)

368.94(265.42)

1.04e+04(8.96e+03)

62.28(10.98)

3.94(1.20)

4.90e-04(1.80e-04)

SACS 1.37(4.30e-02)

22.51(1.84)

3.50(0.15)

88.17(7.74e-02)

0.16(6.68e-02)

1.33e-05(2.36e-06)

o seguiu de perto em todas as demais métricas. O FA também apresentou bons resultadosna previsão da energia eólica da base Montana. Já o ACO, o PSO e principalmente o BATmostraram-se insatisfatórios para o problema em todas as métricas, exceto a ARV.

Na base do Texas, o algoritmo SACS apresentou os melhores resultados para todas asmétricas, exceto a POCID, na qual foi superada pelo algoritmo CS, que o seguiu de perto emtodas as demais métricas, com exceção do MSE. O ACO e o ABC também apresentaram bonsresultados. Os algoritmos GA, FA e principalmente o BAT mostraram-se insatisfatórios para oproblema em todas as métricas, exceto a ARV.

Em geral, os experimentos realizados com as métricas de desempenho obtiveram resulta-dos satisfatórios. Apenas os experimentos com os algoritmos ABC, CS e SACS apresentaram amedida de desempenho UTHEIL abaixo de 1 (um) em ambas as bases, indicando que apenasestes três algoritmos apresentaram desempenho superior ao de um modelo random walk nasduas bases de dados. O FA na base Montana também conseguiu este comportamento. Levandoem consideração que o tamanho do conjunto de teste era 2190 nas duas bases de dados, osvalores de MAE, MAPE e MSE obtidos por estes mesmos algoritmos, nestas mesmas bases, foibastante satisfatório. Para a medida POCID, todos os experimentos obtiveram valores superioresa 50%, constatando-se que os modelos utilizados são superiores a um experimento do tipo caraou coroa. Para a medida ARV, todos os experimentos obtiveram valores muito inferiores a 1(um), tendendo a 0 (zero), mostrando-se bastante superiores a um modelo que sempre retorna amédia da série como valor previsto.

Além disso, para medir a diferença entre os resultados, foi calculada a diferença per-centual entre as técnicas (Equação (5.9)). Aqui, em relação ao que vimos no capítulo anterior,temos uma nova equação que se aplica apenas à métrica POCID, pois diferentemente das demais


métricas, ela é melhor quanto maior o seu valor (Equação (6.9)).

PDINV =

∣∣∣∣MEDIDABEST −MEDIDAi

MEDIDABEST

∣∣∣∣×100%� �6.9

Os resultados comparativos que mostram as diferenças percentuais do erro entre todos osalgoritmos e o algoritmo que obteve os melhores resultados, para os conjuntos Montana e Texas,são mostrados nas tabelas Tabela 6.5 e Tabela 6.6.

Tabela 6.5: Wind - Diferença percentual entre os erros (Montana)

Montana - Diferença PercentualMAE MAPE MSE POCID UTHEIL ARV

GA 171.66 105.40 2.53e+03 5.27e-02 1.09e+03 1.51e+03ACO 882.34 1.67e+03 1.67e+04 12.38 2.29e+03 6.02e+03PSO 1.65e+03 2.99e+03 5.73e+04 20.45 2.57e+03 6.29e+03ABC 144.53 301.16 309.14 5.27e-02 226.27 266.81FA 68.30 141.88 169.15 5.27e-02 165.86 189.00CS 0 0.21 0 0 0 0

BAT 3.19e+03 3.86e+03 2.71e+05 23.45 3.20e+03 8.61e+03SACS 2.40 0 4.31 0 0 0

Tabela 6.6: Wind - Diferença percentual entre os erros (Texas)

Texas - Diferença PercentualMAE MAPE MSE POCID UTHEIL ARV

GA 1.27e+03 1.38e+03 3.19e+04 27.59 2.10e+03 3.50e+03ACO 141.05 157.01 5.84e+03 20.38 1.47e+03 2.87e+03PSO 576.19 920.82 3.27e+03 0.52 1.47e+03 1.18e+03ABC 132.77 273.86 533.60 21.57 401.99 573.34FA 1.71e+03 652.22 1.47e+05 35.85 2.30e+03 2.88e+03CS 67.00 17.98 272.44 0 322.08 334.48

BAT 2.52e+03 1.54e+03 2.97e+05 29.44 2.42e+03 3.59e+03SACS 0 0 0 0.10 0 0

Neste problema, o custo computacional de cada algoritmo varia de acordo com a suacomplexidade, a complexidade do modelo de previsão da energia eólica do vento para a basede dados utilizada e o número máximo de iterações. Os tempos de execução também foramcalculados, e são apresentados na Tabela 6.7, em termos de média e desvio padrão, em segundos.Os melhores resultados são mostrados em negrito.

É possível observar que nas duas bases de dados o algoritmo FA apresentou um maiortempo de execução, pois apresenta uma maior complexidade, conforme pode ser confirmadonos laços de seu pseudocódigo (Algoritmo 5), sobretudo quando a quantidade de indivíduosna população é grande. Em contrapartida, o algoritmo PSO foi o que apresentou menor tempode execução, sendo seguido pelos algoritmos BAT e GA. Isto se deve à simplicidade de seusalgoritmos, tendo sido os mais fáceis de implementar. Com relação às bases de dados utilizadas,


Tabela 6.7: Wind - Comparação do tempo de execução

Montana Texas

GA 5.63e+03(44.53)

4.12e+03(27.40)

ACO 5.93e+03(35.73)

7.00e+03(8.09e+03)

PSO 3.98e+03(1.26)

3.89e+03(4.36)

ABC 7.33e+03(68.91)

8.43e+03(4.22)

FA 9.63e+03(905.05)

13.65e+03(201.61)

CS 7.21e+03(1.19e+03)

7.55e+03(6.71)

BAT 4.66e+03(31.90)

5.16e+03(3.99)

SACS 7.41e+03(74.78)

8.19e+03(5.58)

apesar do conjunto de treinamento em ambas ter o mesmo tamanho, observou-se que a baseMontana obteve um menor tempo de execução para todos os algoritmos, exceto GA e PSO, quepodem ser explicados pela grande diferença dos valores ótimos para o parâmetro N entre as duasbases.

A diferença percentual entre os tempos de execução dos algoritmos também foi compu-tada. Os resultados comparativos que mostram as diferenças percentuais do tempo de execuçãoentre todos os algoritmos e o algoritmo mais rápido, para as duas bases de dados, são mostradosna Tabela 6.8.

Tabela 6.8: Wind - Diferença percentual entre os tempos de execução

Montana TexasGA 41.46 5.91

ACO 48.99 79.95PSO 0 0ABC 84.17 116.71FA 141.96 250.90CS 81.15 94.09

BAT 17.08 32.65SACS 86.18 110.54


Assim como no Capítulo 5, testes estatísticos foram empregados para analisar relevânciaestatística dos resultados. Novamente o teste de Friedman foi utilizado para identificar se hádiferença entre o desempenho dos algoritmos, e em caso afirmativo, o pós-teste de Nemenyi foi


utilizado para descobrir os pares de algoritmos que apresentaram tais diferenças.A Tabela 6.9 mostra os resultados do teste de Friedman, realizado com nível de signi-

ficância (α) igual a 5%. São mostrados em negrito os resultados cujo valor de p-value obtidopelo teste foi inferior a α , ou seja, os resultados em que houve diferença estatística entre osalgoritmos, para os quais será realizado o pós-teste de Nemenyi.

Tabela 6.9: Wind - Teste de Friedman

Algoritmo p-valueMAE MAPE MSE POCID UTHEIL ARV

Montana 0 0 0 0 0 0Texas 0 0 0 1.72e-13 0 0

Podemos observar que, nas duas bases e para todas as métricas de desempenho analisadas,o valor do p-value foi inferior ao nível de significância do teste, indicando que existem diferençasestatísticas significativas. A fim de mostrar os pares de algoritmos onde as diferenças ocorreram,o pós-teste de Nemenyi foi realizado.

As tabelas Tabela 6.10 e Tabela 6.11 mostram os resultados dos testes de Nemenyi paraas bases do Texas e de Montana, respectivamente. Os pares de algoritmos onde houve diferençasignificativa são representados em negrito na tabela com o valor 1.

Analisando os resultados do pós-teste de Nemenyi na base de Montana, concluímos que,exceto comparando-os entre si, existem diferenças estatísticas que comprovam, com 95% deconfiança, que os algoritmos CS e SACS foram melhores que os demais algoritmos em todas asmétricas, exceto a POCID, na qual só se apresentaram estatisticamente superiores ao ACO, PSOe BAT.

Analisando os resultados do pós-teste de Nemenyi na base do Texas, concluímos que,exceto comparando-se ao CS na métrica MAPE, ao PSO e ao CS no POCID, e ao ABC e ao CSno ARV, existem diferenças estatísticas que comprovam, com 95% de confiança, que o algoritmoSACS foi melhor que os demais algoritmos. Já o algoritmo CS foi superior a todos os algoritmos,exceto o SACS nas métricas MAPE e MSE, e nas demais métricas também ao GA, FA e BAT.

6.4.4 Visualização da Previsão e Análise de Convergência

A seguir são apresentados os gráficos da energia eólica prevista x real, para subconjuntosde tamanho 24 (1 dia), 120 (5 dias), 240 (10 dias) e 2190 (completo) das amostras de teste dosconjuntos de Montana (Figura 6.1), utilizando o algoritmo CS, e do Texas (Figura 6.2), utilizandoo algoritmo SACS, que apresentaram os melhores resultados, respectivamente.


Figura 6.1: Wind - Energia eólica prevista x real do conjunto Montana

Figura 6.2: Wind - Energia eólica prevista x real do conjunto Texas

Esses gráficos mostram que o valor previsto pelo modelo se aproximou bastante dosvalores reais de energia eólica, comprovando o baixo valor de erro apresentado nas métricas dedesempenho analisadas para estes algoritmos.


Os gráficos a seguir ilustram a convergência média das técnicas utilizadas nos conjuntosde Montana (Figura 6.3) e do Texas (Figura 6.4), durante 10000 iterações.

Figura 6.3: Wind - Convergência dos algoritmos no treinamento do conjunto Montana

O gráfico de convergência média para a base de Montana mostra que os algoritmosSACS e CS convergiram para um valor de erro menor em relação aos demais algoritmos, sendoseguidos pelo FA, ABC e GA, nessa ordem. É possível observar também que a convergênciados algoritmos BAT, PSO e ACO possivelmente indica que ficaram presos em um mínimo local,pois não melhora ao longo das iterações e termina longe do menor custo global. O algoritmoBAT foi o que apresentou o pior desempenho dentre os algoritmos.

Figura 6.4: Wind - Convergência dos algoritmos no treinamento do conjunto Texas


O gráfico de convergência média para a base do Texas mostra que o SACS convergiu paraum valor de erro menor em relação aos demais algoritmos, seguido pelo CS, ACO e ABC, nessaordem. É possível observar também que a convergência dos algoritmos BAT e FA possivelmenteindica que ficaram presos em um mínimo local, pois não melhora ao longo das iterações e terminalonge do menor custo global. O algoritmo BAT apresentou novamente o pior desempenho dentreos algoritmos.


Este capítulo abordou o uso dos algoritmos bio-inspirados para previsão da energia eólica.O comportamento da energia eólica foi modelado matematicamente através de um modelo NWP,a partir de uma estratégia de extrapolação determinística com uma função curva S, com umespaço de soluções 4-dimensional definido para exploração e explotação dos indivíduos dameta-heurística utilizada.

A análise estatística sobre os valores de erro apresentados mostraram que as versõespadrão e autoadaptativa do CS superaram os demais algoritmos em praticamente todos osexperimentos, no que diz respeito à qualidade da solução obtida. Também foi apresentadauma análise de convergência, que mostrou que o SACS convergiu mais rápido que os demaisalgoritmos, seguido de perto pelo CS.


Tabela 6.10: Wind - Teste de Nemenyi (Montana)

Erro GA ACO PSO ABC FA CS BAT

MAE

ACO 0PSO 1 1ABC 0 0 1FA 0 0 1 0CS 1 1 1 1 1

BAT 1 0 1 0 0 1SACS 1 1 1 1 1 0 1

MAPE

ACO 0PSO 0 1ABC 0 0 0FA 0 0 1 0CS 1 1 1 1 1

BAT 0 0 1 1 0 1SACS 1 1 1 1 1 0 1

MSE

ACO 0PSO 1 1ABC 0 0 1FA 0 0 1 0CS 1 1 1 1 1

BAT 0 0 1 1 0 1SACS 1 1 1 1 1 0 1

POCID

ACO 0PSO 0 1ABC 0 0 0FA 0 0 1 0CS 0 1 1 0 0

BAT 1 0 1 1 0 1SACS 0 1 1 0 0 0 1

UTHEIL

ACO 0PSO 1 1ABC 0 0 1FA 0 0 1 0CS 1 1 1 1 1

BAT 0 0 1 0 0 1SACS 1 1 1 1 1 0 1

ARV

ACO 0PSO 1 1ABC 0 0 1FA 0 0 1 0CS 1 1 1 1 1

BAT 0 0 1 0 0 1SACS 1 1 1 1 1 0 1


Tabela 6.11: Wind - Teste de Nemenyi (Texas)


MAE

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 1 0 1 0 1

BAT 0 1 0 1 0 1SACS 1 1 1 1 1 1 1

MAPE

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 1 1 1 1 1

BAT 0 1 0 1 0 1SACS 1 1 1 1 1 0 1

MSE

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 1 1 1 1 1

BAT 0 1 0 1 0 1SACS 1 1 1 1 1 1 1

POCID

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 1 1 0 1 1

BAT 0 1 0 0 0 1SACS 1 1 0 1 1 0 1

UTHEIL

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 1 1 1 0 1

BAT 0 1 0 1 0 1SACS 1 1 1 1 1 1 1

ARV

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 1 1 1 0 1

BAT 0 1 0 0 0 1SACS 1 1 1 0 1 0 1

868686

7CLUSTERIZAÇÃO

Este capítulo aborda o último dos três problemas: o problema Clustering, que consistena clusterização de conjuntos de dados para posterior classificação.

7.1 Introdução

O termo clusterização é proveniente do inglês to cluster, que significa agrupar, e portanto,no contexto estudado, consiste em uma abordagem para identificação da existência de diferentesgrupos (clusters) dentro de um determinado conjunto de dados. A clusterização é uma técnicade aprendizagem não-supervisionada, onde nenhuma suposição inicial é feita a respeito dosdados existentes, não havendo predefinição de classes ou treinamento com classes rotuladas.Neste caso, o objetivo é construir agrupamentos a partir somente das semelhanças entre os dados,extraídas das informações presentes nas variáveis ou atributos.

A primeira publicação sobre métodos de clusterização foi realizada em 1948, com otrabalho de SØRENSEN (1948) sobre o método hierárquico de ligação completa. De lá paracá diversos algoritmos distintos de clusterização já foram definidos. Dentre as áreas em que aclusterização é empregada, incluem-se a análise de dados, aprendizagem de máquina, análise deimagens, mineração de texto, bioinformática, etc.

A técnica de clusterização pode ser de dois tipos: hierarquia ou partição. No agrupamentodo tipo hierarquia, os elementos pertencem a mais de um agrupamento, formando um padrãohierárquico. Estes agrupamentos são realizados a partir da divisão e da fusão do conjunto dedados. Na divisão, o número de centros gerados pode ser maior que o número de classes doproblema, enquanto que na fusão o conjunto de dados é agrupado no número exato de classes. Natécnica de agrupamento por partição do conjunto de dados, abordagem utilizada neste trabalho,os elementos são agrupados em clusters disjuntos, sem formar uma hierarquia. Nos dois tipos éutilizada alguma medida de similaridade para gerar os centros dos clusters.

Uma definição formal do problema de clusterização é dada por HRUSCHKA; EBECKEN(2003): considerando um conjunto de n objetos X = {X1, X2,..., Xn} onde cada Xi ∈ Rp é umvetor de p atributos que dimensionam as características do objeto, estes devem ser agrupados emnk clusters disjuntos C = {C1, C2,..., Cnk}, respeitando as seguintes condições:

7.2. TRABALHOS RELACIONADOS 87

1. C1 ∪ C2 ∪ ... ∪ Cnk = X ,

2. Ci 6= /0, ∀i, 1≤ i≤ nk,

3. Ci ∩ C j = /0, ∀i 6= j, 1≤ i≤ nk, 1≤ j ≤ nk.

Segundo estas condições, cada cluster deve conter ao menos um elemento e um elementonão pode pertencer a mais de um cluster.

Técnicas de clusterização caracterizam-se por um algoritmo que define como será feitaa divisão dos elementos nos agrupamentos, baseando-se na ideia de distância ou similaridadeentre eles. A ideia básica é que elementos de um mesmo agrupamento possuam alta similaridadee elementos de agrupamentos distintos sejam dissimilares, maximizando a homogeneidadedentro de cada agrupamento e a heterogeneidade entre agrupamentos distintos. A grandevantagem dessas técnicas é que, ao agrupar elementos similares, consegue-se descrever melhoras características de cada agrupamento, fornecendo um maior entendimento do conjunto dedados original.

Para agrupar elementos de acordo com sua similaridade é preciso identificar a proxi-midade entre eles, em termos dos valores de seus atributos. A distância pode ser usada comomedida de quantificação, de modo que quanto menor, maior a similaridade entre os elementos.A distância euclidiana é a mais comum entre as medidas de similaridade utilizadas.

Considerando que Xi e X j são dois elementos do conjunto de dados, p é o número deatributos de cada elemento, Xik e X jk são os valores do k-ésimo atributo dos elementos Xi e X j, adistância euclidiana entre eles é calculada pela Equação (7.1).

d(Xi,X j) =

√p

∑k=1

(X ik−X jk)2

� �7.1

A clusterização é um problema NP-completo, em que o número de possíveis combinaçõesem que os n objetos podem ser particionados nos nk clusters cresce rapidamente, sendo necessárioum algoritmo com grande potencial para realizar buscas em um grande espaço de soluções. Osalgoritmos bio-inspirados possuem essa habilidade, cobrindo um grande subconjunto do espaçode busca, de forma eficaz em problemas de otimização global NP-completos, provendo boassoluções aproximadas em tempo razoável. Além disso, esta técnica pode ser usada como umaetapa de pré-processamento para algoritmos de classificação, que trabalhariam nos agrupamentosidentificados, pois antes de classificar, é preciso ter as classes às quais os dados devem serassociados.


Alguns trabalhos já foram publicados sobre a análise do desempenho de algoritmosbio-inspirados em problemas de clusterização.


(MERWE; ENGELBRECHT, 2003) investigaram a aplicação do algoritmo PSO naclusterização de seis bases de dados: Iris, Wine, Breast Cancer Wisconsin Original, Automobilee mais duas bases produzidas artificialmente. Eles utilizaram o PSO com inicialização aleatóriados clusters e também com uma abordagem híbrida, em que a população inicial dos indivíduosdo enxame eram alimentados pelo resultado do algoritmo K-médias (JAIN, 2010). Estas duastécnicas foram comparadas com o método original do K-médias, e os resultados mostraram queas abordagens com o PSO apresentaram menores erros de quantização, maiores distâncias entreclusters e menores distâncias intra-cluster, com a técnica híbrida convergindo mais rapidamente.

(SENTHILNATH et al., 2013) comparou o desempenho de GA, PSO e CS para oproblema de clusterização nas bases Statlog Vehicle Silhouettes, Glass Identification, ImageSegmentation, todas do UCI, e em uma base de coleta multi-espectral de imagens de satélite emtempo real (Crop Type), e observaram que o MAPE de classificação utilizando o CS com voosde Lévy era menor que utilizando os outros dois algoritmos. Testes de significância estatísticaforam realizados e mostraram que o algoritmo do cuco mostrou-se superior com um nível deconfiança elevado.

7.3 Formulação do Problema

Na versão dos algoritmos bio-inspirados para clusterização, cada indivíduo da populaçãoou solução candidata para o problema é composta por um vetor de centroides de tamanho nk,que corresponde ao número de clusters a serem criados, como definido na Equação (7.2).

xi = (mi1,mi2, ...,mi j, ...,mink)� �7.2

Onde:

� xi, i = 1,2, ..N são os indivíduos ou soluções candidatas do algoritmo bio-inspirado,

� mi j representa o j-ésimo centroide do i-ésimo indivíduo. Assim, um único indivíduorepresenta uma solução candidata ao problema de clusterização.

Neste trabalho, os dados foram divididos em treinamento e teste, utilizando validaçãocruzada com 10 folds, ou seja, dividindo o conjunto total de dados em 10 subconjuntos mutua-mente exclusivos e de mesmo tamanho, com um deles sendo utilizado para teste e os 9 restantessendo utilizados para treinamento e estimação dos parâmetros. O processo é repetido 10 vezesde modo que se alterne circularmente o subconjunto de teste. Foi utilizada estratificação, paraassegurar que cada classe estivesse representada com proporções aproximadamente iguais emtodos os subconjuntos. Os centros dos clusters foram determinados utilizando os algoritmosbio-inspirados no conjunto de treinamento, enquanto o conjunto de teste foi utilizado paradeterminar as medidas de erro estudadas. O objetivo da clusterização é minimizar a soma das


distâncias entre elementos de um mesmo cluster, definida pela função objetivo mostrada naEquação (7.3).

J =nk

∑j=1

[∑

∀Zp∈Ci, j

d(Zp,mi j)

] � �7.3

Onde:

� Ci j representa o j-ésimo cluster do i-ésimo indivíduo, definido pelo centroide mi j,

� Zp representa os padrões pertencentes ao cluster Ci j.

A cada iteração do algoritmo, os padrões são atribuídos ao cluster cujo centroide estejamais próximo, as soluções são avaliadas segundo a função objetivo e são atualizadas de acordocom a passo-a-passo de cada algoritmo. Este procedimento é aplicado a todos os algoritmosbio-inspirados utilizados neste trabalho, baseando-se no método implementado para o PSO por(MERWE; ENGELBRECHT, 2003). O Algoritmo 9 ilustra, passo-a-passo, o comportamentodeste problema.

Algoritmo 9: Algoritmo de Clusterização1 início2 Inicializar o valor dos centroides de cada partícula aleatoriamente;3 repita4 para cada partícula i faça5 para cada dado Zp faça6 Calcule a distância euclidiana d(Zp,mi j) para todos os centroides

mi j;7 Atribua Zp ao cluster Ci j tal que

d(Zp,mi j) = min∀k=1...nk{d(Zp,mi j)};8 Calcule o fitness da partícula utilizando a função objetivo;9 fim

10 fim11 Atualize a melhor solução encontrada pelo algoritmo;12 Atualize os centroides dos clusters;13 até critério de parada ser atingido;14 fim

7.3.1 Bases de Dados

Foram utilizadas 13 (treze) bases de dados amplamente abordadas na literatura: BalanceScale (Balance), Liver Disorders (Bupa), Breast Cancer Wisconsin Original (Cancer), Haber-man’s Survival (Haberman), Hill-Valley (Hillvalley), Ionosphere, Iris, Pima Indians Diabetes(Pima), Image Segmentation (Segmentation), Connectionist Bench - Sonar Mines vs. Rocks


(Sonar), Blood Transfusion Service Center (Transfusion), Statlog Vehicle Silhouettes (Vehicle) eWine. Todas as bases podem ser encontradas no UCI e são descritas brevemente a seguir:

� Balance Scale (Balance): Foi gerado para modelar resultados de experimentospsicológicos. Contém 625 instâncias com 4 atributos (o peso esquerdo, a distânciaesquerda, o peso direito e a distância direita) divididas em 3 classes, representando aponta de equilíbrio da balança à esquerda, à direita e balanceado.

� Liver Disorders (Bupa): Apresenta 345 instâncias de testes sanguíneos de indiví-duos do sexo masculino. Estas instâncias encontram-se divididas em 6 atributos,sendo que os 5 primeiros representam valores de análises de sangue utilizadas paramedir o risco de doenças do fígado a partir do consumo excessivo de álcool. O últimoatributo representa o número de bebidas alcoólicas por dia do indivíduo.

� Breast Cancer Wisconsin Original (Cancer): Contém 699 instâncias de câncerde mama com 9 atributos relevantes, representando as características dos núcleoscelulares exibidos na imagem digitalizada do tumor. Estas instâncias são distribuídasem 2 classes, que representam tumores benignos e malignos.

� Haberman’s Survival (Haberman): Contém os casos de um estudo realizado entre1958 e 1970 no Hospital Billings da Universidade de Chicago sobre a sobrevivênciade pacientes que realizaram cirurgia para câncer de mama. Possui 306 instânciasdistribuídas em duas classes, sendo 224 sobreviventes por 5 ou mais anos e 81 mortosdentro dos 5 primeiros anos. Contém 3 atributos: a idade do paciente no momentoda cirurgia, o ano em que foi realizada a cirurgia e o número de gânglios axilarespositivos detectados no paciente.

� Hill-Valley (Hillvalley): Contém 1212 instâncias de 100 pontos ou atributos em umgráfico bidimensional. Quando dispostos em ordem (de 1 a 100) os pontos irão criaruma colina (hill) ou um vale (valley).

� Ionosphere: Os dados de radar para esta base de dados foram coletados por umsistema com 6 antenas de alta frequência em Goose Bay, Labrador. Possui 351instâncias, distribuídas em duas classes: evidência ou não de alguma estrutura naionosfera. Possui 34 atributos contínuos.

� Iris: Apresenta 150 instâncias da flor Iris, divididas em 3 classes com 50 instânciascada. A primeira classe corresponde ao tipo Setosa, a segunda ao tipo Versicolour e aterceira Virginica. As instâncias possuem 4 atributos de valores reais, sepal length(comprimento da sépala), sepal width (largura da sépala), petal length (comprimentoda pétala), petal width (largura da pétala). Uma das classes (Setosa) é linearmenteseparável das outras duas, que não são linearmente separáveis entre si.


� Pima Indians Diabetes (Pima): Analisa a incidência e a prevalência de diabetesmellitus em 768 instâncias de pacientes do sexo feminino com pelo menos 21 anosde idade da herança indígena Pima. Possui 8 atributos, dentre os quais incluem-se aidade, o índice de massa corporal (IMC) e a quantidade de vezes em que engravidou.

� Image Segmentation (Segmentation): Apresenta 2310 instâncias de imagens queforam desenhadas aleatoriamente a partir de uma base de dados de 7 imagens ao arlivre. As imagens foram segmentadas à mão para criar uma classificação para cadapixel. Cada instância é dividida em 18 atributos.

� Connectionist Bench - Sonar Mines vs. Rocks (Sonar): Apresenta 208 padrõesde sinais sonoros rebotando de um cilindro de metal (111 instâncias) ou de umarocha (97 instâncias), em vários ângulos e condições. Cada instância é um conjuntode 60 atributos numéricos no intervalo de 0 a 1, representando a energia dentro deuma determinada banda de frequência, integrada durante um determinado período detempo.

� Blood Transfusion Service Center (Transfusion): Apresenta 748 instâncias dedoadores aleatoriamente selecionados do banco de dados do Centro de Serviço deTransfusão de Sangue em Hsin-Chu City, em Taiwan. Cada instância apresenta 4atributos: R (recência - meses desde a última doação), F (frequência - número totalde doações), M (total de sangue doado em cc) e T (tempo em meses desde a primeiradoação). São divididas em 2 classes: se a pessoa doou ou não sangue em março de2007.

� Statlog Vehicle Silhouettes (Vehicle): Apresenta 846 instâncias de silhuetas e oobjetivo é classificá-las em um dos 4 tipos de veículo: OPEL, SAAB, BUS e VAN.Para isso são utilizadas 18 características extraídas da silhueta, com o veículo podendoser visto a partir de muitos ângulos diferentes.

� Wine: Possui 178 instâncias de vinho. Esses dados são resultados de uma análisequímica realizada em vinhos de uma mesma região da Itália, mas provenientesde 3 diferentes cultivares. Foram determinadas as quantidades de 13 constituintesencontrados em cada um dos três tipos de vinho. Os seus 13 atributos são: alcohol,malic acid, ash, alcalinity of ash, magnesium, total phenols, flavanoids, noflavanoidfenols, proanthocyanins, color intensity, hue, OD280/OD315 of diluted wines epraline. A primeira classe contém 59 instâncias, a segunda classe contém 71 e aterceira 48.

A Tabela 7.1 resume as informações de cada base.


Tabela 7.1: Clustering - Bases de dados

Base de dados Instâncias Atributos ClassesBalance 625 4 3

Bupa 345 6 2

Cancer 699 9 2

Haberman 306 3 2

HillValley 1212 100 2

Ionosphere 351 34 2

Iris 150 4 3

Pima 768 8 2

Segmentation 2310 18 7

Sonar 208 60 2

Transfusion 748 4 2

Vehicle 846 18 4

Wine 178 13 3

As tabelas de resultados para a base Segmentation, mais complexa em termos da quanti-dade de instâncias, atributos e classes, são apresentadas neste capítulo, enquanto os resultadospara as demais bases podem ser encontrados no Apêndice B.

7.3.2 Medidas de Desempenho

Com o objetivo de apresentar uma análise consistente do desempenho dos algoritmos noproblema de clusterização, foram aplicadas cinco das medidas de desempenho mais utilizadas naárea. São elas: acurácia, precisão, cobertura, medida-F e índice de rand corrigido (IRC).

A acurácia (Equação (7.4)) representa o percentual de instâncias classificadas corre-tamente, ou seja, a razão da soma de todos os verdadeiros positivos pela soma de todos osverdadeiros positivos e falsos positivos para todas as classes.

Acurácia =V P+V N

N

� �7.4

Onde:

� V P: número de instâncias classificadas corretamente como sendo de uma determinadaclasse.

� V N: número de instâncias classificadas corretamente como não sendo de uma deter-minada classe.

� N: número total de instâncias.


A precisão (Equação (7.5)) representa o percentual de instâncias que foram classificadascomo verdadeiras e que são realmente verdadeiras, ou seja, a razão de verdadeiros positivos pelasoma de verdadeiros positivos e falsos positivos.

Precisão =V P

V P+FP

� �7.5

Onde:

� FP: número de instâncias classificadas incorretamente como sendo de uma determi-nada classe.

A cobertura (Equação (7.6)) representa o percentual de instâncias que foram classificadascorretamente como verdadeiras, ou seja, a razão entre os verdadeiros positivos e a soma deverdadeiros positivos e falsos negativos.

Cobertura =V P

V P+FN

� �7.6

Onde:

� FN: número de instâncias classificadas incorretamente como não sendo de umadeterminada classe.

A medida-F (Equação (7.7)) representa a média harmônica entre a precisão e a cobertura.

Medida-F =2×Precisão×Cobertura

Precisão+Cobertura

�� 7.7

O IRC (Equação (7.8)) mede a similaridade entre uma partição a priori e uma partiçãoobtida por um algoritmo de classificação. É utilizado para analisar a qualidade das partiçõesgeradas pelos algoritmos de clusterização quando os grupos são conhecidos a priori.

Seja U = {u1, ...,ui, ...,uR} a partição obtida pelo método de classificação e V = {v1, ...,v j, ...,vC}a partição a priori ou partição real.

IRC =

∑Ri=1 ∑

Cj=1

(ni j

2

)−

(N

2

)2

−

(N

2

)−1

∑Ri=1

(ni

2

)∑

Cj=1

(n j

2

)

12

[∑

Ri=1

(ni

2

)+∑

Cj=1

(n j

2

)]−

(N

2

)−1

∑Ri=1

(ni

2

)∑

Cj=1

(n j

2

) � �7.8

Onde:

� ni j: número de instâncias que estão nas classes ui e v j,

� ni: número de instâncias que estão na classe ui,

� n j: número de instâncias que estão na classe v j.



Os experimentos realizados compararam o desempenho dos algoritmos GA, ACO, PSO,ABC, FA, CS, BAT e SACS. Todas as simulações foram realizadas no MATLAB R2015b, emum computador AMD Phenom(tm) X4 B97 3.20 GHz, com 8.00 GB RAM.


O algoritmo Tuning-PSO descrito no Capítulo 4 foi utilizado para determinar os parâme-tros ótimos para cada algoritmo em cada uma das bases de dados. Neste procedimento, cadaalgoritmo tem seu conjunto de parâmetros variado e cada configuração é executada 10 vezes. Onúmero máximo de iterações escolhido é 100.

A configuração que apresenta menor média de erro para o problema é escolhida comoconfiguração ótima. As tabelas Tabela 7.2, Tabela B.1 e Tabela B.2 mostram os valores dosparâmetros ótimos de cada um dos algoritmos para as treze bases de dados utilizadas.

Tabela 7.2: Clustering - Melhor configuração dos parâmetros (Parte I)

Segmentation Balance Bupa Cancer Haberman

GA

N: 48pc: 0.85tc: 0.26

pm: 0.26tm: 0.49

N: 35pc: 0.87tc: 0.77

pm: 0.52tm: 0.55

N: 43pc: 0.69tc: 0.97

pm: 0.64tm: 0.69

N: 34pc: 0.76tc: 0.43

pm: 0.16tm: 0.43

N: 35pc: 0.73tc: 0.95

pm: 0.60tm: 0.63

ACO

N: 31S: 45

q: 0.86ζ : 0.49

N: 18S: 20

q: 0.60ζ : 0.85

N: 24S: 31

q: 0.81ζ : 0.76

N: 20S: 39

q: 0.71ζ : 0.71

N: 41S: 24

q: 0.94ζ : 0.52

PSO

N: 28w: 0.53c1: 1.33c2: 1.52vr: 0.44

N: 22w: 0.58c1: 0.98c2: 1.22vr: 0.54

N: 29w: 0.49c1: 0.92c2: 1.92vr: 0.43

N: 31w: 0.46c1: 1.14c2: 1.22vr: 0.20

N: 50w: 0.40c1: 0.60c2: 0.95vr: 0.80

ABC N: 36a: 0.20

N: 25a: 0.23

N: 26a: 0.47

N: 35a: 0.23

N: 29a: 0.51

FA

N: 39α: 0.66β0: 2.75γ: 0.55αr: 0.30

N: 43α: 0.30β0: 2.80γ: 0.68αr: 0.68

N: 42α: 0.53β0: 2.79γ: 0.93αr: 0.58

N: 39α: 0.69β0: 1.70γ: 0.55αr: 0.56

N: 48α: 0.87β0: 2.64γ: 0.66αr: 0.59

CS N: 43pa: 0.31

N: 25pa: 0.22

N: 41pa: 0.17

N: 33pa: 0.38

N: 44pa: 0.94

BATN: 36

α: 0.83λ : 0.62

N: 40α: 0.48λ : 0.65

N: 44α: 0.93λ : 0.62

N: 39α: 0.84λ : 0.43

N: 46α: 0.58λ : 0.66

SACS N: 35 N: 25 N: 32 N: 21 N: 27


A técnica Tuning-PSO demandou novamente um elevado tempo de execução, mais quenas funções de benchmark (Capítulo 5) e geralmente menos que nas bases de dados de previsãode energia eólica (Capítulo 6), nestas últimas a depender do tamanho das bases de dados, mascom um custo adicional pelo fato de os vetores que representam as posições dos indivíduosserem nk-dimensionais, onde nk é o número de classes do problema.


Definidos os valores ótimos para os parâmetros de cada algoritmo, os experimentosforam realizados em cada uma das bases, com os algoritmos executados até alcançar 10000iterações, critério de parada escolhido.

As tabelas Tabela 7.3, Tabela B.3, Tabela B.4, Tabela B.5, Tabela B.6, Tabela B.7,Tabela B.8, Tabela B.9, Tabela B.10, Tabela B.11, Tabela B.12, Tabela B.13 e Tabela B.14mostram os resultados da análise de consistência do erro dos algoritmos para os conjuntos dedados, em termos de média (Equação (5.7)) e desvio padrão (Equação (5.8)) para as 20 execuçõesindependentes. Os melhores resultados são mostrados em negrito.

Tabela 7.3: Clustering - Comparação entre os erros (Segmentation)

AlgoritmoSegmentation - Média (Desvio Padrão)

J Acurácia Precisão Cobertura Medida-F IRC

GA1.74e+05

(128.42)

0.89

(1.22e-03)

0.75

(2.14e-03)

0.71

(4.29e-03)

0.72

(3.40e-03)

0.49

(1.31e-02)

ACO4.66e+05

(9.68e+04)

0.77

(2.01e-03)

0.22

(2.82e-02)

0.20

(7.04e-03)

0.18

(1.06e-03)

2.67e-02

(7.40e-03)

PSO1.65e+05

(2.83e+03)

0.91

(2.62e-04)

0.75

(5.29e-04)

0.72

(9.18e-04)

0.72

(6.66e-04)

0.50

(4.23e-04)

ABC2.19e+05

(2.59e+03)

0.89

(5.25e-04)

0.66

(5.14e-03)

0.63

(1.84e-03)

0.64

(2.77e-03)

0.41

(6.72e-03)

FA2.76e+05

(9.75e+03)

0.87

(7.17e-03)

0.57

(1.91e-02)

0.54

(2.51e-02)

0.53

(2.63e-02)

0.29

(3.34e-02)

CS1.64e+05

(1.31e+03)0.92

(5.25e-04)0.76

(1.69e-03)0.74

(1.84e-03)0.74

(2.07e-03)0.52

(3.83e-03)

BAT2.62e+05

(1.24e+03)

0.76

(0)

0

(0)

0.14

(0)

3.57e-02

(0)

0

(0)

SACS1.86e+05

(1.30e+03)

0.92(2.45e-03)

0.75

(9.14e-03)

0.71

(8.57e-03)

0.72

(7.86e-03)

0.49

(7.89e-03)

O fato de resultados de mais de um algoritmo estarem em negrito em muitas bases indicaque todos eles obtiveram os mesmos valores para os centroides durante o treinamento, o queimplica em mesmos valores das distâncias intra-cluster J e dos erros de classificação no conjuntode teste.


Com relação aos resultados para as distâncias intra-cluster J, observou-se que a base Irisapresentou as menores distâncias e a Hillvalley as maiores, isso muito em função do número deinstâncias e da quantidade e dos valores de seus atributos. O algoritmo CS alcançou as menoresdistâncias em todas as bases, tendo sido o único a obtê-las nas bases Segmentation e Hillvalley.Já o BAT, em 7 bases, e o ACO, em 4 bases, foram os algoritmos que apresentaram os pioresresultados de distância intra-cluster.

Com relação às cinco medidas de classificação, observou-se que as bases de dados queapresentaram os melhores resultados foram Cancer e Iris, tendo obtido uma precisão de 96% e93% para a maioria dos algoritmos, respectivamente. Já as que apresentaram os piores resultadosforam Hillvalley e Vehicle, com as melhores precisões tendo sido 54% e 42%, respectivamente.Dentre os algoritmos, o BAT foi o que apresentou os piores resultados para todas as medidas. Jáo CS foi o que apresentou os melhores resultados. Em termos de precisão e cobertura, obtevesozinho ou compartilhou o melhor resultado em 10 das 13 bases utilizadas, com exceção dasbases Bupa, Haberman e Ionosphere. Em termos de acurácia o CS obteve o melhor resultado em9 das 13 bases, com exceção das bases Bupa, Haberman, Ionosphere e Transfusion. Em termosde medida-F o CS obteve o melhor resultado em 9 das 13 bases, com exceção das bases Bupa,Haberman, Ionosphere e Pima. Em termos de IRC o CS obteve o melhor resultado em 7 das 13bases, com exceção das bases Bupa, Haberman, Ionosphere, Pima, Sonar e Wine.

Os resultados comparativos que mostram as diferenças percentuais do erro entre todos osalgoritmos e o algoritmo que obteve os melhores resultados, para as treze bases, são mostrados nastabelas Tabela 7.4, Tabela B.15, Tabela B.16, Tabela B.17, Tabela B.18, Tabela B.19, Tabela B.20,Tabela B.21, Tabela B.22, Tabela B.23, Tabela B.24, Tabela B.25 e Tabela B.26. Com exceçãodo valor da função objetivo (J), cuja diferença percentual é calculada pela Equação (5.9), asmedidas de desempenho utilizadas são melhores quanto maior o valor apresentado (quanto maispróximas de 1), tendo sua diferença percentual calculada pela Equação (6.9).

Tabela 7.4: Clustering - Diferença percentual entre os erros (Segmentation)

AlgoritmoSegmentation - Diferença Percentual

J Acurácia Precisão Cobertura Medida-F IRCGA 6.27 3.27 1.33 2.91 2.75 6.70

ACO 185.17 16.69 71.75 73.42 75.26 94.91

PSO 0.67 1.08 1.31 2.70 2.70 3.84

ABC 34.21 3.27 13.31 14.40 14.38 22.13

FA 69.00 6.15 25.02 27.05 28.02 44.63

CS 0 0 0 0 0 0BAT 60.05 18.31 100.00 80.57 95.19 100.00

SACS 13.51 0 1.74 3.21 2.92 6.94

Neste problema, o custo computacional de cada algoritmo varia de acordo com a suacomplexidade, a complexidade do método de clusterização utilizado e o número máximo de


iterações. Os tempos de execução também foram calculados, e são apresentados nas tabelasTabela 7.5, Tabela B.27 e Tabela B.28, em termos de média e desvio padrão, em segundos. Osmelhores resultados são mostrados em negrito.

Tabela 7.5: Clustering - Comparação do tempo de execução (Parte I)

Segmentation Balance Bupa Cancer Haberman

GA2.89e+03

(22.81)

768.75

(65.69)

805.61

(0.99)

509.49(32.64)

638.72

(4.68)

ACO3.39e+03

(6.66)

471.34

(156.65)

543.85

(10.84)

918.31

(84.03)

534.27(1.77)

PSO1.65e+03

(6.54)455.83(50.16)

483.44(2.44)

617.99

(16.72)

809.38

(11.36)

ABC4.05e+03

(5.88)

823.14

(16.12)

897.80

(166.00)

1.17e+03

(78.77)

800.49

(4.51)

FA3.83e+04

(835.81)

1.19e+04

(1.40e+03)

8.29e+03

(599.15)

608.12

(8.80)

9.95e+03

(395.17)

CS5.02e+03

(7.81)

710.10

(1.83)

1.20e+03

(69.84)

1.14e+03

(62.74)

1.27e+03

(7.41)

BAT2.19e+03

(18.69)

660.19

(2.55)

762.97

(16.96)

857.39

(151.12)

775.13

(73.80)

SACS5.33e+03

(36.81)

876.48

(14.04)

1.16e+03

(80.33)

797.32

(24.73)

930.02

(29.39)

Podemos observar que em 10 das 13 bases o algoritmo FA foi o que apresentou maiortempo de execução. Apenas nas bases Cancer, Hillvalley e Sonar este algoritmo não apresentouo maior tempo de execução. Como visto nos capítulos anteriores, isso se explica por sua maiorcomplexidade computacional, principalmente quando o tamanho da população é elevado. Vemostambém que o menor tempo de execução esteve com os algoritmos PSO (6 casos), GA (2 casos),ACO (2 casos), BAT (2 casos) e FA (1 caso). Excetuando-se este último, estes algoritmos sãode fato os de mais simples implementação, sobretudo os três primeiros, que são também ospioneiros.

Com relação às bases de dados, Segmentation e Hillvalley foram as de maior tempomédio de execução, nessa ordem, justificado pela grande quantidade de instâncias que elaspossuem, sendo as únicas dentre as utilizadas que possuem mais de 1000 instâncias. Balance,Bupa e Cancer apresentaram o comportamento oposto, com menores tempos médios de execução.

A diferença percentual entre os tempos de execução dos algoritmos também foi compu-tada. Os resultados comparativos que mostram as diferenças percentuais do tempo de execuçãoentre todos os algoritmos e o algoritmo mais rápido, para as treze bases de dados, são mostradosnas tabelas Tabela 7.6, Tabela B.29 e Tabela B.30.


Tabela 7.6: Clustering - Diferença percentual entre os tempos de execução (Parte I)

Segmentation Balance Bupa Cancer HabermanGA 74.83 68.65 66.64 0 19.55

ACO 105.21 3.40 12.50 80.24 0PSO 0 0 0 21.30 51.49

ABC 145.12 80.58 85.71 130.28 49.83

FA 2.22e+03 2.50e+03 1.62e+03 19.36 1.76e+03

CS 203.93 55.78 147.72 124.69 138.61

BAT 32.49 44.83 57.82 68.28 45.08

SACS 222.48 92.28 139.95 56.50 74.07


Assim como no Capítulo 5 e no Capítulo 6, testes estatísticos foram realizados paraverificar se os resultados dos experimentos são consistentes. Novamente o teste de Friedman foiutilizado para verificar se existe diferença estatística entre o desempenho dos algoritmos, e emcaso afirmativo, o pós-teste de Nemenyi foi utilizado para descobrir os pares de algoritmos queapresentaram tais diferenças.

A Tabela 7.7 mostra os resultados do teste de Friedman, realizado com nível de signi-ficância (α) igual a 5%. São mostrados em negrito os resultados cujo valor de p-value obtidopelo teste foi inferior a α , ou seja, os resultados em que houve diferença estatística entre osalgoritmos, para os quais será realizado o pós-teste de Nemenyi.

Tabela 7.7: Clustering - Teste de Friedman

Basep-value

J Acurácia Precisão Cobertura Medida-F IRCbalance 0 2.22e-16 0 0 2.22e-16 2.22e-16

bupa 0 2.22e-16 2.22e-16 2.22e-16 2.22e-16 4.44e-16cancer 0 1.69e-11 1.69e-11 2.51e-09 1.69e-11 1.69e-11

haberman 0 1.23e-08 1.25e-02 1.25e-02 1.25e-02 5.12e-02

hillvalley 0 0 0 0 0 0ionosphere 0 0 1.23e-12 1.03e-12 4.98e-13 0

iris 0 4.44e-16 4.44e-16 4.44e-16 4.44e-16 4.44e-16pima 0 2.22e-16 2.22e-16 2.22e-16 2.22e-16 2.22e-16

segmentation 0 0 0 0 0 0sonar 0 0 0 0 0 0

transfusion 0 2.27e-08 2.27e-08 2.27e-08 2.27e-08 2.27e-08vehicle 0 5.63e-14 3.25e-10 0 2.27e-08 3.79e-11wine 0 3.57e-09 1.29e-11 1.29e-11 1.29e-11 2.27e-08


Podemos observar que há diferenças estatisticamente significativas em todas as métricasde desempenho para todas as bases de dados, com exceção do IRC na base Haberman, únicocaso em que o pós-teste não será necessário.

As tabelas Tabela 7.8, Tabela B.31, Tabela B.32, Tabela B.33, Tabela B.34, Tabela B.35,Tabela B.36, Tabela B.37, Tabela B.38, Tabela B.39, Tabela B.40, Tabela B.41 e Tabela B.42mostram os resultados dos testes de Nemenyi para as bases de dados utilizadas, nas métricasem que o teste de Friedman apontou alguma diferença estatística significativa. Os pares dealgoritmos em que houve tal diferença são representados em negrito na tabela com o valor 1.

Analisando os resultados do pós-teste de Nemenyi, com 95% de confiança, concluímosque o desempenho do algoritmo CS foi superior em vários casos, significativamente. Porexemplo, na base Segmentation comprova-se que ele superou todos os algoritmos, exceto PSO eSACS nas métricas acurácia, cobertura, medida-F e IRC; todos exceto GA e PSO na medida J; etodos exceto GA, PSO, ABC e SACS na precisão. Observa-se também que os algoritmos BAT eACO apresentaram os piores resultados no problema Clustering, tendo sido apontados pelo testecomo estatisticamente diferentes em muitos pares para todas as medidas.

7.4.4 Análise de Convergência

Os gráficos nas Figura 7.1, Figura B.1 e Figura B.2 ilustram a convergência das técnicasem cada uma das bases de dados, durante 10000 iterações.

Figura 7.1: Clustering - Convergência dos algoritmos no treinamento da baseSegmentation

Observamos que o algoritmo do cuco convergiu, em vários casos, muito mais rapidamenteque os demais algoritmos.



Este capítulo abordou o uso dos algoritmos bio-inspirados para otimização de um pro-blema de clusterização, utilizando treze bases de dados do UCI Repository of Machine LearningDatabases. Observamos que no geral o erro médio de classificação do CS foi inferior, con-sistentemente, aos demais algoritmos para o problema investigado, comprovado pelo teste designificância estatística.


Tabela 7.8: Clustering - Teste de Nemenyi (Segmentation)


J

ACO 1PSO 0 1ABC 0 1 1FA 1 0 1 0CS 0 1 0 1 1

BAT 1 0 1 0 0 1SACS 0 1 0 0 1 1 1

Acurácia

ACO 1PSO 0 1ABC 0 0 1FA 0 0 1 0CS 1 1 0 1 1

BAT 1 0 1 1 0 1SACS 0 1 0 0 1 0 1

Precisão

ACO 1PSO 0 1ABC 0 0 1FA 1 0 1 0CS 0 1 0 0 1

BAT 1 0 1 0 0 1SACS 0 1 0 1 1 0 1

Cobertura

ACO 1PSO 0 1ABC 0 0 1FA 0 0 1 0CS 1 1 0 1 1

BAT 1 0 1 1 0 1SACS 0 1 0 0 1 0 1

Medida-F

ACO 1PSO 0 1ABC 0 0 1FA 0 0 1 0CS 1 1 0 1 1

BAT 1 0 1 1 0 1SACS 0 1 0 0 1 0 1

IRC

ACO 1PSO 0 1ABC 0 0 1FA 0 0 1 0CS 1 1 0 1 1

BAT 1 0 1 1 0 1SACS 0 1 0 0 0 0 1

102102102

8ANÁLISE DA EFICIÊNCIA DO ALGORITMO DE BUSCA DO CUCO

Como vimos no Capítulo 4, otimizar os parâmetros de um algoritmo é uma forma demelhorar o seu desempenho na solução de problemas de otimização. Além deles, a distribuiçãoutilizada no deslocamento e criação de novas soluções também é um fator a ser considerado nodesempenho dos algoritmos bio-inspirados. Neste trabalho os algoritmos CS e SACS utilizam adistribuição de probabilidade de Lévy, enquanto os algoritmos GA, ACO, PSO, ABC, FA e BATutilizam a distribuição de probabilidade uniforme. O fato de os dois algoritmos de busca do cucoterem apresentado um melhor desempenho e convergência nos problemas investigados podeser um indicativo de que a distribuição de Lévy leve a melhores resultados que a distribuiçãouniforme. Caso contrário, seu bom desempenho pode estar unicamente associado à sua estratégiade reprodução, determinada pelos valores assumidos pelos parâmetros N e pa, ou ainda por apre-sentarem poucos parâmetros a serem otimizados. São estas as hipóteses que serão investigadasneste capítulo, buscando analisar a razão da eficiência do algoritmo de busca do cuco e qual ainfluência de seus parâmetros e da distribuição de Lévy em seu desempenho.

8.1 Introdução

A aleatorização é um mecanismo de busca muito importante nos algoritmos bio-inspirados.Ela pode não apenas melhorar a capacidade de exploração realizando a busca global no espaçode soluções quando os passos são longos, como também realizar a busca local ao redor da melhorsolução atual se os passos são pequenos e se limitam a uma região local. Sendo assim, o valorgerado via aleatorização para o deslocamento dos indivíduos no espaço de soluções tem impor-tante influência no desempenho de tais algoritmos. No entanto, a aleatorização nestes algoritmosgeralmente utiliza distribuição uniforme ou gaussiana (CRUZ et al., 2010). Em contrapartida,diversos estudos têm mostrado que o deslocamento de muitos animais apresenta característicascomuns aos voos de Lévy, uma espécie de movimento aleatório (random walk) cujo tamanhodos passos é baseado em uma distribuição de probabilidade de cauda longa, que não se atenuaexponencialmente e que combina em sua trajetória vários grupos de pequenos passos com passos

8.2. DISTRIBUIÇÕES α-ESTÁVEIS 103

longos ocasionais. Tal comportamento tem sido largamente aplicado a problemas de busca eotimização e seus resultados têm mostrado uma capacidade bastante promissora.

Durante os últimos anos vários algoritmos bio-inspirados foram desenvolvidos paraotimização. Estes algoritmos funcionam de acordo com uma busca aleatória no espaço desoluções de um dado problema. Na verdade esta busca não é realmente aleatória, pois há ummecanismo nestes algoritmos que os guia de tal forma que a solução obtida vai sendo melhoradapasso a passo. Duas características cruciais destes algoritmos são a intensificação (explotação)e a diversificação (exploração). Na primeira ocorre uma intensificação da busca em torno dasmelhores soluções atuais. Na segunda tenta-se explorar o espaço de busca de forma eficiente,gerando novas soluções aleatoriamente longe o suficiente da solução atual, a fim de evitar queo algoritmo fique preso em um ótimo local (YANG; DEB, 2014). A eficiência de qualqueralgoritmo depende muito da forma como são balanceadas estas duas características. Até mesmoos tubarões equilibram estes processos, alternando entre o movimento browniano quando a caçaé abundante em uma região próxima e o movimento por voos de Lévy quando a caça está escassanessa região (HUMPHRIES et al., 2010).

8.2 Distribuições α-estáveis

A distribuição de Lévy utilizada no algoritmo CS é um caso particular das distribuiçõesα-estáveis. A estabilidade das distribuições está no fato de uma combinação linear de duasvariáveis aleatórias independentes de uma mesma distribuição gerar outra variável aleatória coma mesma distribuição. Este é o caso da distribuição normal, ou gaussiana, já que a soma degaussianas é também uma gaussiana e o produto de uma gaussiana por um escalar, acrescido ounão de outro escalar, é também uma gaussiana FREDRIKSSON (2010).

As distribuições α-estáveis surgem constantemente no estudo das distribuições de caudalonga, com diversas aplicações na física e na economia, modelando eventos raros como terre-motos ou quebras de bolsas de valores. Muitos estudiosos acreditam que alguns dos problemasfinanceiros recentes ocorreram porque os analistas limitaram-se a usar modelos gaussianos, quenão possuem caudas longas (SAMORADNITSKY; TAQQU, 1994). Com isso, as distribuiçõesα-estáveis têm sido utilizadas em grande escala para descrição de modelos em diversas áreasem que a distribuição gaussiana falha, como modelagem de séries temporais ligadas a bolsas devalores, batimento do coração humano, entre outras.

O matemático francês Paul Pierre Lévy mostrou que a distribuição normal ou gaussianaé um caso especial das distribuições α-estáveis. Ele estudou estas distribuições, que possuemdiversas características que as tornam complicadas de se utilizar, tais como média e variânciainfinitas, além do fato de que a função densidade de probabilidade (pdf ) ou a função de distribui-ção cumulativa (cdf ) só podem ser escritas na forma fechada em poucos casos (LIMA, 2013).Ele mostrou que a distribuição α-estável é uma família de distribuições de quatro parâmetros,geralmente denotada pela Equação (8.1):


S(α,β ,γ,δ )� �8.1

Onde:

� α ∈ ]0,2] é o parâmetro mais importante, chamado de expoente característico, sendoresponsável por descrever a cauda da distribuição. Nesse intervalo a função dedensidade de probabilidade tem comportamento em lei de potência, com expoenteλ = α +1,

� β ∈ [−1,1] é o coeficiente de assimetria, que caracteriza o comportamento assintóticode cauda longa da distribuição, o que faz com que eventos raros sejam mais prováveisde acontecer. Especifica se a distribuição é simétrica (β = 0), assimétrica à direita(β > 0) ou assimétrica à esquerda (β < 0),

� γ > 0 é a escala ou largura da distribuição,

� δ ∈ R é a localização ou deslocamento.

A família das distribuições α-estáveis inclui as seguintes distribuições, únicos casos emque tem-se uma forma fechada para a função de densidade de probabilidade. (SAMORAD-NITSKY; TAQQU, 1994):

1. A distribuição Gaussiana N(µ ,σ2), com α = 2, média µ = δ e variância σ2 = 2γ2, édada por S(2,β , σ√

2,µ) e sua função de densidade de probabilidade pode ser vista na

Equação (8.2). Note que β não importa nesse caso,

f (x) =1√

2πσ2exp(−(x−µ)2

2σ2 )� �8.2

2. A distribuição de Cauchy, com α = 1, β = 0, σ = γ e média µ = δ , é dada porS(1,0,σ ,µ) e sua função de densidade de probabilidade pode ser vista na Equa-ção (8.3),

f (x) =1

πσ

[σ2

(x−µ)2 +σ2

] � �8.3

3. A distribuição de Lévy, com α = 32 , β = 0, σ = γ e média µ = δ é dada por

S(32 ,0,σ ,µ) e sua função de densidade de probabilidade pode ser vista na Equa-

ção (8.4).

f (x) =√

σ

2π

exp(− σ

2(x−µ))

(x−µ)32

� �8.4


Já a distribuição uniforme contínua é aquela onde, para qualquer ponto no intervalo [a,b],a sua função de densidade de probabilidade é dada pela Equação (8.5).

f (x) =

1b−a , se a < x < b

0, caso contrário

� �8.5

O comportamento das funções de densidade de probabilidade para estas três distribuiçõesα-estáveis e para a distribuição uniforme pode ser visualizado na Figura 8.1.

Figura 8.1: Função de densidade de probabilidade das distribuições

Podemos visualizar que as distribuições gaussianas são simétricas e suas caudas decaemrapidamente quando o número N tende a infinito. Já as distribuições de Lévy e de Cauchy-Lorentzsão distribuições de cauda longa, o que aumenta a probabilidade de eventos raros ocorrerem (ossaltos longos).

Percebemos que diminuir o valor de α resulta em gerar mais amostras distantes do zero,dado que as distribuições são simétricas em torno do zero. Isto mostra a importante influênciadeste parâmetro no controle da exploração e da explotação dos algoritmos, de modo que valoresaltos de α fazem o algoritmo ter muito mais explotação, diminuindo a probabilidade de gerarsaltos grandes. Inversamente, valores baixos de α aumentam a exploração, e consequentementea probabilidade de gerar saltos grandes.

Utilizando os conceitos de CHAMBERS; MALLOWS; STUCK (1976) e WERON;WERON (1995), VEILLETTE (2012) desenvolveu, no MATLAB, a função stblrnd para gerarnúmeros aleatórios com uma distribuição α-estável. O comando a seguir gera uma matriz M porN de variáveis aleatórias com distribuição S(α ,β ,γ ,δ ).


X = stblrnd(α,β ,γ,δ ,M,N, ...)� �8.6

Em contrapartida, para geração de números aleatórios com distribuição uniforme, oMATLAB possui a função unifrnd(a, b, [M N]). Utilizando estas duas funções e com a finalidadede compreender o comportamento do deslocamento das quatro distribuições, desenhamos astrajetórias de cada uma delas, considerando um número de passos igual a 100000 (cem mil) etendo a origem como ponto de partida (Figura 8.2).

Figura 8.2: Trajetória nas distribuições Uniforme, Gaussiana, Cauchy-Lorentz e Lévy

Como podemos observar na Figura 8.2, na trajetória descrita pela distribuição gaussiana,movimento aleatório mais simples e conhecido como browniano, os indivíduos realizam passossempre pequenos ao longo do tempo. O mesmo pode ser observado pela distribuição uniforme.Já na distribuição de Lévy, que apresenta média e variância infinitas (HARIYA et al., 2015),os deslocamentos não são suaves como os da gaussiana. Ao invés disso existem regiões deaprisionamento com uma grande quantidade de pequenos passos, onde os indivíduos ficam


durante um longo intervalo de tempo, e também deslocamentos de grande distância (voos). Atrajetória da distribuição de Cauchy-Lorentz é o oposto das anteriores, com vários saltos longose pouquíssimos grupos de pequenos passos.

A distribuição Gaussiana tem a propriedade de aproximadamente 68% das amostrascaírem dentro de até uma unidade de desvio padrão da média, no intervalo (µ −σ ,µ +σ).Da mesma forma, 95% das amostram caem no intervalo (µ − 2σ ,µ + 2σ) e 99.7% caem nointervalo (µ−3σ ,µ +3σ). Assim, observa-se que a maior parte das modificações realizadas nosindivíduos será pequena, com uma pequena mas não nula probabilidade de gerar modificaçõesum pouco maiores, visto que a cauda desta distribuição é assintótica, não atingindo o valor zero.Considerando o caso da normal N(0,1), temos que aproximadamente 5% dos números geradosaleatoriamente são maiores que 2, em comparação com nenhum gerado sob a distribuição uni-forme. Tal comportamento justifica o fato de um algoritmo com distribuição gaussiana apresentarmaior capacidade de escapar de mínimos locais do que um algoritmo com distribuição uniforme.Isto pode ser facilmente observado em problemas multimodais. Porém, em funções multimodaiscom uma grande quantidade de mínimos locais, como a função Ackley, a distribuição gaussianatambém costuma apresentar dificuldades.


Dentre as possíveis razões para a eficiência do algoritmo do cuco, incluem-se o pequenonúmero de parâmetros a serem ajustados, o tamanho da população (N), a probabilidade (pa) e oequilíbrio entre diversificação e intensificação, obtido a partir da distribuição de Lévy.

A fim de verificar e confirmar a influência de tais características, nesta seção serãomostrados e analisados os resultados de quatro experimentos. O primeiro deles compara osresultados do algoritmo CS com voos de Lévy variando o parâmetro N entre os valores 10, 20,30, 40 e 50, e fixando a probabilidade pa, a fim de que as diferenças entre os resultados devam-seapenas à influência do tamanho da população. O segundo compara os resultados do algoritmoCS com voos de Lévy variando o parâmetro pa entre os valores 0.1, 0.3, 0.5, 0.7 e 0.9, e fixandoo número de ninhos, a fim de que as diferenças entre os resultados devam-se apenas à influênciado valor probabilidade. O terceiro experimento compara os resultados do algoritmo CS com asdiferentes distribuições α-estáveis apresentadas neste capítulo (Gauss, Cauchy e Lévy, sendoesta última sua versão original utilizada nos experimentos dos capítulos anteriores) e com adistribuição uniforme, fixando os parâmetros N e pa, a fim de que as diferenças entre os resultadosdevam-se apenas à influência da distribuição utilizada. Por fim, o quarto experimento comparaos algoritmos PSO, CS e PSO-Lévy, versão do algoritmo PSO utilizando a distribuição de Lévy.Todos os demais parâmetros dos algoritmos são fixados de acordo com os seus melhores valoresobtidos nos experimentos anteriores em cada um dos problemas com a técnica Tuning-PSO.

Para todos os experimentos, os mesmos testes usados nos três capítulos anteriores foramempregados, e cada um deles inclui:


� Duas das funções utilizadas no problema Benchmark: a função Sphere, escolhidapor ser uma função unimodal simples, e a função Ackley, escolhida por ser umafunção multimodal complexa, que apresenta muitos mínimos locais. As duas funçõesforam utilizadas com 2 e 50 dimensões, representa baixa e alta dimensionalidade,respectivamente.

� As duas bases de dados de previsão de energia eólica: Montana e Texas.

� Duas das bases de dados utilizadas no problema Clustering: Balance e Bupa.

8.3.1 Tamanho da População (N)

O tamanho da população (N) é um fator importante não só no algoritmo de busca docuco, como também em todos os algoritmos inspirados na natureza. Com a finalidade de avaliara importância exclusiva deste parâmetro no algoritmo CS com voos de Lévy, foi realizado umexperimento para comparar os resultados deste algoritmo variando-o entre os valores 10, 20, 30,40 e 50, e fixando a probabilidade pa em seu melhor valor obtido com a técnica Tuning-PSO emcada um dos problemas.

Como podemos observar nas tabelas Tabela 8.1, Tabela 8.2 e Tabela 8.3, a variação dotamanho da população apresenta uma influência direta no tempo de execução do algoritmo, demodo que quanto maior o número de indivíduos maior é o tempo de execução. Isso é justificadopela maior quantidade de avaliações da função objetivo quando há mais indivíduos no algoritmo.

Tabela 8.1: Tamanho da População - Comparação do tempo de execução (Benchmark)

Sphere (D = 2) Ackley (D = 2) Sphere (D = 50) Ackley (D = 50)

CS (N = 10)7.91

(9.89e-02)12.76

(4.01e-02)11.00(0.11)

15.16(1.95e-02)

CS (N = 20)15.37

(3.89e-02)

24.85

(7.88e-02)

21.39

(4.77e-02)

29.83

(5.79e-02)

CS (N = 30)22.70

(7.06e-02)

37.11

(0.11)

31.55

(4.99e-02)

44.44

(5.62e-02)

CS (N = 40)30.21

(5.26e-02)

49.67

(0.17)

42.02

(8.11e-02)

59.16

(7.34e-02)

CS (N = 50)37.67

(8.00e-02)

61.94

(9.21e-02)

52.49

(0.15)

73.71

(0.12)


Tabela 8.2: Tamanho da População - Comparação do tempo de execução (Wind)

Montana Texas

CS (N = 10) 2.65e+03(13.72)

2.70e+03(15.60)

CS (N = 20) 5.09e+03(20.48)

5.17e+03(23.24)

CS (N = 30) 7.55e+03(37.02)

7.65e+03(28.64)

CS (N = 40) 1.00e+04(28.98)

1.01e+04(39.14)

CS (N = 50) 1.24e+04(52.26)

1.26e+04(265.75)

Tabela 8.3: Tamanho da População - Comparação do tempo de execução (Clustering)

Balance Bupa

CS (N = 10)378.15(3.94)

336.18(5.04)

CS (N = 20)753.54

(1.50)

670.85

(0.43)

CS (N = 30)1.12e+03

(3.74)

1.00e+03

(0.98)

CS (N = 40)1.50e+03

(2.82)

1.33e+03

(1.36)

CS (N = 50)1.87e+03

(1.59)

1.67e+03

(2.80)

Como observado na Tabela 8.4 e nos gráficos de convergência média do erro apresentadosna figura Figura 8.3, dentro das 10000 iterações todos os experimentos com as funções debenchmark alcançaram a mesma qualidade da solução, com exceção da função Sphere com 50dimensões, que obteve melhores resultados e convergiu mais rápido com menos indivíduos emsua população.

No problema de previsão da energia eólica (Tabela 8.5 e Tabela 8.6), que é mais complexo,observou-se que com apenas 10 indivíduos na população foram obtidos significativamente ospiores resultados em todas as métricas, destacando-se o POCID abaixo de 60% na base deMontana, o UTHEIL acima de 1 (um) e os altíssimos valores obtidos para as métricas MAPE eMSE nas duas bases. Com 20 ou mais indivíduos as diferenças não foram significativas, masobservou-se que a maioria dos melhores resultados (9 em 12 casos possíveis) foram obtidos comN = 50, valor mais próximo ao obtido pela técnica Tuning-PSO no Capítulo 6. O mesmo podeser observado nos gráficos de convergência média ilustrados na Figura 8.4.

No problema de clusterização (Tabela 8.7 e Tabela 8.8) e nos gráficos de convergênciamédia do erro apresentados na figura Figura 8.5, dentro das 10000 iterações todos os experimentos


alcançaram a mesma qualidade da solução, não tendo sido afetado pela variação do tamanho dapopulação.

Tabela 8.4: Tamanho da População - Comparação entre os erros (Benchmark)


CS (N = 10)4.94e-324

(0)2.22e-15

(0)1.53e-322

(0)2.22e-15

(0)

CS (N = 20)4.94e-324

(0)2.22e-15

(0)1.53e-322

(0)2.22e-15

(0)

CS (N = 30)4.94e-324

(0)2.22e-15

(0)1.04e-270

(1.08e-271)

2.22e-15(0)

CS (N = 40)4.94e-324

(0)2.22e-15

(0)2.65e-242

(1.76e-242)

2.22e-15(0)

CS (N = 50)4.94e-324

(0)2.22e-15

(0)8.10e-225

(4.46e-225)

2.22e-15(0)

Tabela 8.5: Tamanho da População - Comparação entre os erros (Montana)


CS (N = 10) 10.83(13.68)

215.03(278.98)

348.97(490.20)

56.76(42.43)

2.68(3.43)

3.20e-04(4.37e-04)

CS (N = 20) 0.94(0.17)

11.77(3.40)

1.73(0.53)

86.67(0.13)

0.18(6.05e-02)

7.72e-06(2.72e-06)

CS (N = 30) 2.17(0.59)

39.33(14.40)

8.16(4.72)

86.69(9.69e-02)

1.04(0.92)

5.21e-05(4.70e-05)

CS (N = 40) 1.53(0.72)

28.20(21.68)

3.95(2.68)

86.76(0)

0.35(0.18)

1.63e-05(1.01e-05)

CS (N = 50) 0.94(0.13)

12.09(2.83)

1.64(0.37)

86.71(6.46e-02)

0.18(4.86e-02)

7.37e-06(2.18e-06)


Tabela 8.6: Tamanho da População - Comparação entre os erros (Texas)


CS (N = 10)6.59

(9.19)

136.24

(214.22)

472.75

(853.12)

79.83

(18.64)

1.22

(1.51)

1.53e-04

(2.07e-04)

CS (N = 20)3.04

(5.39)

47.85

(88.55)

263.03

(813.30)

83.38

(14.59)

0.58

(1.06)

5.95e-05

(1.22e-04)

CS (N = 30)1.40

(0.43)

19.01

(8.34)

6.25

(4.53)

88.11

(0.18)

0.27

(0.19)

2.33e-05

(1.62e-05)

CS (N = 40)1.44

(0.47)

20.67

(7.38)

5.58

(4.49)

88.14(0.17)

0.26

(0.23)

2.21e-05

(2.01e-05)

CS (N = 50)1.19

(0.23)18.39(9.23)

3.42(0.59)

87.95

(0.22)

0.16(2.31e-02)

1.34e-05(2.29e-06)

Tabela 8.7: Tamanho da População - Comparação entre os erros (Balance)

Algoritmo Balance - Média (Desvio Padrão)J Acurácia Precisão Cobertura Medida-F IRC

CS (N = 10) 1.55e+03(4.82e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS (N = 20) 1.55e+03(3.60e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS (N = 30) 1.55e+03(1.61e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS (N = 40) 1.55e+03(3.94e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS (N = 50) 1.55e+03(2.27e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

Tabela 8.8: Tamanho da População - Comparação entre os erros (Bupa)

Algoritmo Bupa - Média (Desvio Padrão)J Acurácia Precisão Cobertura Medida-F IRC

CS (N = 10) 1.23e+04(0)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

CS (N = 20) 1.23e+04(2.88e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

CS (N = 30) 1.23e+04(1.29e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

CS (N = 40) 1.23e+04(1.82e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

CS (N = 50) 1.23e+04(1.82e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)


Figura 8.3: Tamanho da População - Convergência (Benchmark)

Figura 8.4: Tamanho da População - Convergência (Wind)


Figura 8.5: Tamanho da População - Convergência (Clustering)

8.3.2 Probabilidade (pa)

A probabilidade pa representa a probabilidade de o ovo do cuco ser descoberto pelopássaro hospedeiro e o ninho ser abandonado, ou seja, a probabilidade de a solução ser descartadae substituída por outra solução. Sendo um valor de probabilidade pa tem seu valor variandoentre 0 e 1, com valores baixos fazendo com que o algoritmo mantenha mais informações dopassado, visto que menos ninhos tendem a ser probabilisticamente descartados, enquanto valoresaltos tendem a esquecer mais as informações das populações passadas, o que na teoria aumentaa capacidade de escapar de ótimos locais. Com a finalidade de avaliar a importância exclusivadeste parâmetro no algoritmo CS com voos de Lévy, foi realizado um experimento para compararos resultados deste algoritmo variando o parâmetro pa entre os valores 0.1, 0.3, 0.5, 0.7 e 0.9, efixando o tamanho da população N em seu melhor valor obtido com a técnica Tuning-PSO emcada um dos problemas.

Como podemos observar nas tabelas Tabela 8.9, Tabela 8.10 e Tabela 8.11, a variaçãoda probabilidade não influencia o tempo de execução do algoritmo CS, pois não há nenhumadiferença considerável entre os valores de tempo de execução em nenhum dos três problemasestudados.


Tabela 8.9: Probabilidade - Comparação do tempo de execução (Benchmark)


CS (pa = 0.1)31.10(0.84)

16.35(2.40e-02)

25.70(0.52)

24.15

(7.03e-02)

CS (pa = 0.3)31.74

(7.51e-02)

16.40

(3.28e-02)

25.94

(5.35e-02)

24.27

(4.27e-02)

CS (pa = 0.5)31.68

(4.58e-02)

16.51

(4.51e-02)

26.16

(3.22e-02)

24.28

(3.13e-02)

CS (pa = 0.7)31.74

(0.11)

16.52

(2.04e-02)

26.38

(4.00e-02)

24.22

(2.80e-02)

CS (pa = 0.9)31.76

(6.17e-02)

16.49

(2.86e-02)

26.68

(3.10e-02)

24.10(5.12e-02)

Tabela 8.10: Probabilidade - Comparação do tempo de execução (Wind)

Montana Texas

CS (pa = 0.1) 9.48e+03(24.54)

7.82e+03(19.14)

CS (pa = 0.3) 9.57e+03(37.21)

7.82e+03(32.98)

CS (pa = 0.5) 9.50e+03(14.98)

7.80e+03(25.02)

CS (pa = 0.7) 9.51e+03(23.55)

7.81e+03(40.37)

CS (pa = 0.9) 9.57e+03(8.85)

7.90e+03(227.98)

Tabela 8.11: Probabilidade - Comparação do tempo de execução (Clustering)

Balance Bupa

CS (pa = 0.1)930.21(10.95)

1.35e+03(16.14)

CS (pa = 0.3)938.01

(0.69)

1.37e+03

(12.18)

CS (pa = 0.5)938.19

(2.09)

1.36e+03

(3.08)

CS (pa = 0.7)936.82

(3.08)

1.36e+03

(2.71)

CS (pa = 0.9)941.85

(0.96)

1.37e+03

(3.50)

Com relação à qualidade da solução obtida nos problemas Benchmark e Wind, no quediz respeito às medidas de erro, observa-se nas tabelas Tabela 8.12, Tabela 8.13 e Tabela 8.14,


que os melhores resultados são obtidos, no geral, para menores valores de probabilidade. Paraproblemas mais complexos, como as funções de benchmark com alta dimensionalidade (d =50) ou os problemas Wind (com todos os melhores resultados sendo encontrados com pa = 0.1,com exceção da métrica POCID, mas em que também apresentou ótimos valores), a seleção dovalor de probabilidade tem um efeito ainda maior na qualidade da solução obtida, com exceçãoda função Ackley com 50 dimensões, em que se obtém os mesmos resultados. Entretanto,para problemas mais simples como as funções de benchmark com baixo número de dimensões(d = 2) ou o problema Clustering (Tabela 8.15 e Tabela 8.16), este efeito não é significativo,com diferentes valores de probabilidade alcançando as mesmas soluções. Novamente podemosobservar que os valores de probabilidade que alcançam os melhores resultados são próximos aosvalores encontrados pela técnica Tuning-PSO nos capítulos anteriores.

Tabela 8.12: Probabilidade - Comparação entre os erros (Benchmark)


CS (pa = 0.1) 4.94e-324(0)

2.22e-15(0)

1.43e-322(0)

2.22e-15(0)

CS (pa = 0.3) 4.94e-324(0)

2.22e-15(0)

3.66e-287(0)

2.22e-15(0)

CS (pa = 0.5) 4.94e-324(0)

2.22e-15(0)

1.17e-220(0)

2.22e-15(0)

CS (pa = 0.7) 4.94e-324(0)

2.22e-15(0)

1.91e-138(6.03e-138)

2.22e-15(0)

CS (pa = 0.9) 4.94e-324(0)

2.22e-15(0)

6.38e-62(2.01e-61)

2.22e-15(0)

Tabela 8.13: Probabilidade - Comparação entre os erros (Montana)


CS (pa = 0.1) 0.87(0.10)

9.36(0.28)

1.59(0.50)

86.64(9.69e-02)

0.17(5.27e-02)

6.90e-06(2.24e-06)

CS (pa = 0.3) 0.95(0.11)

11.34(2.60)

1.73(0.24)

86.67(0)

0.19(2.34e-02)

7.70e-06(9.98e-07)

CS (pa = 0.5) 8.18(8.84)

171.36(159.24)

401.65(559.28)

61.30(35.87)

2.14(2.40)

2.00e-04(2.52e-04)

CS (pa = 0.7) 1.15(0.22)

16.00(6.39)

2.46(0.65)

86.67(6.46e-02)

0.26(6.74e-02)

1.14e-05(3.34e-06)

CS (pa = 0.9) 1.28(0.72)

19.28(14.32)

3.90(3.88)

86.55(9.69e-02)

0.38(0.37)

1.81e-05(1.84e-05)


Tabela 8.14: Probabilidade - Comparação entre os erros (Texas)


CS (pa = 0.1)1.05

(0.27)13.39(5.84)

3.94(0.57)

88.04

(0.26)

0.18(2.39e-02)

1.54e-05(2.83e-06)

CS (pa = 0.3)1.33

(0.67)

26.03

(23.75)

5.15

(1.09)

88.06(0.29)

0.22

(3.10e-02)

1.94e-05

(2.63e-06)

CS (pa = 0.5)1.63

(0.94)

18.65

(11.18)

8.79

(6.01)

88.06(0.29)

0.42

(0.34)

3.71e-05

(2.91e-05)

CS (pa = 0.7)1.33

(0.66)

28.53

(27.30)

4.86

(0.66)

87.99

(0.19)

0.20

(9.53e-03)

1.85e-05

(1.22e-06)

CS (pa = 0.9)1.62

(0.50)

29.53

(14.87)

4.12

(1.88)

87.97

(0.23)

0.24

(0.15)

2.00e-05

(1.18e-05)

Tabela 8.15: Probabilidade - Comparação entre os erros (Balance)


CS (pa = 0.1) 1.55e+03(3.60e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS (pa = 0.3) 1.55e+03(3.60e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS (pa = 0.5) 1.55e+03(4.55e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS (pa = 0.7) 1.55e+03(5.08e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS (pa = 0.9) 1.55e+03(1.61e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

Tabela 8.16: Probabilidade - Comparação entre os erros (Bupa)


CS (pa = 0.1) 1.23e+04(1.82e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

CS (pa = 0.3) 1.23e+04(1.29e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

CS (pa = 0.5) 1.23e+04(1.29e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

CS (pa = 0.7) 1.23e+04(1.82e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

CS (pa = 0.9) 1.23e+04(2.88e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

Com relação à velocidade de convergência média do erro, podemos observar nas figurasFigura 8.6, Figura 8.7 e Figura 8.8, que, em geral, para um mesmo tamanho da população, quanto


menor é o valor do parâmetro pa mais rápida é a convergência do algoritmo CS. Apesar disso, ovalor obtido ao fim das 10000 iterações é, na maioria dos casos, o mesmo. Isso indica que esteparâmetro é capaz de controlar a velocidade de convergência do algoritmo CS, mas por outrolado não é o responsável principal pela convergência global do mesmo, que faz com que escapedos mínimos locais e obtenha os menores valores de erro.

Figura 8.6: Probabilidade - Convergência (Benchmark)

8.3.3 Distribuição de Probabilidade

Como vimos, a variação do tamanho da população e da probabilidade de abandonarum ninho não são os fatores determinantes pelo bom desempenho do algoritmo CS, visto quediferentes valores destes parâmetros mantêm, no geral, o mesmo custo e qualidade das soluçõesobtidas. Resta assim analisar o impacto da escolha da distribuição no desempenho do algoritmo.Este já foi o tema de alguns trabalhos recentes, com muitos pesquisadores tentando melhorar odesempenho do algoritmo CS através da alteração da distribuição de probabilidade para criaçãode novas soluções ou através da adição de métodos de busca local.

ZHENG; ZHOU (2012) propuseram um CS baseado na distribuição gaussiana e compa-raram seus resultados com o algoritmo original baseado na distribuição de Lévy em seis funções


Figura 8.7: Probabilidade - Convergência (Wind)

Figura 8.8: Probabilidade - Convergência (Clustering)

de benchmark. Seus resultados mostraram que o algoritmo baseado na distribuição gaussianaobteve melhores resultados e uma convergência mais rápida.

MISHRA (2013) analisou que os voos de Lévy têm melhor desempenho para escaparde ótimos locais, a partir da otimização de algumas funções de teste, na qual os voos de Lévyobtiveram melhores valores mais consistentemente, seguidos pelos movimentos da distribuiçãode Cauchy, e com a distribuição gaussiana obtendo os piores resultados dentre as três.

Outros pesquisadores aplicaram o CS com três diferentes distribuições para resolver doisproblemas de programação hidrotermal de curto prazo, um considerando quatro hidrelétricas emcascata (NGUYEN; VO; DAO, 2014) e outro considerando restrição de volume de reservatório(NGUYEN; VO; DINH, 2016). As distribuições utilizadas foram a de Lévy, a gaussiana e a deCauchy-Lorentz. Os experimentos mostraram que a utilização do CS com as três distribuiçõesfornecem melhores soluções e menor tempo computacional quando comparado a outras técnicasda literatura. Além disso, entre os três, o CS com uso da distribuição de Lévy foi o que obteve a


melhor solução e o menor tempo de convergência, mostrando-se mais favorável que os demais.ABEDI FIROUZJAEE; KORDESTANI; MEYBODI (2016) modificou o algoritmo CS

para gerar uma nova solução (ninho) através da competição entre três diferentes ninhos, que sãogerados por três diferentes movimentos aleatórios, oriundos de três diferentes distribuições: Lévy,gaussiana e Cauchy-Lorentz. A ideia foi combinar o conhecimento das diferentes estratégias debusca de cada distribuição para gerar uma nova solução. O método proposto foi combinado commáquinas de vetores de suporte para regressão (SVR) na previsão de performance de máquinasperfuradoras de túneis, e os resultados dos experimentos mostraram seu bom desempenho emtermos de acurácia e eficiência.

O próximo experimento compara os resultados dos algoritmos CS-Gauss, CS-Cauchy,CS-Lévy e CS-Uniforme, variações do algoritmo CS, utilizando as três distribuições α-estáveisdiscutidas neste capítulo e a distribuição uniforme. Neste problema os parâmetros N e pa foramfixados em seus melhores valores obtidos com a técnica Tuning-PSO em cada um dos problemas,com a finalidade de que as diferenças entre os resultados sejam consequência exclusiva dadistribuição de probabilidade escolhida.

Como podemos observar nas tabelas Tabela 8.17, Tabela 8.18 e Tabela 8.19, os valores detempo de execução obtidos foram muito próximos, mas com a distribuição uniforme apresentandoos menores tempos. Observou-se também que, entre as distribuições α-estáveis, a distribuiçãode Lévy foi a que apresentou maior tempo de execução. Isso pode ser justificado pelo fato de asdistribuições de Gauss e de Cauchy apresentarem equações com processamento computacionalmais simples do que a de Lévy.

Tabela 8.17: Distribuição de Probabilidade - Comparação do tempo de execução(Benchmark)


CS-Gauss31.03

(0.27)

48.37

(1.06)

40.56

(2.65)

50.84

(53.48)

CS-Cauchy34.78

(3.68)

51.08

(2.54)

42.50

(3.06)

52.42

(4.12)

CS-Levy36.57

(3.53)

54.38

(5.47)

52.29

(6.52)

55.83

(1.48)

CS-Uniforme28.20(0.46)

48.30(4.14)

31.09(1.96)

43.93(0.51)


Tabela 8.18: Distribuição de Probabilidade - Comparação do tempo de execução (Wind)

Montana Texas

CS-Gauss 9.36e+03(36.90)

7.63e+03(211.36)

CS-Cauchy 9.37e+03(26.65)

7.53e+03(66.57)

CS-Levy 9.41e+03(54.33)

7.71e+03(14.95)

CS-Uniforme 9.32e+03(16.68)

7.43e+03(89.18)

Tabela 8.19: Distribuição de Probabilidade - Comparação do tempo de execução(Clustering)

Balance Bupa

CS-Gauss912.24

(13.14)

1.31e+03

(17.88)

CS-Cauchy921.51

(1.05)

1.32e+03

(0.32)

CS-Levy956.87

(0.41)

1.37e+03

(2.77)

CS-Uniforme898.80(0.11)

1.29e+03(0.62)

Nos problemas Benchmark e Wind, com relação à qualidade da solução obtida e àvelocidade de convergência, observa-se nas tabelas Tabela 8.20, Tabela 8.21 e Tabela 8.22, enos gráficos de convergência média do erro ilustrados nas figuras Figura 8.9 e Figura 8.10 queos melhores resultados são obtidos, no geral, com a distribuição de Lévy e os piores com adistribuição uniforme, excetuando-se o MAPE na base do Texas, em que a distribuição uniformesuperou as distribuições de Gauss e de Cauchy, e o POCID também na base do Texas, em que adistribuição uniforme superou todas as distribuições α-estáveis.

Devido à presença de saltos mais longos, as distribuições de Cauchy e Lévy possuemmaior poder de exploração do que a distribuição de Gauss, mas a distribuição de Cauchy nãoapresenta muitos deslocamentos curtos, o que não permite ao algoritmo intensificar e melhorar asolução tanto quanto a distribuição de Lévy. Sendo assim, das três distribuições α-estáveis, adistribuição de Lévy é a que equilibra melhor estes dois comportamentos na busca, e por issoobtém geralmente os melhores resultados. Entretanto, no problema de Clustering observou-se (Tabela 8.23, Tabela 8.24) que os resultados obtidos foram os mesmos, independente dadistribuição escolhida, mas que a distribuição uniforme apresentou uma convergência um poucomais lenta do que as demais distribuições (Figura 8.11).


Tabela 8.20: Distribuição de Probabilidade - Comparação entre os erros (Benchmark)


CS-Gauss 4.94e-324(0)

2.22e-15(0)

1.53e-187(5.64e-188)

2.22e-15(0)

CS-Cauchy 4.94e-324(0)

2.22e-15(0)

9.97e-190(6.67e-190)

2.22e-15(0)

CS-Levy 4.94e-324(0)

2.22e-15(0)

3.40e-190(0)

2.22e-15(0)

CS-Uniforme 2.46e-190(1.12e-190)

2.22e-15(0)

4.93e-186(2.22e-186)

2.22e-15(0)

Tabela 8.21: Distribuição de Probabilidade - Comparação entre os erros (Montana)


CS-Gauss1.26

(0.60)

21.82

(17.43)

3.69

(3.33)

86.60

(3.23e-02)

0.33

(0.27)

1.53e-05

(1.34e-05)

CS-Cauchy2.25

(0.73)

22.91

(3.70)

16.91

(7.14)

86.62

(0)

1.24

(0.54)

6.19e-05

(2.80e-05)

CS-Levy1.15

(0.25)16.90(3.20)

2.27(0.83)

86.69(9.69e-02)

0.24(9.80e-02)

1.04e-05(4.59e-06)

CS-Uniforme8.10

(8.96)

164.90

(168.38)

400.88

(560.38)

61.32

(35.90)

2.11

(2.44)

1.99e-04

(2.55e-04)

Tabela 8.22: Distribuição de Probabilidade - Comparação entre os erros (Texas)


CS-Gauss 1.63(0.94)

18.65(11.18)

8.79(6.01)

88.06(0.29)

0.42(0.34)

3.71e-05(2.91e-05)

CS-Cauchy 1.41(0.78)

21.07(16.75)

10.67(8.87)

88.06(0.29)

0.40(0.29)

3.45e-05(2.38e-05)

CS-Levy 1.16(7.41e-02)

14.77(0.80)

3.09(0.91)

88.15(9.69e-02)

0.14(3.66e-02)

1.20e-05(2.88e-06)

CS-Uniforme 1.96(0.27)

16.37(2.53)

23.14(8.02)

88.31(6.46e-02)

0.77(0.25)

6.19e-05(2.12e-05)


Tabela 8.23: Distribuição de Probabilidade - Comparação entre os erros (Balance)


CS-Gauss 1.55e+03(3.60e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS-Cauchy 1.55e+03(3.94e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS-Levy 1.55e+03(3.60e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS-Uniforme 1.55e+03(0)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

Tabela 8.24: Distribuição de Probabilidade - Comparação entre os erros (Bupa)


CS-Gauss 1.23e+04(0)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

CS-Cauchy 1.23e+04(2.88e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

CS-Levy 1.23e+04(1.82e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

CS-Uniforme 1.23e+04(3.15e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

Figura 8.10: Distribuição de Probabilidade - Convergência (Wind)

8.3.4 PSO-Lévy

Alguns estudos foram feitos com a utilização da distribuição de Lévy em outros algorit-mos bio-inspirados além do algoritmo de busca do cuco.

(HARIYA et al., 2015) propôs uma variação do PSO, o Lévy-PSO, que definia o coefici-ente de inércia como uma variável estocástica com distribuição de Lévy, de modo que se tornasse


Figura 8.9: Distribuição de Probabilidade - Convergência (Benchmark)

grande ocasionalmente, podendo escapar do mínimo local e continuar a busca pela solução ótima.Segundo este trabalho, a versão original do algoritmo PSO pode não ter a capacidade de localizaro valor ótimo em problemas de otimização multimodal, pois as partículas do enxame podemficar presas em mínimos locais da função objetivo, situação na qual sua velocidade torna-se zero.O algoritmo proposto foi analisado em algumas funções de benchmark bem conhecidas, e osresultados dos experimentos indicaram que a propriedade de cauda longa da distribuição de Lévyé importante para melhorar o desempenho do algorimo na busca pela melhor solução.

(RICHER; BLACKWELL, 2006) comparou o desempenho do algoritmo PSO combinadocom os voos de Lévy com o algoritmo padrão do PSO (utilizando distribuição uniforme deprobabilidade) e outros modelos equivalentes utilizando a distribuição gaussiana em algumasfunções de benchmark. Os experimentos mostraram que o PSO com a distribuição de Lévyobteve os melhores resultados e que suas características induzem a exploração em qualquerestágio da convergência, permitindo escapar de mínimos locais. (HAKLI; UGUZ, 2014) e(JENSI; JIJI, 2016) são outros trabalhos que confirmaram o bom desempenho do algoritmo PSOcombinado com a distribuição de Lévy.


Figura 8.11: Distribuição de Probabilidade - Convergência (Clustering)

(YANG, 2010d) formulou o algoritmo LFA, combinando o algoritmo do vaga-lume (FA)com os voos de Lévy, e o comparou com o PSO e outros algoritmos relevantes. Os experimentosem algumas funções de benchmark mostraram que o PSO frequentemente supera os algoritmosmais tradicionais, como os algoritmos genéticos, e que o LFA é superior ao PSO e ao GA,convergindo mais rapidamente e lidando mais naturalmente com problemas de otimizaçãoglobal.

(JENSI; JIJI, 2015) combinou os voos de Lévy com o algoritmo BAT para melhoraros resultados obtidos em problemas de clusterização, sendo testado em 10 bases de dados.Os experimentos mostraram que o algoritmo proposto agrupava os dados de forma eficiente,escapando dos ótimos locais e explorando o espaço de busca efetivamente.

Além disso, diversos estudos foram realizados comparando a eficiência do algoritmode busca do cuco com outros algoritmos bio-inspirados. CLERC; KENNEDY (2002) e váriosoutros estudos teóricos sugerem que o algoritmo PSO pode convergir rapidamente para a melhorsolução atual (gbest), mas não necessariamente para a melhor solução global, pois não satisfazas condições de convergência global de um algoritmo. Por outro lado, WANG et al. (2012) eoutros estudos têm mostrado que o CS satisfaz tais requisitos e garante uma convergência global.Isso faz com que o PSO possa convergir prematuramente para ótimos locais em problemas deotimização multimodal, enquanto o CS possa geralmente convergir para o ótimo global.

A fim de reafirmar o impacto da escolha da distribuição, sobretudo o bom desempenhoassociado à distribuição de Lévy, o próximo experimento compara o algoritmo PSO, que utilizapor padrão a distribuição uniforme, com os algoritmos CS e PSO-Lévy, este último sendo suavariação com a distribuição α-estável de Lévy. O PSO foi o algoritmo escolhido para esteexperimento porque é o que mais tem sido utilizado em problemas científicos e do mundo real, epor geralmente apresentar o problema de convergência prematura, ficando preso em mínimoslocais, o que abre espaço para investigação.

Como podemos observar nas tabelas Tabela 8.25, Tabela 8.26 e Tabela 8.27, o algoritmo


CS apresenta os maiores tempos de execução em todos os casos e o PSO com distribuiçãouniforme os menores, com exceção da base do Texas. Disso podemos reforçar que a utilizaçãoda distribuição de Lévy inclui um processamento adicional em relação à distribuição uniforme,mas que independente da distribuição o algoritmo CS é mais custoso que o PSO.

Tabela 8.25: PSO-Lévy - Comparação do tempo de execução (Benchmark)


PSO16.31(0.21)

8.84(7.67e-02)

31.42(0.33)

19.11(6.60e-02)

PSO-Levy18.09

(5.15e-02)

11.33

(7.01e-02)

36.10

(0.18)

23.11

(5.84e-02)

CS31.31

(0.10)

16.32

(6.54e-02)

45.42

(8.51e-02)

23.91

(6.35e-02)

Tabela 8.26: PSO-Lévy - Comparação do tempo de execução (Wind)

Montana Texas

PSO 6.10e+03(29.59)

3.07e+03(12.48)

PSO-Levy 6.01e+03(32.25)

3.09e+03(15.60)

CS 9.81e+03(144.64)

7.61e+03(19.08)

Tabela 8.27: PSO-Lévy - Comparação do tempo de execução (Clustering)

Balance Bupa

PSO471.13(5.59)

565.71(6.93)

PSO-Levy479.03

(1.43)

574.98

(0.56)

CS934.47

(0.47)

1.37e+03

(0.69)

Com relação à qualidade da solução obtida, no que diz respeito às medidas de erro,observa-se nas tabelas Tabela 8.28, Tabela 8.29, Tabela 8.30, Tabela 8.31 e Tabela 8.32 que autilização da distribuição de Lévy no algoritmo PSO foi eficaz, superando o PSO com distribuiçãouniforme. Além disso, ressalta-se que o algoritmo PSO-Lévy também igualou e chegou a superaro algoritmo CS em alguns casos. Destaca-se a aqui função multimodal Ackley com 2 e 50dimensões, em que o uso da distribuição de Lévy fez com que o PSO convergisse para o mínimoglobal.


Tabela 8.28: PSO-Lévy - Comparação entre os erros (Benchmark)


PSO 4.94e-324(0)

0.86(2.72)

7.34e-104(2.32e-103)

4.15(0.71)

PSO-Levy 4.94e-324(0)

2.22e-15(0)

1.48e-323(0)

2.22e-15(0)

CS 4.94e-324(0)

2.22e-15(0)

8.40e-311(0)

2.22e-15(0)

Tabela 8.29: PSO-Lévy - Comparação entre os erros (Montana)


PSO13.10

(3.96)

264.90

(168.38)

800.88

(360.38)

71.32

(15.90)

3.81

(1.44)

3.79e-04

(1.64e-04)

PSO-Levy1.31

(1.78e-02)

22.49

(5.17)

3.20

(0.46)

86.62

(0)

0.32

(7.04e-02)

1.42e-05

(2.95e-06)

CS0.83

(2.20e-04)9.21

(3.67e-04)1.39

(1.22e-03)86.67

(0)0.14

(1.28e-04)5.93e-06

(5.32e-09)

Tabela 8.30: PSO-Lévy - Comparação entre os erros (Texas)


PSO 10.97(6.69)

207.85(157.36)

551.63(795.09)

56.36(31.30)

41.27(84.57)

6.57e-04(5.78e-04)

PSO-Levy 1.60(0.51)

20.37(8.44)

7.60(3.70)

88.24(7.20e-02)

0.37(0.27)

3.06e-05(2.21e-05)

CS 1.36(0.36)

19.69(9.26)

6.66(5.33)

88.11(0.18)

0.27(0.17)

2.27e-05(1.48e-05)

Tabela 8.31: PSO-Lévy - Comparação entre os erros (Balance)


PSO 1.55e+03(4.79e-12)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

PSO-Levy 1.55e+03(2.95e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS 1.55e+03(2.27e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

Com relação à velocidade de convergência, podemos observar nos gráficos de convergên-cia média do erro apresentados nas figuras Figura 8.12, Figura 8.13 e Figura 8.14 que o algoritmoPSO-Lévy convergiu mais rapidamente que o PSO em todos os problemas, mostrando a eficáciada distribuição de Lévy. Destacam-se aqui a função unimodal Sphere com 2 dimensões e as


Tabela 8.32: PSO-Lévy - Comparação entre os erros (Bupa)


PSO 1.23e+04(1.80e-11)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

PSO-Levy 1.23e+04(1.42e-13)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

CS 1.23e+04(1.29e-12)

0.62(0)

0.63(0)

0.63(0)

0.62(0)

5.80e-02(0)

bases de Clustering, casos em que o PSO com distribuição uniforme já convergia mais rápido doque o CS e convergiu ainda mais rápido com a distribuição de Lévy.

Figura 8.12: PSO-Lévy - Convergência (Benchmark)


Figura 8.13: PSO-Lévy - Convergência (Wind)

Figura 8.14: PSO-Lévy - Convergência (Clustering)


Os voos de Lévy e de Cauchy utilizam distribuições de cauda longa que melhoram a buscaglobal ou exploração de todo o espaço de soluções, enquanto os movimentos das distribuiçõesgaussiana e uniforme favorecem a busca local. Sendo uma espécie de meio termo entre as duasoutras distribuições α-estáveis, a distribuição de Lévy conseguiu balancear melhor o problemaexploração x explotação e assim obteve melhores resultados que os demais. Isso explica oporquê dos algoritmos CS e SACS terem superado os outros seis algoritmos nos três problemasestudados nos capítulos anteriores, pois enquanto os dois utilizam a distribuição de Lévy paragerar novas soluções, os demais utilizam a distribuição uniforme.

Os resultados obtidos neste capítulo comprovam que a distribuição de Lévy é maiseficiente e é também a característica do algoritmo do cuco que mais influencia para o seu ótimo


desempenho. Vimos que a probabilidade e o tamanho da população não apresentam grandeinfluência na qualidade da solução obtida. Vimos também que o pouco número de parâmetrostambém não, apesar de indicar a robustez e fácil adaptabilidade do algoritmo, pois utilizando adistribuição de Lévy, o algoritmo PSO conseguiu ótimos resultados, apesar da grande quantidadede parâmetros a serem ajustados. Além disso, o algoritmo ABC também possui apenas doisparâmetros a serem ajustados (o tamanho da população e o limite superior do coeficiente deaceleração), mas mesmo assim não obteve os melhores resultados.

130130130

9CONSIDERAÇÕES FINAIS E TRABALHOS FUTUROS


Encontrar soluções ótimas para muitos problemas é uma tarefa muito difícil, pois depen-dendo de sua complexidade, pode ser impossível analisar todas as possíveis soluções. Devido aessa complexidade, o uso de algoritmos de aproximação para encontrar soluções aproximadasvem se tornando cada vez mais popular. Entre estes algoritmos, as meta-heurísticas, sobretudona forma de técnicas bio-inspiradas, têm ganhado uma considerável atenção da comunidade cien-tífica, sendo usados em vários domínios de problemas. Neste trabalho utilizamos um pequenosubconjunto destes algoritmos, a saber: algoritmos genéticos (GA), otimização por colôniade formigas (ACO), otimização por enxame de partículas (PSO), colônia de abelhas artificiais(ABC), algoritmo do vaga-lume (FA), busca do cuco (CS), algoritmo do morcego (BAT) e buscaautoadaptativa do cuco (SACS). Para analisar o desempenho destes algoritmos, eles foramempregados em três problemas distintos: funções de benchmark, por serem funções amplamenteutilizadas para testar o desempenho de métodos de otimização; previsão da energia produzida emdois parques eólicos dos EUA a partir da velocidade do vento, por ser um problema do mundoreal; e minimização da distância entre agrupamentos e métricas de classificação em um problemade clusterização, escolhido por ser um problema com características diferentes dos demais.

Com o objetivo de obter os valores ótimos dos parâmetros dos algoritmos em cada umdos problemas, desenvolvemos e utilizamos uma técnica de ajuste automático dos parâmetros,denominada Tuning-PSO. Ela foi adotada em detrimento da escolha empírica por tentativae erro e mostrou-se satisfatória, obtendo bons resultados, apesar de exigir um maior custocomputacional.

Dentre os algoritmos apresentados, por ter apresentado melhores resultados nos experi-mentos realizados, demos atenção especial ao CS, que imita o comportamento do parasitismo dopássaro cuco. Estudos teóricos mostraram que ele é um algoritmo eficiente que pode garantira convergência global. Os estudos e experimentos deste trabalho mostraram que as principaisvantagens do algoritmo de busca do cuco estão relacionadas às suas características, sendo umalgoritmo que apresenta uma maior diversificação, através de uma melhor exploração do espaçode soluções com seus saltos curtos e ocasionalmente longos. Além disso, possui um menor

9.2. PRINCIPAIS CONTRIBUIÇÕES 131

número de parâmetros a serem ajustados, o que o torna potencialmente mais genérico parase adaptar a uma maior quantidade de problemas de otimização. Mas a maior das vantagensmostrou-se ser a utilização da distribuição de probabilidade de Lévy na trajetória dos indivíduos,por permitir que o algoritmo realize um melhor balanceamento entre a exploração e a explotação,escapando assim mais facilmente de mínimos locais e convergindo mais rápido para a melhorsolução do problema.

Apesar disso, a verdade é que, como diz o ditado "There is no free lunch (Não existe

almoço grátis)", para qualquer algoritmo, um desempenho elevado em determinada classe deproblemas é igualmente penalizada em desempenho em outra classe de problemas. Em outraspalavras, não existe um algoritmo único, universal, que seja capaz de resolver todos os tipos deproblemas de otimização, haja vista o fato de que até mesmo o algoritmo do cuco não apresentouo melhor resultado em todos os experimentos realizados sobre todos os problemas.

9.2 Principais Contribuições

O desenvolvimento de uma técnica bio-inspirada para ajuste automático dos parâmetrosdos algoritmos é a principal contribuição deste trabalho, que apesar de acarretar um custocomputacional adicional aos problemas de otimização, possibilita encontrar os valores ótimospara os parâmetros de forma automática, sem ser por simples tentativa e erro ou utilizando osvalores comumente empregados na literatura.

A comparação dos algoritmos bio-inspirados em três problemas com característicascompletamente diferentes também é uma importante contribuição deste trabalho. Muitos outrostrabalhos limitaram-se a um único problema, de modo que a robustez e adaptação dos métodos adiferentes situações não era englobada.

Outra contribuição foi a análise do comportamento do algoritmo do cuco, métodoque apresentou os melhores resultados, visando compreender qual de suas características ouparâmetros mais influencia em seu ótimo desempenho nos problemas empregados. Com estaanálise, foi possível concluir que a distribuição de probabilidade utilizada para deslocamentodos indivíduos dos algoritmos é a principal responsável pelo desempenho dos algoritmos, com adistribuição de Lévy levando a resultados melhores do que as distribuições uniforme, normal ede Cauchy.

Além disso, outra grande contribuição deste trabalho é reforçar a visão de que osalgoritmos bio-inspirados possuem um grande potencial e incontáveis aplicações. Este trabalhoamplia a gama de estudos sobre tais métodos e objetiva servir de inspiração para trabalhos futurosna área.

9.3. TRABALHOS FUTUROS 132

9.3 Trabalhos Futuros

Acreditamos que o presente trabalho pode ser continuado e aprimorado de diversasmaneiras. Por exemplo, um possível aprofundamento deste trabalho poderia analisar, de formaquantitativa, a influência da distribuição de Lévy no desempenho do algoritmo de busca docuco. Experimentos realizados neste trabalho nos mostraram que a propriedade de cauda longadessa distribuição melhora a exploração e a intensificação do algoritmo, e que essa característicacontribui mais para os ótimos resultados obtidos do que a modelagem da estratégia reprodutivados cucos e seus poucos parâmetros, mas não obtivemos uma informação quantitativa a respeitodisso.

Utilizar a técnica de ajuste de parâmetros Tuning-PSO com 1000 iterações ao invés de100 também seria uma sugestão de trabalho futuro, a fim de verificar se os parâmetros obtidosmelhoram ainda mais o desempenho dos algoritmos bio-inspirados. Isto só não foi realizadoneste trabalho por causa do alto custo computacional que seria necessário. Além disso, comoobservamos, o PSO não foi o algoritmo que apresentou o melhor desempenho nos três problemasestudados. Sendo assim, poderíamos pensar em implementar uma técnica de ajuste de parâmetrosbaseada em outro algoritmo bio-inspirado, obtendo assim o Tuning-CS, Tuning-SACS, etc. Oobjetivo seria verificar se os novos parâmetros obtidos seriam melhores do que os obtidos com oTuning-PSO.

Com relação ao problema de clusterização, uma abordagem híbrida do algoritmo bio-inspirado com o algoritmo K-médias na inicialização dos centroides poderia ser utilizada, ao invésda inicialização aleatória empregada neste trabalho. O objetivo seria analisar se o desempenhodos algoritmos melhoraria.

Além disso, os algoritmos bio-inspirados poderiam ser combinados em algoritmoshíbridos, a fim de avaliar se conseguimos melhorar ainda mais o desempenho obtido nosproblemas abordados, a partir da manutenção das vantagens e da limitação das desvantagensdos algoritmos combinados. No artigo (BARBOSA; VASCONCELOS, 2016), conseguimoscombinar os algoritmos ACO e PSO no problema de previsão da energia eólica e os resultadosforam satisfatórios, com o algoritmo híbrido superando os demais em termos da qualidade dasolução obtida e do tempo de convergência, apesar de demandar um maior tempo de execução.A ideia de uma extensão para este trabalho seria combinar o algoritmo de busca do cuco comalgum outro algoritmo que conseguisse aprimorá-lo ainda mais.

Outra estratégia, tida como um desdobramento natural deste trabalho, seria a utilizaçãoda distribuição de Lévy em outros algoritmos que não o CS e o PSO, a fim de analisar se odesempenho deles também melhora.

A robustez e eficiência observadas no algoritmo de busca do cuco nos leva a crer que elepode ser facilmente utilizado também em problemas mais complexos, como os de otimizaçãomultiobjetivo com restrições (YANG; DEB, 2013). Embora seja amplamente bem sucedido, estealgoritmo ainda tem muito espaço para melhorias. Um verdadeiro algoritmo inteligente, que

9.3. TRABALHOS FUTUROS 133

seja capaz de aprender ainda mais da natureza e ajustar automaticamente o seu comportamentopara encontrar a forma mais eficiente de resolver problemas complexos, ainda está para serdesenvolvido.

134134134

REFERÊNCIAS

ABEDI FIROUZJAEE, H.; KORDESTANI, J. K.; MEYBODI, M. R. Cuckoo search with composite flight operator for numerical optimization problems and its application in tunnelling. Engineering Optimization, [S.l.], p.1–20, 2016.

BARAS, J. S.; TAN, X.; HOVARESHTI, P. Decentralized control of autonomous vehicles. In: DECISION AND CONTROL, 2003. PROCEEDINGS. 42ND IEEE CONFERENCE ON. Anais. . . [S.l.: s.n.], 2003. v.2, p.1532–1537.

BARBOSA, C. E. M.; VASCONCELOS, G. C. Cuckoo search optimization for short term wind energy forecasting. In: EVOLUTIONARY COMPUTATION (CEC), 2016 IEEE CONGRESS ON. Anais. . . [S.l.: s.n.], 2016. p.1765–1772.

BECCENERI, J. C. Meta-heurísticas e Otimização Combinatória: aplicações em problemas ambientais. INPE, Sao José dos Campos, [S.l.], 2008.

BENI, G.; WANG, J. Swarm intelligence in cellular robotic systems. In: Robots and Biological Systems: towards a new bionics? [S.l.]: Springer, 1993. p.703–712.

BIROL, F. World energy outlook 2014. International Energy Agency, [S.l.], 2014. Disponível em: <https://www.iea.org/textbase/npsum/weo2014sum.pdf>. Acesso em: 28 ago. 2016.

BIROL, F. World energy outlook 2016. International Energy Agency, [S.l.], 2016. Disponível em: <https://www.iea.org/textbase/npsum/weo2016sum.pdf>. Acesso em: 18 nov. 2016.

BISWAS, S.; KUNDU, S.; DAS, S. Inducing niching behavior in differential evolution through local information sharing. IEEE Transactions on Evolutionary Computation, [S.l.], v.19, n.2, p.246–263, 2015.

BLUM, C.; LI, X. Swarm intelligence in optimization. In: Swarm Intelligence. [S.l.]: Springer, 2008. p.43–85.

BONABEAU, E.; DORIGO, M.; THERAULAZ, G. Swarm intelligence: from natural to artificial systems. [S.l.]: Oxford university press, 1999. n.1.

BOOKER, L. B.; GOLDBERG, D. E.; HOLLAND, J. H. Classifier systems and genetic algorithms. Artificial intelligence, [S.l.], v.40, n.1, p.235–282, 1989.

CARVALHO, A.; BRAGA, A. d. P.; LUDERMIR, T. Computação evolutiva. Sistemas Inteligentes: Fundamentos e Aplicaçoes. Manole, [S.l.], p.225–248, 2003.

CASTRO, L. N. de; VON ZUBEN, F. J. From biologically inspired computing to natural computing. Recent developments in biologically inspired computing, [S.l.], p.1–8, 2004.

CHAMBERS, J. M.; MALLOWS, C. L.; STUCK, B. A method for simulating stable random variables. Journal of the american statistical association, [S.l.], v.71, n.354, p.340–344, 1976.

https://www.iea.org/textbase/npsum/weo2014sum.pdf

https://www.iea.org/textbase/npsum/weo2016sum.pdf

REFERÊNCIAS 135

CLERC, M.; KENNEDY, J. The particle swarm-explosion, stability, and convergence in amultidimensional complex space. IEEE transactions on Evolutionary Computation, [S.l.],v.6, n.1, p.58–73, 2002.

CRUZ, C. et al. Nature Inspired Cooperative Strategies for Optimization (NICSO 2010).[S.l.]: Springer, 2010. v.284.

DAMOUSIS, I. G.; DOKOPOULOS, P. A fuzzy expert system for the forecasting of wind speedand power generation in wind farms. In: POWER INDUSTRY COMPUTER APPLICATIONS,2001. PICA 2001. INNOVATIVE COMPUTING FOR POWER-ELECTRIC ENERGY MEETSTHE MARKET. 22ND IEEE POWER ENGINEERING SOCIETY INTERNATIONALCONFERENCE ON. Anais. . . [S.l.: s.n.], 2001. p.63–69.

DE CASTRO, L. N.; TIMMIS, J. Artificial immune systems: a new computational intelligenceapproach. [S.l.]: Springer Science & Business Media, 2002.

DORIGO, M.; DI CARO, G.; GAMBARDELLA, L. M. Ant algorithms for discreteoptimization. Artificial life, [S.l.], v.5, n.2, p.137–172, 1999.

EBERHART, R. C.; KENNEDY, J. et al. A new optimizer using particle swarm theory. In: OFTHE SIXTH INTERNATIONAL SYMPOSIUM ON MICRO MACHINE AND HUMANSCIENCE. Proceedings. . . [S.l.: s.n.], 1995. v.1, p.39–43.

EIBEN, A. E.; SMIT, S. K. Parameter tuning for configuring and analyzing evolutionaryalgorithms. Swarm and Evolutionary Computation, [S.l.], v.1, n.1, p.19–31, 2011.

EIBEN, A. E.; SMITH, J. E. Introduction to evolutionary computing. [S.l.]: Springer, 2003.v.53.

FOGEL, L. J. Artificial Intelligence Through Simulated Evolution.[By] Lawrence J.Fogel... Alvin J. Owens... Michael J. Walsh. [S.l.]: John Wiley & Sons, 1966.

FREDRIKSSON, L. A Brief Survey of Lévy Walks: with applications to probe diffusion.2010.

FRIEDMAN, J. H. An overview of predictive learning and function approximation. In: FromStatistics to Neural Networks. [S.l.]: Springer, 1994. p.1–61.

GANDER, W. Learning MATLAB: a problem solving approach. [S.l.]: Springer, 2015. v.95.

GARNIER, S.; GAUTRAIS, J.; THERAULAZ, G. The biological principles of swarmintelligence. Swarm Intelligence, [S.l.], v.1, n.1, p.3–31, 2007.

GLOVER, F.; LAGUNA, M. Tabu Search∗. [S.l.]: Springer, 2013.

GOSS, S. et al. Self-organized shortcuts in the Argentine ant. Naturwissenschaften, [S.l.], v.76,n.12, p.579–581, 1989.

GREFENSTETTE, J. J. Optimization of control parameters for genetic algorithms. IEEETransactions on systems, man, and cybernetics, [S.l.], v.16, n.1, p.122–128, 1986.

HAKLI, H.; UGUZ, H. A novel particle swarm optimization algorithm with Levy flight.Applied Soft Computing, [S.l.], v.23, p.333–345, 2014.

REFERÊNCIAS 136

HARIYA, Y. et al. Lévy flight PSO. In: EVOLUTIONARY COMPUTATION (CEC), 2015IEEE CONGRESS ON. Anais. . . [S.l.: s.n.], 2015. p.2678–2684.

HOLLAND, J. H. Algoritmos genéticos. Investigación y Ciencia, [S.l.], v.192, p.38–45, 1992.

HOLLANDER, M.; WOLFE, D. A.; CHICKEN, E. Nonparametric statistical methods. [S.l.]:John Wiley & Sons, 2013.

HRUSCHKA, E. R.; EBECKEN, N. F. A genetic algorithm for cluster analysis. IntelligentData Analysis, [S.l.], v.7, n.1, p.15–25, 2003.

HU, X.; EBERHART, R. Multiobjective optimization using dynamic neighborhood particleswarm optimization. In: EVOLUTIONARY COMPUTATION ON 2002. CEC’02.PROCEEDINGS OF THE 2002 CONGRESS-VOLUME 02. Proceedings. . . [S.l.: s.n.], 2002.p.1677–1681.

HUMPHRIES, N. E. et al. Environmental context explains Lévy and Brownian movementpatterns of marine predators. Nature, [S.l.], v.465, n.7301, p.1066–1069, 2010.

ISLAM, M.; MEKHILEF, S.; SAIDUR, R. Progress and recent trends of wind energytechnology. Renewable and Sustainable Energy Reviews, [S.l.], v.21, p.456–468, 2013.

JAIN, A. K. Data clustering: 50 years beyond k-means. Pattern recognition letters, [S.l.], v.31,n.8, p.651–666, 2010.

JAMIL, M.; YANG, X.-S. A literature survey of benchmark functions for global optimisationproblems. International Journal of Mathematical Modelling and Numerical Optimisation,[S.l.], v.4, n.2, p.150–194, 2013.

JENSI, R.; JIJI, G. W. MBA-LF: a new data clustering method using modified bat algorithm andlevy flight. ICTACT Journal on Soft Computing, [S.l.], v.6, n.1, 2015.

JENSI, R.; JIJI, G. W. An enhanced particle swarm optimization with levy flight for globaloptimization. Applied Soft Computing, [S.l.], v.43, p.248–261, 2016.

JURSA, R.; ROHRIG, K. Short-term wind power forecasting using evolutionary algorithms forthe automated specification of artificial intelligence models. International Journal ofForecasting, [S.l.], v.24, n.4, p.694–709, 2008.

KARABOGA, D. An idea based on honey bee swarm for numerical optimization. [S.l.]:Technical report-tr06, Erciyes university, engineering faculty, computer engineering department,2005.

KAVOUSI-FARD, A.; KAVOUSI-FARD, F. A new hybrid correction method for short-termload forecasting based on ARIMA, SVR and CSA. Journal of Experimental & TheoreticalArtificial Intelligence, [S.l.], v.25, n.4, p.559–574, 2013.

KENNEDY, J. Particle swarm optimization. In: Encyclopedia of machine learning. [S.l.]:Springer, 2011. p.760–766.

KENNEDY, J. et al. Swarm intelligence. [S.l.]: Morgan Kaufmann, 2001.

REFERÊNCIAS 137

KIRAN, M. S. et al. A novel hybrid approach based on particle swarm optimization and antcolony algorithm to forecast energy demand of Turkey. Energy conversion and management,[S.l.], v.53, n.1, p.75–83, 2012.

KOTHARI, D. P.; NAGRATH, I. Modern power system analysis. [S.l.]: Tata McGraw-HillEducation, 2003.

KOZA, J. R. Genetic programming: on the programming of computers by means of naturalselection. [S.l.]: MIT press, 1992. v.1.

KUOK, K. K. et al. Comparison of future intensity duration frequency curve by considering theimpact of climate change: case study for kuching city. International Journal of River BasinManagement, [S.l.], v.14, n.1, p.47–55, 2016.

LI, X.; YIN, M. Modified cuckoo search algorithm with self adaptive parameter method.Information Sciences, [S.l.], v.298, p.80–97, 2015.

LIMA, G. M. B. d. Processos aleatórios não-markovianos: perfis de memória. , [S.l.], 2013.

LIMA JÚNIOR, F. C. d. Algoritmo Q-learning como estratégia de exploração e/ou explotaçãopara metaheurísticas GRASP e algoritmo genético. , [S.l.], 2009.

LUENBERGER, D. G.; MATEOS, M. L. Programación lineal y no lineal. [S.l.]:Addison-Wesley Iberoamericana, 1989.

MCCULLOCH, W. S.; PITTS, W. A logical calculus of the ideas immanent in nervous activity.The bulletin of mathematical biophysics, [S.l.], v.5, n.4, p.115–133, 1943.

MEISSNER, M.; SCHMUKER, M.; SCHNEIDER, G. Optimized Particle Swarm Optimization(OPSO) and its application to artificial neural network training. BMC bioinformatics, [S.l.], v.7,n.1, p.125, 2006.

MENDEL, E.; KROHLING, R. A.; CAMPOS, M. Swarm algorithms with chaotic jumps appliedto noisy optimization problems. Information Sciences, [S.l.], v.181, n.20, p.4494–4514, 2011.

MERWE, D. Van der; ENGELBRECHT, A. P. Data clustering using particle swarmoptimization. In: EVOLUTIONARY COMPUTATION, 2003. CEC’03. THE 2003 CONGRESSON. Anais. . . [S.l.: s.n.], 2003. v.1, p.215–220.

MICHALEWICZ, Z.; FOGEL, D. B. How to solve it: modern heuristics. [S.l.]: SpringerScience & Business Media, 2013.

MISHRA, S. K. Global optimization of some difficult benchmark functions by host-parasiteco-evolutionary algorithm. , [S.l.], 2013.

NAWI, N. et al. Enhancing the cuckoo search with levy flight through population estimation.ARPN Journal of Engineering and Applied Sciences, [S.l.], v.11, n.22, p.13232–13240,2015. Disponível em: <http://www.arpnjournals.org/jeas/research_papers/rp_2016/jeas_1116_5373.pdf>. Acesso em: 10 jan. 2017.

NGUYEN, T. T.; VO, D. N.; DAO, T. T. Cuckoo search algorithm using different distributionsfor short-term hydrothermal scheduling with cascaded hydropower plants. In: TENCON2014-2014 IEEE REGION 10 CONFERENCE. Anais. . . [S.l.: s.n.], 2014. p.1–6.

http://www.arpnjournals.org/jeas/research_papers/rp_2016/jeas_1116_5373.pdf

http://www.arpnjournals.org/jeas/research_papers/rp_2016/jeas_1116_5373.pdf

REFERÊNCIAS 138

NGUYEN, T. T.; VO, D. N.; DINH, B. H. Cuckoo Search Algorithm Using DifferentDistributions for Short-Term Hydrothermal Scheduling with Reservoir Volume Constraint.International Journal on Electrical Engineering and Informatics, [S.l.], v.8, n.1, p.76,2016.

PARSOPOULOS, K. E.; VRAHATIS, M. N. Recent approaches to global optimization problemsthrough particle swarm optimization. Natural computing, [S.l.], v.1, n.2-3, p.235–306, 2002.

POUSINHO, H. M. I.; MENDES, V. M. F.; CATALãO, J. P. d. S. A hybrid PSO–ANFISapproach for short-term wind power prediction in Portugal. Energy Conversion andManagement, [S.l.], v.52, n.1, p.397–402, 2011.

RAHMANI, R. et al. Hybrid technique of ant colony and particle swarm optimization for shortterm wind energy forecasting. Journal of Wind Engineering and Industrial Aerodynamics,[S.l.], v.123, p.163–170, 2013.

RECHENBERG, I. Evolutionsstrategien. In: Simulationsmethoden in der Medizin undBiologie. [S.l.]: Springer, 1978. p.83–114.

REEVES, C. R. Modern heuristic techniques for combinatorial problems. [S.l.]: JohnWiley & Sons, Inc., 1993.

RICHER, T. J.; BLACKWELL, T. M. The Lévy particle swarm. In: EVOLUTIONARYCOMPUTATION, 2006. CEC 2006. IEEE CONGRESS ON. Anais. . . [S.l.: s.n.], 2006.p.808–815.

ROSENBLATT, F. The perceptron, a perceiving and recognizing automaton Project Para.[S.l.]: Cornell Aeronautical Laboratory, 1957.

SAMORADNITSKY, G.; TAQQU, M. Stable Non-Gaussian Random Processes: stochasticmodels with infinite variance, volume 1 of stochastic modelling. [S.l.]: Boca Raton, FL: CRCPress, 1994.

SENTHILNATH, J. et al. Clustering using levy flight cuckoo search. In: SEVENTHINTERNATIONAL CONFERENCE ON BIO-INSPIRED COMPUTING: THEORIES ANDAPPLICATIONS (BIC-TA 2012). Proceedings. . . [S.l.: s.n.], 2013. p.65–75.

SØRENSEN, T. A method of establishing groups of equal amplitude in plant sociology based onsimilarity of species and its application to analyses of the vegetation on Danish commons. Biol.Skr., [S.l.], v.5, p.1–34, 1948.

SOUZA, M. J. F. Inteligência computacional para otimizaçao. Notas de aula, Departamentode Computação, Universidade Federal de Ouro Preto, disponível em http://www. decom.ufop. br/prof/marcone/InteligenciaComputacional/InteligenciaComputacional. pdf, [S.l.],2008.

TALBI, E.-G.; MELAB, N.; CAHON, S. Handbook of Bioinspired Algorithms andApplications. [S.l.: s.n.], 2006.

TANG, R. et al. Wolf search algorithm with ephemeral memory. In: DIGITAL INFORMATIONMANAGEMENT (ICDIM), 2012 SEVENTH INTERNATIONAL CONFERENCE ON.Anais. . . [S.l.: s.n.], 2012. p.165–172.

REFERÊNCIAS 139

VAN DEN BERGH, F.; ENGELBRECHT, A. P. Training product unit networks usingcooperative particle swarm optimisers. In: NEURAL NETWORKS, 2001. PROCEEDINGS.IJCNN’01. INTERNATIONAL JOINT CONFERENCE ON. Anais. . . [S.l.: s.n.], 2001. v.1,p.126–131.

VEILLETTE, M. STBL: alpha stable distributions for matlab. Matlab Central File Exchange,retreived October, [S.l.], v.10, p.2012, 2012.

WANG, F. et al. Markov model and convergence analysis based on cuckoo search algorithm.Computer Engineering, [S.l.], v.38, n.11, p.180–185, 2012.

WANG, J. et al. Forecasting solar radiation using an optimized hybrid model by Cuckoo Searchalgorithm. Energy, [S.l.], v.81, p.627–644, 2015.

WANG, S.-C. Artificial neural network. In: Interdisciplinary computing in javaprogramming. [S.l.]: Springer, 2003. p.81–100.

WERON, A.; WERON, R. Computer simulation of Lévy α-stable variables and processes. In:Chaos—The Interplay Between Stochastic and Deterministic Behaviour. [S.l.]: Springer,1995. p.379–392.

WOLPERT, D. H.; MACREADY, W. G. et al. No free lunch theorems for search. [S.l.]:Technical Report SFI-TR-95-02-010, Santa Fe Institute, 1995.

YANG, X.-S. Nature-inspired metaheuristic algorithms. [S.l.]: Luniver press, 2010.

YANG, X.-S. Firefly algorithm, stochastic test functions and design optimisation. InternationalJournal of Bio-Inspired Computation, [S.l.], v.2, n.2, p.78–84, 2010.

YANG, X.-S. A new metaheuristic bat-inspired algorithm. In: Nature inspired cooperativestrategies for optimization (NICSO 2010). [S.l.]: Springer, 2010. p.65–74.

YANG, X.-S. Firefly algorithm, Levy flights and global optimization. In: Research anddevelopment in intelligent systems XXVI. [S.l.]: Springer, 2010. p.209–218.

YANG, X.-S. Swarm intelligence based algorithms: a critical analysis. EvolutionaryIntelligence, [S.l.], v.7, n.1, p.17–28, 2014.

YANG, X.-S.; DEB, S. Cuckoo search via Lévy flights. In: NATURE & BIOLOGICALLYINSPIRED COMPUTING, 2009. NABIC 2009. WORLD CONGRESS ON. Anais. . .[S.l.: s.n.], 2009. p.210–214.

YANG, X.-S.; DEB, S. Multiobjective cuckoo search for design optimization. Computers &Operations Research, [S.l.], v.40, n.6, p.1616–1624, 2013.

YANG, X.-S.; DEB, S. Cuckoo search: recent advances and applications. Neural Computingand Applications, [S.l.], v.24, n.1, p.169–174, 2014.

YANG, X.-S.; DEB, S.; FONG, S. Bat algorithm is better than intermittent search strategy.arXiv preprint arXiv:1408.5348, [S.l.], 2014.

ZHAO, X.; WANG, S.; LI, T. Review of evaluation criteria and main methods of wind powerforecasting. Energy Procedia, [S.l.], v.12, p.761–769, 2011.

REFERÊNCIAS 140

ZHENG, H.; ZHOU, Y. A novel cuckoo search optimization algorithm based on Gaussdistribution. Journal of Computational Information Systems, [S.l.], v.8, n.10, p.4193–4200,2012.

APÊNDICES

141

142142142

ARESULTADOS DO PROBLEMA BENCHMARK

Tabela A.1: Benchmark - Melhor configuração dos parâmetros (d = 5)


GA

N: 39pc: 1.00tc: 0.35

pm: 0.28tm: 0.27

N: 30pc: 0.57tc: 0.72

pm: 0.46tm: 0.33

N: 24pc: 0.85tc: 0.68

pm: 0.62tm: 0.10

N: 24pc: 0.83tc: 0.65

pm: 0.69tm: 0.28

N: 46pc: 0.91tc: 0.36

pm: 0.25tm: 0.47

N: 20pc: 0.73tc: 0.67

pm: 0.54tm: 0.49

ACO

N: 10S: 50

q: 0.47ζ : 0.57

N: 27S: 35

q: 0.50ζ : 0.33

N: 14S: 37

q: 0.91ζ : 0.40

N: 18S: 25

q: 0.51ζ : 0.34

N: 10S: 48

q: 0.18ζ : 0.60

N: 38S: 40

q: 0.74ζ : 0.57

PSO

N: 29w: 0.40c1: 1.03c2: 0.85vr: 0.21

N: 46w: 0.53c1: 0.56c2: 1.16vr: 0.80

N: 29w: 0.48c1: 1.30c2: 1.41vr: 0.45

N: 14w: 0.51c1: 1.58c2: 1.77vr: 0.38

N: 28w: 0.40c1: 0.97c2: 0.97vr: 0.31

N: 17w: 0.65c1: 1.44c2: 1.08vr: 0.45

ABC N: 49a: 0.88

N: 27a: 0.40

N: 23a: 0.56

N: 36a: 0.79

N: 48a: 0.96

N: 32a: 0.53

FA

N: 42α: 0.75β0: 1.89γ: 0.75αr: 0.10

N: 47α: 0.34β0: 1.93γ: 0.66αr: 0.91

N: 38α: 0.42β0: 1.74γ: 0.40αr: 0.25

N: 48α: 0.54β0: 2.45γ: 0.61αr: 0.50

N: 17α: 0.59β0: 2.20γ: 1.00αr: 0.32

N: 24α: 0.13β0: 2.17γ: 0.25αr: 0.31

CS N: 22pa: 0.19

N: 42pa: 0.17

N: 24pa: 0.55

N: 34pa: 0.30

N: 31pa: 0.32

N: 10pa: 0.41

BATN: 25

α: 0.17λ : 0.44

N: 46α: 0.44λ : 0.22

N: 40α: 0.30λ : 0.50

N: 36α: 0.75λ : 0.73

N: 39α: 0.55λ : 0.33

N: 42α: 0.60λ : 0.69

SACS N: 25 N: 18 N: 16 N: 31 N: 20 N: 10

143



GA

N: 50

pc: 1.00

tc: 0.39

pm: 0.35

tm: 0.17

N: 26

pc: 0.51

tc: 0.63

pm: 0.38

tm: 0.26

N: 31

pc: 0.66

tc: 0.83

pm: 0.58

tm: 0.28

N: 39

pc: 1.00

tc: 0.54

pm: 0.42

tm: 0.55

N: 45

pc: 1.00

tc: 0.42

pm: 0.31

tm: 0.39

N: 43

pc: 0.76

tc: 0.61

pm: 0.58

tm: 0.35

ACO

N: 17

S: 50

q: 0.27

ζ : 0.49

N: 13

S: 26

q: 0.68

ζ : 0.91

N: 40

S: 38

q: 0.47

ζ : 0.35

N: 22

S: 44

q: 0.41

ζ : 0.42

N: 10

S: 50

q: 0.24

ζ : 0.68

N: 37

S: 24

q: 0.41

ζ : 0.86

PSO

N: 50

w: 0.40

c1: 1.17

c2: 1.01

vr: 0.93

N: 30

w: 0.61

c1: 1.77

c2: 1.66

vr: 0.62

N: 31

w: 0.55

c1: 1.47

c2: 1.59

vr: 0.26

N: 24

w: 0.47

c1: 0.81

c2: 1.29

vr: 0.89

N: 50

w: 0.40

c1: 1.00

c2: 1.10

vr: 0.78

N: 13

w: 0.65

c1: 1.71

c2: 1.12

vr: 0.71

ABCN: 38

a: 0.60

N: 10

a: 0.52

N: 10

a: 0.64

N: 24

a: 0.81

N: 31

a: 0.76

N: 35

a: 0.86

FA

N: 50

α: 0.69

β0: 2.03

γ: 0.41

αr: 0.21

N: 29

α: 0.65

β0: 2.48

γ: 0.29

αr: 0.49

N: 32

α: 0.45

β0: 1.98

γ: 0.68

αr: 0.51

N: 47

α: 0.76

β0: 2.29

γ: 0.34

αr: 0.32

N: 44

α: 0.58

β0: 2.12

γ: 0.52

αr: 0.25

N: 15

α: 0.56

β0: 1.85

γ: 0.62

αr: 0.50

CSN: 46

pa: 0.42

N: 38

pa: 0.23

N: 33

pa: 0.16

N: 48

pa: 0.25

N: 24

pa: 0.27

N: 10

pa: 0.20

BATN: 43

α: 0.49

λ : 0.54

N: 43

α: 0.64

λ : 0.64

N: 33

α: 0.47

λ : 0.34

N: 10

α: 0.52

λ : 0.21

N: 32

α: 0.71

λ : 0.26

N: 32

α: 0.81

λ : 0.47

SACS N: 33 N: 22 N: 10 N: 12 N: 41 N: 27

144



GA

N: 48

pc: 0.92

tc: 0.44

pm: 0.15

tm: 0.31

N: 17

pc: 0.79

tc: 0.77

pm: 0.73

tm: 0.44

N: 35

pc: 0.65

tc: 0.38

pm: 0.46

tm: 0.63

N: 15

pc: 1.00

tc: 0.63

pm: 0.78

tm: 0.51

N: 44

pc: 0.99

tc: 0.43

pm: 0.54

tm: 0.45

N: 26

pc: 0.81

tc: 0.81

pm: 0.76

tm: 0.40

ACO

N: 19

S: 50

q: 0.46

ζ : 0.43

N: 13

S: 36

q: 0.69

ζ : 0.64

N: 21

S: 33

q: 0.57

ζ : 0.42

N: 19

S: 50

q: 0.30

ζ : 0.50

N: 15

S: 50

q: 0.20

ζ : 0.58

N: 37

S: 12

q: 0.22

ζ : 0.18

PSO

N: 46

w: 0.43

c1: 1.35

c2: 1.30

vr: 0.75

N: 10

w: 0.54

c1: 1.52

c2: 1.70

vr: 0.58

N: 28

w: 0.61

c1: 1.38

c2: 0.55

vr: 0.64

N: 36

w: 0.54

c1: 1.05

c2: 1.39

vr: 0.88

N: 45

w: 0.67

c1: 1.62

c2: 0.84

vr: 0.52

N: 10

w: 0.65

c1: 1.60

c2: 1.39

vr: 0.34

ABCN: 33

a: 0.43

N: 13

a: 0.43

N: 10

a: 0.73

N: 13

a: 0.50

N: 13

a: 0.61

N: 30

a: 0.84

FA

N: 50

α: 0.87

β0: 1.88

γ: 0.78

αr: 0.43

N: 24

α: 0.23

β0: 2.58

γ: 0.32

αr: 0.73

N: 32

α: 0.40

β0: 2.00

γ: 0.73

αr: 0.82

N: 46

α: 0.69

β0: 2.12

γ: 0.45

αr: 0.55

N: 35

α: 0.52

β0: 2.14

γ: 0.73

αr: 0.65

N: 12

α: 0.42

β0: 2.52

γ: 0.64

αr: 0.81

CSN: 48

pa: 0.10

N: 31

pa: 0.28

N: 16

pa: 0.22

N: 17

pa: 0.31

N: 27

pa: 0.24

N: 10

pa: 0.53

BATN: 41

α: 0.49

λ : 0.57

N: 12

α: 0.75

λ : 0.53

N: 42

α: 0.61

λ : 0.57

N: 11

α: 0.32

λ : 0.42

N: 10

α: 0.29

λ : 0.82

N: 41

α: 0.64

λ : 0.45

SACS N: 45 N: 11 N: 10 N: 13 N: 20 N: 20

145



GA

N: 49

pc: 0.80

tc: 0.47

pm: 0.37

tm: 0.48

N: 33

pc: 0.90

tc: 0.49

pm: 0.52

tm: 0.27

N: 41

pc: 0.92

tc: 0.33

pm: 0.22

tm: 0.36

N: 48

pc: 0.87

tc: 0.44

pm: 0.40

tm: 0.43

N: 10

pc: 0.77

tc: 0.67

pm: 0.75

tm: 0.30

N: 10

pc: 0.58

tc: 0.77

pm: 0.76

tm: 0.13

ACO

N: 19

S: 50

q: 0.35

ζ : 0.52

N: 10

S: 49

q: 0.26

ζ : 0.70

N: 12

S: 42

q: 0.56

ζ : 0.46

N: 13

S: 50

q: 0.84

ζ : 0.55

N: 18

S: 50

q: 0.33

ζ : 0.58

N: 35

S: 32

q: 0.50

ζ : 0.57

PSO

N: 39

w: 0.52

c1: 1.86

c2: 1.25

vr: 0.10

N: 14

w: 0.50

c1: 1.61

c2: 1.69

vr: 0.12

N: 25

w: 0.53

c1: 1.60

c2: 1.18

vr: 0.14

N: 34

w: 0.62

c1: 1.81

c2: 1.22

vr: 0.33

N: 20

w: 0.60

c1: 1.90

c2: 1.42

vr: 0.10

N: 10

w: 0.51

c1: 1.78

c2: 1.57

vr: 0.41

ABCN: 14

a: 0.28

N: 22

a: 0.21

N: 10

a: 0.52

N: 12

a: 0.39

N: 10

a: 0.56

N: 22

a: 0.78

FA

N: 50

α: 0.51

β0: 1.83

γ: 0.68

αr: 0.72

N: 10

α: 0.50

β0: 1.84

γ: 0.65

αr: 0.95

N: 27

α: 0.73

β0: 1.86

γ: 0.49

αr: 0.81

N: 47

α: 0.81

β0: 2.03

γ: 0.45

αr: 0.85

N: 45

α: 0.26

β0: 2.04

γ: 0.31

αr: 0.83

N: 10

α: 0.65

β0: 2.33

γ: 0.49

αr: 0.65

CSN: 24

pa: 0.12

N: 30

pa: 0.17

N: 37

pa: 0.21

N: 24

pa: 0.28

N: 16

pa: 0.10

N: 10

pa: 0.13

BATN: 45

α: 0.36

λ : 0.76

N: 32

α: 0.77

λ : 0.21

N: 43

α: 0.31

λ : 0.28

N: 37

α: 0.43

λ : 0.66

N: 10

α: 0.39

λ : 0.34

N: 48

α: 0.53

λ : 0.60

SACS N: 11 N: 14 N: 10 N: 17 N: 10 N: 35

146



GA

N: 45

pc: 0.84

tc: 0.43

pm: 0.25

tm: 0.38

N: 39

pc: 0.98

tc: 0.34

pm: 0.16

tm: 0.36

N: 47

pc: 1.00

tc: 0.33

pm: 0.10

tm: 0.39

N: 44

pc: 1.00

tc: 0.44

pm: 0.17

tm: 0.38

N: 10

pc: 0.56

tc: 0.48

pm: 0.67

tm: 0.49

N: 10

pc: 0.55

tc: 0.68

pm: 0.63

tm: 0.46

ACO

N: 27

S: 47

q: 0.48

ζ : 0.36

N: 21

S: 49

q: 0.61

ζ : 0.38

N: 13

S: 31

q: 0.67

ζ : 0.35

N: 21

S: 45

q: 0.70

ζ : 0.43

N: 13

S: 34

q: 0.58

ζ : 0.49

N: 33

S: 36

q: 0.90

ζ : 0.76

PSO

N: 24

w: 0.60

c1: 2.21

c2: 0.93

vr: 0.87

N: 29

w: 0.56

c1: 1.74

c2: 1.50

vr: 0.10

N: 28

w: 0.44

c1: 2.24

c2: 1.36

vr: 0.10

N: 33

w: 0.43

c1: 1.47

c2: 1.69

vr: 0.10

N: 10

w: 0.67

c1: 0.75

c2: 2.13

vr: 0.10

N: 10

w: 0.77

c1: 1.64

c2: 0.63

vr: 0.71

ABCN: 13

a: 0.26

N: 10

a: 0.22

N: 10

a: 0.41

N: 10

a: 0.26

N: 10

a: 0.44

N: 31

a: 1.06

FA

N: 50

α: 0.65

β0: 1.79

γ: 0.74

αr: 0.84

N: 29

α: 0.83

β0: 2.06

γ: 0.47

αr: 0.53

N: 17

α: 0.27

β0: 1.44

γ: 0.78

αr: 0.97

N: 49

α: 0.69

β0: 2.05

γ: 0.45

αr: 0.78

N: 10

α: 0.67

β0: 0.10

γ: 0.45

αr: 0.23

N: 19

α: 0.74

β0: 2.17

γ: 0.59

αr: 0.64

CSN: 44

pa: 0.10

N: 45

pa: 0.43

N: 42

pa: 0.13

N: 24

pa: 0.10

N: 18

pa: 0.15

N: 10

pa: 0.19

BATN: 38

α: 0.45

λ : 0.67

N: 20

α: 0.72

λ : 0.29

N: 26

α: 0.32

λ : 0.67

N: 48

α: 0.45

λ : 0.43

N: 10

α: 0.47

λ : 0.49

N: 25

α: 0.83

λ : 0.85

SACS N: 10 N: 10 N: 10 N: 10 N: 10 N: 17

147

Tabela A.6: Benchmark - Comparação entre os erros (d = 5)


GA1.57e-05

(4.72e-05)

0.26

(0.10)

2.32e-11

(7.34e-11)

3.45e-02

(1.56e-02)

8.92e-03

(1.94e-02)

260.70

(122.17)

ACO9.54e-22

(3.02e-21)

3.00

(1.25)

2.39

(1.50)

6.27e-02

(7.49e-02)

0.55

(1.28)

36.68

(65.45)

PSO2.66e-182

(0)

1.32e-28

(6.61e-29)

3.08

(2.12)

0.11

(7.44e-02)

2.22e-15(0)

418.49

(237.40)

ABC2.45e-12

(1.72e-12)

0.53

(0.24)

2.54

(0.66)

7.37e-02

(1.94e-02)

2.66e-05

(6.03e-06)

22.59

(16.96)

FA4.94e-324

(0)2.64e-06

(3.06e-06)

1.39

(1.50)

4.19e-03

(6.87e-03)

0.16

(0.52)

402.23

(207.05)

CS4.94e-324

(0)2.03e-30

(1.32e-30)7.11e-15

(0)4.94e-324

(0)2.22e-15

(0)6.36e-05

(0)

BAT8.45e-08

(7.63e-08)

0.34

(0.13)

9.34e-06

(6.46e-06)

2.08e-02

(8.66e-03)

2.09e-03

(6.07e-04)

1.23e-04

(4.02e-05)

SACS4.94e-324

(0)4.11e-23

(6.46e-23)

1.19

(0.78)

2.14e-02

(2.29e-02)

2.22e-15(0)

0.12

(0.11)



GA1.46e-06

(2.48e-06)

7.08

(1.16)

0.20

(0.42)

2.21e-02

(1.99e-02)

0.29

(0.60)

450.07

(199.75)

ACO2.75e-03

(8.64e-03)

8.91e-04

(1.86e-04)

3.18

(0.91)

3.35e-02

(2.38e-02)

0.48

(0.80)

108.79

(129.06)

PSO3.13e-85

(9.89e-85)

0.80

(1.68)

11.64

(4.78)

0.19

(0.14)

0.49

(0.80)

1.25e+03

(304.56)

ABC2.20e-07

(1.69e-07)

10.14

(0.86)

28.38

(3.42)

0.31

(7.96e-02)

2.79e-02

(4.32e-03)

102.50

(85.66)

FA1.05e-60

(3.32e-60)

7.68e-27

(6.71e-27)

5.87

(2.59)

2.17e-02

(1.47e-02)

0.56

(0.74)

1.22e+03

(427.01)

CS1.10e-293

(0)

1.02e-29(1.58e-30)

1.42e-14(0)

4.94e-324(0)

2.22e-15(0)

1.27e-04(0)

BAT3.81e-07

(2.58e-07)

4.39

(1.53)

8.41e-05

(6.77e-05)

6.16e-02

(1.05e-02)

4.51e-03

(9.33e-04)

8.77e-04

(4.16e-04)

SACS4.94e-324

(0)0.40

(1.26)

9.52

(6.37)

0.12

(7.89e-02)

2.22e-15(0)

5.90e-02

(4.61e-02)

148



GA2.14e-04

(4.32e-04)

16.18

(3.98)

31.04

(8.69)

1.77

(1.02)

0.90

(0.62)

2.32e+03

(453.80)

ACO2.28e-05

(4.27e-05)

14.04

(7.39)

12.47

(2.60)

5.96e-02

(9.97e-02)

1.47

(1.14)

592.63

(705.59)

PSO7.91e-323

(0)6.07

(6.01)

26.71

(8.03)

4.84e-02

(4.21e-02)

1.28

(0.71)

3.71e+03

(751.81)

ABC2.09e-05

(1.11e-05)

25.97

(1.79)

114.22

(9.72)

1.37

(0.11)

3.93

(0.23)

198.80

(198.84)

FA1.14e-08

(3.50e-08)

0.82

(1.67)

23.80

(9.45)

1.55e-02

(1.54e-02)

0.77

(1.49)

2.67e+03

(531.96)

CS1.60e-253

(0)

2.37e-29(0)

2.84e-14(0)

4.94e-324(0)

2.22e-15(0)

2.55e-04(0)

BAT2.15e-06

(5.67e-07)

15.08

(3.06)

4.75e-04

(2.28e-04)

5.57e-02

(1.56e-02)

4.01e-02

(1.51e-02)

3.28e-03

(1.02e-03)

SACS1.27e-214

(0)

1.45

(2.23)

47.66

(25.12)

1.86e-02

(2.18e-02)

2.22e-15(0)

0.15

(0.11)



GA0.21

(0.59)

151.08

(57.17)

128.19

(42.57)

1.49

(1.13)

7.69

(0.81)

5.44e+03

(680.16)

ACO1.90e-04

(3.60e-04)

50.78

(14.01)

87.90

(14.67)

3.81e-02

(6.06e-02)

0.75

(0.84)

487.96

(425.44)

PSO7.34e-104

(2.32e-103)

34.36

(4.74)

76.04

(21.69)

0.21

(0.31)

4.06

(0.75)

9.90e+03

(1.24e+03)

ABC0.36

(0.12)

52.50

(1.09)

454.02

(24.19)

4.06

(0.47)

9.21

(0.82)

864.85

(880.04)

FA1.37e-03

(2.55e-03)

92.22

(33.88)

134.37

(31.03)

7.79e-02

(0.13)

2.61

(1.48)

7.71e+03

(1.12e+03)

CS8.40e-311

(0)6.10e-29

(0)5.68e-14

(0)1.12e-288

(0)2.22e-15

(0)6.36e-04

(0)

BAT2.98e-05

(1.16e-05)

45.43

(2.18)

7.61e-03

(2.72e-03)

2.94e-02

(1.19e-02)

0.12

(2.69e-02)

3.48e-02

(7.12e-03)

SACS1.78e-04

(5.64e-04)

38.01

(16.62)

149.30

(41.25)

1.24e-02

(3.03e-02)

7.59

(4.92)

0.22

(0.11)

149



GA8.34

(7.44)

836.15

(221.78)

300.24

(67.36)

14.77

(7.80)

14.60

(1.42)

2.59e+04

(1.50e+03)

ACO1.42

(2.18)

215.05

(45.66)

301.61

(18.72)

1.98

(3.37)

8.97

(1.59)

1.29e+03

(1.33e+03)

PSO0.66

(1.28)

78.55

(4.99)

119.19

(26.09)

0.66

(0.62)

10.33

(1.19)

2.24e+04

(2.19e+03)

ABC1.07

(0.15)

533.86

(104.30)

1.18e+03

(28.83)

16.94

(3.05)

16.58

(0.66)

983.07

(949.82)

FA4.32e-05

(1.19e-04)

934.17

(676.09)

380.71

(46.99)

9.11

(28.61)

15.54

(0.48)

1.57e+04

(2.15e+03)

CS1.49e-250

(0)1.23e-28

(0)1.14e-13

(0)4.94e-324

(0)2.22e-15

(0)1.27e-03

(0)

BAT3.59e-04

(7.57e-05)

145.41

(57.39)

0.15

(3.52e-02)

7.61e-02

(2.42e-02)

0.27

(1.90e-02)

1.01

(0.24)

SACS0.12

(0.30)

147.12

(40.75)

430.69

(95.42)

0.56

(0.47)

14.26

(2.12)

1.41

(1.34)

Tabela A.11: Benchmark - Diferença percentual entre os erros (d = 5)

Sphere Rosenbrock Rastrigin Griewank Ackley SchwefelGA Inf 1.29e+31 3.27e+05 Inf 4.02e+14 4.10e+08

ACO 1.93e+304 1.48e+32 3.37e+16 Inf 2.49e+16 5.76e+07

PSO 5.38e+143 6.40e+03 4.34e+16 Inf 0 6.58e+08

ABC Inf 2.63e+31 3.57e+16 Inf 1.20e+12 3.55e+07

FA 0 1.30e+26 1.96e+16 Inf 7.41e+15 6.32e+08

CS 0 0 0 0 0 0BAT Inf 1.65e+31 1.31e+11 Inf 9.39e+13 92.81

SACS 0 2.02e+09 1.68e+16 Inf 0 1.82e+05

150



ACO Inf 8.70e+27 2.24e+16 Inf 2.17e+16 8.55e+07

PSO 6.33e+240 7.78e+30 8.19e+16 Inf 2.22e+16 9.82e+08

ABC Inf 9.89e+31 2.00e+17 Inf 1.25e+15 8.05e+07

FA 2.13e+265 7.49e+04 4.13e+16 Inf 2.52e+16 9.62e+08

CS 2.23e+32 0 0 0 0 0BAT Inf 4.29e+31 5.92e+11 Inf 2.03e+14 589.03

SACS 0 3.89e+30 6.70e+16 Inf 0 4.62e+04



ACO Inf 5.93e+31 4.39e+16 Inf 6.64e+16 2.33e+08

PSO 0 2.57e+31 9.40e+16 Inf 5.77e+16 1.46e+09

ABC Inf 1.10e+32 4.02e+17 Inf 1.77e+17 7.81e+07

FA Inf 3.47e+30 8.37e+16 Inf 3.47e+16 1.05e+09

CS 2.02e+71 0 0 0 0 0BAT Inf 6.37e+31 1.67e+12 Inf 1.81e+15 1.19e+03

SACS 1.60e+110 6.11e+30 1.68e+17 Inf 0 6.06e+04


Sphere Rosenbrock Rastrigin Griewank Ackley SchwefelGA Inf 2.48e+32 2.26e+17 1.32e+290 3.46e+17 8.55e+08

ACO Inf 8.32e+31 1.55e+17 3.39e+288 3.38e+16 7.67e+07

PSO 8.74e+208 5.63e+31 1.34e+17 1.83e+289 1.83e+17 1.56e+09

ABC Inf 8.61e+31 7.99e+17 3.61e+290 4.15e+17 1.36e+08

FA Inf 1.51e+32 2.36e+17 6.92e+288 1.18e+17 1.21e+09

CS 0 0 0 0 0 0BAT 3.55e+307 7.45e+31 1.34e+13 2.62e+288 5.45e+15 5.37e+03

SACS Inf 6.23e+31 2.63e+17 1.10e+288 3.42e+17 3.48e+04

151


Sphere Rosenbrock Rastrigin Griewank Ackley SchwefelGA 5.60e+252 6.78e+32 2.64e+17 Inf 6.57e+17 2.03e+09

ACO 9.51e+251 1.74e+32 2.65e+17 Inf 4.04e+17 1.01e+08

PSO 4.42e+251 6.37e+31 1.05e+17 Inf 4.65e+17 1.76e+09

ABC 7.21e+251 4.33e+32 1.04e+18 Inf 7.47e+17 7.72e+07

FA 2.90e+247 7.58e+32 3.35e+17 Inf 7.00e+17 1.24e+09

CS 0 0 0 0 0 0BAT 2.41e+248 1.18e+32 1.34e+14 Inf 1.22e+16 7.93e+04

SACS 8.26e+250 1.19e+32 3.79e+17 Inf 6.42e+17 1.11e+05

Tabela A.16: Benchmark - Comparação do tempo de execução (d = 5)


GA29.40

(0.24)

25.76(3.62e-02)

27.46

(8.99e-02)

28.11

(0.15)

41.62

(0.25)

21.84

(7.10e-02)

ACO27.38

(0.13)

29.65

(8.09e-02)

26.61

(7.66e-02)

20.15

(7.48e-02)

35.57

(8.36e-02)

39.24

(7.50e-02)

PSO20.66

(0.12)

38.81

(6.11e-02)

23.93(5.56e-02)

11.43(3.80e-02)

28.37

(4.79)

14.68

(3.76e-02)

ABC55.76

(0.32)

38.64

(5.12e-02)

32.24

(5.91e-02)

48.98

(0.20)

73.92

(0.13)

47.13

(5.06e-02)

FA45.51

(0.20)

73.46

(5.65)

35.54

(0.80)

172.40

(130.18)

7.62(2.78e-02)

14.51

(0.26)

CS17.34

(7.03e-02)47.60

(1.82)

26.28

(4.65e-02)

35.34

(5.52e-02)

38.66

(8.24e-02)

11.52(2.05e-02)

BAT21.16

(0.11)

57.42

(0.39)

46.36

(9.77e-02)

39.56

(0.17)

47.53

(6.13e-02)

51.15

(8.70e-02)

SACS60.31

(0.19)

43.10

(9.91e-02)

36.63

(7.44e-02)

89.93

(0.63)

53.07

(7.04e-02)

21.11

(2.99e-02)

152



GA39.74

(0.79)

20.73

(0.24)

29.84

(7.21e-02)

39.39

(3.76e-02)

46.53

(0.16)

44.28

(0.13)

ACO39.76

(9.23e-02)

26.23

(6.93e-02)

45.57

(0.13)

42.71

(0.12)

48.12

(7.73e-02)

34.55

(4.36e-02)

PSO36.12(0.15)

25.74

(6.93e-02)

25.82

(9.94e-02)

19.72

(5.20e-02)

45.29

(0.12)

11.33

(3.76e-02)

ABC42.95

(0.12)

14.67(3.34e-02)

14.47(1.66e-02)

33.02

(0.13)

48.11

(0.10)

53.00

(8.46e-02)

FA66.97

(2.10)

118.79

(14.70)

44.09

(23.91)

373.07

(67.36)

47.72

(0.27)

7.61(3.42)

CS37.87

(0.12)

47.32

(2.19)

37.14

(4.97e-02)

49.72

(0.19)

30.55(6.12e-02)

11.75

(3.77e-02)

BAT46.21

(8.95e-02)

53.22

(0.13)

35.87

(0.15)

8.09(1.98e-02)

36.79

(6.53e-02)

35.65

(4.10e-02)

SACS100.92

(0.37)

63.97

(0.29)

24.50

(4.21e-02)

29.85

(0.13)

157.59

(0.20)

86.04

(0.43)



GA29.38(0.45)

22.13

(5.41e-02)

30.24

(3.28e-02)

22.58

(3.95e-02)

53.60

(0.18)

34.52

(2.45e-02)

ACO64.47

(0.24)

51.46

(7.16e-02)

49.64

(0.13)

69.99

(0.17)

72.23

(0.18)

29.03

(0.20)

PSO34.20

(0.11)

9.06(0.17)

24.59

(0.20)

29.90

(0.50)

40.77

(0.12)

8.99

(2.13e-02)

ABC37.13

(9.50e-02)

18.72

(3.88e-02)

14.46(3.46e-02)

18.36

(2.19e-02)

20.44

(2.87e-02)

47.41

(4.94e-02)

FA63.55

(2.29)

126.61

(39.36)

73.70

(62.16)

282.37

(158.11)

31.21

(0.37)

6.79(5.53)

CS41.40

(8.49e-02)

41.19

(6.86e-02)

19.15

(4.90e-02)

19.32

(3.89e-02)

35.24

(0.11)

12.41

(2.67e-02)

BAT42.70

(4.43e-02)

10.28

(2.31e-02)

49.94

(0.10)

9.08(1.86e-02)

8.89(2.53e-02)

50.03

(0.12)

SACS189.78

(0.20)

34.60

(8.96e-02)

31.77

(5.61e-02)

42.04

(0.46)

73.52

(0.10)

72.43

(0.11)

153



GA35.40

(0.37)

37.00

(8.93e-02)

36.27

(0.13)

45.52

(8.04e-02)

16.28

(5.40e-02)

16.03

(2.29e-02)

ACO137.42

(0.52)

138.61

(0.43)

119.91

(0.50)

142.27

(0.28)

147.58

(0.84)

108.14

(0.44)

PSO32.87

(4.61e-02)

13.69

(9.62e-02)

23.58

(0.18)

31.37

(0.98)

20.12

(7.85e-02)

10.13

(6.71e-02)

ABC16.33

(4.47e-02)32.21

(4.73e-02)

14.93(2.62e-02)

17.74(6.15e-02)

16.53

(2.17e-02)

39.75

(6.92e-02)

FA73.50

(3.58)

4.32(3.03e-02)

36.62

(32.03)

70.89

(28.38)

80.44

(46.42)

6.05(3.76)

CS25.65

(6.26e-02)

46.10

(0.13)

51.21

(8.92e-02)

31.47

(7.41e-02)

24.21

(3.97e-02)

14.37

(2.22e-02)

BAT49.96

(8.50e-02)

35.68

(7.07e-02)

52.79

(0.11)

42.81

(0.10)

9.17(3.06e-02)

64.08

(0.12)

SACS53.37

(0.71)

73.06

(0.23)

52.56

(0.13)

91.26

(1.31)

54.15

(0.19)

220.88

(0.50)



GA30.86

(0.44)

34.24

(3.72e-02)

41.26

(0.13)

39.29

(9.39e-02)

15.57

(3.31e-02)

14.41

(2.85e-02)

ACO238.89

(0.79)

258.95

(0.52)

160.67

(0.20)

234.39

(0.28)

176.24

(0.42)

207.44

(0.46)

PSO20.67

(0.11)

27.90

(0.15)

26.85

(9.76e-02)

30.91

(0.21)

10.53

(1.69e-02)

11.06(3.29e-02)

ABC15.46

(6.16e-02)15.18

(3.34e-02)15.75

(3.13e-02)

15.79(1.48e-02)

17.10

(2.61e-02)

67.34

(7.72e-02)

FA70.89

(4.24)

24.69

(0.60)

12.27(0.24)

102.03

(84.36)

29.95

(2.12)

22.62

(18.26)

CS58.34

(0.16)

81.22

(8.78e-02)

70.69

(0.11)

39.20

(0.14)

32.14

(4.31e-02)

18.68

(2.45e-02)

BAT39.38

(0.11)

19.82

(1.84e-02)

27.17

(6.01e-02)

62.54

(9.96e-02)

9.43(2.25e-02)

27.55

(2.97e-02)

SACS81.80

(0.30)

84.47

(0.25)

87.93

(0.54)

84.49

(0.30)

89.80

(0.35)

157.21

(0.28)

154

Tabela A.21: Benchmark - Diferença percentual entre os tempos de execução (d = 5)

Sphere Rosenbrock Rastrigin Griewank Ackley SchwefelGA 69.53 0 14.76 145.88 446.23 89.69

ACO 57.89 15.12 11.22 76.28 366.83 240.79

PSO 19.12 50.66 0 0 272.24 27.49

ABC 221.53 50.00 34.76 328.43 870.03 309.32

FA 162.39 185.17 48.54 1.41e+03 0 26.03

CS 0 84.79 9.82 209.08 407.35 0BAT 22.00 122.90 93.75 246.04 523.77 344.24

SACS 247.74 67.32 53.11 686.55 596.48 83.32



ACO 10.07 78.80 214.82 427.75 57.51 354.29

PSO 0 75.46 78.38 143.72 48.26 48.90

ABC 18.90 0 0 308.04 57.49 596.83

FA 85.41 709.68 204.60 4.51e+03 56.20 0CS 4.85 222.56 156.57 514.36 0 54.42

BAT 27.93 262.75 147.80 0 20.43 368.65

SACS 179.38 336.04 69.28 268.88 415.85 1.03e+03


Sphere Rosenbrock Rastrigin Griewank Ackley SchwefelGA 0 144.28 109.07 148.70 503.10 408.25

ACO 119.42 468.14 243.20 670.88 712.72 327.42

PSO 16.39 0 70.04 229.26 358.79 32.28

ABC 26.37 106.72 0 102.20 129.99 597.96

FA 116.28 1.30e+03 409.55 3.01e+03 251.19 0CS 40.92 354.77 32.43 112.83 296.48 82.71

BAT 45.34 13.54 245.30 0 0 636.56

SACS 545.92 282.05 119.68 363.03 727.25 966.29

155



ACO 741.36 3.11e+03 702.90 701.99 1.51e+03 1.69e+03

PSO 101.23 216.69 57.90 76.84 119.46 67.43

ABC 0 645.25 0 0 80.30 556.86

FA 349.99 0 145.21 299.62 777.51 0CS 57.07 966.86 242.90 77.41 164.13 137.45

BAT 205.90 725.69 253.45 141.31 0 958.89

SACS 226.79 1.59e+03 251.96 414.45 490.73 3.55e+03



ACO 1.44e+03 1.61e+03 1.21e+03 1.38e+03 1.77e+03 1.78e+03

PSO 33.70 83.82 118.76 95.77 11.63 0ABC 0 0 28.36 0 81.36 509.11

FA 358.45 62.70 0 546.29 217.66 104.58

CS 277.26 435.13 476.01 148.30 240.81 68.96

BAT 154.69 30.62 121.37 296.18 0 149.18

SACS 428.96 456.55 616.45 435.18 852.36 1.32e+03

156

Tabela A.26: Benchmark - Teste de Nemenyi (d = 5)


Sphere

ACO 0PSO 1 0ABC 0 0 1FA 1 1 0 1CS 1 1 0 1 0

BAT 0 0 1 0 1 1SACS 1 1 0 1 0 0 1

Rosenbrock

ACO 0PSO 1 1ABC 0 0 1FA 1 1 0 0CS 1 1 0 1 0

BAT 0 0 1 0 1 1SACS 0 1 0 0 0 1 0

Rastrigin

ACO 1PSO 1 0ABC 1 0 0FA 1 0 0 0CS 0 1 1 1 1

BAT 0 0 1 1 0 0SACS 0 0 0 1 0 0 0

Griewank

ACO 0PSO 0 0ABC 0 0 0FA 1 1 1 1CS 1 1 1 1 0

BAT 0 0 0 1 0 0SACS 1 0 1 1 0 0 0

Ackley

ACO 0PSO 0 1ABC 0 0 1FA 0 0 0 0CS 0 1 0 1 0

BAT 0 0 1 0 1 1SACS 0 1 0 1 0 0 1

Schwefel

ACO 0PSO 0 0ABC 0 0 1FA 0 0 0 1CS 1 1 1 1 1

BAT 1 0 1 0 1 0SACS 0 0 1 0 1 0 0

157



Sphere

ACO 0PSO 1 1ABC 0 0 1FA 0 1 0 1CS 1 1 0 1 0

BAT 0 0 1 0 1 1SACS 1 1 0 1 0 0 1

Rosenbrock

ACO 0PSO 1 0ABC 0 1 1FA 1 0 0 1CS 1 1 1 1 0

BAT 0 0 0 0 1 1SACS 1 0 0 1 0 0 1

Rastrigin

ACO 0PSO 1 0ABC 1 1 0FA 0 0 0 0CS 0 0 1 1 1

BAT 0 0 1 1 1 0SACS 1 0 0 0 0 1 1

Griewank

ACO 0PSO 1 1ABC 1 1 0FA 0 0 1 1CS 0 0 1 1 0

BAT 0 0 0 0 0 1SACS 0 0 0 0 0 1 0

Ackley

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 1 0 1 1 1

BAT 0 0 0 0 0 1SACS 1 0 1 1 1 0 1

Schwefel

ACO 0PSO 0 1ABC 0 0 1FA 0 1 0 1CS 1 1 1 1 1

BAT 1 0 1 0 1 0SACS 1 0 1 0 1 0 0

158



Sphere

ACO 0PSO 1 1ABC 0 0 1FA 0 0 1 0CS 1 1 0 1 0

BAT 0 0 1 0 0 1SACS 1 1 0 1 0 0 1

Rosenbrock

ACO 0PSO 0 0ABC 0 0 1FA 1 1 0 1CS 1 1 0 1 0

BAT 0 0 0 1 1 1SACS 0 0 0 1 1 1 0

Rastrigin

ACO 1PSO 0 0ABC 0 1 0FA 0 0 0 1CS 1 0 1 1 1

BAT 1 0 1 1 0 0SACS 0 0 0 0 0 1 1

Griewank

ACO 1PSO 1 0ABC 0 1 1FA 1 0 0 1CS 1 0 0 1 0

BAT 0 0 0 0 1 1SACS 0 0 0 0 0 1 0

Ackley

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 1CS 1 1 1 1 0

BAT 0 0 0 1 0 1SACS 1 1 1 1 0 0 0

Schwefel

ACO 0PSO 0 1ABC 0 0 1FA 0 0 0 0CS 1 1 1 1 1

BAT 1 0 1 0 1 0SACS 1 0 1 0 1 0 0

159



Sphere

ACO 1PSO 1 0ABC 0 1 1FA 0 0 0 1CS 1 0 0 1 1

BAT 0 0 1 0 0 1SACS 1 0 0 1 0 0 0

Rosenbrock

ACO 1PSO 1 0ABC 0 0 1FA 0 0 1 0CS 1 1 0 1 1

BAT 1 0 0 0 0 1SACS 1 0 0 0 1 0 0

Rastrigin

ACO 0PSO 0 0ABC 0 1 1FA 0 0 0 0CS 1 1 0 1 1

BAT 1 0 0 1 1 0SACS 0 0 0 0 0 1 1

Griewank

ACO 1PSO 1 0ABC 0 1 1FA 1 0 0 1CS 1 0 1 1 0

BAT 0 0 0 0 0 1SACS 0 0 0 0 0 1 0

Ackley

ACO 1PSO 0 0ABC 0 1 0FA 0 0 0 1CS 1 0 1 1 1

BAT 1 0 0 1 0 0SACS 0 1 1 0 1 1 1

Schwefel

ACO 0PSO 0 1ABC 0 0 1FA 0 0 0 0CS 1 1 1 1 1

BAT 1 0 1 0 1 0SACS 1 0 1 0 1 0 0

160



Sphere

ACO 1PSO 0 0ABC 0 0 0FA 1 0 1 1CS 1 1 1 1 0

BAT 1 0 1 0 0 0SACS 0 0 0 0 1 1 1

Rosenbrock

ACO 1PSO 1 0ABC 0 0 1FA 0 1 1 0CS 1 1 0 1 1

BAT 1 0 0 1 1 0SACS 0 0 1 0 0 1 0

Rastrigin

ACO 0PSO 0 0ABC 1 1 1FA 0 0 1 0CS 1 1 0 1 1

BAT 1 0 0 1 1 0SACS 0 0 1 0 0 1 1

Griewank

ACO 0PSO 0 0ABC 0 1 1FA 1 0 0 1CS 1 0 1 1 0

BAT 0 0 0 1 0 1SACS 0 1 1 0 1 1 1

Ackley

ACO 1PSO 0 0ABC 0 1 1FA 0 0 0 0CS 1 0 1 1 1

BAT 1 0 0 1 1 0SACS 0 1 1 0 0 1 1

Schwefel

ACO 1PSO 0 0ABC 1 0 0FA 0 0 0 0CS 1 1 1 1 1

BAT 1 0 1 0 1 0SACS 1 0 1 0 1 0 0

161

Figura A.1: Benchmark - Convergência dos algoritmos na função Rosenbrock

162

Figura A.2: Benchmark - Convergência dos algoritmos na função Rastrigin

163

Figura A.3: Benchmark - Convergência dos algoritmos na função Griewank

164

Figura A.4: Benchmark - Convergência dos algoritmos na função Ackley

165

Figura A.5: Benchmark - Convergência dos algoritmos na função Schwefel

166166166

BRESULTADOS DO PROBLEMA CLUSTERING

Tabela B.1: Clustering - Melhor configuração dos parâmetros (Parte II)

Hillvalley Ionosphere Iris Pima

GA

N: 42pc: 0.79tc: 0.70

pm: 0.43tm: 0.47

N: 42pc: 0.75tc: 0.17

pm: 0.12tm: 0.40

N: 42pc: 0.71tc: 0.76

pm: 0.55tm: 0.41

N: 40pc: 0.70tc: 0.81

pm: 0.49tm: 0.62

ACO

N: 23S: 32

q: 0.74ζ : 0.66

N: 33S: 32

q: 0.46ζ : 0.64

N: 32S: 34

q: 0.47ζ : 0.52

N: 16S: 25

q: 0.42ζ : 0.89

PSO

N: 20w: 0.64c1: 1.90c2: 1.58vr: 0.36

N: 50w: 0.55c1: 1.53c2: 0.95vr: 0.37

N: 33w: 0.51c1: 1.37c2: 1.01vr: 0.87

N: 36w: 0.44c1: 1.48c2: 1.24vr: 0.58

ABC N: 37a: 0.38

N: 31a: 0.20

N: 39a: 0.57

N: 49a: 0.31

FA

N: 30α: 0.34β0: 0.15γ: 0.65αr: 0.44

N: 34α: 0.49β0: 2.02γ: 0.73αr: 0.97

N: 28α: 0.88β0: 2.69γ: 0.55αr: 0.49

N: 41α: 0.76β0: 2.63γ: 0.48αr: 0.23

CS N: 41pa: 0.93

N: 22pa: 0.77

N: 39pa: 0.43

N: 34pa: 0.29

BATN: 30

α: 0.58λ : 0.28

N: 41α: 0.55λ : 0.55

N: 41α: 0.47λ : 0.71

N: 42α: 0.65λ : 0.31

SACS N: 30 N: 40 N: 38 N: 40

167

Tabela B.2: Clustering - Melhor configuração dos parâmetros (Parte III)

Sonar Transfusion Vehicle Wine

GA

N: 39

pc: 0.80

tc: 0.17

pm: 0.22

tm: 0.46

N: 43

pc: 0.50

tc: 0.86

pm: 0.74

tm: 0.56

N: 44

pc: 0.90

tc: 0.21

pm: 0.26

tm: 0.50

N: 36

pc: 0.69

tc: 0.61

pm: 0.34

tm: 0.56

ACO

N: 32

S: 45

q: 0.61

ζ : 0.80

N: 23

S: 45

q: 0.93

ζ : 0.69

N: 31

S: 34

q: 0.50

ζ : 0.71

N: 31

S: 24

q: 0.92

ζ : 0.77

PSO

N: 45

w: 0.48

c1: 1.70

c2: 0.97

vr: 0.52

N: 34

w: 0.53

c1: 0.93

c2: 1.90

vr: 0.59

N: 31

w: 0.58

c1: 1.08

c2: 1.49

vr: 0.36

N: 33

w: 0.44

c1: 1.83

c2: 1.50

vr: 0.87

ABCN: 47

a: 0.24

N: 23

a: 0.45

N: 36

a: 0.25

N: 29

a: 0.46

FA

N: 32

α: 0.52

β0: 1.87

γ: 0.36

αr: 0.34

N: 34

α: 0.85

β0: 2.32

γ: 0.24

αr: 0.30

N: 35

α: 0.49

β0: 2.02

γ: 0.68

αr: 0.76

N: 30

α: 0.87

β0: 2.13

γ: 0.84

αr: 0.65

CSN: 32

pa: 0.71

N: 32

pa: 0.32

N: 27

pa: 0.32

N: 35

pa: 0.31

BATN: 33

α: 0.77

λ : 0.50

N: 26

α: 0.81

λ : 0.66

N: 43

α: 0.67

λ : 0.61

N: 40

α: 0.87

λ : 0.26

SACS N: 40 N: 36 N: 40 N: 35

168

Tabela B.3: Clustering - Comparação entre os erros (Balance)


GA 1.55e+03(9.24e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

ACO 1.59e+03(27.29)

0.77(3.66e-02)

0.63(4.60e-02)

0.60(6.43e-02)

0.57(5.13e-02)

0.37(0.11)

PSO 1.55e+03(5.93e-12)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

ABC 1.55e+03(0.39)

0.83(1.84e-02)

0.74(7.22e-03)

0.80(1.28e-02)

0.69(1.91e-02)

0.50(5.40e-02)

FA 1.55e+03(2.27e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

CS 1.55e+03(2.27e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

BAT 1.69e+03(6.25)

0.68(6.26e-02)

0.30(0.26)

0.44(2.96e-02)

0.42(2.12e-02)

9.73e-02(2.05e-02)

SACS 1.55e+03(2.27e-13)

0.83(0)

0.75(0)

0.82(0)

0.69(0)

0.50(0)

Tabela B.4: Clustering - Comparação entre os erros (Bupa)

AlgoritmoBupa - Média (Desvio Padrão)


GA1.23e+04(1.82e-12)

0.62

(0)

0.63

(0)

0.63

(0)

0.62

(0)

5.80e-02

(0)

ACO1.29e+04

(255.43)

0.55

(3.56e-02)

0.55

(3.74e-02)

0.55

(3.83e-02)

0.55

(3.65e-02)

1.08e-02

(1.20e-02)

PSO1.23e+04(1.84e-11)

0.62

(0)

0.63

(0)

0.63

(0)

0.62

(0)

5.80e-02

(0)

ABC1.23e+04

(7.87)0.64

(2.53e-02)0.64

(2.46e-02)0.64

(2.52e-02)0.63

(2.52e-02)7.38e-02

(2.68e-02)

FA1.23e+04(1.82e-12)

0.62

(0)

0.63

(0)

0.63

(0)

0.62

(0)

5.80e-02

(0)

CS1.23e+04(1.82e-12)

0.62

(0)

0.63

(0)

0.63

(0)

0.62

(0)

5.80e-02

(0)

BAT1.24e+04

(5.17e-05)

0.42

(6.80e-17)

0

(0)

0.50

(0)

0.30

(0)

0

(0)

SACS1.23e+04(1.29e-12)

0.62

(0)

0.63

(0)

0.63

(0)

0.62

(0)

5.80e-02

(0)

169

Tabela B.5: Clustering - Comparação entre os erros (Cancer)

Algoritmo Cancer - Média (Desvio Padrão)J Acurácia Precisão Cobertura Medida-F IRC

GA 3.13e+03(2.90)

0.96(8.26e-04)

0.96(6.62e-04)

0.96(1.20e-03)

0.96(9.41e-04)

0.86(3.11e-03)

ACO 3.71e+03(119.97)

0.96(1.38e-02)

0.96(1.08e-02)

0.96(2.06e-02)

0.96(1.58e-02)

0.86(5.15e-02)

PSO 3.13e+03(4.63e-09)

0.96(0)

0.96(0)

0.96(0)

0.96(1.36e-16)

0.86(0)

ABC 3.13e+03(0.91)

0.96(8.26e-04)

0.96(6.62e-04)

0.96(1.20e-03)

0.96(9.41e-04)

0.86(3.11e-03)

FA 3.13e+03(1.36)

0.96(8.26e-04)

0.96(6.62e-04)

0.96(1.20e-03)

0.96(9.41e-04)

0.86(3.11e-03)

CS 3.13e+03(2.32e-12)

0.96(0)

0.96(0)

0.96(0)

0.96(1.36e-16)

0.86(0)

BAT 4.49e+03(85.98)

0.93(1.74e-02)

0.93(1.21e-02)

0.92(2.77e-02)

0.92(2.10e-02)

0.74(6.11e-02)

SACS 3.13e+03(2.06e-12)

0.96(0)

0.96(0)

0.96(0)

0.96(1.36e-16)

0.86(0)

Tabela B.6: Clustering - Comparação entre os erros (Haberman)

AlgoritmoHaberman - Média (Desvio Padrão)


GA3.48e+03(4.55e-13)

0.67

(1.36e-16)

0.62

(0)

0.64

(0)

0.62

(0)

0.10

(0)

ACO3.49e+03

(2.71)

0.69

(4.44e-02)

0.64(3.11e-02)

0.66(1.83e-02)

0.64(3.10e-02)

0.13(5.85e-02)

PSO3.48e+03(9.65e-13)

0.67

(1.36e-16)

0.62

(0)

0.64

(0)

0.62

(0)

0.10

(0)

ABC3.48e+03(1.16e-02)

0.68

(6.54e-03)

0.62

(5.86e-03)

0.65

(6.52e-03)

0.63

(6.54e-03)

0.11

(8.72e-03)

FA3.48e+03(4.55e-13)

0.67

(1.36e-16)

0.62

(0)

0.64

(0)

0.62

(0)

0.10

(0)

CS3.48e+03(5.57e-13)

0.67

(1.36e-16)

0.62

(0)

0.64

(0)

0.62

(0)

0.10

(0)

BAT3.52e+03

(22.80)

0.74(5.66e-03)

0.22

(0.39)

0.56

(9.74e-02)

0.51

(0.14)

6.57e-02

(0.11)

SACS3.48e+03(4.55e-13)

0.67

(1.36e-16)

0.62

(0)

0.64

(0)

0.62

(0)

0.10

(0)

170

Tabela B.7: Clustering - Comparação entre os erros (Hillvalley)

Algoritmo Hillvalley - Média (Desvio Padrão)J Acurácia Precisão Cobertura Medida-F IRC

GA 8.83e+07(2.06e+06)

0.53(2.31e-03)

0.53(2.31e-03)

0.53(2.31e-03)

0.53(2.31e-03)

3.69e-03(5.95e-04)

ACO 2.38e+08(1.24e+07)

0.50(1.09e-02)

0.50(1.29e-02)

0.50(1.09e-02)

0.48(2.08e-02)

-2.89e-04(4.74e-04)

PSO 1.21e+08(5.90e+06)

0.50(9.97e-03)

0.50(1.02e-02)

0.50(9.97e-03)

0.49(1.34e-02)

-3.85e-04(4.59e-04)

ABC 1.16e+08(2.39e+06)

0.49(1.41e-02)

0.49(1.59e-02)

0.49(1.41e-02)

0.48(1.93e-02)

1.87e-04(1.38e-03)

FA 5.64e+08(5.73e+06)

0.50(5.45e-03)

0.51(1.95e-02)

0.50(5.45e-03)

0.38(4.79e-02)

-6.81e-05(1.51e-04)

CS 8.82e+07(2.05e+06)

0.54(1.53e-03)

0.54(1.54e-03)

0.54(1.53e-03)

0.54(1.51e-03)

4.25e-03(4.27e-04)

BAT 8.83e+07(2.05e+06)

0.50(0)

0(0)

0.50(0)

0.33(5.85e-17)

0(0)

SACS 1.87e+08(2.43e+07)

0.50(6.05e-03)

0.50(6.23e-03)

0.50(6.05e-03)

0.50(8.85e-03)

-6.69e-04(1.59e-04)

Tabela B.8: Clustering - Comparação entre os erros (Ionosphere)

AlgoritmoIonosphere - Média (Desvio Padrão)


GA856.37

(0)

0.72

(0)

0.70

(0)

0.72(0)

0.70

(0)

0.18

(0)

ACO910.75

(0)

0.75(0)

0.72(0)

0.71

(0)

0.72(0)

0.23(0)

PSO823.83

(0)0.70

(0)

0.69

(0)

0.71

(0)

0.69

(0)

0.15

(0)

ABC824.66

(0)

0.71

(0)

0.70

(0)

0.72(0)

0.70

(0)

0.17

(0)

FA823.83

(0)0.70

(0)

0.69

(0)

0.71

(0)

0.69

(0)

0.15

(0)

CS823.83

(0)0.70

(0)

0.69

(0)

0.71

(0)

0.69

(0)

0.15

(0)

BAT865.91

(0)

0.72

(0)

0.70

(0)

0.69

(0)

0.70

(0)

0.19

(0)

SACS828.88

(0)

0.70

(0)

0.70

(0)

0.71

(0)

0.70

(0)

0.16

(0)

171

Tabela B.9: Clustering - Comparação entre os erros (Iris)

Algoritmo Iris - Média (Desvio Padrão)J Acurácia Precisão Cobertura Medida-F IRC

GA 89.76(0)

0.96(0)

0.93(0)

0.93(0)

0.93(0)

0.82(0)

ACO 120.73(0)

0.87(0)

0.80(0)

0.80(0)

0.80(0)

0.57(0)

PSO 89.76(0)

0.96(0)

0.93(0)

0.93(0)

0.93(0)

0.82(0)

ABC 89.83(0)

0.95(0)

0.93(0)

0.93(0)

0.93(0)

0.80(0)

FA 89.76(0)

0.96(0)

0.93(0)

0.93(0)

0.93(0)

0.82(0)

CS 89.76(0)

0.96(0)

0.93(0)

0.93(0)

0.93(0)

0.82(0)

BAT 150.15(0)

0.64(0)

0.42(0)

0.45(0)

0.43(0)

0.67(0)

SACS 89.76(0)

0.96(0)

0.93(0)

0.93(0)

0.93(0)

0.82(0)

Tabela B.10: Clustering - Comparação entre os erros (Pima)

AlgoritmoPima - Média (Desvio Padrão)


GA6.30e+04

(0)0.65(0)

0.64(0)

0.65(0)

0.63

(0)

8.77e-02

(0)

ACO6.97e+04

(0)

0.60

(0)

0.57

(0)

0.57

(0)

0.57

(0)

3.40e-02

(0)

PSO6.30e+04

(0)0.65(0)

0.64(0)

0.65(0)

0.63

(0)

8.77e-02

(0)

ABC6.30e+04

(0)0.65(0)

0.64(0)

0.65(0)

0.64(0)

8.92e-02(0)

FA6.30e+04

(0)0.65(0)

0.64(0)

0.65(0)

0.63

(0)

8.77e-02

(0)

CS6.30e+04

(0)0.65(0)

0.64(0)

0.65(0)

0.63

(0)

8.77e-02

(0)

BAT6.42e+04

(0)

0.65(0)

0

(0)

0.50

(0)

0.39

(0)

0

(0)

SACS6.30e+04

(0)0.65(0)

0.64(0)

0.65(0)

0.63

(0)

8.77e-02

(0)

172

Tabela B.11: Clustering - Comparação entre os erros (Sonar)

Algoritmo Sonar - Média (Desvio Padrão)J Acurácia Precisão Cobertura Medida-F IRC

GA 249.69(0.78)

0.63(1.36e-02)

0.63(1.48e-02)

0.63(1.55e-02)

0.63(1.48e-02)

6.84e-02(1.47e-02)

ACO 255.35(6.54)

0.57(1.36e-02)

0.57(1.25e-02)

0.57(1.14e-02)

0.57(1.12e-02)

1.64e-02(7.89e-03)

PSO 239.39(2.01)

0.63(0)

0.63(3.57e-04)

0.63(4.60e-04)

0.63(2.43e-04)

6.29e-02(2.06e-07)

ABC 236.69(0.82)

0.63(6.80e-03)

0.63(7.16e-03)

0.63(7.29e-03)

0.63(7.06e-03)

6.81e-02(7.36e-03)

FA 266.32(12.35)

0.61(2.38e-02)

0.61(2.30e-02)

0.61(2.14e-02)

0.61(2.16e-02)

4.33e-02(2.07e-02)

CS 236.69(0.82)

0.63(6.80e-03)

0.63(7.16e-03)

0.63(7.29e-03)

0.63(7.06e-03)

6.81e-02(7.36e-03)

BAT 240.45(0.46)

0.56(0.13)

0.32(0.46)

0.57(0.10)

0.48(0.23)

3.94e-02(5.57e-02)

SACS 238.56(0.31)

0.63(1.70e-02)

0.63(1.65e-02)

0.63(1.64e-02)

0.63(1.67e-02)

6.60e-02(1.81e-02)

Tabela B.12: Clustering - Comparação entre os erros (Transfusion)

AlgoritmoTransfusion - Média (Desvio Padrão)


GA5.98e+05

(3.15e+03)0.62

(0)

0.59(0)

0.62(0)

0.58(0)

5.45e-02(0)

ACO5.98e+05

(3.10e+03)0.62

(0)

0.59(0)

0.62(0)

0.58(0)

5.45e-02(0)

PSO5.98e+05

(3.15e+03)0.62

(0)

0.59(0)

0.62(0)

0.58(0)

5.45e-02(0)

ABC5.98e+05

(3.11e+03)0.62

(0)

0.59(0)

0.62(0)

0.58(0)

5.45e-02(0)

FA5.98e+05

(3.15e+03)0.62

(0)

0.59(0)

0.62(0)

0.58(0)

5.45e-02(0)

CS5.98e+05

(3.15e+03)0.62

(0)

0.59(0)

0.62(0)

0.58(0)

5.45e-02(0)

BAT6.17e+05

(901.96)

0.76(0)

0

(0)

0.50

(0)

0.43

(0)

0

(0)

SACS5.98e+05

(3.15e+03)0.62

(0)

0.59(0)

0.62(0)

0.58(0)

5.45e-02(0)

173

Tabela B.13: Clustering - Comparação entre os erros (Vehicle)

Algoritmo Vehicle - Média (Desvio Padrão)J Acurácia Precisão Cobertura Medida-F IRC

GA 1.17e+05(420.15)

0.70(2.58e-03)

0.39(5.02e-03)

0.40(5.67e-03)

0.37(3.42e-03)

8.64e-02(4.44e-03)

ACO 1.30e+05(2.44e+03)

0.69(1.95e-02)

0.36(4.88e-02)

0.38(3.57e-02)

0.34(6.07e-02)

9.76e-02(9.21e-03)

PSO 1.16e+05(0.42)

0.71(3.41e-04)

0.42(5.22e-04)

0.43(7.25e-04)

0.40(5.85e-04)

0.11(3.61e-04)

ABC 1.16e+05(71.26)

0.70(7.55e-03)

0.41(1.79e-02)

0.41(1.44e-02)

0.38(1.66e-02)

9.45e-02(6.66e-03)

FA 1.16e+05(648.76)

0.71(9.03e-04)

0.42(2.36e-03)

0.43(1.68e-03)

0.40(6.00e-03)

0.11(1.33e-03)

CS 1.16e+05(4.60e-11)

0.71(0)

0.42(0)

0.43(6.80e-17)

0.40(0)

0.11(0)

BAT 1.33e+05(769.13)

0.66(5.19e-02)

0.15(0.26)

0.31(0.10)

0.21(0.18)

3.93e-02(6.81e-02)

SACS 1.17e+05(352.83)

0.70(1.01e-02)

0.40(2.60e-02)

0.41(2.09e-02)

0.38(2.40e-02)

0.10(7.21e-03)

Tabela B.14: Clustering - Comparação entre os erros (Wine)

AlgoritmoWine - Média (Desvio Padrão)


GA2.36e+04(1.18e-11)

0.81(0)

0.73(0)

0.72(0)

0.72(0)

0.38

(0)

ACO2.41e+04

(503.70)

0.81(6.49e-03)

0.71

(1.30e-02)

0.71

(1.05e-02)

0.71

(9.63e-03)

0.39

(1.86e-02)

PSO2.36e+04(4.73e-08)

0.81(0)

0.73(0)

0.72(0)

0.72(0)

0.38

(0)

ABC2.36e+04

(0.50)0.81(0)

0.73(0)

0.72(0)

0.72(0)

0.38

(0)

FA2.36e+04(1.12e-11)

0.81(0)

0.73(0)

0.72(0)

0.72(0)

0.38

(0)

CS2.36e+04(2.57e-12)

0.81(0)

0.73(0)

0.72(0)

0.72(0)

0.38

(0)

BAT2.67e+04

(832.56)

0.81(6.49e-03)

0.70

(3.39e-03)

0.69

(8.39e-03)

0.69

(5.18e-03)

0.41(1.79e-02)

SACS2.36e+04(2.15e-04)

0.81(0)

0.73(0)

0.72(0)

0.72(0)

0.38

(0)

174

Tabela B.15: Clustering - Diferença percentual entre os erros (Balance)

AlgoritmoBalance - Diferença Percentual

J Acurácia Precisão Cobertura Medida-F IRCGA 0 0 0 0 0 0

ACO 2.28 7.16 16.17 26.46 16.86 27.08

PSO 0 0 0 0 0 0ABC 0 0 1.32 2.25 0 0FA 0 0 0 0 0 0CS 0 0 0 0 0 0

BAT 8.66 17.91 59.80 46.82 39.68 80.69

SACS 0 0 0 0 0 0

Tabela B.16: Clustering - Diferença percentual entre os erros (Bupa)

Algoritmo Bupa - Diferença PercentualJ Acurácia Precisão Cobertura Medida-F IRC

GA 0 2.12 1.50 1.57 1.96 21.48ACO 5.28 13.51 13.74 14.05 13.83 85.38PSO 0 2.12 1.50 1.57 1.96 21.48ABC 0 0 0 0 0 0FA 0 2.12 1.50 1.57 1.96 21.48CS 0 2.12 1.50 1.57 1.96 21.48

BAT 1.27 33.99 100.00 21.94 53.36 100.00SACS 0 2.12 1.50 1.57 1.96 21.48

Tabela B.17: Clustering - Diferença percentual entre os erros (Cancer)

AlgoritmoCancer - Diferença Percentual


ACO 18.65 0 0 0 0 0PSO 0 0 0 0 0 0ABC 0 0 0 0 0 0FA 0 0 0 0 0 0CS 0 0 0 0 0 0

BAT 43.56 3.36 3.51 4.11 3.82 13.62

SACS 0 0 0 0 0 0

175

Tabela B.18: Clustering - Diferença percentual entre os erros (Haberman)

AlgoritmoHaberman - Diferença Percentual

J Acurácia Precisão Cobertura Medida-F IRCGA 0 8.85 2.85 1.94 2.62 22.21

ACO 0.11 6.05 0 0 0 0PSO 0 8.85 2.85 1.94 2.62 22.21

ABC 0 8.41 2.24 1.20 1.97 18.49

FA 0 8.85 2.85 1.94 2.62 22.21

CS 0 8.85 2.85 1.94 2.62 22.21

BAT 1.06 0 64.93 15.24 20.89 51.00

SACS 0 8.85 2.85 1.94 2.62 22.21

Tabela B.19: Clustering - Diferença percentual entre os erros (Hillvalley)

AlgoritmoHillvalley - Diferença Percentual

J Acurácia Precisão Cobertura Medida-F IRCGA 9.45e-02 0.39 0.40 0.39 0.33 13.23

ACO 169.34 6.50 6.56 6.50 9.68 106.81

PSO 37.37 7.29 7.34 7.29 8.26 109.08

ABC 30.94 8.04 8.16 8.04 10.21 95.61

FA 539.40 6.19 5.01 6.19 28.60 101.60

CS 0 0 0 0 0 0BAT 0.10 6.64 100.00 6.64 37.72 100.00

SACS 112.08 6.46 6.48 6.46 7.03 115.75

Tabela B.20: Clustering - Diferença percentual entre os erros (Ionosphere)

AlgoritmoIonosphere - Diferença Percentual

J Acurácia Precisão Cobertura Medida-F IRCGA 3.95 4.20 3.15 0 1.96 21.97

ACO 10.55 0 0 0.49 0 0PSO 0 6.49 4.47 1.13 3.88 33.82

ABC 0.10 5.34 3.57 0 2.78 27.93

FA 0 6.49 4.47 1.13 3.88 33.82

CS 0 6.49 4.47 1.13 3.88 33.82

BAT 5.11 3.44 3.92 3.03 3.08 19.68

SACS 0.61 5.73 3.87 0.51 3.15 29.92

176

Tabela B.21: Clustering - Diferença percentual entre os erros (Iris)

AlgoritmoIris - Diferença Percentual


ACO 34.49 9.30 14.34 14.29 14.47 30.36

PSO 0 0 0 0 0 0ABC 7.60e-02 0.47 0.70 0.71 0.72 1.96

FA 0 0 0 0 0 0CS 0 0 0 0 0 0

BAT 67.28 33.49 55.12 51.43 53.48 17.62

SACS 0 0 0 0 0 0

Tabela B.22: Clustering - Diferença percentual entre os erros (Pima)

AlgoritmoPima - Diferença Percentual

J Acurácia Precisão Cobertura Medida-F IRCGA 0 0 0 0 0.18 1.71

ACO 10.54 7.60 11.01 12.41 10.85 61.91

PSO 0 0 0 0 0.18 1.71

ABC 0 0 0 0 0 0FA 0 0 0 0 0.18 1.71

CS 0 0 0 0 0.18 1.71

BAT 1.83 0 100.00 22.84 37.96 100.00

SACS 0 0 0 0 0.18 1.71

Tabela B.23: Clustering - Diferença percentual entre os erros (Sonar)

AlgoritmoSonar - Diferença Percentual

J Acurácia Precisão Cobertura Medida-F IRCGA 5.49 0 0 0 0 0

ACO 7.88 9.85 10.13 10.31 10.27 75.95

PSO 1.14 0 0 0 0 8.02

ABC 0 0 0 0 0 0.41

FA 12.52 4.17 4.31 4.52 4.46 36.61

CS 0 0 0 0 0 0.41

BAT 1.59 12.50 49.15 9.72 24.11 42.39

SACS 0.79 0 0 0 0 3.47

177

Tabela B.24: Clustering - Diferença percentual entre os erros (Transfusion)

AlgoritmoTransfusion - Diferença Percentual

J Acurácia Precisão Cobertura Medida-F IRCGA 0 18.42 0 0 0 0

ACO 0 18.42 0 0 0 0PSO 0 18.42 0 0 0 0ABC 0 18.42 0 0 0 0FA 0 18.42 0 0 0 0CS 0 18.42 0 0 0 0

BAT 3.14 0 100.00 19.90 25.16 100.00

SACS 0 18.42 0 0 0 0

Tabela B.25: Clustering - Diferença percentual entre os erros (Vehicle)

AlgoritmoVehicle - Diferença Percentual

J Acurácia Precisão Cobertura Medida-F IRCGA 1.18 2.60 7.55 8.42 9.54 18.50

ACO 12.32 3.75 16.14 11.88 16.43 7.95

PSO 0 0 0 0 0 0ABC 0 1.52 3.67 4.86 5.73 10.81

FA 0 0 0 0 0 0CS 0 0 0 0 0 0

BAT 15.01 8.17 64.33 28.24 48.89 62.88

SACS 1.06 1.30 5.52 4.36 5.19 5.36

Tabela B.26: Clustering - Diferença percentual entre os erros (Wine)

AlgoritmoWine - Diferença Percentual

J Acurácia Precisão Cobertura Medida-F IRCGA 0 0 0 0 0 7.19

ACO 2.03 0 2.06 1.55 1.45 6.87

PSO 0 0 0 0 0 7.19

ABC 0 0 0 0 0 7.19

FA 0 0 0 0 0 7.19

CS 0 0 0 0 0 7.19

BAT 12.97 0 4.17 5.22 4.35 0SACS 0 0 0 0 0 7.19

178

Tabela B.27: Clustering - Comparação do tempo de execução (Parte II)

Hillvalley Ionosphere Iris Pima

GA6.83e+03

(54.80)

771.87(10.28)

895.09

(8.42)

1.00e+03

(8.68)

ACO7.54e+03

(4.41)

1.75e+03

(3.10)

692.15

(1.05)

683.18(5.22)

PSO2.72e+03

(6.14)

1.16e+03

(2.65)

618.37(0.66)

813.87

(1.59)

ABC9.71e+03

(9.03)

1.28e+03

(2.50)

1.31e+03

(0.36)

2.09e+03

(15.77)

FA1.13e+03(40.21)

8.00e+03

(280.44)

2.79e+03

(495.29)

1.03e+04

(622.13)

CS1.09e+04

(11.06)

936.77

(1.21)

1.23e+03

(1.22)

1.33e+03

(1.04)

BAT4.06e+03

(16.65)

1.07e+03

(0.35)

902.75

(3.13)

1.08e+03

(5.64)

SACS1.05e+04

(37.71)

3.45e+03

(4.72)

1.98e+03

(3.82)

2.54e+03

(6.98)

Tabela B.28: Clustering - Comparação do tempo de execução (Parte III)

Sonar Transfusion Vehicle Wine

GA 859.68(8.71)

1.10e+03(10.57)

1.41e+03(18.41)

695.55(52.82)

ACO 3.62e+03(20.08)

993.89(2.16)

1.55e+03(5.33)

757.87(1.31)

PSO 1.04e+03(4.22)

738.93(2.80)

912.73(4.79)

655.14(0.24)

ABC 2.05e+03(5.06)

915.21(4.71)

1.94e+03(4.12)

1.02e+03(2.91)

FA 1.18e+03(1.10e+03)

8.38e+03(111.73)

5.94e+03(3.41e+03)

4.38e+03(465.14)

CS 1.42e+03(3.96)

1.19e+03(5.42)

1.48e+03(3.38)

1.22e+03(1.22)

BAT 823.92(0.54)

611.07(2.36)

1.40e+03(4.77)

919.23(1.40)

SACS 4.32e+03(66.66)

2.05e+03(4.50)

3.47e+03(4.80)

2.11e+03(32.37)

179

Tabela B.29: Clustering - Diferença percentual entre os tempos de execução (Parte II)

Hillvalley Ionosphere Iris PimaGA 502.42 0 44.75 46.38

ACO 564.78 126.86 11.93 0PSO 140.11 50.31 0 19.13

ABC 756.34 65.92 112.15 206.47

FA 0 937.07 351.44 1.41e+03

CS 859.74 21.36 98.90 94.38

BAT 258.16 38.80 45.99 58.71

SACS 826.28 346.79 220.03 272.02

Tabela B.30: Clustering - Diferença percentual entre os tempos de execução (Parte III)

Sonar Transfusion Vehicle WineGA 4.34 79.32 54.38 6.17

ACO 339.38 62.65 69.39 15.68

PSO 26.04 20.92 0 0ABC 149.26 49.77 112.05 56.04

FA 42.96 1.27e+03 551.17 567.98

CS 72.81 95.47 62.68 86.22

BAT 0 0 53.46 40.31

SACS 424.70 236.14 279.82 222.52

180

Tabela B.31: Clustering - Teste de Nemenyi (Balance)


J

ACO 1PSO 0 0ABC 0 0 0FA 0 1 1 1CS 0 1 0 1 0

BAT 1 0 1 0 1 1SACS 0 1 1 1 0 0 1

Acurácia

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

Precisão

ACO 1PSO 0 1ABC 1 0 1FA 0 1 0 1CS 0 1 0 1 0

BAT 1 0 1 0 1 1SACS 0 1 0 1 0 0 1

Cobertura

ACO 1PSO 0 1ABC 1 0 1FA 0 1 0 1CS 0 1 0 1 0

BAT 1 0 1 0 1 1SACS 0 1 0 1 0 0 1

Medida-F

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

IRC

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

181

Tabela B.32: Clustering - Teste de Nemenyi (Bupa)


J

ACO 1PSO 0 1ABC 0 0 0FA 0 1 1 1CS 0 1 0 1 0

BAT 1 0 0 0 1 1SACS 1 1 1 1 0 0 1

Acurácia

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

Precisão

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

Cobertura

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

Medida-F

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

IRC

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

182

Tabela B.33: Clustering - Teste de Nemenyi (Cancer)


J

ACO 0PSO 0 1ABC 0 0 1FA 0 1 0 0CS 1 1 0 1 1

BAT 1 0 1 0 1 1SACS 1 1 0 1 1 0 1

Acurácia

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

Precisão

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

Cobertura

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

Medida-F

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

IRC

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

183

Tabela B.34: Clustering - Teste de Nemenyi (Haberman)


J

ACO 0PSO 0 0ABC 0 0 0FA 0 1 0 1CS 0 1 0 1 0

BAT 1 0 1 0 1 1SACS 0 1 0 1 0 0 1

Acurácia

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

Precisão

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 0 1 0 1 0 0SACS 0 0 0 0 0 0 0

Cobertura

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 0 1 0 1 0 0SACS 0 0 0 0 0 0 0

Medida-F

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 0 1 0 1 0 0SACS 0 0 0 0 0 0 0

184

Tabela B.35: Clustering - Teste de Nemenyi (Hillvalley)


J

ACO 1PSO 1 0ABC 0 1 0FA 1 0 1 1CS 0 1 1 1 1

BAT 0 1 0 0 1 0SACS 1 0 0 0 0 1 1

Acurácia

ACO 0PSO 1 0ABC 1 0 0FA 1 0 0 0CS 0 1 1 1 1

BAT 1 1 0 0 0 1SACS 1 0 0 0 0 1 0

Precisão

ACO 0PSO 1 0ABC 1 0 0FA 0 0 0 0CS 0 1 1 1 1

BAT 1 1 1 0 1 1SACS 0 0 0 0 0 1 1

Cobertura

ACO 0PSO 1 0ABC 1 0 0FA 1 0 0 0CS 0 1 1 1 1

BAT 1 1 0 0 0 1SACS 1 0 0 0 0 1 0

Medida-F

ACO 0PSO 1 0ABC 0 0 0FA 1 0 0 1CS 0 1 1 1 1

BAT 1 1 1 1 0 1SACS 1 0 0 0 0 1 0

IRC

ACO 1PSO 1 0ABC 1 0 0FA 1 0 0 0CS 0 1 1 1 1

BAT 1 0 0 0 0 1SACS 1 0 0 0 0 1 0

185

Tabela B.36: Clustering - Teste de Nemenyi (Ionosphere)


J

ACO 0PSO 1 1ABC 0 1 0FA 1 1 0 1CS 1 1 0 0 0

BAT 0 0 1 1 1 1SACS 0 1 0 0 1 1 0

Acurácia

ACO 1PSO 1 0ABC 0 0 1FA 1 0 0 1CS 1 0 0 1 0

BAT 1 1 0 1 0 0SACS 0 0 0 0 0 0 1

Precisão

ACO 0PSO 0 0ABC 0 1 1FA 0 0 0 1CS 0 0 0 1 0

BAT 1 0 0 1 0 0SACS 0 0 0 0 0 0 1

Cobertura

ACO 0PSO 0 0ABC 0 1 1FA 0 0 0 1CS 0 0 0 1 0

BAT 1 0 0 1 0 0SACS 0 0 0 0 0 0 1

Medida-F

ACO 1PSO 0 0ABC 0 1 1FA 0 0 0 1CS 0 0 0 1 0

BAT 1 0 0 1 0 0SACS 0 0 0 0 0 0 1

IRC

ACO 1PSO 1 0ABC 0 1 1FA 1 0 0 1CS 1 0 0 1 0

BAT 1 0 0 1 0 0SACS 0 0 0 0 0 0 1

186

Tabela B.37: Clustering - Teste de Nemenyi (Iris)


J

ACO 1PSO 1 0ABC 1 0 0FA 0 1 0 1CS 0 1 0 1 0

BAT 1 0 1 0 1 1SACS 0 1 1 1 0 0 1

Acurácia

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

Precisão

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

Cobertura

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

Medida-F

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

IRC

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

187

Tabela B.38: Clustering - Teste de Nemenyi (Pima)


J

ACO 1PSO 0 1ABC 0 0 0FA 1 1 1 1CS 0 1 1 1 0

BAT 1 0 0 0 1 1SACS 0 1 0 1 0 0 1

Acurácia

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

Precisão

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

Cobertura

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

Medida-F

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

IRC

ACO 1PSO 0 1ABC 0 1 0FA 0 1 0 0CS 0 1 0 0 0

BAT 1 0 1 1 1 1SACS 0 1 0 0 0 0 1

188

Tabela B.39: Clustering - Teste de Nemenyi (Sonar)


J

ACO 0PSO 0 1ABC 1 1 0FA 0 0 1 1CS 1 1 1 0 1

BAT 0 0 0 1 1 1SACS 1 1 0 0 1 0 0

Acurácia

ACO 1PSO 0 0ABC 0 1 0FA 1 0 1 1CS 0 1 0 0 1

BAT 1 0 0 1 0 1SACS 0 1 0 0 1 0 1

Precisão

ACO 1PSO 0 1ABC 0 1 0FA 1 0 1 1CS 0 1 0 0 1

BAT 1 0 0 1 0 1SACS 0 1 0 0 1 0 1

Cobertura

ACO 1PSO 0 1ABC 0 1 0FA 1 0 1 1CS 0 1 0 0 1

BAT 1 0 0 1 0 1SACS 0 1 0 0 1 0 1

Medida-F

ACO 1PSO 0 0ABC 0 1 0FA 1 0 1 1CS 0 1 0 0 1

BAT 1 0 0 1 0 1SACS 0 1 0 0 1 0 1

IRC

ACO 1PSO 0 0ABC 0 1 0FA 1 0 1 1CS 0 1 0 0 1

BAT 1 0 0 1 0 1SACS 0 1 1 0 1 0 1

189

Tabela B.40: Clustering - Teste de Nemenyi (Transfusion)


J

ACO 0PSO 0 1ABC 0 0 0FA 1 1 0 1CS 1 1 0 1 0

BAT 1 0 1 0 1 1SACS 1 1 0 1 0 0 1

Acurácia

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

Precisão

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

Cobertura

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

Medida-F

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

IRC

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

190

Tabela B.41: Clustering - Teste de Nemenyi (Vehicle)


J

ACO 0PSO 1 1ABC 0 1 0FA 0 1 0 0CS 1 1 0 1 1

BAT 1 0 1 1 1 1SACS 0 0 1 0 0 1 1

Acurácia

ACO 0PSO 1 1ABC 0 0 0FA 1 1 0 1CS 1 1 0 0 0

BAT 0 0 1 0 1 0SACS 1 0 0 0 0 0 0

Precisão

ACO 0PSO 1 1ABC 0 0 1FA 1 1 0 1CS 1 1 0 0 0

BAT 0 0 1 0 1 1SACS 0 0 0 0 0 0 0

Cobertura

ACO 0PSO 1 1ABC 0 0 1FA 1 1 0 1CS 1 1 0 0 0

BAT 0 0 1 0 1 1SACS 1 0 0 0 1 0 0

Medida-F

ACO 0PSO 1 0ABC 0 0 1FA 1 1 0 1CS 1 0 0 0 0

BAT 0 0 1 0 1 0SACS 0 0 0 0 0 0 0

IRC

ACO 1PSO 1 0ABC 0 0 1FA 1 0 0 0CS 1 0 0 1 0

BAT 0 0 1 0 0 1SACS 1 0 0 0 0 0 0

191

Tabela B.42: Clustering - Teste de Nemenyi (Wine)


J

ACO 1PSO 0 1ABC 1 0 0FA 0 1 0 1CS 0 1 0 1 0

BAT 1 0 1 0 1 1SACS 0 0 0 0 1 1 1

Acurácia

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

Precisão

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 0 1 1 1 1SACS 0 0 0 0 0 0 1

Cobertura

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 0 1 1 1 1SACS 0 0 0 0 0 0 1

Medida-F

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 0 1 1 1 1SACS 0 0 0 0 0 0 1

IRC

ACO 0PSO 0 0ABC 0 0 0FA 0 0 0 0CS 0 0 0 0 0

BAT 1 1 1 1 1 1SACS 0 0 0 0 0 0 1

192

Figura B.1: Clustering - Convergência dos algoritmos (Parte I)

193

Figura B.2: Clustering - Convergência dos algoritmos (Parte II)

repositorio.ufpe.br · 2019. 10. 25. · Catalogação na fonte Bibliotecária Monick Raquel...

Documents

Transcript of repositorio.ufpe.br · 2019. 10. 25. · Catalogação na fonte Bibliotecária Monick Raquel...