Post on 07-Apr-2016
Mineração de dados das Mineração de dados das ações da Bovespaações da Bovespa
Edimilson BatistaEduardo Ogasawara
Heraldo CarneiroLuciano Terres
SumárioSumárioAnálise Técnica do MercadoRedes Neurais Implementação e ExperimentosAnálise de ResultadosTrabalhos Futuros
Análise técnicaAnálise técnica As operações de mercado de ações podem
basear-se em métodos de análise técnica ou de análise fundamentalista.
A análise técnica é um estudo de psicologia de massa.
Seu objetivo é identificar tendências e mudanças no comportamento das multidões, a fim de se tomar decisões inteligentes sobre as operações no mercado.
Gráfico de ações Gráfico de ações Refletem as ondas de ganância e medo
entre os operadores de mercado.
Suporte é o nível de preço a partir do qual as compras são intensamente realizadas para interromper ou reverter uma tendência de baixa.
Resistência é o nível de preço em que as vendas são bastante intensas para interromper ou reverter uma tendência de alta.
Suporte e resistência Suporte e resistência
Suporte e resistência Suporte e resistência
O aspecto mais importante de uma linha de tendência é o seu ângulo – que identifica as forças dominantes do mercado.
TendênciaTendência
Ferramentas para a identificação Ferramentas para a identificação de tendênciasde tendências
Médias móveis;Médias móveis exponenciais;
MACD (moving average convergence-divergence) ;
Ferramentas para a identificação Ferramentas para a identificação de tendênciasde tendências
Histograma de MACD
OsciladoresOsciladoresOs osciladores ajudam a identificar pontos
de inflexão.Encontra-se o estocástico, índice de força
e índice de força relativo.
Posicionamento do valor de abertura: PA = (Abertura – Mínimo) / (Máximo – Mínimo) Posicionamento do valor de fechamento: PF = (Fechamento – Mínimo) / (Máximo – Mínimo) Volatilidade: Volat = (Máximo – Mínimo) / (Fechamento dia anterior) Gaps: deve ser analisada junto com o volume. Volume: representa as atividades dos operadores de
mercado. Índices Externos: Dow Jones, valor do dólar , etc. Estratégias: comprar na baixa e vender na alta.
Outros indicadoresOutros indicadores
Redes Neurais são sistemas não lineares que imitam o mecanismo de processamento do cerébro humano.
Constituída de um determinado número de elementos de processamento chamados neurônios, unidades, células ou nós.
A saída é contínua ou binária, dependendo da função de ativação.
Redes NeuraisRedes Neurais
Neurônio Artificial
Feed Forward (propagação direta)
Recurrent (redes recorrentes)
Estrutura da redeEstrutura da rede
Técnica de aprendizado mais popular para redes de múltiplas camadas.
As saídas da rede são comparadas com as saídas reais para computar o valor de uma função de erro predefinida.
Back-propagationBack-propagation
Habilidade de aprender a partir de dados e o potencial de generalização.
Natureza não-linear.O método é uma caixa-preta.Um certo grau de conhecimento do
assunto é necessário.
Vantagens e desvantagensVantagens e desvantagens
Os dados sobre ações são altamente complexos e difíceis de modelar.
Redes neurais podem ser aplicadas para diversos tipos de problemas financeiros.
Uso em problemas financeirosUso em problemas financeiros
Análise de ClusterAnálise de ClusterSoftware SPSS e Weka
conjunto de variáveis brutas sem transformações de normalização ou cálculos de indicadores financeiros
• Taxa rentabilidade futura 1d
• Valor Médio
• GAP: prox abert - fecha
• Margem: abertura - fechamento;
• Volátililidade: máx - mín
• Volume: número de ações
Rent. futura Médio Fecham. GAP margem volatil Volume
N Válidos 961 961 961 961 961 961 961
faltando 0 0 0 0 0 0 0
Média 0,00117 4,9162 4,9141 0,0068 -0,0003 0,1806 687.688
Mediana 0,00000 4,5800 4,5900 0,000 -0,0100 0,1500 518.000
Moda 0,00000 2,8100a 4,7500a 0,000 -0,060a 0,1200 314.000
Desvio padrão 0,02609 1,6629 1,6636 0,0720 0,1374 0,1063 627.471
Variância 0,00100 2,7650 2,7680 0,0050 0,0190 0,0110 393.719
Skewness 0,23800 0,6160 0,6140 -0,722 0,3490 1,627 3,873
Intervalo 0,19336 8,1900 8,2900 0,740 1,4900 0,790 7.497.000
Mínimo -0,09090 2,3200 2,3100 -0,460 -0,7900 0,020 22.000
Máximo 0,10245 10,510 10,600 0,280 0,7000 0,810 7.519.000
percentis 25 -0,01518 3,6250 3,6000 -0,020 -0,0800 0,110 319.000
50 0,00000 4,5800 4,5900 0,000 -0,0100 0,150 518.000
75 0,01566 5,9850 5,9900 0,040 0,0700 0,230 842.500
Taxa rentabilidade 1d futura
Valores ExtremosValores Extremos
Valores Extremos
Número de casos Valor
Rentabilidade futura
Mais alto
1 200 0,10245902
2 615 0,09482759
3 326 0,09090909
4 48 0,08529412
5 325 0,08307692
Mais baixo
1 12 -0,09090909
2 574 -0,08931699
3 250 -0,07812500
4 476 -0,07783019
5 68 -0,07161804
Matriz de correlaçãoMatriz de correlação
MakeDensityBasedCluesteredMakeDensityBasedCluestered
K-meansK-means
K-meansK-means
Expectation MaximizationExpectation Maximization2 – tendência de baixa
3 - tendência de baixa
0 - tendência de alta
4 - tendência de alta.
1- picos e vales – reversões e sinais de compra e venda
ImplementaçãoImplementaçãoFerramenta Neurespa
Feita em JavaComponente livre para RNAsTestes descritos em XMLTarefas
Adaptação da base de dadosSeleção de colunasNormalizaçãoDivisão da base de dadosGeração das redes neurais
ImplementaçãoImplementaçãoFerramenta Neurespa
TarefasTreinamento das redes neuraisExecução dos testesDesnormalizaçãoGeração de estatísticas e gráficos
ImplementaçãoImplementaçãoFerramenta Neurespa
Seleção de colunasSugeridas pela análise de cluster
NormalizaçãoFórmula
Divisão da base de dadosTreinamento
80% para treinamento efetivamente 20% para validação cruzada
Teste
4
tanh DDDnorm
ImplementaçãoImplementaçãoFerramenta Neurespa
Geração das redes neuraisUma para cada saídaTestes empíricosTodas as sinapses entre pares de camadas
Treinamento das redes neuraisCritério de parada
Evolução da taxa de erro entre épocas (> 10-3) Temporizador (25 segundos)
ImplementaçãoImplementaçãoFerramenta Neurespa
Geração de estatísticasErro absoluto médioErro quadrático médioSinais certos
SE ValorRealAmanhã > ValorRealHoje E ValorPredAmanhã > ValorRealHoje ENTÃO Certo e Positivo
Direções certas SE ValorRealAmanhã > ValorRealHoje E
ValorPredAmanhã > ValorPredHoje ENTÃO Certo e Positivo
n
ipredreal DD
nEAM
1
1
n
ipredreal DD
nEQM
1
21
ExperimentosExperimentosARCZ6 – Aracruz Celulose S/AConjuntos de dados
2000-2002: Treinamento2003: Teste
EstimarMédia do dia seguinteTendência do dia seguinte
ExperimentosExperimentosNúmero de neurônios
Neurônios EAM EQM Direções certas (%) Sinais certos (%)
60 0.0142531374 0.0189381424 0.58000 0.5280055 0.0136141551 0.0181271250 0.59200 0.6040050 0.0145647311 0.0191539551 0.57600 0.5000045 0.0146428920 0.0193049833 0.58400 0.5400040 0.0141685772 0.0185759937 0.58400 0.5800035 0.0142684999 0.0184947094 0.56400 0.5560031 0.0136369700 0.0177088770 0.59600 0.5760025 0.0138330496 0.0180461294 0.57600 0.5320020 0.0138531853 0.0180526843 0.60400 0.5720015 0.0139947303 0.0181804491 0.57200 0.5480010 0.0134650343 0.0177323082 0.58800 0.576005 0.0135413688 0.0177044300 0.56000 0.552004 0.0133450590 0.0174891750 0.59200 0.580003 0.0130219316 0.0169635832 0.60000 0.596002 0.0129646450 0.0168895507 0.60000 0.596001 0.0129992310 0.0169521670 0.59600 0.59200
ExperimentosExperimentosNúmero de camadas
Neurônios Camadas EAM EQM Direções (%) Sinais (%)31 5 0.0145105473 0.0187033343 0.58000 0.5080031 4 0.0147863727 0.0192559797 0.58400 0.4840031 3 0.0136369698 0.0177088770 0.59600 0.576002 5 0.0133504600 0.0174049644 0.58800 0.552002 4 0.0130855848 0.0172342358 0.59200 0.592002 3 0.0129646450 0.0168895507 0.60000 0.59600
ExperimentosExperimentosFunções de ativação
Neurônios
Funções EAM EQM Direções (%) Sinais (%)
31 LLT 0.0139650507 0.0183531935 0.57600 0.5560031 LTT 0.0136350994 0.0177076522 0.59600 0.5760031 TLT 0.0139652226 0.0183533008 0.57600 0.5560031 TTT 0.0136369698 0.0177088770 0.59600 0.576002 LLT 0.0139136840 0.0182582319 0.58000 0.548002 LTL 0.0129836528 0.0170092918 0.59200 0.584002 LTT 0.0129548072 0.0168765393 0.60000 0.596002 TLT 0.0139136696 0.0182585126 0.58000 0.548002 TTL 0.0129842942 0.0170093687 0.59200 0.584002 TTT 0.0129646450 0.0168895507 0.60000 0.59600
ExperimentosExperimentosGráfico da melhor configuração para
ARCZ6
ExperimentosExperimentosOutras ações
BBAS3
Neurônios
Funções EAM EQM Direções (%) Sinais (%)
31 LTT 0.0169376315 0.0217470302 0.63200 0.5600031 TTT 0.0169383360 0.0217462480 0.63200 0.560002 LTT 0.0162669367 0.0207035636 0.63200 0.588002 TTT 0.0162778079 0.0207187803 0.63200 0.58800
ExperimentosExperimentosOutras ações
CESP4
Neurônios Funções EAM EQM Direções (%) Sinais (%)
31 LTT 0.0238761297 0.0327860685 0.63200 0.6440031 TTT 0.0240804565 0.0330153449 0.63200 0.652002 LTT 0.0242791600 0.0337805849 0.61600 0.648002 TTT 0.0242393249 0.0337020841 0.61600 0.64800
ExperimentosExperimentosOutras ações
CESP4
Neurônios Funções EAM EQM Direções (%) Sinais (%)
31 LTT 0.0238761297 0.0327860685 0.63200 0.6440031 TTT 0.0240804565 0.0330153449 0.63200 0.652002 LTT 0.0242791600 0.0337805849 0.61600 0.648002 TTT 0.0242393249 0.0337020841 0.61600 0.64800
ExperimentosExperimentosCombinação de ações
Treinar rede com dados de 2000-2002 das 3 ações analisadas
Usar a rede treinada para prever 2003 separadamente para cada uma delas
ExperimentosExperimentosCombinação de ações
ARCZ6
BBAS3
CESP4
Neurônios Funções EAM EQM Direções (%) Sinais (%)
31 LTT 0.0136389578 0.0176992605 0.60000 0.5960031 TTT 0.0136365225 0.0176962446 0.60000 0.596002 LTT 0.0132683518 0.0171841738 0.60400 0.576002 TTT 0.0132676716 0.0171836248 0.60400 0.57600
Neurônios Funções EAM EQM Direções (%) Sinais (%)
31 LTT 0.0159774867 0.0208863916 0.62000 0.5760031 TTT 0.0159765873 0.0208849525 0.62000 0.576002 LTT 0.0152263807 0.0194231483 0.63600 0.640002 TTT 0.0152192356 0.0194120618 0.63600 0.64400
Neurônios Funções EAM EQM Direções (%) Sinais (%)
31 LTT 0.0234874720 0.0317928466 0.60800 0.6320031 TTT 0.0234978693 0.0318053487 0.60800 0.632002 LTT 0.0237169161 0.0330318608 0.62000 0.656002 TTT 0.0237160880 0.0330312800 0.62000 0.65600
Analise de ResultadosAnalise de Resultados PREDIÇÃOPREDIÇÃO do valor CLASSIFICAÇÃOCLASSIFICAÇÃO do sinal do movimento
ARCZ6ARCZ6 x BBAS3BBAS3 x CESP4CESP4 Alvos:
MEDIAD1MEDIAD1 - valor médio do próximo diaTEND_MEDIAD1TEND_MEDIAD1 - média móvel exponencial
para o valor médio do próximo dia
IndicadoresIndicadoresPrediçãoPredição Erro absolutoErro absoluto - - distância entre o valor predito e
o valor real ClassificaçãoClassificação sinal da variaçãosinal da variação [positivo, negativo]
classifica o sentido da variação entre o valor predito para o próximo dia e o valor real.
direção da variaçãodireção da variação [positiva, negativa] classifica a direção da variação entre o valor predito para o próximo dia e o valor predito do dia atual.
MEDIAD1MEDIAD1
Predição Classificação ALVO MEDIAD1MEDIAD1
Erro absoluto médio
Direções certas (%)
Sinais certos (%)
ARCZ6 0.0136 59.60% 57.60%
BAS3 0.0163 63.20% 58.80%
CESP4 0.0241 63.20% 65.20%
Predição Classificação ALVO
TEND_TEND_MEDIAD1 MEDIAD1
Erro absoluto médio
Direções certas (%)
Sinais certos (%)
ARCZ6
0.0053 80.00% 74.80%
BBAS3
0.0064 78.40% 70.00%
CESP4
0.0094 80.00% 82.00%
TEND_MEDIAD1TEND_MEDIAD1
NormalizaçãoNormalizaçãoComum
Variação
IEEE Transactions on Nuclear Science, 1997
4
tanh DDDnorm
minmax
minminmin DD
DDIIID macnorm
Análise de risco - EstatísticaAnálise de risco - Estatística 47.6% das vezes a abertura do dia seguinte é maior que o
fechamento anterior. 48.9% das vezes o fechamento do dia seguinte é maior que o
fechamento do dia anterior. 47.8% das vezes o fechamento do dia é superior a abertura. Quando a estimativa do valor médio para o dia seguinte é
superior a média do dia atual: E > 0%; (50%); F → A (52%); F → F(50.4%);A → F(48.8%); E > 0.25%; (37%); F → A (53.0%); F → F(53.5%);A → F(51.9%); E > 0.5%; (22%); F → A (53.6%); F → F(53.2%);A → F(50%);
Análise de risco – Divisão do espaço – Análise de risco – Divisão do espaço – Trabalhos futurosTrabalhos futuros
Ontem Hoje F → A F → F A → F
RESISTÊNCIA RESISTÊNCIA 80% 40% 80%
RESISTENCIA ALTA 60% 40% 60%
RESISTENCIA BAIXA 40% 60% 40%
RESISTÊNCIA RESISTÊNCIA 20% 60% 20%
Linha de experimentosLinha de experimentos