UNIVERSIDADE TÉCNICA DE LISBOA
INSTITUTO SUPERIOR TÉCNICO
Utilização de Técnicas de Data Mining para Apoio aos Agentes dos
Mercados Retalhistas de Energia Eléctrica
Sérgio Filipe Carvalho Ramos
Licenciado
Dissertação para obtenção do Grau de Mestre em Engenharia Electrotécnica e de Computadores
Orientadora: Doutora Zita Maria Almeida do Vale
Co-Orientador: Doutor João José Esteves Santana
Júri
Presidente: Doutor João José Esteves Santana
Vogais: Doutora Zita Maria Almeida do Vale Doutor Manuel Filipe Vieira Torres dos Santos Doutora Maria José Resende Doutor Pedro Alexandre Flores Correia
Junho de 2006
i
RESUMO
Nas últimas décadas, o sector eléctrico tem sofrido profundas alterações decorrentes da
reestruturação dos mercados de energia eléctrica. O fim de monopólios regulados e a
introdução da livre concorrência nalguns sectores da actividade promoveram o
aparecimento de novos agentes de mercado. No âmbito destes mercados, os
consumidores de electricidade podem agora escolher e trocar de fornecedor de energia
eléctrica, em função de possíveis vantagens económicas e de qualidade de serviço.
Neste trabalho são utilizadas técnicas de Data Mining para apoio aos agentes dos
mercados retalhistas de energia eléctrica, com o objectivo de obter um conhecimento
específico dos hábitos de consumo dos seus clientes. Este conhecimento permitirá às
empresas comercializadoras de energia eléctrica uma vantagem competitiva na actuação
nos mercados de electricidade e às empresas distribuidoras uma maior eficácia aquando
do planeamento de operação das redes.
Este trabalho consistiu no estabelecimento de uma metodologia de caracterização de
perfis de consumidores de energia eléctrica de média tensão, assente no processo de
descoberta de conhecimento em bases de dados. No âmbito da metodologia proposta,
foram escolhidos os métodos adequados para cada etapa e sistematizado o procedimento
a adoptar em todo o processo. Para validar a metodologia proposta, foi usada uma
amostra de dados real, proveniente de uma campanha de medição em consumidores de
energia eléctrica de média tensão. Como resultado, foram caracterizadas 9 classes
típicas de consumo de energia eléctrica de média tensão, correspondendo a 9 perfis
típicos de consumo. Foi, ainda, construído um modelo de classificação que, quando
aplicado a novos consumidores, permite classificá-los numa das classes obtidas.
O trabalho realizado inclui ainda o cálculo dos encargos de transmissão de energia
eléctrica que as empresas retalhistas têm que suportar para realizar o abastecimento de
um conjunto de clientes de uma dada classe. Finalmente, foram definidas novas opções
tarifárias, tendo em conta o perfil típico de consumo da classe a que os clientes
pertencem.
ii
ABSTRACT
In the last decades, the electric sector has suffered deep changes due to the restructuring
of the electric power markets. The end of regulated monopolies and the introduction of
free competition in some sectors of activity promoted the emergence of new market
agents. In the scope of these markets, the electricity consumers can now choose and
change the electric power supplier, taking into account the possible economical
advantages and quality service.
In this thesis, Data Mining techniques are used as support for the agents of the electric
power retail markets, with the purpose of obtaining specific knowledge of their
customers' consumption habits. This knowledge will award the electric power retail
companies a competitive advantage in the performance in the electricity markets and a
better network management for the distributing companies.
This work consisted in the establishment of a methodology characterization of electric
power profiles of medium voltage consumers, based on the data bases knowledge
discovery process. In the scope of the proposed methodology, appropriate methods have
been chosen for each stage and the procedure to adopt in the whole process was
systematized. To validate the proposed methodology, a sample of real data was used,
originating from a measurement campaign in medium voltage electric power
consumers. As a result, 9 typical medium voltage electric power consumption classes
were characterized, corresponding to 9 typical consumption profiles. A classification
model was also built that, when applied to new consumers, permits them to be classified
in one of the obtained classes.
The completed work still includes the calculation of the electric energy transmission
that the retail companies have to support in order to accomplish the supply of a
customer group of a given class. Finally, new tariff options were defined, taking into
consideration the typical consumption profile of the class to which the customers
belong.
iii
AGRADECIMENTOS
Quero começar por agradecer aos meus orientadores, Professora Doutora Zita Almeida
do Vale e Professor Doutor João Santana, por todo o apoio, estímulo e disponibilidade
demonstrados ao longo deste trabalho, bem como todo o interesse que sempre lhe
dedicaram.
Expresso, também, o meu agradecimento à Doutora Fátima Rodrigues pelos novos
horizontes que me abriu na área de Data Mining e pelo trabalho de revisão de alguns
capítulos. Agradeço, ainda, aos Mestres Vera Figueiredo e Jorge Duarte a colaboração
no tratamento inicial dos dados e pelas suas valiosas sugestões.
Quero manifestar o meu apreço e agradecimento ao GECAD, em particular ao Professor
Doutor Carlos Ramos, pelos meios disponibilizados sem os quais a realização deste
trabalho não seria possível.
Aos Mestres Raul Pinheiro e Judite Ferreira, agradeço a preciosa colaboração em
diferentes fases do trabalho e a genuína amizade.
Agradeço à EDP – Distribuição, pelos dados facultados, cruciais para a realização deste
trabalho.
Aos meus alunos do passado, presente e futuro porque são os destinatários últimos deste
esforço.
Aos meus pais, por todos os sacrifícios que fizeram em meu nome.
Ao Dr. Mourão Neves e à Dra. Maria da Saudade, por todo o apoio e dedicação.
Àquela que para o Mundo é a Carla, mas que para mim é o Mundo, dedico em especial
este trabalho, por todo o seu apoio, pela sua grandeza, pelo seu amor e pela sua
imensurável generosidade.
iv
ÍNDICE
LISTA DE FIGURAS................................................................................................VIII
LISTA DE TABELAS..................................................................................................XI
LISTA DE ABREVIATURAS................................................................................... XII
1. INTRODUÇÃO .................................................................................................... 1
1.1 Motivações e Objectivos do Trabalho................................................................. 1
1.2 Abordagem e Organização do Texto................................................................... 6
2. A CARACTERIZAÇÃO DOS CONSUMIDORES DE ELECTRICIDADE. 9
2.1 Introdução............................................................................................................ 9
2.2 Definição da Amostra........................................................................................ 15
2.3 Manuseamento das leituras ............................................................................... 17
2.3.1 Introdução................................................................................................... 17
2.3.2 Limpeza e Filtragem dos Dados ................................................................. 17
2.3.3 Preparação dos dados.................................................................................. 20
2.3.4 Normalização dos dados............................................................................. 21
2.4 Atributos dos Diagramas representativos.......................................................... 25
2.4.1 Introdução................................................................................................... 25
2.4.2 Índices de forma normalizados................................................................... 26
2.4.3 Utilização dos Dados Comerciais............................................................... 30
2.4.4 Utilização dos Dados Atmosféricos ........................................................... 32
2.4.5 Atributos Diversos...................................................................................... 33
2.5 Caracterização dos Perfis Típicos de Consumo ................................................ 33
2.5.1 Introdução................................................................................................... 33
2.5.2 Modelos de Caracterização......................................................................... 34
2.6 Índices de Caracterização.................................................................................. 35
3. DATA MINING ................................................................................................... 41
3.1 Introdução.......................................................................................................... 41
3.2 Conceito de Data Mining .................................................................................. 43
3.3 Data Mining e a Estatística ............................................................................... 45
3.4 O Processo de Data Mining e a Descoberta de Conhecimento em Bases de
Dados........................................................................................................................... 46
v
3.5 A Origem dos Dados ......................................................................................... 49
3.6 Principais Tarefas de Data Mining.................................................................... 50
3.6.1 Introdução................................................................................................... 50
3.6.2 Classificação............................................................................................... 51
3.6.3 Estimativa ou Regressão............................................................................. 52
3.6.4 Agrupamento por afinidade ou Associação................................................ 53
3.6.5 Segmentação ou Clustering ........................................................................ 54
3.6.6 Análise de Desvio....................................................................................... 56
3.7 Técnicas de Data Mining .................................................................................. 56
3.7.1 Como escolher a Técnica de Data Mining mais adequada......................... 57
3.7.2 Árvores de Decisão..................................................................................... 58
3.7.3 Redes Neuronais ......................................................................................... 62
3.7.4 Algoritmos Genéticos ................................................................................. 68
3.7.5 Algoritmos de Clustering ........................................................................... 69
3.7.5.1 Algoritmos de K-Means ......................................................................... 74
3.7.5.2 Algoritmo Two-Step ............................................................................... 76
3.7.6 Algoritmos de Vizinhança mais Próxima................................................... 77
3.8 Data Mining: áreas de aplicação ....................................................................... 78
4. CONTRATOS DE ELECTRICIDADE EM AMBIENTE DE MERCADO
LIBERALIZADO ......................................................................................................... 81
4.1 Introdução.......................................................................................................... 81
4.2 A Liberalização do Sector Eléctrico.................................................................. 84
4.2.1 Agentes Participantes no Mercado Liberalizado ........................................ 88
4.2.2 Organização do Sector Eléctrico Nacional – SEN ..................................... 89
4.2.3 Relacionamento comercial entre o SEP e o SENV .................................... 92
4.2.3.1 Contratos Bilaterais Físicos .................................................................... 93
4.2.3.2 Garantia de Abastecimento..................................................................... 93
4.2.3.3 Contratos de Curta Duração ................................................................... 96
4.3 Novos Modelos de Mercados............................................................................ 97
4.3.1 Sistema de Ofertas – “pool” ....................................................................... 98
4.3.2 Sistemas de Ofertas – “pool”: Obrigatoriedade versus Voluntariedade... 104
4.3.3 Contratos Bilaterais .................................................................................. 105
vi
4.3.4 Mercados de Derivados ............................................................................ 106
4.3.4.1 Contratos de Futuros............................................................................. 107
4.3.4.2 Contratos de Opções............................................................................. 108
4.3.4.3 Contratos às Diferenças ........................................................................ 109
4.4 Tarifas e Contratos de Energia Eléctrica nos Mercados Retalhistas............... 110
4.5 Telecontagem .................................................................................................. 115
4.6 A livre escolha do fornecedor de electricidade ............................................... 120
5. CARACTERIZAÇÃO DE PERFIS TÍPICOS DE CONSUMIDORES DE
MÉDIA TENSÃO....................................................................................................... 125
5.1 Introdução........................................................................................................ 125
5.2 Técnicas de Data Mining na Caracterização de Perfis Típicos de Consumo.. 126
5.3 Descrição da Amostra ..................................................................................... 127
5.4 Preparação dos Dados para Data Mining ........................................................ 132
5.4.1 Limpeza dos Dados .................................................................................. 133
5.4.1.1 Tratamento de Dados em Falta............................................................. 135
5.4.2 Pré-processamento dos Dados .................................................................. 138
5.4.2.1 Redução do Volume de Dados ............................................................. 138
5.4.2.2 Normalização dos Dados...................................................................... 141
5.5 Atributos que Descrevem os Diagramas de Carga.......................................... 144
5.5.1 Escolha dos Atributos............................................................................... 145
5.6 Caracterização de Consumidores de Média Tensão Usando Clustering
Hierárquico................................................................................................................ 146
5.6.1 Introdução................................................................................................. 146
5.6.2 Definição do Número de Classes.............................................................. 147
5.6.3 Aplicação de Algoritmos de Clustering ................................................... 149
5.6.4 Determinação dos Perfis Típicos de Consumidores de MT ..................... 158
5.7 Caracterização dos Perfis Típicos de Consumidores de Média Tensão.......... 160
5.7.1 Perfil Típico de Consumo e Código de Actividade Comercial ................ 160
5.7.2 Caracterização de Perfis de Consumidores de Média Tensão usando um
Modelo de Classificação........................................................................................ 162
5.7.2.1 Introdução............................................................................................. 162
5.7.2.2 Modelo de Classificação....................................................................... 164
vii
5.7.2.3 Utilização do Modelo de Classificação nos Dados .............................. 165
5.8 Comentários Finais do Capítulo...................................................................... 173
6. APOIO AOS AGENTES DOS MERCADOS RETALHISTAS DE ENERGIA
ELÉCTRICA .............................................................................................................. 175
6.1 Introdução........................................................................................................ 175
6.2 Regulação do Sector Eléctrico ........................................................................ 176
6.3 Identificação dos Custos.................................................................................. 177
6.3.1 Método do Selo de Correio – Postage Stamp........................................... 178
6.4 Caso de Estudo ................................................................................................ 181
6.4.1 Introdução................................................................................................. 181
6.4.2 Determinação das Curvas de Custo de Uso das Redes............................. 184
6.4.3 Opções para Melhorar a Oferta de Tarifas ............................................... 187
7. CONCLUSÕES................................................................................................. 193
7.1 Objectivos Alcançados.................................................................................... 193
7.2 Perspectivas Futuras........................................................................................ 197
REFERÊNCIAS ......................................................................................................... 199
ANEXO A – DADOS DOS CONSUMIDORES DE ELECTRICIDADE ............. 209
ANEXO B – RESULTADOS OBTIDOS.................................................................. 217
viii
LISTA DE FIGURAS
Figura 3.1 – Esquema Data Mining ............................................................................... 43
Figura 3.2 – Processo DCBD ......................................................................................... 44
Figura 3.3 – Etapas do processo de Data Mining........................................................... 47
Figura 3.4 – Processo de Data Mining e DCBD ............................................................ 48
Figura 3.5 – Regressão como forma de previsão............................................................ 53
Figura 3.6 – Árvore de decisão – alternativas ................................................................ 58
Figura 3.7 – Estrutura hierárquica da árvore de decisão ................................................ 58
Figura 3.8 – Modelo de um nodo ................................................................................... 64
Figura 3.9 – Topologia de uma rede neuronal multi-camadas ....................................... 65
Figura 3.10 – Rede neuronal que simula mapa auto organizado.................................... 67
Figura 3.11 – Desenvolvimento de uma solução com algoritmo genético..................... 69
Figura 3.12 – Clustering hierárquico – Dendograma ..................................................... 72
Figura 4.1 – Organização do sector eléctrico nacional................................................... 90
Figura 4.2 – Convergência do modelo em Pool ........................................................... 100
Figura 4.3 – Modelo de Exploração do sector eléctrico em Pool ................................ 100
Figura 4.4 – Preço de Mercado – Market Clearing Price ............................................ 101
Figura 4.5 – Preço de Encontro do Mercado Assimétrico............................................ 102
Figura 4.6 – Liquidação dos Contratos às Diferenças .................................................. 110
Figura 5.1 – Stream da Rede Neuronal para previsão de valores em falta................... 137
Figura 5.2 – Curvas da potência consumida real e estimada........................................ 137
Figura 5.3 – Estrutura da redução do volume de dados. .............................................. 139
Figura 5.4 – Evolução dos índices MIA e CDI com o número de clusters. ................. 148
Figura 5.5 – Clustering usando os algoritmos Two-Step Cluster Analysis, K-Means e
SOM .............................................................................................................................. 150
Figura 5.6 – Selecção das variáveis de entrada, tipo de atributos e resposta a usar no
modelo .......................................................................................................................... 151
Figura 5.7 – Campos excluídos para aplicação ao algoritmo de clustering ................. 151
Figura 5.8 – Informação da operação de clustering do modelo usado ......................... 152
Figura 5.9 – Informação do modelo criado – Algoritmo K-Means .............................. 153
Figura 5.10 – Parâmetros de treino da rede neuronal usada......................................... 153
ix
Figura 5.11 – Distribuição dos consumidores pelas 9 classes obtida com o algoritmo
Two-Step Cluster Analysis............................................................................................ 154
Figura 5.12 – Distribuição dos consumidores pelas 9 classes obtida com o algoritmo K-
Means ........................................................................................................................... 155
Figura 5.13 – Projecção da distribuição dos consumidores pelas 9 classes obtida com a
rede de Kohonen – SOM ............................................................................................... 155
Figura 5.14 – Perfis típicos de consumo para os Dias Úteis ........................................ 159
Figura 5.15 – Perfis típicos de consumo para Fim-de-Semana .................................... 159
Figura 5.16 – Perfis típicos de consumo dos consumidores pertencentes ao Cluster 8 –
Dias úteis ...................................................................................................................... 160
Figura 5.17 – Distribuição dos clusters em função do código de actividade comercial
...................................................................................................................................... 161
Figura 5.18 – Distribuição dos clusters em função da PC............................................ 162
Figura 5.19 – Stream do modelo de classificação usado.............................................. 167
Figura 5.20 – Distribuição das classes dos índices de forma antes da classificação.... 167
Figura 5.21 – Remoção do factor de utilização através do nó filter ............................. 168
Figura 5.22 – Distribuição das classes dos índices de forma com remoção de 6f – factor
de utilização.................................................................................................................. 169
Figura 5.23 – Distribuição das classes de treino .......................................................... 170
Figura 5.24 – Distribuição das classes de teste ............................................................ 170
Figura 5.25 – Resultado do modelo para dados dias úteis............................................ 171
Figura 5.26 – Matriz de classificação das classes para dias úteis................................. 172
Figura 5.27 – Matriz de classificação das classes para o conjunto de dados de Fim-de-
Semana ......................................................................................................................... 172
Figura 5.28 – Matriz de classificação das classes para dias fim-de-semana ................ 173
Figura 6.1 – Perfis típicos de consumo para os Dias Úteis .......................................... 182
Figura 6.2 – Perfis típicos de consumo para Fim-de-Semana ...................................... 182
Figura 6.3 – Diagramas de consumo de potência para os clientes do cluster 2 – Dias
Úteis.............................................................................................................................. 185
Figura 6.4 – Variação do preço de transmissão de electricidade para os clientes do
cluster 2 – Dias Úteis ................................................................................................... 186
x
Figura 6.4 – Variação do preço de transmissão de electricidade para o cluster 2 – Dias
Úteis.............................................................................................................................. 187
Figura 6.5 – Variação típica do preço de energia eléctrica para o tarifário existente .. 188
Figura 6.6 – Variação do consumo de energia eléctrica do cliente 8 ao longo de um dia
...................................................................................................................................... 189
Figura 6.7 – Perfil típico de consumo do cluster 2 para Dias Úteis ............................. 189
Figura 6.8 – Nova estrutura tarifária para os clientes do cluster 2 ............................... 190
Figura 6.9 – Localização dos coeficientes de preços para rendimentos totais constantes
...................................................................................................................................... 191
xi
LISTA DE TABELAS
Tabela 2.1 – Índices de forma normalizados para caracterização do diagrama de carga29
Tabela 4.1 – Consumo de Energia Eléctrica em 1925.................................................... 82
Tabela 4.2 – Tarifas reguladas de acesso às redes do SEP........................................... 121
Tabela 5.1 – Resumo dos dados disponibilizados ........................................................ 128
Tabela 5.2 – Dimensão percentual da amostra ............................................................. 131
Tabela 5.3 – Dimensão percentual dos consumidores com potências contratadas
semelhantes................................................................................................................... 131
Tabela 5.4 – Dimensão percentual dos consumidores com o mesmo código de
actividade comercial ..................................................................................................... 132
Tabela 5.5 – Índices MIA e CDI calculados para a partição de 9 clusters para o conjunto
de dados de Fim-de-Semana......................................................................................... 156
Tabela 5.6 – Índices MIA e CDI calculados para a partição de 9 clusters para o conjunto
de dados Dias Úteis ...................................................................................................... 156
Tabela 5.7 – Índices MIA e CDI calculados para o conjunto de dados dos registos de
leituras e para os índices – Fim-de-Semana ................................................................. 158
Tabela 5.8 – Índices MIA e CDI calculados para o conjunto de dados dos registos de
leituras e para os índices – Dias Úteis .......................................................................... 158
Tabela 5.9 – Índices de forma utilizados na classificação............................................ 166
Tabela 5.10 – Importância relativa dos atributos de entrada........................................ 168
Tabela 5.11 – Importância relativa dos atributos de entrada com remoção de 6f – factor
de utilização.................................................................................................................. 169
Tabela 6.1 – Coeficientes da Tarifa de Uso Global do Sistema................................... 184
xii
LISTA DE ABREVIATURAS
AAOR – Acordo de Acesso e Operação das Redes
AD – Apoio à Decisão
AMR – Automatic Meter Reading
AT – Alta Tensão
BT – Baixa Tensão
BTE – Baixa Tensão Especial
BTN – Baixa Tensão Normal
CAE – Contratos Aquisição de Energia
CBF – Contratos Bilaterais Físicos
CDI – Cluster Dispersion Indicator
CFD – Contracts for Differences
CNV – Cliente Não Vinculado
CTC – Custos de Transição para a Concorrência
DCBD – Descoberta de Conhecimento em Bases de Dados
DM – Data Mining
DW – Data Warehouse
EDF – Electricité de France
EDP – Electricidade de Portugal
EEX – European Energy Exchange
ERSE – Entidade Reguladora dos Serviços Energéticos
KDD – Knowledge Discovery in Databases
MAT – Muito Alta Tensão
MBA – Market Basket Analysis
MIA – Mean Índex Adequacy
MIBEL – Mercado Ibérico de Electricidade
MLP – Multilayer perceptron
MT – Média Tensão
NYMEX – New York Mercantile Exchange
OLAP – Online Analytical Processing
OTC – Over-the-Counter
xiii
PC – Potência Contratada
PLC – Power Line Carrier
PT – Posto de Transformação
PTC – Perfil Típico de Consumo
REN – Rede Eléctrica Nacional
RNT – Rede Nacional de Transporte
SAD – Sistemas de Apoio à Decisão
SEI – Sistema Eléctrico Independente
SEN – Sistema Eléctrico Nacional
SENV – Sistema Eléctrico Não Vinculado
SEP – Sistema Eléctrico de Serviço Público
SOM – Self Organizing Maps
STLF – Short-Term Load Forecasting
TLP – Typical Load Profile
UE – União Europeia
UGS – Uso Global de Sistema
UKPX – United Kingdom Power Exchange
Capítulo 1: Introdução
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 1
1. INTRODUÇÃO
“Electricity is much more than just another commodity; it is the life-blood of the
economy and our quality of life” (Gellings, 2002)
Este capítulo faz uma breve introdução ao tema que se pretende abordar na presente
dissertação. O capítulo inicia-se com referências ao passado da estrutura do sector
eléctrico e aos novos desafios a que este sector está sujeito no presente, devido à
introdução de mecanismo de livre concorrência. São, ainda, identificados alguns agentes
de mercado, emergentes da reestruturação do sector eléctrico, e mencionados os riscos
associados à liberalização desse sector. Por fim, são apresentados os objectivos do
trabalho e a descrição da organização do texto.
1.1 Motivações e Objectivos do Trabalho
A partir do final do século XIX iniciaram-se as actividades inerentes às diferentes
etapas da cadeia de energia: produção, transporte, distribuição e consumo de
electricidade e, a partir de então, o sector eléctrico conheceu numerosas transformações
e evoluções. Em Portugal, e até 1975, o sector eléctrico encontrava-se organizado em
empresas concessionárias dando-se a sua nacionalização nesse mesmo ano, nascendo,
assim, a Electricidade de Portugal, EDP (EDP, 1990).
Antes da liberalização do mercado de energia, o sector eléctrico apresentava, na maior
parte dos países, uma estrutura vertical que integrava todas as etapas da cadeia de
energia, desde a produção até ao relacionamento comercial com o cliente final. Em
Portugal, à semelhança da maior parte dos países, o Estado tinha uma forte participação
neste sector. O sector eléctrico caracterizava-se por um regime de monopólio fechado à
livre concorrência. A produção de energia era a única que apresentava alguma
competitividade, dentro do sector da energia, com maior ou menor incidência,
dependendo das regras legislativas de cada país.
Capítulo 1: Introdução
2 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Num ambiente de monopólio regulado, os consumidores de energia eléctrica não
tinham, assim, qualquer possibilidade de opção na escolha da entidade com a qual
desejavam celebrar o contrato de aquisição de electricidade, podendo apenas escolher
entre um número reduzido de tarifários.
Nas últimas décadas a estrutura do sector eléctrico, sofreu na maioria dos países
desenvolvidos, uma grande evolução estrutural e regulamentar, assistindo-se à
reestruturação1 e liberalização dos mercados de energia eléctrica, conduzindo a um
ambiente de competição. As empresas, até então verticalmente integradas, sofreram
uma desintegração, separando-se claramente as diferentes etapas, daí resultando
empresas que actuam em áreas específicas, nomeadamente na produção, transporte,
distribuição ou comercialização da energia eléctrica.
Com a reestruturação em curso em alguns países, e sem colocar em causa o monopólio
natural constituído pelas infraestruturas das redes, tem-se defendido a passagem de
sectores, como a produção e comercialização de electricidade, do regime em monopólio
regulado para o mercado concorrencial (Santana, 2003a).
Presenciamos, assim, em alguns países, à liberalização da indústria eléctrica.
No futuro, todos os consumidores de energia eléctrica irão poder escolher livremente o
seu fornecedor, situado no seu país ou em qualquer outro estado membro da União
Europeia (UE). Segundo Vasconcelos (Vasconcelos, 2003), cerca de 80% do consumo
na Europa é já livre de escolher o seu fornecedor, a passagem de 80% para 100% é
marginal em termos de volume, mas deveras importante em termos de número de
consumidores abrangidos, dado que irá alargar a elegibilidade aos consumidores
domésticos dos países do sul da Europa os quais, com excepção da Espanha, ainda não
são elegíveis. Com tal alargamento, está definitivamente lançado o desafio a todas as
empresas fornecedoras que actuam, ou pretendem actuar, no mercado de retalho de
energia.
1 O termo "deregulation", proveniente da literatura em língua inglesa, que significa a introdução de estruturas de mercado no sector eléctrico, foi, originalmente, traduzido pela comunidade científica portuguesa como "desregulação" ou "desregulamentação". No entanto, e como estes termos não se prefiguraram como os mais adequados para nomear este processo, adoptaram-se os termos "reestruturação" ou "liberalização".
Capítulo 1: Introdução
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 3
O comercializador, actuando em qualquer zona geográfica de um determinado país,
poderá estabelecer contratos bilaterais físicos (CBF) ou apresentar propostas de compra
– comercializadores de retalho – ou venda – comercializadores grossistas – de energia
eléctrica no mercado de energia.
Os novos modelos de mercado admitem geralmente a existência de bolsas ("pools"),
onde são estabelecidas ofertas de compra e venda de energia eléctrica e, onde, para além
disso, se podem efectuar contratos bilaterais físicos, já referidos, entre produtores e
compradores de energia.
Neste contexto, assume particular importância a figura do operador de mercado que
gere todo o sistema, no que diz respeito às transacções comerciais, remetendo-se os
aspectos puramente técnicos, nomeadamente a validação das transacções de energia
para o operador de sistema.
Espera-se que a liberalização do mercado de electricidade tenha consequências positivas
para os consumidores (empresas e particulares) nos diferentes níveis de tensão.
A criação da concorrência no mercado de electricidade origina condições para uma
melhoria na qualidade de serviço e uma maior diversidade de produtos, possibilitando a
oferta de produtos "combinados", como por exemplo gás e electricidade. Além da
redução do preço da energia, espera-se que o novo contrato proporcione,
simultaneamente, um meio de atracção de capitais para investimento neste sector
energético.
Para as empresas eléctricas, a maior liberdade de actuação no mercado origina
condições de acrescida competitividade, concorrência e de um maior incentivo à
eficiência de operação.
Com a liberalização deste sector, e à medida que os clientes forem escolhendo,
directamente ou mediante um comercializador de energia do mercado, o seu fornecedor,
irão deixar de pagar as tarifas reguladas de venda a clientes finais, passando a pagar um
determinado preço pela energia relacionada com o preço que se estabelece no mercado,
com as tarifas de uso das redes e das restantes actividades reguladas.
Capítulo 1: Introdução
4 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
A separação entre os diversos segmentos do sector eléctrico, nomeadamente entre
distribuição e comercialização, irá abrir e fomentar o aparecimento de empresas
distribuidoras que irão adquirir a energia eléctrica no mercado grossista e que a irão
vender aos consumidores finais.
Aos retalhistas, figuras preponderantes no mercado de electricidade, está
indubitavelmente associado o risco. Estas empresas adquirem a energia eléctrica aos
produtores e vendem-na aos consumidores num ambiente de mercado "spot", onde os
desequilíbrios entre a oferta e a procura representam um factor de risco. Os retalhistas
compram a electricidade a preços sujeitos à volatilidade do mercado eléctrico e vendem
a preço fixo (Kirschen, 2003). Assim, os retalhistas deverão possuir estratégias que lhes
confiram a previsão do consumo de energia eléctrica dos seus clientes e também
mecanismos que permitam a protecção contra o risco.
A previsão de cargas é, deste modo, um elemento fulcral na eventual redução e
atenuação do risco a que os retalhistas estão sujeitos, num ambiente competitivo de
venda/compra de electricidade.
A previsão de carga será facilitada com a instalação de equipamento de medição em
tempo real. Deste modo, os retalhistas poderão utilizar os dados provenientes dos
aparelhos de medição, de forma a reduzir o risco na compra de energia aos produtores.
A caracterização dos perfis típicos de consumo dos consumidores de energia eléctrica,
assume uma importância crescente para os comercializadores de electricidade, no apoio
e estabelecimento de contratos e definição de estratégias de mercado, contribuindo,
decisivamente, para o sucesso da implementação dos mercados retalhistas.
Num ambiente de mercado competitivo, os retalhistas têm, também, para além do factor
de risco, a própria concorrência estabelecida pelos outros retalhistas, dado que, sempre
que se torne numa vantagem efectiva, os consumidores finais podem facilmente optar
por um outro "vendedor" de energia eléctrica. Cabe, então, aos retalhistas apresentar
soluções apropriadas aos consumidores, numa base de preços e diferenciação, de forma
a conquistar a sua quota de mercado.
Capítulo 1: Introdução
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 5
Um dos objectivos deste trabalho consiste em caracterizar o perfil típico de consumo de
consumidores de energia eléctrica de média tensão (MT), tendo como suporte uma base
de dados recolhida numa campanha de medição promovida pela EDP-Distribuição.
Com a aplicação de técnicas de Data Mining2 (DM) é apresentado todo um processo de
descoberta de conhecimento contido em bases de dados de consumidores de energia
eléctrica de MT.
Para concretizar este objectivo, criou-se um modelo que permite separar consumidores
de MT em classes, segundo um critério de similaridade do padrão de consumo. Cada
classe (cluster) criada deverá ter consumidores que tenham entre eles uma elevada
similaridade, em termos de padrão de consumo. Consumidores pertencentes a diferentes
classes deverão ter, entre eles, um padrão de consumo claramente distinto. Cada classe
obtida foi representada por um diagrama de cargas típico diário, tendo-se distinguido
diferentes regimes de carga que possam influenciar a forma como a energia eléctrica é
consumida.
Com base na classificação das classes obtidas foi, ainda, usado um modelo de
classificação que, quando aplicado a novos consumidores não classificados, permitirá
atribuir a estes, a sua respectiva classe. Deste modo, pretendeu-se atribuir a cada novo
consumidor o perfil típico de consumo que melhor o representa.
Com recurso à caracterização dos consumidores de energia eléctrica de MT, e com base
nas diferentes classes obtidas (em que cada uma é representada por um diagrama de
carga típico representativo), utilizaram-se os diagramas de carga representativos de cada
classe de consumidores para apoio aos comercializadores na formulação das tarifas de
electricidade.
2 Tarefa associada à exploração de dados para extracção de conhecimento. Dado não haver tradução na comunidade científica portuguesa para este termo, a sua terminologia original será mantida ao longo da dissertação.
Capítulo 1: Introdução
6 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
1.2 Abordagem e Organização do Texto
A presente dissertação é constituída por 7 capítulos e 2 anexos. O tema principal é o
conhecimento dos perfis de consumo dos consumidores de MT, com recurso a técnicas
de Data Mining (DM), para apoio à decisão no estabelecimento de contratos.
Ao presente capítulo de introdução sucede o capítulo 2, em que são apresentadas as
diversas fases da metodologia de caracterização de consumidores de energia eléctrica,
com base num processo de descoberta de conhecimento em bases de dados. É definido o
perfil típico de consumo e sua importância para os diferentes sectores do sistema
eléctrica de energia. A descrição das etapas da metodologia referida inicia com a
definição e estudo da carga, finalizando com a apresentação de índices de caracterização
que avaliam e validam os resultados obtidos.
No capítulo 3 são apresentadas algumas operações de DM, correntemente utilizadas
nesta área de investigação. É feita uma breve abordagem ao conceito de DM,
seguidamente são apresentadas as principais tarefas de DM e as respectivas técnicas de
implementação.
No capítulo 4, são apresentadas as modalidades para transaccionar a energia eléctrica
em ambiente de mercado liberalizado. São identificados os novos agentes participantes
e os novos modelos de mercados. São, ainda, apresentados novos tipos de contratos e
referida a importância da instalação de aparelhos de medição em tempo real.
No capítulo 5, é exposta toda uma metodologia para a caracterização de perfis típicos de
consumidores de média tensão. Recorrendo à aplicação de técnicas de DM,
caracterizaram-se perfis típicos de consumo de electricidade a partir de uma base de
dados fornecida pela EDP – Distribuição, resultante de uma campanha de medição,
ocorrida em meados da década de noventa do século passado. O capítulo encontra-se
estruturado de acordo com as diversas fases da metodologia. Assim, inicialmente, é feita
uma descrição da amostra dos dados usados, seguido da descrição do trabalho de
preparação dos mesmos para análise, nomeadamente o tratamento de dados em falta,
Capítulo 1: Introdução
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 7
redução do seu volume e normalização dos dados. Em seguida, e com a aplicação de
algoritmos de Clustering, é descrito o processo de determinação dos perfis típicos de
consumo. Após a verificação da não existência de correlação entre os perfis típicos e o
código de actividade comercial, foi implementado um modelo de classificação que
possa ser aplicado a registos não classificados, visando classificá-los em classes. Para
tal, foi usada uma árvore de decisão, gerando-se regras de classificação a partir de
índices de forma, extraídos dos diagramas de cargas.
No capítulo 6, é apresentado um estudo de previsão do encargo pela transmissão de
energia eléctrica, que as empresas distribuidoras e comercializadoras terão no
abastecimento de electricidade aos seus clientes. Com recurso aos perfis típicos de
consumo, obtidos no capítulo 5, são ainda propostas novas opções tarifárias, que melhor
se adapta a cada uma das classes.
Finamente, no capítulo 7, são apresentadas as conclusões do trabalho realizado, algumas
considerações finais e ainda apontadas direcções de trabalho futuro.
Adicionalmente, a tese inclui ainda dois anexos. O anexo A apresenta várias tabelas
referentes à caracterização dos dados utilizados no presente estudo. O anexo B contém
várias tabelas e figuras que representam os resultados obtidos ao longo do trabalho.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 9
2. A CARACTERIZAÇÃO DOS CONSUMIDORES DE ELECTRICIDADE
A caracterização dos consumidores de electricidade constitui, para as empresas
distribuidoras e comercializadoras de energia eléctrica, uma importante ferramenta de
previsão e conhecimento do comportamento de consumo de energia eléctrica dos seus
clientes. Neste capítulo, é relatado todo o processo para caracterizar os perfis típicos de
consumo, a partir de bases de dados. A metodologia apresentada assenta na estrutura de
todo um processo de descoberta de conhecimento em base de dados
2.1 Introdução
Diferentes tipos de consumidores de energia eléctrica apresentam, naturalmente,
diferentes configurações dos seus diagramas de carga diários. O consumo de energia
eléctrica depende de muitos e variados factores, tais como: o nível de tensão da rede a
que cada cliente está ligado (Baixa, Média ou Alta Tensão); o seu estilo de vida
reflectido, consequentemente, nos hábitos de consumo; condições socioeconómicas;
condições climáticas; sazonalidade; dia da semana, tipo de cliente (doméstico, serviços,
comércio, indústria…).
Uma forma de conhecer os hábitos de consumo dos clientes de electricidade consiste na
execução de um estudo de caracterização da carga, cujo principal resultado é um
conjunto de diagramas de carga típicos que sintetizam o perfil da procura, ao longo do
tempo. O estudo da caracterização do perfil típico de consumo inicia-se com a operação
de leitura e medição da potência consumida, cuja dificuldade do processo aumenta à
medida que o valor do nível de tensão diminui, dado que para clientes de baixa tensão
não existem, ainda, aparelhos de leitura em tempo real (ao contrário do que se verifica
nos níveis de tensão mais elevados), o que limita a disponibilidade de dados para
estudo. Por outro lado, o número de consumidores em baixa tensão é elevado, limitando
o tempo da recolha de dados no caso de haver um número reduzido de aparelhos de
medição. A obtenção dos valores de potência consumida é normalmente obtida através
da realização de campanhas de medição.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
10 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Nos níveis de AT, onde o número de consumidores é pequeno, logo a obtenção das
medições é facilitada, o perfil da curva de carga tende a ser uniforme ao longo do ano.
Na média e baixa tensão, são abastecidos milhões de consumidores, existindo uma
grande diversidade na forma como é consumida a energia eléctrica ao longo do tempo.
Neste tipo de consumidores, dada a impossibilidade de, operacionalmente, medir a
curva de carga de todos os clientes, são utilizadas técnicas de amostragem escolhendo-
se, assim, um conjunto representativo de consumidores.
O conhecimento específico dos hábitos de consumo dos diferentes tipos de
consumidores permite às empresas de distribuição de energia eléctrica uma maior
eficácia e eficiência aquando do planeamento de operação das redes. Por outro lado,
para as empresas retalhistas do sector eléctrico este conhecimento constituirá uma mais
valia traduzida numa vantagem adicional na respectiva actuação nos mercados de
electricidade.
As empresas do sector eléctrico devem estar preparadas para satisfazer as pretensões e
necessidades energéticas dos seus consumidores em condições de boa qualidade
(qualidade da forma de onda da tensão, da frequência, continuidade de serviço…). Dada
a necessidade de avultados investimentos nos sistemas eléctricos de energia para
satisfazer abastecimentos, por vezes pontuais, assim como o aumento da escassez dos
recursos energéticos, as empresas do sector eléctrico tendem a criar meios que lhes
permitem adiar tanto quanto possível as necessidades de novos investimentos. Estas
medidas passam pela intervenção directa nas cargas ou então pelo incentivo aos
consumidores que os estimulem a alterar os seus hábitos e padrões de consumo.
Aquando da definição de uma estrutura tarifária, é essencial o conhecimento dos hábitos
de consumo da população consumidora de energia eléctrica, em termos de períodos de
consumo, tipo de equipamentos, etc.
Há vários métodos e critérios de classificação de consumidores de energia eléctrica
dependendo, antes de mais, da informação disponível bem como da estrutura tarifária.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 11
As empresas de distribuição classificam normalmente os seus consumidores com base
nas suas características comerciais, como por exemplo, o nível de tensão a que
compram a energia eléctrica, o valor da potência contratada e o código de actividade
comercial.
A classificação dos consumidores por parte das empresas distribuidoras, com base na
informação comercial disponível, torna-se incompleta pelo facto de não permitir
conhecer o comportamento dos consumidores, em termos de consumo de energia
eléctrica, para o qual é decisivo o conhecimento do seu diagrama de cargas diário, ao
longo dos diferentes dias da semana em cada época do ano. O estudo referente ao
conhecimento do comportamento e agrupamento dos diferentes tipos de consumidores
(dentro do mesmo nível de tensão) tem sido alvo de inúmeros trabalhos científicos,
onde se procura representar diferentes perfis de consumo de energia eléctrica mediante
um agrupamento desses mesmos consumidores num conjunto de classes. Cada uma
dessas classes permitem caracterizar um determinado conjunto de consumidores com
semelhanças e afinidades relativamente ao seu padrão de consumo de electricidade.
Sendo o perfil de consumo retratado através do diagrama de cargas, onde se exprime a
variação da potência em função do tempo, ou seja, se demonstra a influência da hora, do
dia, da época do ano sobre as potências consumidas nesse período de tempo, o perfil
típico de consumo (PTC) de um determinado cliente num determinado dia da semana
representará o diagrama de cargas típico desse mesmo dia da semana.
O conceito de perfil de consumo tem sido aplicado pelas companhias de electricidade na
aplicação de tarifas, assumindo um destaque relevante nos mercados liberalizados de
electricidade.
O conhecimento dos PTC dos diversos tipos de consumidores é extremamente valioso
para os diferentes sectores do sistema eléctrico de energia, nomeadamente:
Na produção de energia eléctrica: De forma a prever com maior exactidão a
evolução do valor da carga, do valor de pico e do valor de cava, sendo
Capítulo 2: A Caracterização dos Consumidores de Electricidade
12 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
importante o conhecimento atempado do comportamento do padrão de consumo
dos diversos clientes;
De forma a optimizar os investimentos a realizar no sistema eléctrico de energia,
a previsão da evolução do valor do consumo de electricidade para uma dada área
ou região, com base no conhecimento histórico do perfil de consumo dos
diversos clientes, constituem importantes agentes para a área de planeamento e
gestão da rede eléctrica.
Na estimação do valor da carga de curto prazo [também designado Short-Term
Load Forecasting (STLF), (Pitt, 2000)]: Associado aos mercados de
electricidade (p.e. o Modelo Pool), onde de acordo com a previsão do valor da
carga e das ofertas de venda de energia, é determinado o despacho provisório,
com consideração ou não (nesta fase) das restrições técnicas de operação da
rede. Em consequência, é importante um conhecimento, tão rigoroso quanto
possível, do valor das cargas para efectuar as ofertas do dia seguinte. Segundo
Chicco (Chicco, 2001b), o STLF pode prever o valor da potência da carga do
sistema com um avanço que varia desde 1 a 7 dias.
Definição de estruturas tarifárias: O conhecimento dos perfis de consumo dos
diversos consumidores de energia eléctrica permitirá às empresas de distribuição
e comercialização de electricidade a definição de estruturas tarifárias que melhor
se adaptem aos consumidores e às empresas comercializadoras, com vantagens
económicas para ambos.
Implantação de mercados competitivos: O conhecimento e utilização de perfis
de consumo pode permitir a participação de pequenos consumidores no
mercado, sem recorrerem à instalação de equipamentos de contagem em tempo
real, permitindo às empresas comercializadoras, partilhar com o cliente o risco
associado à volatilidade dos preços.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 13
Têm sido desenvolvidas e aplicadas várias metodologias para a determinação de perfis
de consumidores de energia eléctrica. Segundo Pitt (Pitt, 2000), a relação entre os
diagramas de cargas diários, as características de cada consumidor e as condições
atmosféricas são complexas e estão interligadas.
Consumidores de diferentes tipos e características poderão apresentar diferentes
diagramas de carga diários, que diferem não só devido às condições atmosféricas, ao dia
da semana e à época do ano, mas também, às diferentes características dos
consumidores.
O objectivo do estudo do PTC é representar um conjunto de consumidores de diferentes
tipos e características mediante um conjunto de diferentes perfis típicos de
consumidores. Dado um conjunto de consumidores, representado pelos respectivos
consumos de potência, registados com uma cadência e durante um período de tempo
pré-definido, e representado pelos seus diferentes atributos, é construído um modelo
capaz de gerar subconjuntos de consumidores com um determinado PTC, ou seja, criar
vários conjuntos de PTC para diferentes dias de semana, épocas do ano e para diferentes
condições atmosféricas.
O conjunto de perfis típicos de consumo não deve, por um lado, ser em número
demasiado elevado, mas, por outro, deverá ser em número suficiente de modo a
representar todos os diferentes padrões de consumo contidos no conjunto inicial.
A escolha do número mais apropriado de perfis típicos de consumo, para representar um
determinado conjunto inicial de consumidores, deve atender à opinião de peritos, bem
como às seguintes condições:
• Um perfil típico de consumo deve distinguir-se claramente dos demais perfis;
• Deve representar um grupo de consumidores com características de consumo
similares;
• Aquando da inclusão de um determinado consumidor num perfil típico de
consumo, o reconhecimento das características que esse mesmo consumidor
Capítulo 2: A Caracterização dos Consumidores de Electricidade
14 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
deva possuir deverá ser de determinação simples e inequívoca, de modo a que a
aplicação dos PTC a uma amostra seja viável;
• Deve representar um número consideravelmente robusto de perfis para que o
PTC tenha relevância;
• O número de PTC deve ser relativamente pequeno de modo a permitir a
definição de estruturas tarifárias para cada um deles.
O estudo dos PTC’s requer a recolha de diferente informação relacionada com o
consumo de energia eléctrica, ou seja, a informação que influencia o consumo de
electricidade. Essa informação pode passar pela obtenção de dados relativos às
condições atmosféricas, variáveis temporais e atributos do cliente. Quanto mais
diversificada for a informação disponibilizada, maior será o rigor da determinação dos
PTC mas, em contrapartida, mais onerosa e complexa será a abordagem a efectuar.
Presentemente, são usados diferentes tipos de estudos para a determinação de PTC.
Segundo Pitt (Pitt, 2000), podem ser usados diferentes tratamentos na determinação de
PTC. Assim, e em função do tipo de estudo utilizado, estes tratamentos podem-se
classificar em:
Estudos de perfis de consumo estáticos: Onde os perfis de consumo típico são
obtidos com base no estudo da recolha de dados históricos do consumo de
energia eléctrica num determinado período do ano (habitualmente com distinção
entre as estações do ano, o mês, o dia de semana e a hora do dia em que foram
recolhidos). Os PTC gerados são usados para determinação do diagrama de
cargas do consumidor. Apresentam, contudo, como limitação o facto de não
possuirem informação relativa às condições atmosféricas, bem como informação
referentes a acontecimentos extraordinários (competições desportivas, greves…)
de forma a cruzar com a informação do consumo de energia eléctrica;
Estudos de modelos dinâmicos: Aqui, para além da utilização dos dados
históricos do consumo de energia eléctrica, existe também informação relativa
às condições climáticas, permitindo, assim, um estudo mais rigoroso do
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 15
diagrama de cargas dado que as condições meteorológicas poderão influenciar o
padrão de consumo dos consumidores, principalmente nos consumidores de BT;
Estudos de perfis de consumo dinâmicos: Consistem essencialmente na
determinação de PTC em tempo real, com a utilização de dispositivos de
contagem de energia eléctrica instalados nos clientes. Requerem a recolha e
manuseamento adequado dos dados para determinação do PTC. Este processo é
bastante rigoroso podendo, no entanto, ser dispendioso dado a necessidade de
instalação destes equipamentos de medida em todos os consumidores e do
respectivo sistema de transmissão e recepção de dados, bem como o elevado
volume de dados que será necessário armazenar e tratar.
O estudo da definição do padrão de consumo de energia eléctrica de um ou vários
consumidores é, conforme já apontado, importante para os agentes de mercado
retalhista de energia eléctrica, envolvendo uma participação próxima entre o grupo
científico que se debruça sobre o processo de classificação dos cliente e as empresas
detentoras dos dados dos consumidores. A escolha do estudo a implementar poderá ser
subjectiva na medida em que depende de vários factores, nomeadamente o volume de
dados disponíveis, bem como a qualidade dos mesmos, o custo, o equipamento
disponível e a precisão do estudo pretendido, não sendo possível afirmar claramente
qual o melhor estudo a efectuar.
2.2 Definição da Amostra
Com base em dados históricos recolhidos em cada tipo de cliente (BT, MT ou AT,
conforme o estudo em causa), pretende-se definir e implementar um processo que nos
conduza à descoberta de conhecimento contido nesses dados de forma a determinar e
caracterizar o perfil de consumo de um consumidor ou de um conjunto agrupado de
consumidores, ou mesmo à previsão de diagramas de carga.
Assim, a primeira acção a levar a efeito aquando da realização do estudo dos perfis de
consumo dos clientes de energia eléctrica, é a definição objectiva e criteriosa da
Capítulo 2: A Caracterização dos Consumidores de Electricidade
16 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
dimensão3 da amostra da população a estudar. Esta amostra deverá ser o mais
abrangente possível, de forma a criar uma representatividade homogénea entre os
diferentes tipos de consumidores, mediante a realização de campanhas de medição.
Segue-se a instalação de aparelhagem de medição adequada (usualmente através de
diagramadores) e, finalmente, a recolha e tratamento adequado dos dados, com
definição específica das grandezas a registar, de forma a serem tratados pela equipa que
desenvolve o processo de classificação.
A definição do período de tempo e cadência de registo das medições pode estar
directamente associada, uma vez que a dimensão máxima da base de dados pode requer
uma diminuição da cadência de forma a ampliar o tempo total das medições. A
definição deste processo de recolha dos dados, é efectuada na fase inicial do estudo e de
acordo com o modelo que se pretende usar.
Os grandes consumidores, de alta e média tensão, poderão ter um comportamento
uniforme no que diz respeito ao consumo de energia eléctrica, tendo, por isso, um
período de recolha de medição eventualmente inferior aos dos clientes de baixa tensão,
dado que estes apresentam uma maior influência de factores sazonais.
São, normalmente, definidos e distinguidos os períodos da semana (dia útil / fim de
semana) e do ano (Verão / Inverno) aquando da recolha dos dados (Pessanha, 2002 e
Gasperic, 2002).
A cadência da recolha das medições depende de vários factores, tais como a escolha do
tipo de classificação, do tipo de diagramador e da própria capacidade máxima de
armazenamento de dados. A cadência de leituras poderá ser efectuada numa base diária
horária, ou seja, 24 registos de leitura por dia, de 30 em 30 minutos ou de 15 em 15
minutos.
Em (Allera, 1990) é relatado um estudo da pesquisa da carga em cerca de 3 000
consumidores da Grã-Bretanha, durante 365 dias, onde foram utilizados aparelhos de
medição com uma cadência de registo de leituras de 30 em 30 minutos.
3 Nesta dissertação, como forma de designação da dimensão da amostra será utilizada a letra “M”.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 17
Jardini (Jardini, 2000) efectuou um estudo do perfil típico de consumo em clientes
residenciais, comércio e indústria, pertencentes ao estado de São Paulo, onde a cadência
do registo de leituras utilizada foi de 15 minutos.
De forma a melhorar a precisão do estudo, os dados recolhidos devem ser, sempre que
possível, acompanhados por informações sobre todos os condicionantes externos que
possam exercer influência no consumo de energia eléctrica, tais como as condições
meteorológicas e acontecimentos desportivos ou sociais extraordinários.
2.3 Manuseamento das leituras
2.3.1 Introdução
Após a realização das campanhas de medição, surgirão grandes volumes de dados
armazenados que contêm a informação recolhida de cada um desses consumidores.
Assim, para cada um dos clientes, teremos um conjunto de leituras recolhidas com uma
determinada cadência e durante um determinado período de tempo, previamente
estabelecidos e fixados.
Os dados em causa correspondem aos diagramas de carga diários de cada um dos
consumidores durante o período estabelecido. Estes dados poderão ser completados com
informação adicional, tal como: indicação do código de actividade económica, valor da
potência contratada, especificação do tipo de tarifário, consumo de energia nas horas
cheias e de vazio, assim como outra informação que contribua para influenciar o
consumo e uso de energia eléctrica, tais como as condições atmosféricas, eventos
desportivos, sociais, tumultos, greves, etc.
Torna-se, pois, necessário manusear adequadamente todo este volume de dados
armazenados de forma a extrair o conhecimento neles contidos.
2.3.2 Limpeza e Filtragem dos Dados
As operações de selecção, limpeza e pré-processamento dos dados são cruciais para a
obtenção de resultados válidos e relevantes (Rodrigues, 2000). A imprecisão dos dados
Capítulo 2: A Caracterização dos Consumidores de Electricidade
18 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
é uma característica da grande maioria dos sistemas de informação. Os dados adquiridos
e armazenados de forma automática são muitas vezes imprecisos e sujeitos a um
procedimento de detecção e filtragem dos dados invulgares. A proveniência de dados
anómalos ou ausência de dados pode ter origem no próprio equipamento de medição
(avarias), no processo de transmissão, com a eventual perda da informação ou devido à
existência de dias especiais como feriados, festas, férias, etc, ou mesmo à existência de
interruptibilidade do abastecimento de energia eléctrica. De forma a ultrapassar estas
dificuldades, torna-se necessário utilizar técnicas que auxiliem a completar os dados em
falta, ou até mesmo eliminar leituras anómalas ou deficientes. Este primeiro
procedimento é designado como processo de limpeza de dados e corresponde à primeira
fase de Data Minig (DM).
Segundo Rodrigues (Rodrigues et al., 1998), de forma a clarificar os passos envolvidos
no tratamento prévio dos dados, foram definidas três fases:
1. Fase de selecção: é conveniente ter em atenção o volume de dados que é
necessário ao estudo, como devem ser recolhidos e a periodicidade da recolha
das amostras;
2. Fase de limpeza que consiste essencialmente: no tratamento de dados omissos e
por isso em falta, conversão de dados não numéricos para valores numéricos,
eliminação de dados em mau estado, conversão de unidades, etc;
3. Fase de pré-processamento que é a mais importante das fases precedentes ao
processo de exploração, uma vez que é nesta fase que os dados são
transformados na sua forma final para serem tratados pelos algoritmos de DM. É
nesta fase que pode ser feita uma redução do volume de dados sem perda
excessiva de informação. Por exemplo, na determinação dos perfis típicos de
consumo, pode-se reduzir o volume inicial dos dados de cada consumidor por
um conjunto de dados mais reduzido que expresse o digrama típico desse
mesmo consumidor. Ainda nesta fase, os dados podem ser divididos de acordo
com diferentes condições de carga, tal como o dia da semana e a estação do ano
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 19
em estudo. O pré-processamento é a chave para o desenvolvimento de bons
modelos, uma vez que é nesta fase que deve ser incorporado o conhecimento que
se possui do domínio, de forma a simplificar o problema de modelação. Esta
fase reveste-se de experimentação extensiva de modo a alcançarem-se os
melhores resultados.
Os métodos de limpeza de dados estão intimamente ligados ao domínio em estudo e a
participação e conhecimento de peritos é, nesta fase, vital.
No processo de análise e filtragem dos dados, a detecção de dias anómalos e
preenchimento de dados em falta são alvo de atenção e cuidado por parte do analista.
Em (Chicco, 2001b) é apresentada uma comparação entre a utilização de uma rede
neuronal e uma aplicação de um mapa de características auto-organizáveis (SOM - Self
Organizing Maps) como algoritmo de clustering para detecção da ocorrência de dias
anómalos. No trabalho efectuado no âmbito da presente dissertação (Ramos, 2004) foi
desenvolvida uma aplicação neuronal para a estimativa dos valores de potência em falta,
verificada em vários clientes de MT. Podem, ainda, ser utilizadas técnicas estatísticas
para a previsão de dados. No caso dos dados pertencerem ao domínio real, pode ser
utilizada regressão linear, no caso dos dados serem classificados como categóricos
podem ser usadas técnicas baseadas em árvores de decisão. Em alternativa, poderão ser
utilizadas redes neuronais, que a partir do histórico de dados criam modelos capazes de
determinar os dados em falta.
Para além do valor da potência, o registo e análise do valor da amplitude da tensão pode
ser também um factor a ter em linha de conta na detecção de dias anómalos, pois em
caso de falha do fornecimento de energia eléctrica, além da potência, o valor da tensão
será afectado. A utilização do valor da amplitude da tensão permite, ainda, definir um
critério de admissão de medidas efectuadas. Esse critério consiste na comparação
medida da amplitude de tensão com a média das amplitudes de um determinado período
de tempo. No caso do valor da diferença exceder um valor limite, as medidas poderão
ser classificadas como anómalas (Figueiredo, 2003a). Actualmente existem aparelhos de
medição que permitem o registo do valor da potência e da amplitude de tensão, de
Capítulo 2: A Caracterização dos Consumidores de Electricidade
20 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
forma a elevar o grau de credibilidade dos dados registados e facilitar, deste modo, a
identificação de dados anómalos.
2.3.3 Preparação dos dados
Definidos os objectivos da descoberta de conhecimento que se pretende alcançar, a
etapa seguinte é, precisamente, a recolha dos dados necessários à resolução do
problema.
Os dados recolhidos são baseados nas campanhas de medição efectuadas para uma
determinada amostra de clientes e para um período de tempo atempadamente definido.
A dimensão do conjunto de dados será proporcional ao tamanho da amostra e à cadência
do registo da leitura do consumo de potência que foi verificada. Teremos, assim, um
elevado volume de dados em que cada consumidor terá um diagrama de carga diário.
Então, para cada consumidor, haverá tantos diagramas de cargas quantos o número de
dias em que se verificou o registo da informação.
A cadência da recolha de dados influencia directamente o volume da base de dados que
são disponibilizados para estudo. Com efeito, se, por exemplo, tivermos um conjunto de
dados provenientes de uma campanha de medição efectuada em 300 clientes, durante
100 dias e com uma cadência de registo de informação de 15 minutos, serão obtidas
9600 leituras para cada cliente e um total de 2 880 000 leituras.
Neste período de estudo, é possível reduzir o volume de dados sem perda significativa
de informação. Para cada consumidor, é possível reduzir os vários diagramas de carga a
um conjunto mais pequeno de diagramas ou fazer representar cada consumir pelo seu
diagrama de cargas típico.
Ainda nesta fase, a dimensão dos dados a estudar pode ser reduzida e segmentada.
Assim, o conjunto de dados pode ser dividido pelas diferentes épocas do ano,
normalmente Inverno e Verão. Para cada uma destas épocas, os dados podem também
ser divididos pelos diferentes dias, com distinção entre dias de semana, Sábados,
Domingos e feriados. Após esta divisão dos dados, são realizados estudos separados
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 21
para cada um destes conjuntos de dados, sendo obtidos perfis de consumo típicos para
cada uma das diferentes situações.
No âmbito dos trabalhos relativos à presente dissertação, foi implementado um
procedimento de pré-processamento dos dados onde é efectuado um estudo para o
período total da campanha de medição, sem haver lugar à distinção entre estações do
ano, uma vez que o referido estudo incidiu sobre os clientes de MT e, por isso, sem
grandes variações de consumos entre as diferentes estações. Foi, contudo, estabelecida
uma divisão das leituras registadas em dias úteis e de fim-de-semana, mediante um
diagrama de carga representativo para cada um dos regimes estabelecidos.
Para cada cliente, é determinado um diagrama de carga representativo, correspondendo
cada um dos diagramas à média dos diagramas de carga diários de cada um dos
consumidores para o período de tempo considerado.
Durante o processo de redução do volume dos dados foram detectadas falhas de
medição em alguns clientes, falhas essas devido a variados factores, nomeadamente
falha da comunicação das leituras, avaria dos aparelhos de medição, interrupção do
abastecimento de electricidade, etc. De forma a colmatar essas falhas, foi desenvolvida
uma aplicação baseada numa rede neuronal por forma a estimar os valores de potência
em falta verificada em alguns clientes de MT (Ramos, 2004).
2.3.4 Normalização dos dados
Após o preenchimento dos dados em falta e redução do seu volume, os dados estão,
agora, prontos para serem estudados. Tanto para clientes de BT como para clientes de
MT, existe uma grande variedade de potências contratadas, que poderão ser definidas
por escalões, como é o caso da Baixa Tensão Normal (BTN) ou pelo valor de potência
que efectivamente o cliente necessita, tanto para a Baixa Tensão Especial (BTE) como
para os consumidores de MT. Clientes que apresentem diferentes valores de potência
contratada apresentarão diagramas de cargas diários com diferentes valores de potência
consumida. Assim, no estudo de perfis típicos de consumidores (tanto para o estudo de
clientes em BT como para clientes de MT), não é possível comparar directamente os
Capítulo 2: A Caracterização dos Consumidores de Electricidade
22 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
diagramas de carga representativos, uma vez que o volume de consumo pode variar de
forma significativa de cliente para cliente. Então, para que os diagramas de carga
representativos de cada um dos consumidores possam ser comparados torna-se
necessário efectuar um processo de normalização dos dados. Este processo de
normalização, não é mais que converter os dados do diagrama de carga representativos
para uma outra escala, de forma a ser possível efectuar o estudo e comparação de todos
os diagramas de carga representativos, mesmo que estes apresentem diferentes valores
de consumo de potência.
A redução dos dados a uma mesma escala é fundamental para o estudo de PTC. A
selecção do factor de normalização dever ser feita tendo em consideração o tipo de
dados disponíveis, o tipo de análise que se pretende perpetrar, bem como o tipo de
algoritmo de DM que se utilize.
A normalização de dados é uma das técnicas de pré-processamento mais utilizadas. Em
diversos trabalhos efectuados nos modelos de obtenção PTC são descritos diferentes
factores de normalização.
Em (Rodrigues, 2000) são apresentadas algumas das muitas formas de normalizar
dados, bem como as respectivas vantagens, nomeadamente:
Normalização Min-Max: É realizada uma transformação linear do conjunto de
entrada original para um novo conjunto, normalmente [0-1], preservando todas
as relações iniciais dos valores dos dados, não introduzindo alterações nos
dados, isto é, a forma do histograma ou diagrama é mantida;
Normalização Zscore: Transforma os dados das variáveis de entrada de tal forma
que a média é zero e a variância um. Este tipo de normalização é usado quando
existem valores isolados que dominam a normalização Min-Max, ou quando
existem valores em falta na amostra, não se conhecendo o máximo e o mínimo
das variáveis de entrada;
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 23
Normalização Sigmoidal: Normaliza dados de entrada não-lineares num
intervalo [-1,1]. Inicialmente, são calculados a média e o desvio padrão dos
dados de entrada. A fórmula utilizada por este tipo de normalização é a seguinte:
α
α
−
−
+−
=eey
11' [2.1]
em que:
padrãodesviomédiay −
=α [2.2]
Esta normalização é apropriada sempre que se pretende incluir pontos isolados
no conjunto de dados a analisar.
Em (Gasperic, 2002 e Gerbec, 2003b), é usado o valor de pico, ou seja, o valor mais
elevado de consumo, como factor de normalização. É feita, assim, a divisão dos valores
dos diagramas de carga representativos de cada um dos consumidores, alvo de estudo,
pelo valor máximo de potência dos diagramas representativos. Com este método é
mantida a informação relativa à energia total para qualquer consumidor mas, por outro
lado, o método apresenta a desvantagem de perda de informação relativa às diferenças
entre a forma dos diagramas de carga dos consumidores com valores de potência de
pico baixos. O valor de pico usado como factor de normalização apresenta, ainda, a
limitação de poder fornecer resultados enganosos dado que, em alguns casos, este valor
pode ser resultado de um acontecimento fortuito, inesperado e excepcional, impondo-se
a todos os outros valores medidos e registados. Assim, nestes casos e sempre que
detectáveis, é necessário reduzir ou eliminar esses valores de pico antes do processo de
normalização.
Em (Pitt, 2000) são encarados dois tipos de factores de normalização. O primeiro factor
de normalização baseia-se na utilização da energia total consumida. Cada diagrama é
Capítulo 2: A Caracterização dos Consumidores de Electricidade
24 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
normalizado, dividindo-o pelo valor da energia total consumida em cada um dos
consumidores no período total de monitorização. A utilização deste factor de
normalização apresenta alguns problemas quando existem perfis de consumo com a
mesma forma, mas com consumos totais diários de energia muito diferentes. Esta
informação é perdida com este tipo de normalização.
O segundo factor de normalização é baseado na consideração da energia total
consumida em cada dia, ou seja, cada diagrama de carga diário é dividido pela potência
total desse dia. No entanto, com a utilização deste factor de normalização, corre-se o
risco de, em consumidores com diagramas de carga bem distintos, em termos de volume
de potência consumida, após a normalização poderem parecer semelhantes, induzindo,
assim, em erro a análise do estudo.
Em (Chicco, 2002) são expostos diversos factores de normalização utilizados nos
diagramas de carga representativos de cada consumidor, designadamente, a utilização
do valor da potência de pico como factor de normalização sendo, como já referido,
todos os diagramas de carga representativos divididos por este factor de normalização.
As vantagens e desvantagens da utilização deste factor de normalização foram já
salientadas. Chicco utiliza, também, como factor de normalização a potência média
obtida no período em estudo, valor pelo qual são divididos os diagramas de carga.
Apresenta como vantagem deste método o facto de permitir manter a informação
relativa à energia total para qualquer consumidor mas, por outro lado, apresenta a
desvantagem de perder informação relativa à forma dos diagramas de carga dos
consumidores que possuem baixos valores de potência de pico. Finalmente, é utilizada a
potência de pico do diagrama representativo de cada consumidor como factor de
normalização.
Em (Figueiredo, 2003b e Carpaneto, 2003) é, também, usada a potência de pico do
diagrama representativo de cada consumidor como factor de normalização. Cada um
dos diagramas de carga representativos de cada cliente é dividido pelo seu máximo, pelo
que o método de normalização utilizado é o Min-Máx, onde todos os diagramas
representativos terão valores definidos no intervalo [0,1]. Com este método, é possível
manter toda a informação relativa às formas das curvas dos diagramas representativos
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 25
mas, desta feita, já não é possível obter os resultados dos perfis típicos de consumo em
função dos valores originais das potências consumidas pelos clientes.
A escolha do factor de normalização a utilizar não é simples e depende da distribuição
dos mesmos. É necessário efectuar o processo de normalização para que todos os
diagramas de carga representativos possam ser comparáveis, mesmo entre clientes com
valores muito diferentes em termos de volume de consumo de potência. Neste trabalho,
o método de normalização escolhido foi o Min-Máx e o factor de normalização foi o
valor máximo de cada diagrama de carga representativo. Assim, todos os diagramas de
carga representativos de cada consumidor assumem valores pertencentes ao intervalo
[0,1], assumindo a mesma ordem de grandeza quando comparados uns com os outros.
Dado que um dos objectivos do trabalho destina-se caracterizar comportamentos de
consumo de energia eléctrica em clientes de MT, este tipo de normalização permite
manter a informação referente à forma da curva de cada diagrama a comparar. A
metodologia utilizada será descrita em pormenor no capítulo 5.
2.4 Atributos dos Diagramas representativos
2.4.1 Introdução
Após a fase de pré-processamento dos dados, onde os valores em falta foram
preenchidos (estimados) e os dados incorrectos filtrados e, após o processo de
normalização, é chegado o momento de utilização desta base de dados no modelo de
descoberta de conhecimento. Para tal, é necessário decidir a forma como os dados irão
ser tratados e usados no modelo.
A informação típica da caracterização dos consumidores de energia eléctrica, tanto em
BT como em MT, está relacionada com o padrão de consumo de cada cliente (nível de
tensão, potência contratada, etc.), bem como com agentes externos que directa ou
indirectamente influenciem o consumo de electricidade, tais como as condições
climáticas.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
26 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Cada cliente pode ser representado por um conjunto de atributos que relacionam e
descrevem toda a informação relativa à caracterização dos consumidores. Estes
atributos são classificados de acordo com o seu tipo e domínio, ou seja, relacionados
com os dados comerciais, com condições atmosféricas, com o dia de semana, mês do
ano, etc.
A definição dos atributos a utilizar irá depender, antes de mais, do tipo de informação
disponível, relativo ao consumo e caracterização dos clientes e, posteriormente, do
modelo pretendido para implementação.
2.4.2 Índices de forma normalizados
Os atributos escolhidos e usados no modelo de análise fornecem informação de como e
quando varia o consumo da energia eléctrica. Assim, num diagrama de carga mensal, é
esquematizada a variação do consumo de electricidade ao longo dos dias desse mês.
Pode ser utilizado outro tipo de diagrama, como é o caso do diagrama de cargas diário.
Em qualquer um deles, a informação representada permite distinguir o perfil de
consumo de cada consumidor, para diferentes condições de carga e para diferentes dias
da semana ou horas do dia.
Tipicamente, esta informação é utilizada mediante vectores de atributos, que
caracterizam os diagramas de carga e que pertencem ao domínio dos números reais.
Em (Figueiredo, 2003a e Chicco, 2003a) são utilizados vectores a partir dos valores
normalizados do diagrama de carga diário representativo de cada consumidor.
Assim, teremos para o cliente (m):
[ ] { } { }HhMmlllL mh
mmm ...1,...1,,...,, )()(2
)(1
)( ∈∈= [2.3]
em que:
L – vector dos valores normalizados do diagrama de carga diário representativo
de cada consumidor
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 27
m – número do consumidor em análise )(m
hl – valor da leitura no instante h
M – número de consumidores da amostra
h – instante da cadência registada
H – número de valores registados, variando com a cadência da recolha das
leituras (no caso do trabalho realizado nesta dissertação, a cadência do registo de
leituras foi de 15 minutos, pelo que tivemos H=96).
A definição do número de valores registados (H), aquando da colocação da aparelhagem
de medição durante as campanhas de monitorização do consumo de energia eléctrica,
deve atender, por um lado, ao grau de perfeição e precisão da forma da curva dos
diagramas de carga e, por outro, à dimensão do armazenamento do volume de dados e
consequente velocidade de tratamento dos mesmos. De forma a reduzir o volume de
dados e, naturalmente, aumentar a velocidade computacional, os diagramas de cargas
podem ser representados por leituras com cadência de 30 em 30 minutos, ou de hora a
hora, em vez da cadência de 15 minutos, reduzindo consideravelmente o valor (H).
É usual utilizarem-se os valores das leituras do consumo de potência como atributos
para representação dos diagramas de cargas de cada consumidor, com a vantagem clara
que o vector do valores dos diagrama de carga correspondem aos valores das leituras
registadas. Em contrapartida, o volume de dados é grande, aumentando, assim, o
esforço e tempo computacional.
No entanto, é possível seleccionar índices que representam a forma do diagrama de
carga e que são determinados a partir destes. Esses índices representativos do diagrama
possuem a vantagem de permitir a representação da forma do diagrama mediante um
número mais reduzido de atributos quando comparado com o número de leituras
efectuadas. Estes índices, derivados dos diagramas de carga diários, fornecem
informação acerca da forma de curva de carga diária e, assim, sobre o padrão de
consumo de cada consumidor. A selecção deste tipo de índices pode variar entre países
e empresas de distribuição de energia eléctrica diferentes.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
28 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Em (M. Ernoult, 1982 e Chicco, 2003a) são, respectivamente, definidos índices
derivados a partir do diagrama de cargas diário para representação da forma desses
mesmos diagramas de carga, e é feito um estudo de obtenção de perfis de diagramas de
carga, usando um modelo baseado na análise de agrupamento, determinando os índices
mais apropriados para o efeito.
Estes índices podem, ainda, ser divididos em índices diários e índices semanais, onde
são incluídos os impactos da hora do almoço, da noite e dos fins-de-semana, conforme
representado na tabela 2.1.
Em (Ramos, 2004), foram, também, utilizados outros índices de forma normalizados
para representação dos diagramas de carga, nomeadamente o factor de vazio, impacto
da hora do almoço e factor de utilização (ver capítulo 5).
Então, um determinado consumidor (m) pode ser representado por um vector de
atributos, composto por um conjunto de índices de forma normalizados, que
representam a forma do diagrama de cargas:
[ ]7654321)( ,,,,,, DDDDDDD
mD ffffffff = [2.4]
[ ]321)( ,, SSS
mS ffff = [2.5]
[ ])()()( , mS
mD
m fff = [2.6]
em que:
m – número do consumidor em análise
)(mDf - vector dos índices diários referente ao consumidor m
)(mSf - vector dos índices semanais referente ao consumidor m
)(mf - vector dos índices do consumidor m.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 29
Tabela 2.1 – Índices de forma normalizados para caracterização do diagrama de carga
Índices Diários
Parâmetro Expressão de Cálculo Período de Aquisição
Diário máxmédia PP / ⎟⎟⎠
⎞⎜⎜⎝
⎛=
diamáx
diamédiaD P
Pf
,
,1 1 dia
Diário médiamín PP / ⎟⎟⎠
⎞⎜⎜⎝
⎛=
diamédia
diaD P
Pf
,
min,2 1 dia
Diário máxmín PP / ⎟⎟⎠
⎞⎜⎜⎝
⎛=
diamáx
diaD P
Pf
,
min,3 1 dia
Diário instaladamédia PP / ⎟⎟⎠
⎞⎜⎜⎝
⎛=
instalada
diamédiaD P
Pf ,
4 1 dia
Impacto da noite (dia de
semana) ⎟⎟⎠
⎞⎜⎜⎝
⎛=
diamédia
noitemédiaD P
Pf
,
,5 3
1 1 dia de semana (8 horas
nocturnas, das 22 às 6 horas)
Impacto da noite (fim-de-
semana) ⎟⎟⎠
⎞⎜⎜⎝
⎛=
)(,
)(,6 3
1
fdsdiamédia
fdsnoitemédiaD P
Pf
1 dia de semana (8 horas
nocturnas, das 22 às 6 horas)
Impacto período do almoço
(dia de semana) ⎟⎟⎠
⎞⎜⎜⎝
⎛=
diamédia
almoçomédiaD P
Pf
,
,7 8
1 1 dia de semana (3 horas
almoço, das 12 às 15 horas)
Índices Semanais
Parâmetro Expressão de Cálculo Período de Aquisição
Semanal máxmédia PP / ⎟⎟⎠
⎞⎜⎜⎝
⎛=
Semanamáx
SemanamédiaS P
Pf
,
,1 1 semana
Semanal médiaPP /min ⎟⎟⎠
⎞⎜⎜⎝
⎛=
Semanamédia
SemanaS P
Pf
,
min,2 1 semana
Impacto do fim-de-semana ⎟⎟⎠
⎞⎜⎜⎝
⎛= −−
Semanamédia
semanadeFimmédiaS P
Pf
,
,3 7
2 1 fim-de-semana
Capítulo 2: A Caracterização dos Consumidores de Electricidade
30 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
2.4.3 Utilização dos Dados Comerciais
Os dados comerciais são extraídos, muitas vezes, da informação contida na factura da
electricidade de cada cliente sendo, assim, recolhida da base de dados da empresa de
distribuição de energia eléctrica referente ao histórico (em termos de caracterização
eléctrica) de cada um dos clientes. Normalmente, são conhecidos os seguintes atributos
relacionados com os dados comercias de cada consumidor:
Nível de tensão da rede que alimenta os clientes. Os consumidores de energia
eléctrica podem ser alimentados em baixa tensão normal (BTN), baixa tensão
especial (BTE), média tensão (MT), alta tensão (AT) e muito alta tensão (MAT).
Em Portugal são distinguidos no tarifário de venda de energia eléctrica a clientes
finais, diferentes níveis de tensão de alimentação (ERSE, 2004b).
A Potência Requisitada, que corresponde ao valor da potência para a qual a
ligação deve ser construída tendo, naturalmente, a rede a montante capacidade
de alimentar. Este valor de potência é, normalmente, um atributo dos clientes de
MT;
Potência contratada, que o distribuidor coloca, em termos contratuais, à
disposição do cliente, não devendo ser superior à requisitada. Em MAT, AT ou
MT não pode ser inferior a 50% da potência instalada. É actualizada para a
máxima potência activa média registada em qualquer intervalo ininterrupto de
15 minutos. Os consumidores de BT devem escolher o valor da potência
contratada pré-estabelecida por escalões, não podendo ultrapassar esse valor.
Dado que os valores de potência são positivos e maiores que zero, poderão ser
tratados como atributos categóricos por cada intervalo de potência;
Tipo de tarifa do contrato. No caso da BT e, em função do valor da potência
contratada, a opção tarifária escolhida poderá ser a tarifa simples, a tarifa bi-
horária (com ciclo diário ou com ciclo semanal) e, ainda, as tarifas de média e
longas utilizações (normalmente para valores de potência contratada acima de
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 31
41,4 kW). No caso da MT verifica-se a existência da tarifa tri-horária e tetra-
horária, com distinção entre curtas, médias ou longas utilizações (em função do
número de horas anuais de laboração), fazendo-se uma distinção entre cada
trimestre do ano, reflectida no valor do preço da energia consumida em cada um
desses trimestres. Em AT existem três tipos de tarifas: curtas, médias e longas
utilizações. Em qualquer tipo de tarifas é feito, normalmente a distinção entre as
horas de ponta, cheias e vazio, à excepção dos clientes de BTN (ERSE, 2004b);
Energia mensal consumida, indicada pelos contadores de energia de cada
instalação eléctrica que, após a recolha de leitura, é facturada ao cliente, relativa
a um período de um mês. Este atributo pode ser tratado como atributo contínuo
de domínio real positivo;
Código de actividade, que representa o tipo de actividade que cada um dos
consumidores, alvo de estudo, são considerados. No caso da BTN, o tipo de
actividade pode ser designado por um conjunto de letras, podendo cada atributo
ser tratado como categórico. Aos clientes de MT são atribuídos números aos
códigos de actividade, podendo também estes ser tratados como atributos
categóricos.
No estudo da pesquisa da carga, efectuado por Allera (Allera, 1990), e o seu respectivo
uso para definição do padrão típico de consumo de diferentes tipos de consumidores,
tais como, domésticos, comerciais e industriais, foram utilizados aparelhos de medição
com uma cadência de registo de leituras de 30 em 30 minutos. Para além da informação
obtida através do registo do consumo de energia eléctrica, foi utilizada a informação
comercial disponibilizada pelas facturas de electricidade, complementadas pelo uso de
questionários distribuídos pelos diversos clientes. Foram, então, definidos e
caracterizados padrões de consumo para diferentes grupos de clientes, em diferentes
épocas do ano e da semana.
Em estudos similares, o uso destes atributos é usado para análise de uma possível
relação entre o padrão típico de consumo e os referidos atributos.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
32 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
2.4.4 Utilização dos Dados Atmosféricos
As condições atmosféricas são um factor de grande influência sobre a modo como a
electricidade é consumida. No Inverno, a necessidade de aquecimento origina maiores
gastos de energia, por outro lado, no verão, a exigência de ar arrefecido advém de um
maior gasto de energia eléctrica. Em função da época do ano, em que a duração da luz
natural do dia é maior ou menor, haverá, assim, respectivamente, um menor ou maior
gasto de energia eléctrica em iluminação. Em suma, o conhecimento das condições
atmosféricas, como complemento da informação das leituras do consumo de potência,
aquando da realização das campanhas de medição de energia eléctrica, assume uma
posição relevante não só nos modelos de classificação como também para previsão de
consumos futuros.
No estudo de pesquisa de cargas de Allera (Allera, 1990), este afirma que os dados
registados nas campanhas de medição permitiriam aos analistas do estudo da carga
extrair uma gama extensiva de informação para qualquer grupo de consumidores
representativos, nomeadamente, diagramas de carga representativos, parâmetros
fundamentais como o pico máximo de potência e o factor de carga, interrupções do
consumo de energia eléctrica, distribuição do consumo de electricidade em qualquer
hora do dia e da época do ano e, finalmente, estimativa da resposta à temperatura.
Pitt (Pitt, 2000) apresenta um conjunto de atributos alusivos às condições atmosféricas,
utilizados nos modelos de caracterização dos consumidores de electricidade,
nomeadamente as seguintes variáveis:
Temperatura ambiente;
Velocidade do vento;
Humidade;
Nebulosidade (informação convertida para uma determinada percentagem);
Pluviosidade;
Pôr-do-sol diário.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 33
2.4.5 Atributos Diversos
No estudo do perfil típico de consumo, é usual determinar os diagramas representativos
fazendo uma clara separação entre dias de semana, fins-de-semana e épocas do ano
(Inverno / Verão), uma vez que estas condições influenciam o comportamento dos
consumidores em termos de consumo de electricidade.
No entanto, se o estudo for feito sem separação dos diagramas representativos, em
termos de distinção dos dias do calendário e estações do ano, poderão ser utilizados
atributos categóricos que representariam o dia de semana, o mês ou a estação do ano
referentes à base de dados em estudo. Tornar-se-ia, também, importante, adicionar
informação respeitante aos dias de feriados (nacionais e municipais), períodos de férias,
acontecimentos extraordinários, tais como, greves, tumultos, realização de espectáculos,
eventos desportivos, políticos e sociais.
Podem ainda, ser usados atributos referentes ao tipo de equipamento existentes nas
instalações e relacionados com as características térmicas dos edifícios (Hatziargyriou,
1990).
2.5 Caracterização dos Perfis Típicos de Consumo
2.5.1 Introdução
O comportamento da procura da energia eléctrica ao longo do dia e nas diferentes
classes de consumo, é uma informação essencial não só para o estudo da operação e
expansão de um sistema de distribuição de energia eléctrica, como também para os
novos agentes de mercado que comercializam a electricidade. Uma forma de obtenção
dessa informação poderá ser através do estudo da caracterização dos perfis típicos de
consumidores, que reflectem os seus hábitos de consumo, cujo principal produto será
um determinado conjunto de curvas de cargas típicas que sintetizam o perfil da procura
da electricidade.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
34 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Definida a amostra e recolhido os dados da contagem do consumo de electricidade e,
após a devida preparação dos dados e escolha dos atributos, será agora possível criar o
modelo que permitirá a determinação do diagrama de carga diário.
2.5.2 Modelos de Caracterização
Em função das técnicas usadas, existem diferentes modelos para caracterização de perfis
de consumidores. Em alguns modelos é permitido analisar o contributo de diferentes
aparelhos, tais como, aparelhos para aquecimento de água e para aquecimento ambiente
no consumo de electricidade. Este tipo de modelos (modelos termodinâmicos) têm uma
relevante importância para os consumidores de baixa tensão (consumidores domésticos
e pequeno comércio), em que este tipo de equipamento assume uma posição de destaque
na forma como a energia eléctrica é consumida.
O conhecimento deste tipo de informação é vital para estudos da operação e gestão da
procura de energia eléctrica bem como para a execução de medidas de conservação de
energia.
As condições atmosféricas são, normalmente, usadas como variáveis de previsão,
embora possam ser, também, usada a informação relativa às condições térmicas dos
edifícios e à estrutura tarifária em vigor. Em (Hatziargyriou, 1990) é realizado um
estudo da influência da temperatura exterior no consumo da energia eléctrica,
designadamente no consumo utilizado para o aquecimento. Schick (Schick, 1988a e
Schick, 1988b) apresenta um trabalho em que a obtenção dos diagramas de carga diários
é realizada a partir dos dados referentes a cada aparelho eléctrico, medidos numa
amostra de consumidores residenciais.
Modelos baseados na análise de clusters podem ser, também, encontrados em diversos
trabalhos. Em (Chicco, 2003a) é apresentado um modelo de caracterização de
consumidores para o estudo de opções tarifárias. A caracterização dos consumidores é
baseada em diferentes classes representadas pelo seu perfil de consumo típico diário. Os
perfis de consumos são realizados através de um algoritmo de clustering.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 35
Gasperic e Gerbec (Gasperic, 2002 e Gerbec, 2003b) determinam os perfis de consumo
diários utilizando um processo de clustering hierárquico, que é baseado num
procedimento de agrupamento de diagramas de carga normalizados numa estrutura
hierárquica em forma de árvore. Propuseram-se a classificar os perfis de consumo em
grupos denominados de Typical Load Profile (TLP). Os diagramas de carga foram
recolhidos para uma amostra de consumidores com uma cadência de 15 minutos tendo,
assim, cada diagrama de carga 96 valores. Posteriormente, os diagramas foram
separados em função do dia da semana (dias de semana e dias de fim-de-semana) e
estação do ano (Inverno, Primavera, Verão e Outono). Os dados, depois de
normalizados, são divididos em clusters constituindo grupos de consumidores com
padrões de consumo distintos.
2.6 Índices de Caracterização
O objectivo do processo de avaliação dos resultados consiste em avaliar quão bem um
determinado modelo e os seus parâmetros conseguem alcançar os objectivos de todo o
processo da descoberta de conhecimento armazenada em bases de dados. Em função do
tipo de modelo utilizado pode, também, variar o tipo de avaliação dos resultados. A
avaliação dos resultados pode ser alicerçada no desempenho das técnicas utilizadas, no
conhecimento de peritos e em valores finais de erro.
A determinação do padrão típico de consumo tem por base a estimativa do consumo de
electricidade e a sua respectiva distribuição ao longo do dia, com base na recolha de
informação. Assim, a avaliação da precisão dos resultados está fortemente dependente
de diversos factores que contribuem para a sua exactidão, nomeadamente, o erro
introduzido pela aparelhagem de medição, designadamente, erros de leitura e de
transmissão (estes erros são atenuados na fase de pré-processamento de dados mas não
completamente eliminados), aquando da selecção da amostra existe sempre o risco da
população escolhida não estar completamente representada, a escolha do modelo que
estimará os perfis de consumo, por melhor desempenho que possua, apresenta sempre
um pequeno erro.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
36 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
No presente trabalho, aquando da determinação e caracterização dos perfis típicos de
consumo foi implementado um modelo fundamentado na análise de clusters, conforme
descrito no capítulo 5. Nesta pesquisa de reconhecimento de padrões, onde a
aprendizagem é não supervisonada, ou seja, os algoritmos assumem sempre que não são
conhecidos a que classe pertence a colecção de dados:
{ }nxxxX ,...,, 21= [2.7]
A avaliação dos resultados torna-se mais difícil pois não existe um valor pelo qual possa
ser comparado. Numa primeira fase, o conhecimento de peritos é crucial para este tipo
de modelos. Neste tipo de modelos o objectivo principal é executar a separação dos
dados em classes naturais de forma que os elementos pertencentes ao mesmo grupo
tenham um elevado grau de similaridade entre eles, enquanto que, quaisquer outros
elementos pertencentes a grupos distintos possuam uma baixa similaridade entre si.
Podem, então, ser definidos índices que permitem avaliar a distância entre elementos
pertencentes ao mesmo grupo ou entre grupos distintos. A qualidade de partição do
conjunto de dados deverá ter em conta dois critérios:
1. Compactação: Os objectos pertencentes a cada cluster devem estar o mais
próximo possível;
2. Separação: Os grupos devem estar amplamente separados um dos outros.
Em Chicco (Chicco, 2003a) o agrupamento dos perfis típicos de consumo em diagramas
de carga representativos requer, geralmente, a utilização de índices específicos
relacionados com os diagramas de carga diários. Esses índices são calculados através da
utilização da informação contida na base de dados armazenada, no caso da MT, ou
proveniente da realização de campanhas de medição do consumo de electricidade.
Relembrando a expressão [2.1],
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 37
[ ] { } { }HhMmlllL mh
mmm ...1,...1,,...,, )()(2
)(1
)( ∈∈=
em que:
L – vector dos valores normalizados do diagrama de carga diário representativo
de cada consumidor
m – número do consumidor em análise
M – número de consumidores da amostra
h – instante da cadência registada
H – número de valores registados, variando com a cadência da recolha das
leituras (no caso do trabalho realizado nesta dissertação, a cadência do registo de
leituras foi de 15 minutos, pelo que tivemos H=96).
Foi considerado nesse estudo um processo de classificação e partição dos consumidores
pertencentes à amostra (M) em (K) classes de consumidores – clusters –
correspondendo aos subconjuntos: L(k) em que L(k) ⊂ L, resumindo:
K – número de clusters obtido no estudo, em que k=1, 2,..., K;
Da amostra (M) são definidos subconjuntos - clusters - em que cada cluster
define um subconjunto L(k);
Cada subconjunto, ou cluster, contém n(k) diagramas de carga
representativos;
Cada consumidor será atribuído a um, e só um cluster;
O diagrama de carga representativo do cluster k – r(k) – é determinado a
partir da média dos diagramas de carga representativos dos consumidores
pertencentes a esse mesmo cluster k;
}{ KkrR k ,...,1,)( == expressa o conjunto dos diagramas de carga
representativos de todos os k clusters estabelecidos pela partição.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
38 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
A classificação dos consumidores estará relacionada com a forma dos seus diagrama de
cargas. Os índices são definidos em função das seguintes distâncias:
1. Distância entre dois diagramas de carga, pertencentes ao cliente (i) e (j), do
conjunto (L) em que (L) é o conjunto dos registos que constituem o conjunto de
dados em avaliação:
∑=
−×=H
h
jh
ih
ji llH
lld1
2)()()()( )(1),( [2.8]
2. Distância entre diagrama de carga representativo do grupo (cluster) r(k) ao
subconjunto L(k), representando a média geométrica das distâncias entre o
diagrama representativo do cluster k e cada elemento de L(k), sendo k o número
de clusters entretanto obtido:
),(1),( )(
1
)(2)(
)()()(
mn
m
kk
kk lrdn
Lrdk
∑=
×= [2.9]
3. Distância entre elementos do conjunto L, representando a média geométrica
das distâncias entre os (m) elementos do conjunto (L) de dados em estudo:
),(2
1)(ˆ1
)(2 LldM
LdM
m
m∑=
×= [2.10]
Usando as distâncias [2.8] e [2.9] é possível definir índices que irão avaliar o
desempenho das ferramentas de agrupamento. Uma boa ferramenta de cluster permitirá
separar claramente diagramas de carga distintos e, por outro lado, assegura que os
diagramas de carga nomeados à mesma classe têm uma grande similaridade entre eles.
Assim, quanto menor for o valor desses índices melhor será a adequação.
Capítulo 2: A Caracterização dos Consumidores de Electricidade
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 39
Ainda em Chicco (Chicco, 2003a) são apresentados dois índices: MIA – Mean Índex
Adequacy e o CDI – Cluster Dispersion Indicator, que permitem determinar uma
medida de qualidade de divisão obtida e, também, uma qualidade da dispersão entre
elementos pertencentes ao mesmo cluster.
O índice MIA utiliza a distância Euclidiana para obtenção da medida da adequação da
divisão ao conjunto inicial, sendo definida por:
),(1 )(
1
)(2 kK
k
k LrdK
MIA ∑=
×= [2.11]
O índice CDI associa directamente a distância entre elementos pertencentes ao mesmo
cluster e, inversamente, com a distância entre diagramas de carga representativos de
cada cluster, sendo definido por:
∑ ∑= =
⎥⎦
⎤⎢⎣
⎡×=
K
k
n
m
kmk
k
LldnKRd
CDI1 1
)()(2)(
)(
,(.211
)(ˆ1 [2.12]
Em que:
∑=
=K
k
k RrdK
Rd1
)(2 ),(.21)(ˆ [2.13]
Na presente dissertação, os índices MIA e CDI são utilizados, por um lado, para ser
feita uma análise comparativa acerca do desempenho de diferentes algoritmos de
clustering e, por outro, para aferir o número de grupos de diagramas de carga
representativos. O algoritmo que apresentar menor valor dos índices MIA e CDI
corresponderá aquele que demonstra melhor desempenho no agrupamento dos
diagramas de carga representativo dos consumidores de electricidade (Rodrigues, 2003
e Ramos, 2004).
Capítulo 2: A Caracterização dos Consumidores de Electricidade
40 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Neste trabalho, a caracterização de perfis típicos de consumidores de electricidade de
MT, foi realizada com base na utilização de técnicas de Data Mining. Para que o leitor
esteja familiarizado com este tema, o próximo capítulo aborda o conceito de Data
Mining, bem como as técnicas e tarefas associadas.
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 41
3. DATA MINING
Este capítulo apresenta o estado da arte na área de Data Mining. Inicialmente, é definido
o conceito de Data Mining e a sua localização, quando inserida num processo de
Descoberta de Conhecimento em Bases de Dados (DCBD). São apresentadas as
principais tarefas de Data Mining, bem como os diversos algoritmos utilizados nestas
técnicas.
3.1 Introdução
Nas últimas décadas, o uso dos computadores entrou, definitivamente, no nosso dia-a-
dia. Rapidamente se generalizou pelos mais variados ramos da actividade económica
não ficando, assim, restrito ao meio tecnológico. Vivemos na era da informática e das
telecomunicações, os computadores e os sistemas de comunicações são responsáveis
pela mudança da essência do trabalho das pessoas e, para além disso, contribuem para
uma reformulação generalizada no mundo dos negócios.
O conceito tradicional de trabalho, que envolvia grandes quantidades de papéis e
relatórios mais ou menos complicados e uma tomada de decisão, na maior parte dos
casos, baseada em factos pouco concretos, está gradualmente a ser substituído pelo
conceito moderno suportado na utilização das mais variadas tecnologias de informação.
Durante muitos anos, a maioria das empresas acumulou grandes quantidades de
informação, criando grandes volumes de dados. Grande parte destas empresas
desconheciam o quanto essas informações se poderiam revelar úteis na procura de
melhores perspectivas futuras para os seus negócios. O que, em princípio, poderia
constituir uma vantagem, prefigurou-se como um problema enquanto não houvesse
capacidade de estudo de tão elevado volume de dados.
Com o desenvolvimento dos Sistemas de Apoio à Decisão (SAD), apoiados na
informação acumulada e guardada em armazéns de dados, foi possível conduzir a
Capítulo 3: Data Mining
42 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
operações de consulta e Apoio à Decisão (AD), possibilitando aos utilizadores a
extracção e síntese de conhecimento contido nesses volumes de dados.
Actualmente, existem ferramentas de software para a ajuda à tomada de decisão que
facilitam as consultas aos armazéns de dados e permitem analisar esses mesmos dados
de forma mais ou menos complexa. A exploração e análise de grandes quantidades de
dados de forma automática ou semi-automática para a descoberta de padrões com
recurso ao estudo de teorias e algoritmos constituem as denominadas técnicas de Data
Mining (DM). Os sistemas de descoberta de conhecimento são, normalmente, sistemas
complexos, pelo que estes exigem rigor aquando do seu processo de desenvolvimento.
O estudo de grandes quantidades de dados com a finalidade da descoberta automática de
conhecimento continua a ser um problema de difícil resolução. DM pode ser
considerado como uma parte do processo de Descoberta de Conhecimento em Bases de
Dados (DCBD ou KDD – Knowledge Discovery in Databases).
Segundo Goebel (Goebel, 1999), o termo KDD é usado para representar o processo de
transformar dados de baixo nível em conhecimento de alto nível, ao passo que DM pode
ser definido como a extracção de padrões ou modelos de dados observados.
Hoje, mais do que nunca, com a liberalização e globalização dos mercados, os gestores
das empresas consciencializam-se que o conhecimento obtido a partir dos dados
armazenados ao longo dos últimos anos constitui uma maior valia em termos de
competitividade.
No sector eléctrico, a utilização de técnicas de DM pode constituir um papel fulcral na
manutenção e crescimento da competitividade das empresas. A liberalização do sector
eléctrico proporciona o aparecimento de novos agentes de mercado. O conhecimento,
por parte destas empresas, relativo às características de consumo dos seus clientes (onde
este conhecimento evolui de forma dinâmica) poderá ser utilizado para o
estabelecimento específico de contratos e, por outro lado, para influenciar uma gestão
da elasticidade das cargas. Com base em técnicas de DM, o enorme número de bases de
dados referentes aos consumos de electricidade pode ser utilizada para a extracção de
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 43
conhecimento relevante, de forma a ser conseguida uma melhor prestação de serviço e
identificar as eventuais carências dos seus clientes, bem como proporcionar novos
produtos e serviços até então desconhecidos.
3.2 Conceito de Data Mining
O termo Data Mining designa a fase de descoberta do processo de DCBD e aglomera
todas as teorias e técnicas das diferentes áreas de investigação que lidam com a
extracção de conhecimento a partir de base de dados (Rodrigues, 2002).
A descoberta de conhecimento a partir de base de dados centraliza-se no estudo de
teorias e algoritmos para sistemas que retiram modelos e relações a partir de dados. DM
é toda uma variedade de técnicas de análise de dados aplicada ao problema da extracção
de conhecimento contida e armazenada em grandes volumes de dados que,
aparentemente, não têm qualquer significado.
Frawley (Frawley et al., 1995) utiliza o termo DCBD para designar todo o processo de
exploração de conhecimento a partir de bases de dados, reconhecendo a aplicação de
algoritmos de DM como apenas um passo em todo o processo.
Data Mining designa, deste modo, a tarefa de descobrir novos padrões de
conhecimento, geralmente imprevistos, apoiando-se numa base de dados previamente
recolhida e convenientemente preparada para esse fim.
A figura 3.1, baseada em Cabena (Cabena et al., 1997), representa o conceito de DM
que expressa a técnica de extrair informação a partir de bases de dados, até então
desconhecida, para a usar na ajuda à tomada de decisão.
Figura 3.1 – Esquema Data Mining
Base de Dados
Padrões ocultos nos Dados
Data Mining
Capítulo 3: Data Mining
44 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
A figura seguinte pretende ilustrar as várias fases do processo de DCBD:
Figura 3.2 – Processo DCBD
Os resultados obtidos com a aplicação de técnicas de DM podem ser usados,
essencialmente, para controlo de processos, para gerir informação, tomada de decisão e
muitas outras aplicações.
O processo de DM pode ser aplicado de duas formas:
1. Como um processo de verificação, onde o analista sugere uma hipótese acerca
da possível relação entre os dados e tenta prová-la usando técnicas estatísticas e
multidimensionais sobre uma determinada base de dados.
2. Como um processo de descoberta, em que não é feita qualquer suposição
antecipada, mas sim a aplicação de técnicas de DM, tais como árvores de
decisão, algoritmos de clustering, redes neuronais, etc, para descobrir relações
interessantes nos dados.
A aplicação de técnicas de DM torna possível comprovar o pressuposto da
transformação de dados em informação e, posteriormente, em conhecimento. Esta
possibilidade torna as técnicas de DM fundamentais para o processo de tomada de
decisão.
DADOS
Selecção dos
Dados
Pré-processamento dos
DadosData Mining Interpretação
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 45
3.3 Data Mining e a Estatística
Segundo Rodrigues (Rodrigues, 2002), a distância entre DM e a Estatística é muito
ténue, dado que ambas as matérias partilham um objectivo comum que é o de descobrir
relações nos dados e muitas das técnicas de análise dos dados utilizadas nas ferramentas
de DM são focalizadas em aproximações estatísticas. No entanto, DM faz também uso
de ideias e ferramentas de outras áreas, tais como a área da computação e inteligência
artificial.
Por vezes os dados disponíveis nas bases de dados poderão ser de natureza não linear e
também não numérica. É aqui que as operações de DM divergem dos tradicionais
métodos estatísticos, uma vez que são capazes de tratar a não-linearidade e dados não
numéricos. Assim, a maioria das técnicas de DM pode ser considerada como um
alargamento ou mistura de técnicas básicas da Estatística.
Na Estatística, condições prévias têm de ser verificadas, como por exemplo a
distribuição dos dados tem de ser conhecida à partida, o desenvolvimento e teste de uma
determinada hipótese, são feitas através do processo de análise. Ao invés, em DM é
assumida uma distribuição dos dados fonte e é gerada uma hipótese a partir de dados
históricos (Rodrigues, 2002).
Na caracterização do padrão típico de consumo (PTC) de consumidores de energia
eléctrica, a Estatística assume um papel de destaque, essencialmente, aquando da
selecção dos dados e amostragens a realizar, no pré-processamento dos dados, onde
podem ser identificados dados anómalos, redução do volume de dados e estimação de
dados em falta. Na caracterização de PTC, Estatística e DM partilham também de uma
outra semelhança que está relacionada com a inferência. Também aqui é pretendido,
com base em dados históricos referentes a variados tipos de clientes de energia eléctrica,
definir um processo que nos leve à estimação de diagramas de carga razoavelmente
aproximados dos consumos reais de electricidade.
Capítulo 3: Data Mining
46 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
3.4 O Processo de Data Mining e a Descoberta de Conhecimento em Bases de
Dados
O termo Data Mining, que designa a fase de descoberta do processo de DCBD,
denomina, também, todas as técnicas que permitem extrair conhecimento de uma
determinada base de dados que, de outra forma, permaneceria escondida nessa mesma
base.
Na fase anterior ao processo de DM, temos o pré-processamento dos dados, onde são
realizadas as recolhas, armazenamento e limpeza dos dados. Para realizar esta fase,
torna-se, pois, necessário ter conhecimento da área em estudo para que haja um claro
entendimento dos dados a analisar, bem como identificar e estimar dados omissos,
converter dados não numéricos para valores numéricos, proceder à eliminação de dados
em mau estado, converter unidades, etc.
A figura 3.3 ilustra as várias etapas envolvidas no processo de DM. Assim, este
processo é iniciado com a definição clara e objectiva do problema – 1ª etapa –, em
seguida, na 2ª etapa, de selecção, o objectivo é identificar e seleccionar os dados mais
adequados da base de dados necessários para a operação de DM. A 3ª etapa corresponde
à fase de preparação dos dados, onde se inclui o pré-processamento dos mesmos. Esta
etapa é crucial para a qualidade final dos resultados. A 4ª etapa é a fase de DM
propriamente dita onde são aplicados vários algoritmos de DM consoante os objectivos
de descoberta. Finalmente, a 5ª etapa corresponde à fase de análise dos resultados
obtidos no processo DM, na qual os resultados devem ser apresentados de maneira a
que possam ser convenientemente explorados. É nesta fase que a participação de peritos
é essencial com o intuito de solucionar questões técnicas específicas que possam
influenciar a análise.
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 47
Figura 3.3 – Etapas do processo de Data Mining
Para Fayyad (Fayyad et al., 1996b), o termo knowledge discovery in databases (KDD),
adoptado no final da década de 80 por investigadores na área da inteligência artificial,
denomina todo o processo de descobrir conhecimento armazenado num conjunto de
dados, enquanto que DM, termo adoptado pela comunidade estatística e analistas de
dados, se refere à aplicação de algoritmos específicos para a extracção de padrões e
relações entre os dados, sem o recurso aos restantes passos de KDD, nomeadamente a
interpretação apropriada dos resultados. A aplicação cega de algoritmos de DM pode ser
uma actividade perigosa, uma vez que podem ser descobertos padrões, que sem a
adequada interpretação, serão inválidos.
Assim, todo o processo de extrair e interpretar padrões e relações nos dados é chamado
de KDD ou DCBD, tipicamente interactivo e iterativo, uma vez que o investigador
assume determinadas decisões que poderão encaminhar para novas etapas ou, por outro
lado, poderá envolver a aplicação repetida de algoritmos específicos de DM e a
apropriada interpretação dos padrões gerados por esses mesmos algoritmos.
As figuras 3.2 e 3.4 esquematizam o processo de DCBD ilustrando como, a partir de
bases de dados brutos, se chega ao descobrimento de padrões úteis para o
conhecimento.
1ª ETAPA: Problema objecto de
estudo
2ª ETAPA: Base de Dados
3º ETAPA: Preparação dos
Dados - Visualização
- Limpeza Dados - Base de Dados
5ª ETAPA: - Análise Dados - Conhecimento
4ª ETAPA: - Data Mining
Capítulo 3: Data Mining
48 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Figura 3.4 – Processo de Data Mining e DCBD
Assim, o processo de DCBD encontra-se segmentado em diferentes fases, com
diferentes graus de complexidade:
• Selecção dos dados: Esta fase abrange a criação e definição de uma amostra de
dados aos quais irá ser aplicado todo o processo de DCBD. É nesta etapa que
são definidos quais os clientes alvo das campanhas de medição, quais os
parâmetros a medir e recolher, etc;
• Pré-processamento dos dados: Aplicação de operações básicas como a
remoção de problemas nos dados, detecção e correspondente estimação de
registos em falta, redução da dimensão dos dados e normalização dos dados;
• Data Mining: Nesta fase é escolhido e aplicado o algoritmo de DM para
descobrir padrões e relações de interesse nos dados, tais como regressão,
classificação, redes neuronais, clustering, etc. A definição dos modelos e
parâmetros a aplicar é, por vezes, de difícil escolha dado que estes deverão ser
compatíveis com os objectivos do processo de DCBD. Aquando da exploração
dos dados e descobrimento de padrões é, normalmente, realizada uma
representação tal como a de regras de classificação ou árvores de decisão, de
regras de associação, de regressão, etc;
DADOS FILTRADOS
DADOS
DADOS FORMATADOS
ALGORITMOS DE DATA MINING
Selecção dos Dados
Pré-processamento dos Dados
Data Mining
CONHECIMENTO
Interpretação humana
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 49
• Interpretação: Uma vez obtido o modelo e procedendo à sua validação, com
recurso ou não, à ajuda de peritos, comprova-se que o conhecimento e
consequentes conclusões encontradas são válidas e suficientemente satisfatórias.
É incluída, também, a verificação e resolução de eventuais conflitos que possam
advir deste novo conhecimento com o conhecimento previamente sabido.
Então, o estudo e desenvolvimento de um processo capaz de extrair conhecimento novo,
útil e interessante, implícito em armazéns de dados e representá-los de forma acessível
para o utilizador, são os objectivos da DCBD.
Para Frawley (Frawley, et al., 1992), a descoberta de informação nova, proveniente de
todo o processo de DCBD, e não apenas da aplicação isolada de operações de DM, não
deve ser óbvia, a nova informação extraída deverá ser mais simples que os dados
iniciais.
3.5 A Origem dos Dados
As técnicas de DM podem ser aplicadas sobre bases de dados ou sobre Armazéns de
Dados – “Data Warehouse” – (DW), os quais geralmente resultam numa melhor
informação, uma vez que os dados são, normalmente, preparados antes de armazenados.
Os DW são conjuntos de dados orientados por assuntos, integrados, não voláteis (a
informação armazenada não é alterada nem actualizada, podendo apenas ser acedida e
explorada), e de apoio ao SAD (Inmon, 1997 e Kimball, 1996). O termo
“Warehousing”, recentemente popularizado, recorre à tendência empresarial actual de
recolher, armazenar e “limpar” dados de forma a disponibilizar on-line essas mesmas
bases de dados para análise. Este processo de análise de armazéns de dados on-line é
designado por On-line Analytical Processing (OLAP) (Fayyad, 1996a).
Os armazéns de dados não são mais que depósitos de dados organizados por assuntos
com dados respeitantes a diversas semanas, meses ou anos, sendo o seu intento fornecer
dados de forma a facilitar operações de consulta e ajuda à decisão.
Capítulo 3: Data Mining
50 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Para Rodrigues (Rodrigues, 2000), é na base de dados que é armazenada toda a
informação factual acerca da situação de decisão em análise. A informação pode ser
estática ou dinâmica e estar armazenada permanente ou temporariamente na base de
dados.
A base de dados constitui a memória do Sistema de Apoio à Decisão, pois contém
informações históricas, relativas a acontecimentos passados e, em certa medida, contém
também informação referente a acontecimentos futuros, concebidos pela aplicação de
modelos de previsão e estimação do sistema (SAD).
O desempenho das técnicas de caracterização de perfis de consumidores e/ou estimação
de consumos, baseado em dados históricos, está directamente dependente da coerência e
precisão dos dados utilizados como indicadores padrão. A forma de armazenamento,
acesso e manipulação dos dados reveste-se da maior importância, devendo ser
cuidadosamente implementada, de forma a permitir a sua eficiente operação, bem como
garantir consistência dos dados do sistema. A consideração de dados pouco consistentes
ou falsos pode distorcer os resultados e, consequentemente, deteriorar o desempenho da
previsão da informação futura.
3.6 Principais Tarefas de Data Mining
3.6.1 Introdução
A DCBD foi já definida como sendo um processo que utiliza operações de DM para
extrair e identificar conhecimento a partir de bases de dados. Por outro lado, DM foi
denominado como sendo um passo em todo o processo de DCBD, uma vez que os
algoritmos de DM exigem um pré-processamento dos dados e a posterior interpretação
das relações descobertas.
O processo de DM envolve o uso de métodos (algoritmos) para a determinação de
padrões e relações nos dados. Os algoritmos de DM realizam geralmente tarefas de
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 51
previsão de dados desconhecidos e a descrição de padrões. As principais tarefas de DM
são:
• Classificação;
• Estimativa ou Regressão;
• Agrupamento por afinidade ou Associação;
• Segmentação ou Clustering;
• Análise de desvios.
Neste contexto, tarefa consiste num tipo de problema de descoberta de conhecimento a
ser solucionado.
As operações de reconhecimento de padrões podem ser designadas por operações
supervisionadas e não supervisionadas.
Operação supervisionada: Neste tipo de operações é fornecido ao sistema o
vector das características e o seu “rótulo” (resposta correcta). Assim,
considerando um par de variáveis {X,W}, X constitui um conjunto de
características e W a classe a que pertence. Deste modo, antes da execução da
técnica de DM é feita uma identificação de um determinado objectivo
específico.
Operação não supervisionada: Neste tipo de operações os algoritmos assumem
sempre que não se conhece a classe a que pertence uma determinada colecção de
dados. Como não necessitam de um objectivo previamente especificado, estas
operações analisam uma colecção de dados e descobrem relações entre eles,
oferecendo pouco significado a essas mesmas relações.
3.6.2 Classificação
A tarefa de classificação consiste em construir um modelo de classificação
(classificador) que possa ser aplicado a dados não classificados, visando categorizá-los
Capítulo 3: Data Mining
52 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
em classes. Consiste, pois, em examinar os aspectos de um determinado objecto e
atribuí-lo a um dos conjuntos de classe predefinidos.
A classificação é uma tarefa de aprendizagem que divide e classifica os dados de acordo
com um número específico de características. São exemplos de operações de
classificação: classificar pedidos de créditos de baixo, médio ou alto risco; esclarecer
pedidos de seguros fraudulentos (detecção de fraudes); identificar a forma de tratamento
mais favorável para um paciente, baseando-se em classes de pacientes que reagem bem
a um determinado tipo de tratamento médico.
Então, usando o conteúdo de uma base de dados que reflecte o historial do
comportamento de um determinado consumidor, é concebido um modelo mediante o
qual seja possível classificar comportamentos futuros do sector de negócio em estudo,
daí que este modelo envolva previsão. Por exemplo, um retalhista de electricidade que
disponha de um modelo de classificação dos seus consumidores, quando admite ou
angaria novos clientes, pode proceder à sua imediata classificação, com base nos
atributos especificados.
Dado que a classificação gera resultados facilmente compreensíveis, esta é uma tarefa
largamente utilizada em DM. As técnicas mais usadas para fazer classificação são as
árvores de decisão e redes neuronais.
3.6.3 Estimativa ou Regressão
Está técnica é muito semelhante à classificação, diferenciando-se pelo facto de que os
registos são classificados de acordo com alguma atitude futura prevista ou valor futuro
estimado e, também, pelo facto de que, em regressão, o atributo a estimar é contínuo,
podendo apenas tomar valores reais, enquanto que a classificação lida com resultados
discretos. A previsão de valores numéricos é, usualmente, feita mediante métodos
estatísticos.
A regressão pode ser usada para estimar valores futuros. Os dados históricos são
utilizados para construir modelos que exprimem comportamentos correntes observados.
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 53
Quando valores de entrada actuais são aplicados a estes modelos, os resultados são
previsões futuras de comportamentos, conforme ilustrado na figura 3.5.
Figura 3.5 – Regressão como forma de previsão
A regressão é, assim, usada para estimar um valor de uma variável contínua
desconhecida, como por exemplo, salário, idade, altura, saldo de cartão de crédito. Para
Fayyad (Fayyad et al., 1996b, p.13), regressão é a função de aprender uma tarefa que
cataloga um item de um dado para uma variável de previsão real estimada. Ainda como
exemplos de previsão, podem ser enunciados os seguintes: estimar o número de filhos
de uma família; prever a receita total de uma família; estimar o valor do tempo de vida
de um paciente; estimar a probabilidade de morte de um paciente, baseada num
conjunto de testes de diagnóstico.
3.6.4 Agrupamento por afinidade ou Associação
A tarefa de associação consiste, basicamente, na descoberta de artigos que podem
ocorrer em simultâneo numa mesma transacção. Na comunidade científica o termo é
conhecido por “Market Basket Analysis” (MBA), como exemplo clássico da evidência
de produtos que podem ser colocados juntos no interior do carrinho de supermercado.
As empresas comercializadoras de bens e artigos têm um especial interesse neste tipo de
conhecimento, uma vez que o adequado conhecimento da disposição dos artigos, por
exemplo numa prateleira de um supermercado ou num catálogo promocional, artigos
que, de um modo geral são adquiridos conjuntamente, estejam próximos entre si,
PREVISÃO DE
ATITUDES MODELO
Dados históricos
ENTRADAS ACTUAIS
Capítulo 3: Data Mining
54 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
constitui uma valiosa informação para estas empresas no sentido de incrementar o seu
volume de negócio.
A aplicação de um algoritmo para a descoberta de regras de associação consiste na
descoberta de relações de transacções, onde cada transacção representa um conjunto de
artigos, por exemplo, categorias de artigos adquiridos. O algoritmo deve gerar as
associações nas quais, a presença de um ou vários artigos específicos numa transacção,
provoca o aparecimento de outros artigos.
Uma regra de associação é uma implicação na forma X Y e possui dois parâmetros
básicos: um suporte e uma confiança.
O suporte é caracterizado pelo número de ocorrências de X e Y na amostra analisada,
enquanto que a confiança é a percentagem ou frequência com que os artigos são
encontrados juntos num determinado conjunto.
No sector eléctrico, e no âmbito dos mercados de energia, o conhecimento da população
consumidora em termos de montantes de consumo, períodos de consumo, tipos de
equipamento instalado, código de actividade, entre outros, constitui uma mais valia,
para as empresas distribuidoras e comercializadoras, dado que poderão identificar
oportunidades de venda conjuntas (pacotes) de produtos ou serviços, por exemplo a
venda de electricidade juntamente com o abastecimento de gás natural ou outros
combustíveis, prestação de serviços de execução ou manutenção de instalações
eléctricas.
A partir de um conjunto de dados são geradas regras associativas que contribuem para o
conhecimento e oportunidade de novos nichos de negócios e transacções.
3.6.5 Segmentação ou Clustering
Segmentação ou clustering é uma operação não supervisionada, é um processo de
agrupamento de uma população heterogénea em vários subgrupos – clusters – mais
homogéneos. Esta tarefa difere da classificação por não depender de classes
predeterminadas. Os registos são agrupados de acordo com a sua semelhança.
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 55
O processo de clustering consiste no agrupamento de um conjunto de dados,
pertencentes a uma base de dados em análise, segundo um critério de similaridade, ou
seja, os objectos que são agrupados no mesmo subconjunto possuem um elevado grau
de semelhança entre eles e, por sua vez, deverão ter um baixo ou muito diferente grau
de semelhança entre objectos de outros grupos.
O registo é, assim, atribuído ao cluster ou grupo que estiver mais próximo, isto é, aquele
para o qual a distância ao seu centro for menor. A atribuição de um novo registo a um
cluster altera o valor do centro que define esse cluster, e daí que estes tenham de ser
recalculados podendo mesmo dar origem a novos clusters (Rodrigues, 2000).
A operação de clustering é normalmente realizada através de técnicas estatísticas,
nomeadamente o algoritmo k-means, ou por redes neuronais.
São exemplos de aplicação de agrupamentos, no domínio da descoberta de
conhecimento, o agrupamento de clientes por região do país, agrupar clientes por
comportamento de consumos similares, etc.
O modo como os resultados são apresentados exerce um efeito poderoso na forma como
a estrutura desses dados é percebida. Clustering exige, assim, um bom suporte de
visualização sendo, no entanto, uma das mais complexas e computacionalmente
exigentes operações de DM.
No âmbito do trabalho desenvolvido na presente dissertação é apresentada uma
aplicação prática da realização da operação de clustering, agrupando-se consumidores
de electricidade de MT em classes. Os consumidores pertencentes a cada classe devem
apresentar um elevado grau de similaridade na forma dos seus diagramas de carga
representativos.
Capítulo 3: Data Mining
56 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
3.6.6 Análise de Desvio
Uma boa descrição de um determinado comportamento pode, por vezes, explicá-lo, ou
então, sugerir por onde se começar a procurar uma explicação. Centra-se,
essencialmente, na descoberta de mudanças significativas nos dados a partir de valores
previamente medidos.
Aumenta o conhecimento das pessoas, dos processos ou dos produtos, que produziram
os dados a partir de uma determinada base de dados. As análises de desvios são uma
técnica eficaz porque constituem uma forma simples de representar relações
interessantes nos dados e, uma vez diferindo do esperado, são por si só interessantes.
Verificar alterações ou desvios no volume de produtos consumidos ao longo do tempo,
detecção de desvios em stocks, são exemplos destas aplicações.
3.7 Técnicas de Data Mining
Não existe uma técnica que resolva todos os problemas de Data Mining. Diferentes
métodos servem para diferentes propósitos, em que cada método proporciona vantagens
e desvantagens na sua aplicação. Torna-se, assim, necessária uma certa familiaridade
com as diferentes técnicas de DM, de forma a facilitar a escolha de uma delas, de
acordo com os problemas apresentados.
As técnicas de DM provêm de diferentes áreas, tais como a estatística (estatística
descritiva, árvores de decisão e clustering), regras de associações e inteligência artificial
(algoritmos genéticos, conjuntos difusos e redes neuronais). As técnicas de DM mais
conhecidas e usadas são:
Árvores de decisão;
Regressão;
Redes neuronais;
Algoritmos genéticos;
Algoritmos de clustering;
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 57
Algoritmos de vizinhança mais próxima;
Lógica Difusa;
Rough Sets.
As técnicas utilizadas em DM contêm um certo grau de pesquisa automática, isto é, são
aplicados algoritmos que, sem a interferência do utilizador, extraem relações ou
modelos a partir dos dados. Cada técnica pode ser implementada através de diferentes
algoritmos.
3.7.1 Como escolher a Técnica de Data Mining mais adequada
A escolha da técnica de DM a aplicar a um determinado problema não é considerada
uma tarefa fácil, dependendo, não só do problema específico a ser executado, mas
também, dos dados disponíveis para análise. É importante conhecer a natureza dos
dados em termos de conteúdo, tipo de campos e relações entre os registos.
Essa escolha pode ser também baseada em critérios para classificação das técnicas.
Diferentes esquemas de classificação podem ser utilizados para categorizar técnicas de
DM sobre as bases de dados alvo de análise. Um sistema de descoberta de
conhecimento pode ser classificado de acordo com o tipo de dados sobre os quais serão
aplicadas as técnicas de DM.
Dependendo das características dos dados, tais como tipos de atributos, qualidade dos
dados, entre outros, e da técnica de DM que se pretende realizar, existem algoritmos
mais adequados que outros.
Antes de se começar qualquer exercício de exploração de dados, é importante ter em
conta alguns itens para melhor selecção de um algoritmo de DM, tais como a
capacidade para lidar com maior ou menor quantidade de dados, a capacidade que um
algoritmo apresenta para lidar com elevado número de variáveis, a capacidade para lidar
com atributos categóricos e/ou numéricos, o esforço computacional exigido na execução
dos algoritmos, a geração de resultados descobertos pela técnica e compreensíveis para
o utilizador.
Capítulo 3: Data Mining
58 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Em seguida far-se-á uma breve apresentação de algumas das técnicas de DM atrás
enunciadas.
3.7.2 Árvores de Decisão
Uma árvore de decisão utiliza uma estratégia de “dividir para descobrir”. Um problema
complexo é decomposto em sub-problemas mais simples. De forma recursiva, a mesma
estratégia é aplicada a cada sub-problema.
Quando confrontados com uma decisão teremos de ter, pelo menos, duas alternativas.
Cada uma das possíveis decisões ou alternativas que se pode escolher é considerada
como um “ramo” de uma árvore, conforme exemplificado na figura 3.6:
Figura 3.6 – Árvore de decisão – alternativas
Por sua vez, cada uma das alternativas pode conter vários desenlaces, muita das vezes
incertos, podendo dividir-se em “sub-ramos ou folhas”, conforme figura 3.7, onde o
conjunto forma uma estrutura hierárquica, esquematizando o universo de decisões e
desenlaces que se podem enfrentar:
Figura 3.7 – Estrutura hierárquica da árvore de decisão
Decisão:
“Comprar Electricidade”
SEP
SEI
Decisão:
“Comprar Electricidade”
SEP
SEI
Mais caro
Mais barato
Mais barato
Mais caro
Negociar preço
Mudar de fornecedor
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 59
Uma árvore de decisão é uma estrutura hierárquica em que cada nó ou nodo não
terminal representa uma decisão sobre um item de dado considerado. O objectivo
principal é separar as classes. Cada folha está associada a uma classe. O conjunto de
dados é dividido em subconjuntos separados, em que cada um é descrito por uma regra
simples. Cada percurso na árvore (da raiz à folha) corresponde a uma regra de
classificação. O modelo é, assim, bem explicável, dado que tem a forma de regras
explícitas.
As árvores de decisão podem ser complexas em estrutura, mas, geralmente, são feitas a
partir de três elementos, já presentes nas figuras 3.6 e 3.7:
• Uma estrutura hierárquica: É aquela onde existe um só tronco principal do
qual saem os ramos. Por sua vez, cada ramo constitui uma pequena estrutura
hierárquica. Este tipo de estrutura decorre do facto das árvores de decisão
descreverem sequências de acontecimentos no tempo, em que os primeiros
condicionam os seguintes.
• Uma colecção de atributos: Nos pontos onde o tronco se divide, ou onde os
ramos se subdividem, aparecem as variáveis do problema, ou seja, os factores
capazes de influenciar o desenlace. Estes atributos podem ser de dois tipos:
o Decisões: que o utilizador pode tomar numa dada altura. Nas áreas
especializadas de Gestão, estas decisões são, geralmente, representadas
por rectângulos;
o Ocorrências: são também conhecidas como “jogadas da natureza”,
representando acontecimentos incertos que o utilizador não domina, mas
acerca dos quais é conhecedor das probabilidades de ocorrência. São
representadas por um círculo nas áreas especializadas de Gestão.
• Uma colecção de desenlaces: Cada desenlace tem um valor, por exemplo, o
lucro ou perda que o utilizador enfrenta se um determinado desenlace ocorrer.
Capítulo 3: Data Mining
60 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Durante a aplicação do método de classificação (secção 3.6.2), é necessária a utilização
de técnicas de aprendizagem para a extracção de informações a partir de bases de dados.
Por estas técnicas serem algorítmicas, torna-se necessário o uso de algoritmos
específicos que produzam a estrutura de representação destas técnicas. Os algoritmos
utilizados variam de acordo com a aplicação e software utilizado na procura de
conhecimento, bem como na estrutura de representação. A utilização de árvores de
decisão é, em geral, apropriada para a tarefa de classificação.
A árvore de decisão tem como função a partição, de forma recursiva, de um conjunto de
treino até que cada subconjunto obtido desta divisão contenha itens de uma única classe.
Para atingir este objectivo, a técnica de árvores de decisão examina e compara a
distribuição de classes durante a construção da árvore. Após a construção da árvore de
decisão, os resultados obtidos são dados organizados de forma compacta que podem ser
utilizados para classificar novos itens.
Após a construção de uma árvore de decisão, torna-se importante “avaliá-la”. Esta
avaliação pode ser realizada através da utilização de dados que não tenham sido usados
no treino. Esta estratégia permite estimar de que forma a árvore generaliza os dados e se
adapta a novas situações podendo-se, também, prever a proporção de erros e precisão
global ocorridas na construção da árvore.
A partir de uma árvore de decisão é possível derivar regras. As regras são escritas tendo
em consideração o trajecto do nó raiz até uma extremidade ou “folha da árvore”. Por
vezes, as árvores de decisão tendem a ser muito grandes e, de acordo com algumas
aplicações, são muitas vezes substituídas pelas regras. Isto acontece dado que as regras
podem ser facilmente compreensíveis. Uma regra pode ser compreendida sem que haja
a necessidade de se referenciar outras regras.
Quando uma árvore cresce até ao nodo terminal (ou folha) que consiste numa classe,
então cada registo será classificado através de uma regra sem quaisquer erros. Uma
forma sofisticada de melhorar a eficiência da árvore sobre dados não classificados
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 61
consiste em usar uma função de corte na árvore, chamada de “poda da árvore”, que não
é mais que a remoção de nós da árvore.
O utilizador necessita de alguns cuidados neste processo de corte, pois ao removerem-se
nós da árvore, aumenta a taxa de erro da árvore sobre o conjunto de treino, mas, em
contrapartida, aumenta a eficiência da classificação da árvore sobre os novos dados.
As vantagens da utilização das árvores de decisão são as seguintes:
• São fáceis de parametrizar;
• Elevado grau de interpretabilidade. Os seus resultados são facilmente
compreendidos. Uma decisão complexa (prever o valor da classe) é decomposta
numa sucessão de decisões elementares;
• Tratam um amplo conjunto de problemas de classificação;
• Robustas à presença de pontos e atributos redundantes ou irrelevantes;
• São efectivas na análise de grandes conjuntos.
Porém, as árvores de decisão apresentam também alguns inconvenientes que são:
• Instabilidade: Pequenas perturbações do conjunto treino podem provocar
grandes alterações no modelo aprendido. Se os dados históricos com que uma
árvore de decisão foi construída se alterarem, esta terá de ser novamente
construída;
• Presença de valores desconhecidos;
• Fragmentação de conceitos, ou seja, possibilidade da ocorrência da repetição de
sub-árvores.
Capítulo 3: Data Mining
62 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Os algoritmos de árvores de decisão mais encontradas nas ferramentas de DM são o
CHAID e CART (Leo et al., 1984) e o algoritmo C5.0 (Quinlan, 1993).
Para caracterizar cada classe de consumidores de MT (Ramos, 2004) foi utilizado um
modelo de classificação baseado no algoritmo C5.0, disponível no software Clementine.
Este algoritmo utiliza uma partição hierárquica recursiva, partindo o conjunto de dados
de acordo com o atributo que lhe proporcionar maior ganho de informação. A partir da
árvore de decisão é obtido um conjunto de regras, apresentando a informação do modelo
de forma menos complexa.
3.7.3 Redes Neuronais
As redes neuronais são, também, uma das técnicas mais usadas para desenvolver
operações de DM. Estas redes seguem uma analogia ao funcionamento do cérebro
humano e são formadas de neurónios artificiais ligados de maneira similar aos
neurónios humanos: “como no cérebro, a intensidade de interligações dos neurónios
pode alterar (ou ser alterada pelo algoritmo de aprendizagem) em resposta a um
estímulo que promove a aprendizagem da rede” (Goebel, 1999, p.23). Uma rede
neuronal é composta por um conjunto de unidades (neurónios), que estão ligados por
conexões que têm associados a si um peso. Cada unidade tem também associado um
nível de activação, bem como meios para actualizar o valor do nível activação. Algumas
unidades estão ligadas ao exterior (existem unidades de entradas – inputs – e unidades
de saída – outputs).
McCulloch e Pitts (1943) desenvolveram as primeiras teorias das redes neuronais
artificiais, tentando explicar o funcionamento do cérebro humano através de uma rede
de células conectadas entre si para experimentar a execução de operações lógicas.
Durante o verão de 1951, Minsky e Edmond (Harvard University) montaram a primeira
rede neuronal composta, basicamente, por 300 tubos e um piloto automático de um B-
24 que imitava o cérebro de uma rata num labirinto, ao qual chamaram de Sharc. Desde
então, vários cientistas têm apresentado trabalhos de redes neuronais artificiais nas mais
variadas áreas de investigação.
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 63
As redes neuronais não apresentam o mesmo grau de compreensibilidade que as árvores
de decisão, mas são, por sua vez, mais eficientes no tratamento de problemas
complexos.
No domínio das técnicas de DM, as redes neuronais são principalmente utilizadas para
classificação, clustering e estimação. Estas redes podem, por vezes, levar algum tempo
a serem treinadas, no entanto, definida a topologia da rede, esta torna-se eficiente na
classificação de novos dados. Sempre que haja novos registos de entrada, a rede pode
ser alterada sem necessidade de repetir o processo de treino anterior.
A rede neuronal necessita, assim, da criação de regras de aprendizagem que são os
algoritmos usados para “aprender” as relações entre os dados. As regras de
aprendizagem habilitam a rede neuronal a ganhar conhecimento acerca dos dados
disponíveis e aplicar esse mesmo conhecimento para auxiliar o utilizador na tomada de
decisões. A aprendizagem, numa rede neuronal, consiste na actualização dos pesos das
ligações entre os neurónios. Basicamente, existem dois tipos de algoritmos de
aprendizagem:
• Redes supervisionadas: onde tanto as entradas como saídas são valores
conhecidos. Introduzindo exemplos sobre dados históricos de clientes, a
aprendizagem da rede produzirá ponderações capazes de produzir um valor de
saída para novos dados, dos quais se desconhece o seu comportamento futuro;
• Redes não supervisionadas: não é conhecido o valor de saída desejado e o que
é pretendido é detectar os segmentos que não foram estabelecidos à priori. Este
tipo de rede neuronal é semelhante às técnicas convencionais de clustering.
Estas redes podem levar algum tempo a serem treinadas, no entanto, uma vez definida a
topologia da rede, são muito eficientes a classificar novos dados.
A figura 3.8 expõe o modelo típico de uma unidade computacional – neurónio:
Capítulo 3: Data Mining
64 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Figura 3.8 – Modelo de um nodo
Adaptado de (Torgo, 2005)
Cada unidade cumpre uma função simples: recebe as suas entradas e calcula a sua saída
(o seu novo nível de activação). Cada entrada está conectada por uma linha à qual é
atribuída um peso (wj,i, …, wj,n). O cálculo é dividido em duas partes:
1. Uma computação linear – função de entrada:
∑ ==j
iijiji aWaWin ., [3.1]
2. Uma computação não linear – função de activação. Conseguem obter-se
comportamentos diferentes escolhendo várias funções de activação para os
neurónios, como por exemplo, a função Step, a função Sign e a função Sigmoid.
Tipos de Redes Neuronais
Entre os diferentes tipos de redes neuronais que existem, a principal diferença consiste
em:
• Redes do tipo feed-forward: Onde as conexões são unidireccionais, das
entradas para as saídas, não existindo ciclos;
• Redes recorrentes: Redes com ligações arbitrárias.
As redes neuronais possuem, normalmente, uma estrutura em camada, do tipo feed-
forward, em que cada unidade está ligada apenas às unidades da camada seguinte. Não
aj
Ligações de entrada
wj,i Ligações de saída
Função de Entrada
Função de Activação Saída
ini=Σ g
ai=g(ini)
ai
wj,n
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 65
existem, portanto, ligações entre unidades da mesma camada e de camadas anteriores.
Nas redes recorrentes, e devido ao possível retorno, estas são potencialmente mais
instáveis, levando, geralmente, mais tempo a convergir para um output estável dado um
input que lhes seja apresentado.
A rede neuronal mais conhecida e usada em DM é o “perceptron networs” ou
perceptrões, em que simplesmente ligam um nível de nodos de entrada e de saída. A
aprendizagem é simples, mas apresenta limitações ao nível daquilo que podem
aprender, isto é, apenas pequenos problemas podem ser resolvidos usando funções
lineares (Rodrigues, 2000)
Esta limitação foi superada com introdução de unidades “escondidas” entre os nodos de
entrada e de saída. Estas redes chamam-se redes multi-camada ou multi-níveis (“multi
layer networks”). Ao acrescentar este nível “escondido”, e sendo possível variar o
número de nodos na rede, tornou-se possível explorar um grupo mais vasto de
problemas. Uma rede neuronal com níveis “escondidos” pode aproximar qualquer
função não linear. A figura 3.9 retrata um exemplo de um perceptrão multi-níveis (MLP
- “multi layer perceptron”) e, se fixarmos a estrutura e as funções de activação, é
possível representar matematicamente o output da rede, conforme exemplifica a
expressão [3.2].
Figura 3.9 – Topologia de uma rede neuronal multi-camadas
( ) ( ) ( )[ ]24,214,15,423,213,15,345,435,35 ...... aWaWgWaWaWgWgaWaWga +++=+= [3.2]
a1
a2
a3
a4
W1,3
W2,4
W2,3 W1,4
a5
W3,5
W4,5
Nível de entrada Nível de escondido Nível de saída
Capítulo 3: Data Mining
66 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Os valores de entrada passam para os nodos escondidos e são ajustados de acordo com
os pesos de cada conexão. Entretanto, os nodos do nível escondido combinam valores
de todos os pesos de entrada e avaliam-os, usando uma função de activação, produzindo
um valor de saída desse mesmo nodo que é transmitido aos nodos do nível seguinte,
sendo, uma vez mais, ajustado ao peso relacionado com cada ligação.
Outro tipo de rede neuronal utilizado em técnicas de DM é a rede com mapas de
características auto organizáveis (SOM – Self Organizing Features Maps) ou rede de
Kohonen.
O dia-a-dia proporciona-nos numerosos exemplos do que apelidamos de auto
organização. Por exemplo, no primeiro dia de aulas, os alunos sentam-se nas secretárias
da sala de forma aleatória. Com o passar dos dias, escolhem, paulatinamente, os lugares
segundo as suas afinidades: grupos exclusivamente formados por rapazes ou raparigas,
o aluno típico que se senta nas últimas filas ou nas primeiras, etc.
Os mapas auto organizáveis são um modelo neuronal que foi inspirado em zonas do
cérebro humano onde a informação proveniente dos sentidos tem uma representação
topológica ordenada.
Este modelo utiliza uma estratégia de aprendizagem de clustering não supervisionada.
Enquanto que a aprendizagem supervisionada se assemelha ao professor que ensina e
corrige o aluno, a aprendizagem não supervisionada ou auto organizada assemelha-se ao
aluno que aprende por si, sem a ajuda do professor, mas dispondo de sebentas,
apontamentos, etc. Esta rede acede a cada registo e atribui-o a um determinado grupo de
acordo com a similaridade existente com outros registos desse mesmo grupo.
A rede de Kohonen apenas possui um nível de entrada e um outro de saída. Os
neurónios do nível de entrada limitam-se a reconhecer e canalizar a informação para o
segundo nível. O segundo nível, que se encontra conectado com o anterior através de
“pesos”, realiza uma importante tarefa: uma projecção linear do espaço
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 67
multidimensional de entrada, preservando as características essenciais destes dados em
forma de vizinhança.
O vector de “pesos” para uma unidade de cluster serve como uma catalogação para um
determinado padrão de entrada. Durante a fase de auto organização, a unidade cluster
cujo vector de pesos mais se aproximar do padrão de entrada, é escolhido como
vencedor utilizando uma medida de similaridade.
Durante a fase de treino, cada nodo de saída rivaliza com os restantes nodos para
“ganhar” cada registo. O nodo “vitorioso” é aquele em que o peso de conexão está mais
próximo do registo de entrada. Os seus pesos são seguidamente ajustados como
resultado do seu êxito. Os nodos vizinhos são igualmente ajustados para que, quando
um registo de entrada seja analisado, a vizinhança de nodos responda às relações de
entrada.
À medida que o treino avança, a vizinhança vai sendo reduzida até que os pesos do
nodo vencedor sejam ajustados (Rodrigues, 2000).
Figura 3.10 – Rede neuronal que simula mapa auto organizado
O número de nodos de saída é tipicamente igual ao número de clusters, sendo o número
de nodos do nível de entrada determinado em função do número de atributos de entrada.
A utilização das redes neuronais é profícua quando é pretendido descobrir novas
segmentações de dados, isto é, descobrir conjuntos de dados, ou clusters, que se
distinguem dos restantes grupos por possuírem características comuns.
Nível de entrada
Nível de saída
Conexões Feed-forward
Capítulo 3: Data Mining
68 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
3.7.4 Algoritmos Genéticos
Os algoritmos genéticos são métodos generalizados de descoberta de conhecimento que
simulam os processos naturais de evolução. Um algoritmo genético é um procedimento
iterativo e usado em técnicas de DM para formular hipóteses de dependência entre
variáveis. Estes algoritmos utilizam os operadores de selecção, cruzamento e mutação
de forma a desenvolver sucessivas gerações de soluções. Com a evolução do algoritmo,
apenas as soluções com maior poder de previsão sobrevivem, até convergirem para uma
solução ideal.
As hipóteses são habitualmente descritas por bit strings (0 e 1). A investigação de uma
hipótese apropriada inicia-se com uma população ou conjunto de hipóteses iniciais. Os
“indivíduos” da geração actual dão origem à população da nova geração, através dos
operadores de selecção. Em cada iteração (geração), as hipóteses correntes são avaliadas
por um valor de “ajustamento” e a melhor hipótese é seleccionada para reproduzir a
geração seguinte. Quanto maior for o valor de “ajustamento”, maior será a
probabilidade de ser seleccionado.
Os dois principais mecanismos que os algoritmos genéticos usam para fazer evoluir as
populações são o cruzamento, onde são trocadas duas bit strings, imitando, deste modo,
a reprodução e as mutações que causam alterações nos bit strings, assemelhando-se às
mutações genéticas que ocorrem ao nível do DNA.
Os algoritmos genéticos são mais apropriados na descoberta de soluções óptimas num
espaço de procura restringido. Os dados a analisar devem ser uniformes, uma vez que
estes têm de ser codificados em vectores com a mesma dimensão, razão pela qual estes
algoritmos não são aconselhados para tratar dados com diferentes formatos e origens
(Rodrigues, 2000).
As técnicas de algoritmos genéticos são apropriadas às tarefas de classificação e
clustering, tendo sido aplicadas com sucesso em várias tarefas de aprendizagem e
noutros problemas de optimização. A aprendizagem de regras para o controlo de robots,
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 69
disposição de circuitos electrónicos, etc, são alguns dos exemplos da aplicação dos
algoritmos genéticos.
Figura 3.11 – Desenvolvimento de uma solução com algoritmo genético
Baseado em Rodrigues (Rodrigues, 2000)
3.7.5 Algoritmos de Clustering
O objectivo principal da função de identificação de agrupamentos – clustering – é o de
separar objectos ou observações em classes naturais de forma a que os elementos
pertencentes a um mesmo grupo possuam um alto grau de semelhança, ao passo que
quaisquer outros elementos pertencentes a grupos distintos têm pouca semelhança entre
si.
A tarefa básica de clustering é classificar um conjunto de objectos em subconjuntos,
segundo um ou mais critérios adequados. Os critérios mais comummente adoptados em
clustering são:
1 0 1 0 1 1 1 0
1 1 1 0 0 1 0 0
Selecção baseado no valor de ajustamento
1 0 1 0 1 1 1 0
1 1 1 0 0 1 0 0
1 0 1 0 0 1 0 0
1 1 1 0 1 1 1 0
0 0 1 0 0 1 1 0
1 1 1 1 1 1 1 0
Repetir até encontrar solução
aceitável
População inicial
Cruzamento
Mutação
Nova geração
Capítulo 3: Data Mining
70 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
• Homogeneidade: Refere-se a objectos pertencentes a um mesmo cluster, que
devem ser tão similares quanto possível;
• Dissimilaridade: Está relacionada a objectos de diferentes clusters, que devem
ser distintos entre si, tanto quanto possível.
A qualidade do resultado obtido pela utilização de técnicas de clustering, depende de
uma série de definições coerentes por parte do utilizador. Os elementos mais
importantes e presentes no desenvolvimento dos procedimentos de clustering são:
• Escolha de atributos;
• Homogeneização das variáveis;
• Medidas de similaridade;
• Critérios de agrupamento;
• Escolha do algoritmo;
• Definição do número de clusters.
A aprendizagem é não supervisionada, ou seja, não existe um perito que tenha
“etiquetado” as observações realizadas. A inexistência de uma classe predefinida,
associada a cada observação, constitui a principal diferença em relação à aprendizagem
de modelos de classificação. Os clusters podem, ainda, ser classificados em distintos
tipo de grupos, nomeadamente:
• Clusters exclusivos;
• Com sobreposição;
• Probabilísticos;
• Hierárquicos.
Em relação ao tipo de métodos de agrupamento podem ser, fundamentalmente,
distinguidos três métodos:
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 71
• Hierárquicos: Onde é gerada uma hierarquia de grupos desde 1 até ao número
de observações. Neste tipo de métodos podem ser caracterizadas duas variantes:
o Aglomerativos: Começam com n clusters que têm apenas um
registo/objecto e, de forma recursiva, vão juntando dois ou mais clusters
segundo uma medida de similaridade;
o Divisivos: Começam com um grupo que contém todos os registos e
dividem-nos, de forma recursiva, em novos clusters segundo uma
medida de similaridade.
Em ambos os algoritmos o processo é repetido até que um critério seja atingido, sendo
esse critério o número predefinido de clusters.
Ainda no domínio dos algoritmos aglomerativos, a diferença entre dois clusters,
candidatos a serem agrupados, pode ser avaliada de várias formas:
• Método single linkage: A diferença entre dois clusters é medida pela menor
distância entre dois objectos de cada cluster;
• Método average linkage: A diferença entre dois grupos é medida pela distância
média entre os objectos de cada grupo;
• Método complete linkage: A diferença entre dois clusters é medida pela maior
distância entre dois objectos de cada cluster.
Em qualquer dos casos, o objectivo é aglomerar os clusters com base num critério de
distância mínima.
A representação habitual do clustering hierárquico é o dendograma (onde são
representados as divisões sucessivas e os níveis de similaridade em cada partição). Um
dendograma assemelha-se a uma árvore e esta mostra a estrutura dos clusters. Permite,
Capítulo 3: Data Mining
72 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
também, medir a similaridade entre clusters através do eixo vertical, conforme
representado na figura 3.12:
Figura 3.12 – Clustering hierárquico – Dendograma
• Partições: Onde os dados são divididos em n clusters de acordo com algum
critério. Cada cluster tem, pelo menos, um elemento e cada elemento pertence a
um só grupo. Estes métodos criam uma partição inicial e iteram até um atingir
um critério de paragem. O número de clusters é normalmente prefixado
assumindo tipicamente valores entre 2 e n , sendo n o número total de objectos
do conjunto inicial. O algoritmo de partição mais utilizado é o K-means.
• Fuzzy clustering: Aqui, cada registo tem uma certa probabilidade de pertencer a
um dos n clusters. A cada registo é atribuído um certo grau de pertença.
O perito é confrontado com a questão de como avaliar a semelhança e/ou diferença
entre os registos, de forma a agrupar os mais semelhantes. O conceito básico para se
proceder à realização de um agrupamento é a noção de distância. A diferença ou
semelhança entre registos, traduz-se na medida da distância entre eles a partir do centro
do cluster.
São utilizadas diversas medidas de distância, tais como distância Euclidiana,
Manhattam e Minkowski, conforme as expressões 3.3, 3.4 e 3.5, respectivamente.
Grande parte dos métodos de clustering toma como input a matriz de distâncias entre os
registos. A medida de similaridade (valor métrico no espaço dos atributos que
X1 X2 X3 X4 X5 X6 X7 X8 X9
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 73
quantificam a similaridade entre objectos) é baseada nos atributos que descrevem os
registos.
Os dados numéricos passam habitualmente por uma fase de limpeza e tratamento (pré-
processamento dos dados). As escalas das variáveis utilizadas para clustering devem ser
as mesmas, tipicamente numa escala entre [0 e 1], para que as variáveis de maiores
valores não reduzam o efeito das variáveis de valores inferiores.
Para variáveis numéricas, as distâncias mais utilizadas são:
Distância Euclidiana:
22
22
2
11 ...),( jninjiji xxxxxxjid −++−+−= [3.3]
Distância de Manhattan:
jninjiji xxxxxxjid −++−+−= ...),( 2211 [3.4]
Distância Minkowski:
jnin
q
ji
q
ji xxxxxxjid −++−+−= ...),( 2211 [3.5]
(Se q=1 é Manhattan e se q=2 é Euclidiana)
A distância euclidiana, utilizada na apreciação da proximidade entre registos num
espaço multi-dimensional, manifesta uma tendência para que os atributos de maior
escala dominem os demais. Esta tendência é suavizada através da normalização dos
atributos (se estes forem contínuos), ou então, através da distância euclidiana pesada,
onde (w) representa o vector dos pesos associados aos atributos.
Distância Euclidiana pesada:
22
222
2
111 ...),( jninnjiji xxwxxwxxwjid −++−+−= [3.6]
Capítulo 3: Data Mining
74 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
A importância dos atributos, nomeadamente dos atributos numéricos, pode ser
estabelecida utilizando métodos estatísticos.
Embora os algoritmos possam definir automaticamente o número de grupos, o perito
pode também ele impor um número limite de clusters. O número de clusters encontrado
está intimamente ligado com o grau de similaridade que é exigido a um algoritmo. Se,
por exemplo, a um determinado algoritmo lhe for exigida uma fraca similaridade entre
os objectos de um cluster, presumivelmente este algoritmo encontrará menos clusters
do que um outro algoritmo ao qual lhe seja exigido uma forte similaridade entre os
registos pertencentes a um mesmo grupo.
No trabalho da presente dissertação foi efectuado um estudo das diferentes classes de
consumidores de MT com recurso a técnicas de DM. Foram testados diferentes
algoritmos de clustering, nomeadamente os algoritmos K-means e Two- Step, de forma
a proceder a um estudo comparativo dos seus desempenhos. Estes algoritmos serão
descritos em detalhe nas duas próximas secções.
3.7.5.1 Algoritmos de K-Means
O algoritmo de clustering mais conhecido é o K-means. Este método divide um
conjunto de (n) vectores em (k) clusters (Cj, com j=1,…,k), de tal forma que os centros
de cada cluster (cj, com j=1,…,k) minimizem a dispersão interna dos clusters, conhecida
como a soma dos quadrados intra-classe (SQIntra):
∑ ∑= ∈ ⎥
⎥⎦
⎤
⎢⎢⎣
⎡−=
k
j Cxiji
ji
cxJ1 ,
2 [3.7]
Na equação [3.7], 2
ji cx − é o quadrado da distância euclidiana entre o objecto xi e cj,
representando cj o centro do cluster Cj onde o objecto foi colocado.
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 75
No algoritmo K-means, um objecto pode pertencer apenas a um dos clusters (k), deste
modo, a classificação dos (n) objectos pode ser representada por uma matriz Unxk, onde
uij=1 se o i-ésimo objecto pertencer ao j-ésimo cluster e uij=0 caso contrário.
Se os centros dos clusters são fixos, a partição óptima consistirá em alocar cada objecto
no cluster com o centro de gravidade mas próximo, isto é, uij=1 se
jkcxcx kiji ≠∀−≤− e uij=o no caso contrário. A matriz U assume as seguintes
propriedades:
∑=
=k
jiju
11 [3.8]
∑=
=n
ijij nu
1 [3.9]
nnnu k
k
j
n
iij =++=∑∑
= =
...11 1
[3.10]
Computacionalmente, o algoritmo K-means pode ser implementado segundo a seguinte
estrutura iterativa:
1. De forma aleatória, determinar os (k) centros para a partição inicial, usando os
objectos do conjunto seleccionado;
2. Determinar a matriz U, de acordo com o critério do centro mais próximo;
3. Cálculo do valor da função objectivo (equação 3.7), de forma a atribuir cada
objecto ao cluster cujo centro se encontra mais próximo do mesmo;
4. Actualizar os centros dos clusters. Se o critério de convergência não tiver sido
atingido, voltar ao ponto 2.
Capítulo 3: Data Mining
76 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
O algoritmo de K-means exige um esforço computacional proporcional ao produto do
número de registos (n) pelo número de clusters (k), daí que a sua aplicação se torna
limitada para conjuntos de dados de elevada dimensão. No entanto, este algoritmo é
computacionalmente eficiente, produzindo bons resultados se os clusters são compactos
e bem separados no espaço (Jain, 2000). Contudo, o algoritmo não garante a
convergência para uma solução óptima, estando o seu desempenho dependente dos
centros inicialmente escolhidos.
3.7.5.2 Algoritmo Two-Step
Este algoritmo de agrupamento é baseado nos métodos hierárquicos aglomerativos,
tendo sido implementado para lidar com grandes quantidades de dados, habitualmente
presente nos problemas de DM, com atributos numérico e categóricos. O algoritmo
Two-Step permite seleccionar automaticamente o número de clusters, requerendo, ainda,
uma só passagem dos dados.
O processo de clustering deste algoritmo é dividido em dois passos:
1. Pré-cluster dos objectos em diversos sub-clusters. O conjunto de dados é
transformado em subconjuntos que serão utilizados no passo seguinte. Cada
objecto é alvo de análise, um por um, e o algoritmo decide se esse mesmo
registo deverá ser incorporado no cluster previamente formado ou, por outro
lado, se dá ao início a um novo cluster.
Este processo é implementado por meio de uma estrutura em árvore (CF-tree –
Árvore de Atributo do Cluster). A árvore tem uma estrutura hierárquica
constituída por vários níveis de nós, os quais contêm um determinado número de
objectos. Cada nó extremidade da árvore representa um subconjunto final.
A construção da árvore é controlada por diversos parâmetros, entre os quais o
número máximo de padrões em cada nó extremidade e pela distância limiar dos
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 77
nós. O processo progride para que todos os objectos sejam atribuídos a um sub-
cluster, ou seja, a um nó extremidade (folha).
A precisão do método está relacionada com o número de subconjuntos (nó
extremidade) escolhido. Assim, quanto menor for o número de sub-clusters
escolhidos, menor será a sua precisão. Por sua vez, com o aumento do número
de sub-clusters, a precisão é aumentada, mas implica, também, um maior
esforço computacional aquando do segundo processo.
2. Agrupamento dos sub-cluster resultantes do passo anterior. Os sub-clusters
provenientes do passo anterior irão ser agora usados como objectos de entrada
para o 2º passo. No 1º passo, a dimensão do conjunto inicial de dados é
reduzida, sendo nesta fase aplicado um algoritmo hierárquico aglomerativo, de
forma a proceder ao agrupamento dos sub-clusters em número de grupos
previamente desejável (Chiu, 2001).
Geralmente, quanto maior for o número de sub-clusters resultante do passo de
pré-cluster, maior será a precisão final dos resultados.
Tanto no primeiro como no segundo passo, é necessária a utilização de uma medida de
distância calculada entre os centros de dois grupos, sendo cada centro definido por um
vector com a média dos valores de cada variável pertencente a esse mesmo grupo. Este
algoritmo trabalha com a medida da distância euclidiana, no caso das variáveis serem
contínuas, ou com a medida de distância log-likelihood (medida de distância de
verosimilhança logarítmica), no caso das variáveis serem contínuas e categóricas.
3.7.6 Algoritmos de Vizinhança mais Próxima
Os algoritmos de vizinhança mais próxima proporcionam uma forma de clustering
supervisionada e podem ser utilizados em tarefas de classificação de forma similar às
redes neuronais e árvores de decisão (Rodrigues, 2000).
Capítulo 3: Data Mining
78 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
À semelhança de outras técnicas de classificação, estes algoritmos necessitam de uma
variável objectivo para basearem a sua classificação. Um determinado objecto é
classificado de acordo com o valor esperado dos objectos que lhe são mais semelhantes.
O valor (K) caracteriza o número de objectos de vizinhança utilizados para classificar
um novo objecto. De forma a definir a vizinhança mais próxima, uma medida de
distância (K) é usada, tal qual como nos algoritmos de clustering. A exactidão da
classificação é proporcional ao valor de (K), mas, por sua vez, quanto maior for este
valor, maior será o tempo de computação necessário.
Estes algoritmos apresentam uma eficiente classificação para conjunto de dados de
tamanho médio, bem como concedem uma explicação suplementar, dada a oportunidade
de se identificar quais os objectos de vizinhança que foram utilizados para classificar
um determinado objecto.
A necessidade da existência de dados históricos para classificação de novos registos,
elevando o esforço computacional do algoritmo, aliada à propensão deste tipo de
algoritmos em criar ruído nos dados, pode ser apontada como a sua principal limitação.
3.8 Data Mining: áreas de aplicação
Data Mining surgiu com o objectivo principal de dar apoio à tomada de decisão,
portanto, a aplicação de técnicas de DM em sistemas de descoberta de conhecimento em
bases de dados, pesquisa a descoberta de regras e padrões contidos nos dados, que trarão
o conhecimento suficiente e adequado para o agente de decisão.
Sucintamente, as principais áreas de interesse na utilização de técnicas de DM são:
• Marketing: descoberta de preferências de consumidores e padrões de compra.
Conhecendo o perfil do consumidor, poder-se-ão realizar campanhas e ofertas
promocionais de produtos específicos;
• Sector Bancário: detecção de padrões de uso de cartão de crédito fraudulento,
identificar clientes “leais”, prever bons ou maus clientes, descobrir correlações
Capítulo 3: Data Mining
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 79
escondidas entre diferentes indicadores financeiros, determinar despesas de
cartões de crédito por grupo de clientes;
• Medicina: caracterização do comportamento de paciente para previsão de
visitas, identificação de terapias médicas de sucesso para diferentes doenças,
procura por padrões de novas doenças;
• Transporte: Determinação de escalas de distribuição entre distribuidores,
análise de padrões de carga;
• Instituições Governamentais: análise de reivindicações, descoberta de padrões,
de forma a melhorar colecta de impostos ou descobrir fraudes;
• Ciência e Tecnologia: descoberta de padrões nas estruturas moleculares, dados
genéticos, mudanças climáticas globais, caracterização de perfis de
consumidores de electricidade, água e gás, planeamento estratégico de linhas de
produção.
O utilizador de um sistema de DCBD, necessita de ter um sólido conhecimento da área
de intervenção em estudo, ou uma estreita colaboração com peritos, de forma a ser
capaz de seleccionar correctamente os subconjuntos de dados, e os clusters de padrões
mais interessantes.
Com a utilização de técnicas de DM pretende-se, assim, e numa primeira análise, a
descoberta de conhecimento referente aos padrões de consumo de electricidade em
clientes de MT. A técnica de DM mais adequada para utilização, depende de vários
factores, nomeadamente o tipo de dados existentes e os resultados que se pretendem
alcançar. É, pois, conveniente realizar uma análise comparativa entre diversos
algoritmos, para escolher aquele que demonstra melhor desempenho.
Para as empresas distribuidores e comercializadoras de energia eléctrica, o
conhecimento dos perfis típicos de consumo dos seus clientes, permite uma melhor
Capítulo 3: Data Mining
80 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
eficiência na compra/venda de electricidade, permite oferecer um maior leque de opções
tarifárias que melhor se adapte ao perfil de cada cliente, ou contribuir para o incentivo a
novas modulações dos seus diagramas de carga. Assim, e antes de entrar no estudo da
caracterização de perfis, o próximo capítulo apresenta a caracterização dos novos
modelos de mercado e diversos tipos de contratos, decorrentes da liberalização do sector
eléctrico.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 81
4. CONTRATOS DE ELECTRICIDADE EM AMBIENTE DE MERCADO
LIBERALIZADO
Neste capítulo, são apresentadas as modalidades para transaccionar a energia eléctrica
em ambiente de mercado. Inicialmente, são identificados os novos agentes participantes
e os novos modelos de mercados, resultantes da transformação do monopólio regulado
para o mercado concorrencial. São, ainda, identificados novos tipos de contratos e
comentada a importância da instalação de aparelhos de medição em tempo real, no
processo de liberalização do sector eléctrico.
4.1 Introdução
Nos primórdios do sector eléctrico (final do século XIX), este sector era caracterizado
por redes eléctricas de pequena extensão e potência, devido não só ao valor reduzido
das cargas, mas também às tecnologias então disponíveis. Com o surgimento de novas
cargas e consequente aumento do seu valor, a par da inovação tecnológica, a extensão e
potências das redes começaram gradualmente a crescer. Normalmente, as instalações de
produção de energia eléctrica (por exemplo, aproveitamentos hídricos) ficam situadas
em zonas geográficas afastadas dos grandes centros de consumo, factor que contribuiu
para o desenvolvimento das redes de transporte de electricidade, com distância e níveis
de tensão cada vez maiores. Dos pequenos sistemas eléctricos iniciais evoluiu-se para
grandes sistemas eléctricos envolvendo, na maioria das vezes, avultados investimentos
e, em termos de extensão, abrangendo a quase totalidade dos territórios nacionais. Por
razões de ordem técnica, designadamente a segurança e a estabilidade de operação,
verificou-se ainda a interligação dos sistemas eléctricos a níveis internacionais.
Após a 2ª Grande Guerra Mundial, a nacionalização do sector eléctrico foi uma
prioridade estabelecida por diversos países europeus num espírito de obrigação e dever
de serviço público, num esforço de electrificação. Porém, em vários países, incluindo
Portugal, o sector eléctrico era detido por entidades privadas.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
82 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Uma análise comparativa da produção de energia entre Portugal e vários países
europeus nas quatro primeiras décadas do século XX revela a modesta posição que
Portugal detinha, comprovando o atraso em que se encontrava o processo de
electrificação e, consequentemente, o processo de modernização das estruturas
económicas do país (Cordeiro, 2003).
A tabela 4.1 compara a situação de Portugal com a dos países desenvolvidos da Europa
quanto ao consumo de energia eléctrica.
Tabela 4.1 – Consumo de Energia Eléctrica em 1925
Consumo específico médio
País (kWh por habitante) (kWh por km²)
Suíça 1.000 95.000
Alemanha 400 53.000
Bélgica 300 78.000
França 250 18.000
Itália 190 25.000
Inglaterra 190 35.000
Portugal4 19 1.200
O consumo de energia de um determinado país está associado ao nível de
industrialização e as limitações que um país tem para a produzir são determinadas pela
sua capacidade de modernização económica. Assim, facilmente se entende que em
determinados países, onde o consumo de energia eléctrica e sectores como a economia e
indústria fossem diminutos, estando o sector eléctrico entregue à iniciativa privada, a
construção das redes de distribuição e transporte de electricidade seriam realizadas de
uma forma lenta, podendo as tarifas atingir valores muito elevados. Daí que, entre
outros factores, o sector da energia eléctrica tenha sido alvo de nacionalização por
alguns países, passando a integrar verticalmente os diversos sectores de actividade,
4 Dados de 1927
Fonte: (Cordeiro, 2003)
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 83
desde a produção à comercialização, num espírito e sentimento altruístas de
electrificação nacional.
Outros países, como é o caso da Alemanha e Espanha, mantiveram o sector eléctrico
estruturado sob a forma de empresas privadas, actuando nas áreas da produção,
transporte e distribuição.
Em ambos os modelos, público ou privado, eram reconhecidas duas linhas conducentes
à organização do sector eléctrico:
1. As empresas tradicionais da indústria eléctrica integravam as várias áreas, desde
a produção ao relacionamento comercial com o consumidor, englobando, deste
modo, as áreas de produção, transporte e distribuição de electricidade;
2. Mesmo havendo várias empresas actuando no mesmo território, estas detinham a
concessão de uma determinada área ou província, não existindo, assim, qualquer
tipo de competição entre essas empresas.
O aumento da concorrência em áreas como a indústria aérea, redes de
telecomunicações, distribuição de gás, etc, provenientes de uma política de
liberalização, cada vez mais enquadradas na globalização da economia mundial,
levaram a que diversos sectores da economia fossem alvo de reestruturações. Neste
âmbito, devido à importância primordial e estratégica que possui o sector eléctrico, este
foi, também, alvo de especial interesse por parte dos governantes, sensíveis à
necessidade de reestruturação deste sector, de forma a tornar as suas economias mais
competitivas.
A livre escolha do fornecedor de energia eléctrica para todos os consumidores,
característica dos mercados retalhistas, vem introduzir um factor de concorrência
acrescida. Para que os comercializadores de electricidade aumentem o seu número de
clientes necessitarão, tendencialmente, de praticar preços inferiores aos preços
regulados.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
84 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
O consumidor de electricidade, quando inserido num ambiente de mercado liberalizado,
com livre concorrência nos sectores da produção e comercialização de energia eléctrica,
poderá optar pelo fornecimento de electricidade através de um comercializador em
condições típicas de mercado ou, pelo contrário, manter-se no sistema de
comercialização vinculada, com tarifa regulada.
4.2 A Liberalização do Sector Eléctrico
O sector eléctrico usufruía de um ambiente económico estável antes da década de 70 do
século passado. Nos anos iniciais dessa mesma década, e devido às crises petrolíferas
ocorridas, as taxas de inflação e de juros elevaram-se substancialmente, contribuindo
para um ambiente económico instável. No sector energético, as consequências mais
notórias foram, por um lado, a sensibilização para a redução do consumo de
electricidade e, pelo outro, a consciencialização para uma necessidade de se
diversificarem as fontes de energia.
Para além deste ambiente económico desfavorável e, consequentemente, lesivo para
actividades de capital elevado, observou-se a liberalização de alguns sectores
económicos, nomeadamente os mencionados na secção anterior. Este novo ambiente de
competitividade originou o surgimento de novos agentes de mercado, promovendo o
aumento da concorrência e concedendo aos consumidores uma posição mais activa e
autónoma, no que diz respeito à possibilidade de escolha da entidade fornecedora dos
serviços. Este novo ambiente de reestruturação e liberalização de mercado rapidamente
se alastrou a outros países, contribuindo para uma tendência internacional de
liberalização de diversos sectores económicos.
O sector eléctrico não fugiu a essa tendência de reestruturação apresentando, no entanto,
alguns cuidados a ter em conta, nomeadamente, a existência de uma entidade
reguladora, bem como a necessidade de uma coordenação central do sistema eléctrico.
A passagem do monopólio regulado ao mercado concorrencial, no qual os
consumidores têm a possibilidade de escolha do seu fornecedor, não significa apenas
aumentar o eventual número de operadores. Significa, também, quebrar todo o
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 85
enquadramento regulatório pré-existente, como por exemplo, sobre os produtores de
electricidade. Teoricamente, se por um lado o risco dos produtores aumenta, por outro,
ganham a liberdade para criarem estratégias de forma a maximizarem os seus lucros,
tendo em conta a acção dos restantes concorrentes (Santana, 2003a).
A primeira experiência da reestruturação do sector eléctrico manifestou-se no Chile nos
finais da década de 70. Uma década depois, seguiram-se a Inglaterra e Gales.
Posteriormente, nos anos 90, o processo de reestruturação do sector eléctrico
desenvolveu-se de forma galopante, a ele se juntando a Argentina, Estados Unidos da
América, Austrália, Nova Zelândia, Noruega, Suécia, Alemanha, Espanha e Holanda,
entre outros países europeus (Cardoso, 2001).
Com efeito, no passado, as empresas de electricidade eram, na sua maioria, monopólios
públicos verticalmente integrados e os consumidores de energia eléctrica não podiam
escolher livremente o seu fornecedor. Porém, a realidade actual é muito diferente. Na
maioria das empresas verificou-se a separação jurídica entre actividades, introduzindo-
se concorrência nas actividades de aquisição e fornecimento de energia eléctrica,
havendo várias empresas a exercer essas actividades, podendo, neste contexto, os
consumidores de electricidade escolher livremente o seu fornecedor.
Actualmente, existem países onde o processo de liberalização do sector eléctrico é já
uma realidade, havendo, contudo, consumidores que ainda não exercem a oportunidade
de escolher livremente o seu fornecedor de energia eléctrica. Em países como a Áustria,
Dinamarca, Finlândia, Alemanha, Espanha, Suécia e Reino Unido todos os clientes
podem mudar livremente de fornecedor (ERSE, 2004a).
A Directiva 2003/54/CE5 do Parlamento Europeu e do Conselho, de 26 de Junho de
2003, estabelece regras comuns para o mercado de electricidade, estipulando que os
consumidores não domésticos poderão escolher livremente o seu fornecedor de
electricidade a partir de 1 de Julho de 2004. Todos os consumidores, incluindo os
domésticos, poderão também fazê-lo a partir de 1 de Julho de 2007, significando que,
5 Jornal Oficial da União Europeia, L 176/37, de 15 de Julho de 2003.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
86 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
durante a segunda metade da década, o número de potenciais consumidores que trocarão
de fornecedor de energia eléctrica crescerá expressivamente.
Para todos os participantes no mercado liberalizado de electricidade (clientes,
fornecedores, distribuidores, retalhistas, comercializadores, etc.) é vital que as regras
definidas sejam transparentes, não discriminatórias, e que os procedimentos de troca de
fornecedor tenham em linha de conta as diferentes necessidades de um grande número
de consumidores.
A existência de uma estrutura reguladora consistente é também de grande importância
para o correcto funcionamento do mercado. Do ponto de vista da maioria dos
intervenientes no mercado, será preferível haver, em cada país, apenas uma autoridade
responsável pela supervisão dos termos e condições da mudança de fornecedor por parte
dos consumidores (Eurelectric, 2004).
Para que o mercado eléctrico liberalizado se possa desenvolver, é necessário ter em
linha de conta alguns pré-requisitos. A nova Directiva citada define claramente datas,
responsabilidades e os modelos gerais de abertura do mercado, de forma a preparar toda
a actividade e os seus intervenientes para os novos desafios. Contudo, apenas directivas
e leis, por si só, não são suficientes para fazer com que o mercado seja totalmente
operacional. É, pois, de grande importância que surjam novos agentes de forma a
promover um verdadeira estrutura de mercado, como são os casos dos retalhistas,
comercializadores, etc.
Uma forma de avaliar o grau de competição no fornecimento de energia eléctrica
consiste na avaliação dos níveis de troca de fornecedor e a probabilidade dos
consumidores virem a substituir, no futuro, o seu actual fornecedor. A motivação
principal de mudança de fornecedor será, com certeza, a poupança com o consumo de
electricidade. Porém, outros factores podem ser igualmente apontados como
importantes, tais como, a qualidade de atendimento ao cliente, a qualidade e
transparência dos dados referentes à comunicação das facturas e a brevidade de tempo
na troca de fornecedor. Todo o processo que permite aos clientes a troca de fornecedor
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 87
de energia eléctrica, relativamente a contratos, tarifas, equipamento de medição,
serviços, etc., deve ser transparente, não discriminatório, simples e eficiente e amigável
ao consumidor (Eurelectric, 2004).
De um modo geral, os mercados liberalizados devem proporcionar a formação de preços
competitivos, normalmente associados a melhores níveis de serviço, bem como a
técnicas e estratégias de diferenciação. Neste ambiente de competição, as empresas de
electricidade necessitam de adoptar novas estratégias de mercado para poderem
sobreviver. Necessitam, também, de conhecer de que forma o mercado de energia
eléctrica poderá evoluir com o passar do tempo e como é que os agentes participantes
no mercado irão reagir à mudança do ambiente económico, financeiro e regulador no
qual operam.
Praça (Praça et al., 2003), fez um estudo do comportamento e evolução do mercado
eléctrico com o desenvolvimento de um sistema multiagente que simula mercados de
electricidade competitivos, ou seja, foi desenvolvida uma ferramenta que avalia novas
regras, novos comportamentos e novos participantes emergentes dos novos mercados de
energia eléctrica e resultantes da liberalização e competição deste sector. Com esse
sistema multiagente, avalia o preço da energia eléctrica formado no operador de
mercado, para as próximas 24 horas, com base na oferta de compra e venda de
electricidade por partes dos diversos intervenientes, chegando à caracterização de cada
agente em função do seu comportamento e estratégias utilizadas para, ao longo do
tempo, ir modificando o preço e quantidades de energia eléctrica negociada.
O objectivo principal da liberalização do sector eléctrico é o de garantir e assegurar a
operação segura e eficiente do sistema, bem como diminuir o custo da energia eléctrica
pela introdução da competição em alguns sectores da actividade, nomeadamente, ao
nível da produção e comercialização.
Em Portugal, desde meados da década de 70 até ao início da década de 90 do século
passado, os sectores de produção, transporte e distribuição estavam sob a alçada de uma
única empresa em regime de monopólio.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
88 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
A abertura do sector eléctrico à iniciativa privada foi realizada pela publicação do DL
n.º 449/88, de 10 de Dezembro. Posteriormente, com a publicação dos Decretos-Lei n.os
182 a 187/95, de 27 de Julho, foram constituídas as bases de organização do Sistema
Eléctrico Nacional (SEN) e os princípios que enquadram o exercício das actividades de
produção, transporte, distribuição, cogeração e regulação deste sector. A criação do
mercado interno de electricidade, que se revê na Directiva 96/92/CE, de 19 de
Dezembro, assinala, à escala europeia, movimentos para a criação de mercados de
energia.
Desde então, foram adoptadas medidas para concretizar a abertura do mercado eléctrico
nacional, designadamente a publicação dos critérios de definição dos clientes elegíveis,
os quais têm a possibilidade de escolher livremente o seu fornecedor de energia
eléctrica.
4.2.1 Agentes Participantes no Mercado Liberalizado
Os agentes de mercado são todos aqueles que intervêm nas transacções económicas que
ocorrem no mercado de energia eléctrica, comprando ou vendendo electricidade.
Para exercer o direito de compra e venda de electricidade, os agentes de mercado
deverão cumprir certos requisitos e aderir às regras do funcionamento desse mesmo
mercado.
Como exemplos de agentes de mercado que podem vender e comprar electricidade no
mercado liberalizado possuindo, assim, o estatuto de agentes de mercado, temos:
• Produtores de energia eléctrica: Todos aqueles que têm como função a
produzir electricidade, assim como construir, operar e manter as centrais de
produção;
• Auto-produtores e produtores em regime especial: Utilizam a “cogeração” ou
outras formas de produção de energia eléctrica para consumo próprio;
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 89
• Agentes externos: Aqueles que fornecem ou recebem electricidade proveniente
de outros sistemas externos;
• Distribuidores: Têm a função de distribuir a energia eléctrica, assim como
construir, manter e operar as instalações de distribuição destinadas a entregar a
energia nos pontos de ligação, e proceder à sua venda a todos os consumidores
que lhes adquirirem electricidade;
• Comercializadores: Todos aqueles que, acedendo às redes de transporte e
distribuição, têm como função a venda de energia eléctrica aos consumidores
com condições de elegibilidade;
• Consumidores qualificados: Consumidores que podem adquirir energia
eléctrica, em cada momento, mediante outros mecanismos que não os que são
utilizados pelos consumidores sujeitos a tarifas reguladas.
4.2.2 Organização do Sector Eléctrico Nacional – SEN
Em Portugal, no final da década de oitenta, as actividades de produção e distribuição de
energia eléctrica foram abertas à iniciativa privada, através do Decreto-Lei n.º 449/88. A
partir daí, o sector eléctrico sofreu profundas mudanças. A reestruturação deste sector
evoluiu com o estabelecimento dos princípios gerais do regime jurídico das actividades
da produção, transporte e distribuição de electricidade, mediante a publicação do
Decreto-Lei n.º 99/91 (ERSE, 2005a).
A publicação dos Decretos-Lei n.os 182 a 187/95, já referidos na secção anterior,
estabeleceu as bases e os princípios da organização e do funcionamento do Sistema
Eléctrico Nacional (SEN), bem como a regulação independente, mediante a criação da
Entidade Reguladora do Sector Eléctrico (ERSE)6. A ERSE foi criada para assumir a
responsabilidade pela regulação do sector da electricidade, tendo ainda como missão
6 Os estatutos da ERSE foram alterados pelo Decreto-Lei n.º 97/2002 de 12 de Abril passando, nessa data, a designar-se por Entidade Reguladora dos Serviços Energéticos.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
90 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
assegurar o cumprimento dos objectivos de serviço público, nomeadamente a definição
de tarifas reguladas, a qualidade de serviço prestado, o cumprimento das regras de
relacionamento comercial e a definição das condições de acesso às redes. Com o
Decreto-Lei n.º 97/2002 de 12 de Abril as suas competências foram ampliadas para o
domínio da regulação do gás natural. Em 25 de Março, pelo Decreto-Lei n.º 69/2002, as
competências da ERSE referentes à regulação do sector eléctrico tinham já sido
estendidas a todo o território nacional, abrangendo os sectores eléctricos das Regiões
Autónomas da Madeira e Açores.
O SEN está organizado conforme ilustra a figura 4.1 e prevê a coexistência de dois
sistemas: o Sistema Eléctrico de Serviço Público (SEP) e o Sistema Eléctrico
Independente (SEI). O SEI engloba, ainda, o Sistema Eléctrico Não Vinculado (SENV).
Figura 4.1 – Organização do sector eléctrico nacional
(fonte: Enquadramento e Organização do Sector Eléctrico, disponível on-line:
www.ren.pt/sections/sector/sector/default.asp)
SEN Sistema Eléctrico
Nacional
SEP Sistema Eléctrico de
Serviço Público
SEI Sistema Eléctrico
Independente
ERSE Entidade Reguladora dos
Serviços Energéticos
Produtores Vinculados
REN
Distribuição Vinculada
Clientes do SEP
Mini-Hídricas (até 10 MVA)
Outras Energias Renováveis
Cogeradores
SENV Sistema Eléctrico Não Vinculado
Produtores Não Vinculados
Distribuição Não Vinculada
Clientes Não Vinculados
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 91
O SEP engloba a Rede Nacional de Transporte (RNT), que é explorada em regime de
concessão de serviço público pela Rede Eléctrica Nacional, S.A. (REN), as redes de
distribuição relativas à Distribuição Vinculada e Produtores Vinculados.
Os Produtores Vinculados pertencentes ao SEP detêm contratos de aquisição de energia
(CAE) de longo prazo com a REN, para a venda exclusiva de toda a energia eléctrica
produzida. Porém, com a liberalização do sector eléctrico, algumas questões prementes
são suscitadas, nomeadamente quais as compensações dos “Custos de Transição para a
Concorrência” (CTC) (ERSE, 2001b) que os Produtores Vinculados deverão usufruir
pela constituição de um mercado liberalizado de compra e venda de electricidade.
Neste contexto, a publicação do Decreto-Lei n.º 240/2004, de 27 de Dezembro, define
as condições da cessação antecipada dos CAE e a aplicação de medidas compensatórias
relativamente à situação de cada contraente naqueles contratos. A cessação antecipada
dos CAE está sujeita a:
• Aprovação de um acordo de cessação entre a EDP e a entidade concessionária
da RNT;
• Entrada em funcionamento do Mercado Ibérico de Electricidade (MIBEL), nas
condições que assegurem a venda de electricidade produzida;
• Atribuição de licenças de Produção Não Vinculada aos produtores abrangidos
pela cessação antecipada dos CAE.
O SEI abrange o Sistema Eléctrico Não Vinculado e os produtores em regime especial.
O SENV engloba os Produtores Não Vinculados, a Distribuição Não Vinculada e os
Clientes Não Vinculados (CNV). A transacção de energia eléctrica, mediante o
pagamento de tarifas reguladas, é gerida pela REN através das figuras do Gestor de
Ofertas e do Gestor de Sistema, responsáveis, respectivamente, pela bolsa de energia
eléctrica e pela operação e gestão técnicas da rede nacional de transporte.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
92 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
O SENV rege-se por uma lógica de mercado, no qual as entidades podem livremente
estabelecer entre si relações comerciais. Para um determinado cliente de electricidade, a
sua integração no SENV significa a possibilidade de livre escolha do seu fornecedor de
energia e de definir e negociar a respectiva forma de relacionamento. Ao invés, um
cliente que seja abastecido pelo SEP não possui esta capacidade, estando todo o seu
relacionamento comercial regulamentado.
4.2.3 Relacionamento comercial entre o SEP e o SENV
O regulamento de Acesso às Redes e às Interligações prevê as formas de
relacionamento comercial entre o SEP e o SENV.
Um consumidor de energia eléctrica abastecido pelo SENV pode escolher o seu
fornecedor e definir a forma de relacionamento comercial, enquanto que um cliente que
seja abastecido pelo SEP não tem esta opção de escolha e todo o relacionamento
comercial se encontra regulamentado.
No SENV, o cliente de electricidade tem de pagar, directamente ou por intermédio do
seu fornecedor, as tarifas regulamentarmente estabelecidas para uso das redes do SEP
em adição ao custo de contratação de energia eléctrica. Por seu lado, um consumidor
abastecido pelo SEP tem de pagar a tarifa de venda a clientes finais, que inclui a
contratação da energia e o uso das redes e serviços do sistema.
Relativamente à medição dos trânsitos de energia no SENV e à sua valoração, esta é
feita por períodos de acertos de contas (usualmente hora a hora), enquanto que no SEP a
valorização dos trânsitos de energia é feita segundo quatro períodos tarifários definidos
regulamentarmente:
1. Horas de Ponta;
2. Horas Cheias;
3. Horas de Vazio Normal;
4. Horas de Super Vazio.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 93
O consumo de energia eléctrica de um cliente do SEP não tem de ser pré-estabelecido.
Por sua vez, o consumo de um CNV pode ser pré-estabelecido segundo quantidades
comercializadas mediante Contratos Bilaterais Físicos (CBF).
4.2.3.1 Contratos Bilaterais Físicos
Para se proceder à celebração de um contrato bilateral físico é necessário que um
determinado cliente possua o estatuto de Cliente Não Vinculado.
Deste modo, os CBF são acordos negociados entre duas entidades em que uma se
compromete a fornecer à outra uma dada quantidade de energia eléctrica com um
determinado valor e numa data definida. Estes contratos envolvem directamente o
relacionamento entre entidades de produção e comercializadores ou clientes elegíveis.
Os Produtores Não Vinculados podem executar contratos bilaterais físicos com clientes
situados em países estrangeiros, assim como os clientes elegíveis e os comercializadores
podem, também eles, concretizar este tipo de contratos de aquisição de energia eléctrica
a uma entidade produtora não vinculada ou, eventualmente, a empresas de produção
e/ou comercialização situadas no estrangeiro.
Os CBF são adequados aos produtores e consumidores como forma de
acompanhamento das tendências do mercado a médio e longo prazo e de assegurarem
uma base estável às suas actividades. Na secção 4.3, este tema será retomado,
decorrente do aparecimento de novos modelos de mercado.
4.2.3.2 Garantia de Abastecimento
A garantia de abastecimento de energia eléctrica é uma questão primordial do sector
eléctrico. Tanto os mercados de energia eléctrica regulados, como os liberalizados,
devem assegurar a existência de capacidade de produção suficiente, de modo a
satisfazer a procura.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
94 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
No sistema eléctrico regulado, o preço da energia eléctrica aos clientes finais é fixado
por uma entidade reguladora, de forma a obter um valor monetário que satisfaça as
obrigações consequentes da regulação. Assim, a consideração de acções de
investimento, como por exemplo, expansão das redes ou a construção de novos centros
produtores, advêm de um planeamento centralizado e obrigam à sua remuneração,
reflectida no preço final de venda de electricidade.
É usual a existência de uma entidade responsável pela minimização dos custos de
operação, designadamente, o planeamento de acções de manutenção e estabelecimento
da entrada em funcionamento dos diferentes centros produtores, para satisfazerem o
consumo, de acordo com os seus custos marginais7 (Santana, 2003a). A actividade
regulada apenas está submetida ao risco técnico de operação, apresentando, deste modo,
um risco reduzido. A remuneração deveria, então, reflectir o baixo risco em vez de ser
constante ao longo do tempo.
Com a reestruturação do sector eléctrico, os consumidores têm a oportunidade de
escolher livremente o seu fornecedor. Os clientes adquirem, assim, a energia eléctrica
no mercado através de um comercializador, pagando um preço pela electricidade que é
relacionado com o valor que se forma no mercado e pelo uso das redes. Qualquer
consumidor que pretenda receber energia eléctrica, deve poder fazê-lo, em iguais
condições que os demais semelhantes consumidores, ou seja, deter o direito na obtenção
de uma ligação à rede e na celebração de um contrato de comercialização com um dos
fornecedores disponíveis.
A garantia de abastecimento de energia eléctrica, enquadrada num ambiente
liberalizado, pode ser adaptada de diversas formas. Pode ser vista como um pagamento
associado a todo o tipo de fornecimentos impondo, assim, que toda a energia eléctrica
seja garantida. Pode, contudo, ser permitido que alguns consumidores tenham
oportunidade de celebrar contratos de interruptibilidade (as interrupções associadas a
contractos de interruptibilidade são distintas das interrupções de falhas de fornecimento
nas redes de transporte e distribuição), aceitando reduzir o consumo e como
contrapartida, auferir de preços de electricidade mais baixos.
7 Custos variáveis de produção.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 95
Por outro lado, a garantia de abastecimento pode ser encarada como uma característica
do fornecimento que o cliente pode ou não estar disposto a remunerar. No entanto, a
igualdade de tratamento entre clientes pode ser posta em causa. Nesse caso, se for
permitido que um consumidor participante no mercado tenha opção de escolha na
contratação de garantia de abastecimento, a um outro cliente que não participe no
mercado deverá ser proporcionada a opção de uma tarifa interruptível.
No documento de descrição do mercado português de electricidade (Tavares, 2003), é
prevista a obrigatoriedade dos comercializadores apresentarem propostas de
fornecimento de energia a todos os clientes que pretendam participar no mercado,
podendo a entidade reguladora designar qualquer comercializador como
“comercializador de último recurso”, de forma a garantir o abastecimento de energia
eléctrica.
Está, também, previsto o pagamento aos produtores de um valor referente à garantia de
potência, com o intuito de fornecer a estes agentes, o incentivo necessário para a
manutenção de uma capacidade de produção apropriada à satisfação da procura.
A reestruturação do sector eléctrico não deve comprometer a expansão dos sistemas de
produção, para garantia de abastecimento a médio e longo prazo. A garantia de
abastecimento pode ser efectuada através de um pagamento regulado de potência a
todos os produtores instalados ou que se venham a instalar. Neste sentido, a
remuneração dos produtores deverá ter em conta os custos de capacidade declarada.
No mercado em bolsa, as centrais que ofereceram produção de energia eléctrica, para
uma determinada hora, a um preço inferior ao preço de equilíbrio de mercado (ver
secção 4.3.1), são escolhidas para funcionarem para essa hora, sendo remuneradas pelo
valor do preço de equilíbrio encontrado. Estas centrais que ofereceram menor valor de
produção, mas que são remunerados a um valor superior, vêem-se, assim compensados
com uma receita para pagamento do encargo fixo de instalação. As centrais
seleccionadas com preços mais elevados, próximos ou iguais ao preço de equilíbrio do
mercado, apresentam também custos fixos. Para Santana (Santana, 2003a) os custos
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
96 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
fixos destes produtores são recuperados atribuindo às centrais disponíveis uma verba
suplementar, por vezes designada por garantia de potência.
No caso português, como forma de protecção dos consumidores, pode ser celebrado um
contrato de garantia de abastecimento entre a REN e um produtor não vinculado ligado
fisicamente às redes do SEP, ou a uma entidade externa ao SEN que abasteça um CNV,
no qual a primeira se compromete a garantir um determinado fornecimento de
electricidade, sob determinadas condições.
A garantia de abastecimento concede o fornecimento complementar de electricidade
pelo SEP, sempre que o fornecedor de energia eléctrica se encontre numa situação de
falha de disponibilidade, em indisponibilidade programada ou em casos fortuitos que
afectem a capacidade de interligação (no caso de contratos de importação de energia
eléctrica).
O fornecimento de energia eléctrica a um CNV pode ser interrompido sempre que o seu
fornecedor esteja em falha de disponibilidade e, paralelamente, não tenha concretizado
um contrato de garantia de abastecimento com a concessionária da RNT, tal como
estabelecido no Regulamento das Relações Comerciais, ou se o valor contratado
ultrapassar o limite de tolerância previsto. Nestas condições, sempre que o limite de
tolerância seja excedido, o Gestor de Sistema ou o Operador da Rede pode efectuar um
primeiro aviso de corte, requerendo ao fornecedor a redução do consumo de energia
eléctrica dos seus clientes, de forma a que o limite de tolerância seja cumprido.
4.2.3.3 Contratos de Curta Duração
Este tipo de contratos são CBF realizados com curta duração, de modo geral, com a
duração de um ano, e visam satisfazer necessidades de curto prazo e aproveitamentos da
circunstância do mercado.
As ofertas de compra e venda de energia eléctrica são endereçadas ao Gestor de Ofertas
que, por sua vez, difunde a informação aos restantes agentes de mercado que,
posteriormente, negociam livremente.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 97
4.3 Novos Modelos de Mercados
Com a liberalização do sector eléctrico emergem novos agentes de mercado actuando e
interagindo entre si de forma a satisfazer, por um lado, os consumidores (a carga) e os
produtores, por outro, respeitando-se as restrições técnicas das redes.
No mercado eléctrico liberalizado, é proporcionada a possibilidade de um consumidor
poder escolher livremente o seu fornecedor sempre que desejar (embora seja usualmente
imposto que um cliente não possa mudar de fornecedor mais de quatro vezes num ano).
A comercialização da electricidade pode ser efectuada mediante diferentes tipos de
contratos estabelecidos entre produtores, comercializadores e consumidores finais.
Os contratos bilaterais e contratos Over-the-Counter8 (OTC) ocupam uma posição de
realce nos mercados liberalizados.
O comércio de electricidade em mercados organizados tem vindo a crescer de forma
substancial. Tipicamente, o ambiente de mercado consiste em transacções realizadas em
bolsa – pool, assim como através de contratos bilaterais. Este tipo de mercados possui
as seguintes características e produtos:
• Mercado em bolsa de ofertas – Pool: Os preços da energia eléctrica são
estabelecidos para o dia seguinte, sendo a electricidade entregue fisicamente do
vendedor ao comprador. “Spot markets” fidedignos são a base dos modernos
mercados de electricidade, fixando um preço de referência para outros tipos de
contratos;
• Contratos Bilaterais – Produtos Físicos: Este tipo de contratos permite a um
dos participantes do mercado vender ou comprar energia eléctrica a um preço
pré-estabelecido durante semanas, meses ou mesmo anos. Este tipo de contratos
pode ser comercializado por outros participantes mas, usualmente, resultam na
entrega de electricidade de um produtor directamente a um consumidor;
8 Este tipo de contratos é negociado directamente entre as entidades interessadas sem qualquer intermediário.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
98 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
• Produtos Financeiros: Devido à volatilidade dos preços da energia eléctrica no
Pool, as entidades vendedoras e compradoras de electricidade tendem a recorrer
a contratos bilaterais, para promoverem uma maior estabilidade e previsibilidade
dos seus resultados financeiros. Os retalhistas estão mais sujeitos ao risco
resultante da volatilidade do preço no Pool. Com efeito, estes compram a
electricidade a preços variáveis e vendem-na aos seus clientes, na generalidade,
a tarifas anuais fixas. Os produtores de energia eléctrica estão também expostos
ao risco, uma vez que vendem a electricidade a preço variável enquanto que os
preços dos combustíveis e outros custos associados podem não variar. No
entanto, os produtores enfrentam um menor risco, quando comparados com os
retalhistas, dado que se os preços em Pool forem baixos podem sempre optar por
não produzir. Se os preços da electricidade em Pool forem elevados, os
retalhistas apenas poderão interromper o fornecimento de energia eléctrica, aos
consumidores com os quais tenham contratos de interruptibilidade.
Assim, como forma de lidar com o risco, a reestruturação dos sistemas eléctricos tem
adoptado mecanismo de natureza puramente financeira. Este tipo de produtos permite
aos participantes do mercado vender ou comprar energia eléctrica a um determinado
preço durante um determinado período de tempo. Contudo, estes derivados financeiros
não resultam de uma entrega física de electricidade, mas são antes resolvidos
financeiramente entre as partes envolvidas.
Contratos de futuros, de opções e às diferenças são exemplos de contratos financeiros,
descritos em pormenor nas secções seguintes.
4.3.1 Sistema de Ofertas – “pool”
Os mercados em bolsa ou em Pool correspondem à forma de relacionamento entre as
entidades produtoras, comercializadores e/ou clientes elegíveis. A bolsa (Pool)
obrigatória é uma solução típica do mercado desregulado (Santana, 2003a e Santana,
2003b).
Este tipo de mercado pretende harmonizar a produção e o consumo de energia eléctrica
mediante a comunicação de propostas de venda de electricidade, pelas empresas
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 99
produtoras, por um lado, e pelas propostas de compra de electricidade pelos
comercializadores e consumidores elegíveis, por outro. Este tipo de mercados opera
usualmente no dia anterior àquele em que será promovido o resultado das propostas de
compra e venda que tiverem sido aceites9 (Azevedo, 2002).
De forma a se realizar as operações de vendas e compras de energia eléctrica, tem de
existir um agente neutro face aos interesses em confronto, o operador de mercado.
O mercado em Pool está associado a transacções de curto prazo, pelo que as propostas
de venda de energia eléctrica tendem a retratar custos marginais de curto prazo. Estes
mercados de curto prazo têm de ser estruturados de uma forma que reflicta as variações
da carga10, por um lado, e que repercuta os custos de exploração da produção11, por
outro.
Deste modo, o dia seguinte, alvo de negociação, é geralmente discretizado em intervalos
de 1 hora ou de 30 minutos. Os diversos agentes intervenientes no mercado apresentam,
assim, propostas de compra ou venda de electricidade para os intervalos de tempo
discretizados, indicando o preço mínimo por que se dispõem a vender e o preço máximo
que se encontram disponíveis para pagar, com a respectiva informação da localização
do nó da rede onde se procederá à injecção ou absorção da potência desejada.
São, desta forma, obtidos 24 ou 48 despachos económicos para o dia seguinte, para cada
hora ou meia hora, respectivamente. As figuras 4.2 e 4.3 esquematizam a estrutura do
modelo em Pool para o sector eléctrico, evidenciando os novos agentes de mercado
emergentes da reestruturação do sector eléctrico.
9 Na literatura de língua inglesa este tipo de mercado é também conhecido como Day-Ahead Markets ou Mercados Spot. 10 O diagrama de cargas de um ou de vários consumidores varia ao longo do dia. 11 As centrais de produção podem ter custos marginais distintos, o que condiciona o preço a propor ao Gestor de Ofertas pela venda de energia eléctrica, por reflectir custos de exploração e de variação da carga num sistema a curto prazo.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
100 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Figura 4.2 – Convergência do modelo em Pool
Figura 4.3 – Modelo de Exploração do sector eléctrico em Pool
Os operadores de mercado e de sistema coordenam a estrutura do modelo em Pool. O
operador de mercado recebe as ofertas de venda de energia eléctrica descriminadas, por
exemplo, para as 24 horas do dia seguinte. Recebe dos comercializadores, distribuidores
e de alguns consumidores as ofertas de compra igualmente descriminadas. Para cada um
desses intervalos de tempo, o operador de mercado faz a agregação das ofertas de venda
e de compra de energia eléctrica, conforme representado na figura 4.4. O operador de
Comercializadores
Restrições da
Rede
Operador De
Mercado
Produtores
Consumidores
Propostas: • Preço; • Nó ligação; • Potência.
Agentes de Mercado:
Operador De
Sistema
Serviços auxiliares
Despacho geradores
Informação para redes de
transporte
Mercado do Dia Seguinte:
PRODUTOR ENERGIA
ELÉCTRICA
POOL
COMERCIALIZADOR ENERGIA ELÉCTRICA CONSUMIDOR
FINAL
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 101
sistema realiza um conjunto de estudos de forma a viabilizar tecnicamente os despachos
transmitidos pelo operador de mercado (verificação da violação de restrições técnicas
nas redes) (Santana, 2003a).
Assim que é assegurada a viabilidade dos despachos, o operador de sistema transmite
informação aos produtores dos valores obtidos, contrata os níveis necessários de
serviços auxiliares (correspondente, por exemplo, à produção de energia reactiva,
controlo de tensão, etc.), e comunica os valores obtidos do trânsito de potência nas
redes, para cada intervalo de negociação, às empresas proprietárias das redes de
transporte.
Nos mercados Spot de energia eléctrica, o tipo mais comum de negociação corresponde
a um leilão típico (Sheblé, 1999; Klemperer, 1999). Se apenas os fornecedores de
energia eléctrica poderem competir na Pool, o mercado é designado por assimétrico. Por
sua vez, se as entidades fornecedoras e compradoras poderem transmitir ao operador de
mercado as suas ofertas, o mercado é designado de simétrico.
O operador de mercado recebe as ofertas de compra e venda de electricidade,
provenientes dos agentes de mercado, e estrutura-as de forma a construir curvas de
oferta, venda e compra, conforme ilustrado na figura 4.4 (mercado simétrico):
Figura 4.4 – Preço de Mercado – Market Clearing Price
Propostas de venda
Propostas de compra
Potência
Preço €/MWh
Quantidade de Potência Negociada – Ph
Preço de Equilíbrio Mercado – ph
MW
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
102 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
A solução encontrada, incluindo o Market Clearing Price, normalmente não tem em
consideração as restrições técnicas das redes, sendo antes o resultado da análise do
encontro das propostas de ofertas e da compra de energia eléctrica.
Por outro lado, um mercado em Pool onde apenas fornecedores competem entre si,
emitindo opções de venda de energia eléctrica, é designado de mercado assimétrico,
conforme representado na figura 4.5:
Figura 4.5 – Preço de Encontro do Mercado Assimétrico
A Elasticidade da Carga
O mercado em Pool simétrico caracteriza-se por uma grande elasticidade, quer no valor
da carga, quer no valor do preço de energia eléctrica. Neste tipo de mercado, dada a
existência de ofertas de compra de electricidade, pressupõe, à partida, que poderão
existir consumos cujo comportamento seja sensível ao preço da energia eléctrica
praticado, ou seja, o comportamento é elástico em relação ao preço. Deste modo, os
comercializadores ou consumidores que apresentem este tipo de comportamento
preparam as suas propostas de aquisição de electricidade em função do benefício que
poderão usufruir dos preços então praticados, isto é, até a um determinado preço de
electricidade, as entidades comercializadoras e consumidores consideram que terão
benefício na utilização da energia eléctrica ao preço praticado, em comparação com os
respectivos encargos. No entanto, se o preço de electricidade ultrapassar esse limite, o
consumo dessa energia eléctrica poderá não ser economicamente atraente.
Propostas de venda
Preço €/MWh
Potência MW
Preço de Mercado
Quantidade de Energia Procurada
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 103
A Volatilidade dos Preços
Observando as curvas de oferta de compra e venda de electricidade da figura 4.4,
conclui-se que estas não são contínuas. À medida que a quantidade de energia procurada
aumenta, haverá necessidade de “despachar” centrais com custos de produção mais
elevados, razão pela qual as ofertas de venda de energia assumem preços mais altos.
Desde os períodos das horas de vazio, passando pelo período das horas cheias até às
horas de ponta, o preço da energia eléctrica irá subindo gradualmente.
Desvios da Informação
No modelo tradicional do sector eléctrico, em que as empresas se encontravam
verticalmente integradas, o custo total de produção era minimizado pelo conhecimento
das funções de custos dos geradores e, conforme o tipo de central, pelos custos dos
combustíveis (gás ou carvão) e pelos custos resultantes da gestão eficiente dos caudais
de água.
Em ambiente de mercado liberalizado, este tipo de conhecimento torna-se insuficiente,
pois não são conhecidos, na sua plenitude, os custos da utilização da forma mais ou
menos intensa das centrais, bem como não reflecte vantagens ou desvantagens que
poderão ocorrer da não realização, num dado momento, de acções de manutenção de
uma determinada central.
Este tipo de informação, útil aquando da realização dos despachos, é agora transferido
para os agentes que operam no mercado. Dependendo do tipo de agente, mais ou menos
propenso ao risco, estes poderão adoptar comportamentos que reflectem diferentes
patamares de risco, relativamente à incerteza dos preços dos combustíveis, incerteza nos
níveis de pluviosidade, avarias e valores de carga a cumprir, que terão consequências no
valor do custo de produção.
Preço de Mercado
O mercado liberalizado de electricidade é caracterizado por ter diversos agentes, quer
do lado da produção, quer do lado do consumo. Uma outra característica já mencionada
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
104 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
é o facto de haver consumidores cujo perfil de consumo é adaptado ao valor da
electricidade praticada num dado momento.
O preço de encontro corresponde a um preço marginal, onde a obtenção de uma solução
óptima obriga a que as ofertas de venda de energia pelo lado da produção retratem os
custos marginais de produção e, por sua vez, as ofertas de compra expressem os
benefícios que cada agente espera obter pela comercialização e utilização da
electricidade.
Da figura 4.4, todas as centrais que ofereceram a sua produção a um preço inferior ao
Preço de Mercado – ph são seleccionadas para funcionarem nessa hora, o somatório das
suas potências é igual à Quantidade de Potência Negociada – Ph. A central que ofereceu
a energia eléctrica a custo zero, por exemplo no caso de uma central hidroeléctrica sem
capacidade de armazenamento de água (fio de água), será remunerada, na hora h, pelo
preço marginal do sistema, em que a receita obtida será para pagar o encargo fixo de
instalação (Santana, 2003a).
4.3.2 Sistemas de Ofertas – “pool”: Obrigatoriedade versus Voluntariedade
Nos mercados em Pool, o relacionamento entre a oferta e a procura está organizado em
mercados simétricos ou assimétricos. Porém, estes mercados podem, ainda, ser
classificados como mercados obrigatórios ou voluntários, isto é, dependem da
existência ou não de preceitos legais que tornem obrigatória a apresentação de ofertas
de compra e venda de electricidade por parte de todos os agentes de mercado
(produtores, comercializadores e clientes finais).
Na prática, os consumidores finais não actuam directamente na bolsa. Os
comercializadores e distribuidores funcionam como intermediários nessa relação. O
distribuidor gere a rede de distribuição que chega ao cliente e pode vender-lhe a energia
eléctrica a preços regulados. Em relação ao comercializador, este adquire a electricidade
na bolsa, paga o uso das redes que utiliza, e vende aos consumidores com preços não
regulados. Num sistema concorrencial com bolsa obrigatória, os preços de venda aos
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 105
clientes finais devem reflectir os preços estabelecidos na bolsa. No entanto, para
Santana (Santana, 2003b) o poder político tem estabelecido tarifas (preços máximos) de
venda a clientes finais que não traduzem o comportamento de curto prazo na bolsa, por
motivos receosos ao próprio mercado.
No sistema desregulado com bolsa obrigatória, a responsabilidade pela garantia de
fornecimento pode estar diluída o que, em situações extremas pode conduzir a
problemas de abastecimentos de energia eléctrica.
Quando o mercado em Pool apresenta uma organização voluntária, todos os agentes
intervenientes podem apresentar propostas de compra e/ou venda de energia eléctrica ou
estabelecer relações directas entre si, nomeadamente através de contratos bilaterais.
Esta forma organizativa do mercado (Pool não obrigatória) provém do reconhecimento,
por parte do regulador, de que os preços praticados na Pool podem não traduzir
eventuais reduções nos custos de produção ou, simplesmente, pretender aumentar a
eficiência do sistema aumentado as possibilidades de escolha por parte dos participantes
no mercado. A eliminação da bolsa obrigatória permite um relacionamento directo entre
produtores e comercializadores através de contratos bilaterais. Este tipo de organização
será analisado na secção seguinte.
4.3.3 Contratos Bilaterais
Uma metodologia que assiste ao mercado desregulado baseia-se na liberdade que os
operadores têm para estabelecerem entre si, produtores e comercializadores, contratos
bilaterais, naturalmente, não submetidos à regulação (Santana, 2003a).
Os contratos bilaterais físicos são acordos negociados entre duas entidades em que uma
se compromete a fornecer à outra uma dada quantidade de energia eléctrica com um
determinado valor e numa data definida. Estes contratos envolvem directamente o
relacionamento entre entidades de produção e comercializadores ou clientes finais
(agentes do lado da procura de energia eléctrica).
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
106 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Sempre que um agente do lado da procura de electricidade pretende participar no
mercado bilateral solicita a todos os produtores do mercado o fornecimento de energia
eléctrica segundo a expectativa de um determinado preço pré-concebido. Em resposta, o
produtor analisa a sua própria capacidade de produção, a disponibilidade corrente e a
experiência passada. O produtor terá de ter a certeza acerca da viabilidade de entrega da
energia eléctrica ao ponto de ligação com o cliente. Deste modo, terá de consultar o
operador de sistema (responsável pelas restrições técnicas das linhas) antes de celebrar o
contrato com este.
Assim, se o produtor (ou agente do lado da oferta) estiver em condições de responder
aos parâmetros solicitados pelo seu cliente, formula a este uma proposta de venda de
electricidade. Por sua vez, o cliente avalia a proposta, aceitando-a ou rejeitando-a
(Praça, et. al., 2003).
Para Santana (Santana, 2003a) o contrato bilateral entre apenas um centro produtor e um
cliente não faz sentido, dado que significa estar fisicamente no sistema em rede e ter um
comportamento de sistema isolado. O comercializador só garantirá aos seus clientes um
funcionamento com elevadas garantias de fornecimento de energia eléctrica, se tiver à
sua disposição produção suficiente para fazer face a situações severas, tais como, secas
prolongadas, avarias de equipamento e manutenções. Este ambiente de mercado
desregulado em análise, favorece a formação de grupos empresariais integrados e com
uma certa dimensão.
4.3.4 Mercados de Derivados
Os agentes intervenientes no mercado liberalizado estão sujeitos ao risco inerente a este
tipo de mercados, tais como a volatilidade dos preços, a variação da procura de
electricidade, a oscilação do preço dos combustíveis e a disponibilidade dos produtores.
Com efeito, como forma de reduzir o risco a que estão expostos, os participantes no
mercado eléctrico recorrem a mercados alternativos, como é o caso dos mercados de
derivados, isto é, os mercados de futuros e os mercados de opções.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 107
A reestruturação verificada no sector eléctrico também implicou a adopção de
mecanismos de índole puramente financeiro, permitindo aos seus intervenientes a
cobertura do risco (hedge) quanto ao preço do mercado (Azevedo, 2002).
Os agentes de mercado têm de saber lidar com o risco, consequência natural dos
mercados de curto prazo. Para que os intervenientes possam tirar proveito da utilização
dos mecanismos financeiros, como forma de liderar com o risco, terão necessidade de
conhecê-los e dominá-los. Nesse âmbito, será feita, em seguida, uma breve descrição
dos tipos de contratos comercializados nos mercados de derivados.
4.3.4.1 Contratos de Futuros
Os contratos de futuros são acordos celebrados entre duas entidades em que a primeira
se compromete a vender uma determinada quantidade de electricidade a um preço pré-
definido e a segunda a comprar essa mesma quantidade de energia eléctrica, a esse
preço, nas condições previamente estabelecidas.
Estes contratos são, na realidade, contratos bilaterais em que as partes envolvidas
celebram um acordo relativo ao preço da energia eléctrica, quantidade, qualidade, local
e data de entrega. O pagamento e o fornecimento de electricidade ocorre, geralmente,
numa data futura, sendo o preço estabelecido e fixado à partida, eliminando, assim,
qualquer risco relativo à futura variação dos preços.
São contratos transaccionados sob a forma organizada, em bolsa, tais como a New York
Mercantile Exchange (NYMEX), a United Kingdom Power Exchange (UKPX), a
European Energy Exchange (EEX), entre outras.
É exigido aos investidores, em contratos de futuros, por parte da Câmara de
Compensação, um depósito de um determinado valor monetário (margem inicial ou
margem de manutenção), por cada contrato realizado. Assim, um determinado
investidor que compre ou venda uma determinada quantidade de energia eléctrica para
uma data futura verá reflectidos, na sua conta, ganhos ou perdas acumulados devido à
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
108 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
variação diária dos preços dos contratos de futuros. Esta técnica é conhecida como
marcação ao mercado (mark to market).
O valor da margem de manutenção terá de ser respeitada pelos investidores, ou seja,
sempre que a margem de manutenção for ultrapassada, aqueles poderão recolher a
diferença do montante (significando ganho para o investidor). Ao invés, sempre que os
capitais próprios do investidor forem inferiores à margem de manutenção, este terá de
repor a diferença do montante, traduzindo-se em prejuízos para o investidor, devido à
variação dos preços.
4.3.4.2 Contratos de Opções
De forma a diminuir os riscos verificados nos contratos de futuros, os contratos de
opções apresentam-se como uma alternativa válida, uma vez que concedem a
possibilidade de utilizar ou não a energia eléctrica. Neste tipo de contratos, o titular tem
o direito, mas não a obrigação, de comprar ou vender uma determinada quantidade de
energia eléctrica, numa data e num preço pré-estabelecidos (preço de exercício).
O direito de compra é designado por opção de compra (“call”) e o direito de venda por
opção de venda (“put”). As opções traduzem-se, assim, em contratos bilaterais, tendo
ambas as partes direitos e deveres. O comprador do contrato, mediante o pagamento de
uma determinada verba (prémio ou valor de opção), reserva-se o direito mas não tem a
obrigação de, até à data de expiração do contrato, exigir que o vendedor lhe compre ou
venda a energia eléctrica negociada ao preço previamente especificado. Por sua vez, o
vendedor do contrato, em função das condições relatadas, recebe uma determinada
quantia designada por prémio (Azevedo, 2002).
Estes contratos são uma alternativa aos contratos de curto prazo – Day-Ahead Markets –
dado que alargam os horizontes temporais das transacções e se revelam como uma
forma mais atractiva de investimento, uma vez que o intermediário poderá desactivar o
contrato sempre que o preço da energia eléctrica no mercado spot lhe for, entretanto,
mais favorável.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 109
De facto, quanto maior for o preço no mercado spot, comparativamente a um dado
preço de exercício de um contrato de opção, maior será o valor do prémio de um call,
dado que haverá maior probabilidade do comprador exercer a sua opção, pois terá mais
lucros, e menor será o prémio de um put, uma vez que a probabilidade do comprador do
put executar a opção é menor.
4.3.4.3 Contratos às Diferenças
Os contratos às diferenças, denominados em literatura inglesa por “Contracts for
Differences” (CFD), são típicos de mercados que incluem a comercialização de outros
produtos e surgiu no sector eléctrico aquando da reestruturação verificada em Inglaterra
e Gales. Os CFD surgiram na tentativa de minimizar e contrariar os riscos existente no
mercado spot, por exemplo, a volatilidade dos preços.
Assim, num mercado em bolsa, o preço da energia eléctrica para o dia seguinte é ditado
pelo Pool, em que cada consumidor saberá quanto irá pagar ao Pool pela compra de
energia eléctrica e cada produtor saberá o valor que o Pool lhe irá pagar pela venda de
electricidade.
No entanto, um produtor e um consumidor poderão celebrar um contrato às diferenças,
que não é mais que um contrato bilateral, onde ambas as partes intervenientes chegam a
um acordo relativamente ao preço a que irá ser remunerada a venda de energia eléctrica.
Esse preço é designado por Preço-Alvo (“Target Price”).
Deste modo, após ser negociado o valor do preço-alvo, este manter-se-á constante ao
longo do tempo. Sempre que o valor do mercado for superior ao preço-alvo, a entidade
produtora paga à entidade consumidora a diferença entre os dois preços. Quando o
preço-alvo for superior ao preço de mercado, a entidade consumidora pagará a diferença
dos dois valores à entidade produtora. Existe, assim, entre produtor e consumidor, uma
partilha do risco quanto à volatilidade do preço spot.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
110 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Figura 4.6 – Liquidação dos Contratos às Diferenças
4.4 Tarifas e Contratos de Energia Eléctrica nos Mercados Retalhistas
Como efeitos da liberalização dos mercados de electricidade podem ser apontados a
liberdade total de escolha do fornecedor de energia eléctrica e a participação mais activa
e directa dos consumidores no mercado.
A criação dos mercados retalhistas emerge da liberalização dos mercados de
electricidade. Os consumidores de energia eléctrica podem, neste ambiente, exercer os
seus direitos de adquirir directamente, ou através de um comercializador de
electricidade no mercado, a energia eléctrica, deixando de pagar a tarifa integral e
regulada de venda a clientes finais, passando a pagar um preço pela energia relacionado
com o preço que se forma no mercado, as tarifas de usos das redes e das restantes
actividades reguladas (ERSE, 2001b).
Num ambiente de mercado livre de electricidade, com concorrência na produção e na
venda, os clientes poderão escolher entre manterem-se no sistema de comercialização
vinculada, com tarifa regulada, ou serem abastecidos por um comercializador em
condições típicas de mercado.
É imperioso proceder à implementação de sistemas que permitam, de forma
transparente e rigorosa, a aquisição dos dados necessários para pagamentos e
recebimentos de todos os intervenientes no mercado, assim como proceder ao
pagamento de todas as transacções efectuadas. Assim, torna-se imprescindível a
colocação de sistemas de telecontagem que possibilitem a recolha e registo de uma
elevada quantidades de dados para conhecimento do valor da energia consumida.
Preço €/MW.h
Target-Price
Preço de mercado
Zona de pagamento dos produtores aos consumidores
Zona de pagamento dos consumidores aos produtores
Tempo
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 111
Em ambiente típico de mercado, o preço da energia eléctrica varia ao longo do dia, bem
como ao longo dos dias. Assim, os retalhistas encontram-se numa situação de venda de
electricidade a preço fixo e compra de energia eléctrica a um preço variável, sujeitos à
volatilidade do mercado.
O conhecimento do perfil de consumo dos seus clientes e, consequentemente, a
possibilidade de previsão da carga com alguma exactidão, constitui uma mais valia para
estes agentes de mercado.
Ao nível da produção e comercialização, as empresas competem entre si pela
comercialização da electricidade. Para Kirschen (Kirschen, 2003), o controlo e gestão
do risco é fulcral para estas empresas, dado que compram a electricidade a preços
sujeitos à variação do mercado e vendem a preço fixo. Como forma de diminuição do
risco, as empresas retalhistas procuram adquirir a energia aos produtores a preços fixos
e a longo prazo tentando criar, simultaneamente, contratos de venda com preço variável
para que os consumidores participem no risco.
Assim, um dos grandes problemas dos retalhistas é a celebração de acordos de compra e
venda de electricidade com produtores e consumidores, respectivamente, por forma a
minimizar o risco, sendo esse risco definido como a incerteza no preço da energia paga
pelo retalhista ao produtor, devido à incerteza do valor final de potência entregue em
cada hora e à incerteza dos preços marginais durante essa hora (Gabriel, 2002).
O mercado liberalizado de electricidade apresenta inúmeros riscos e incertezas, das
quais se destacam: a variação do preço dos combustíveis, a disponibilidade dos
produtores, a variação da procura da electricidade e a eventual manipulação dos agentes
intervenientes no mercado de energia.
De forma a reduzir o risco, o retalhista deverá conhecer ou estimar, por um lado, o perfil
de consumo dos seus clientes e, por outro lado, deverá possuir características que o
distingam claramente da concorrência. Essas características deverão cativar e fidelizar
os seus clientes alvo. Uma maior proximidade com os clientes, uma melhor oferta
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
112 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
tarifária, a criação de novos produtos e serviços que estarão ao dispor do cliente e o
conhecimento real das necessidades efectivas dos clientes serão os novos desafios a que
estas empresas estarão expostas.
Em (Kirschen, 2003; Schmutz, 2002; Pinto, 2004) são tratados diversos tipos de
contratos aquando do estudo dos mercados de retalho, bem como a implementação de
uma metodologia de ajuda aos agentes de mercado na construção de um conjunto de
contratos, tendo em conta o risco deste tipo de mercados, do ponto de vista do
desempenho económico de cada contrato. Podem, assim, identificar-se os seguintes
tipos de contratos:
• Contratos de Tarifa Fixa: Neste tipo de contrato é exigida ao fornecedor a entrega
de electricidade ao consumidor a qualquer hora do dia e com qualquer valor de
potência, mediante a fixação de uma tarifa do preço do quilowatt-hora. É sobre o
fornecedor que recai todo o risco face ao preço, pelo que neste é incluído um factor
referente ao risco de eventuais picos de preços.
• Contrato por Tempo de Utilização de Energia: Neste tipo de contrato, e durante o
tempo de duração deste, a tarifa é fixa, mas depende da hora do dia ou do dia da
semana em que o consumidor consome electricidade (é o caso das tarifas bi-
horárias, diária e semanal, bem como da tri-horária ou tetra-horária, conforme o
nível de tensão). Neste tipo de contrato é dado um incentivo aos consumidores para
que consumam a energia nos períodos de maior disponibilidade energética, já que os
preços aí praticados são inferiores.
• Contratos com Contemplação de Interruptibilidade: Neste tipo de contratos, os
clientes podem aceitar a modulação do seu diagrama de cargas e condições de
interruptibilidade do seu abastecimento de electricidade, com o consequente ajuste
no preço da energia a consumir. Assim, é permitido ao fornecedor de energia
eléctrica proceder ao corte de abastecimento da electricidade total e/ou parcial,
conforme a hora do dia, a acordar ou não com o consumidor. Permite-se, desta
forma, a implementação de preços mais baixos para os consumidores quando estes
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 113
concordam em reduzir o consumo em períodos pré-estabelecidos. Para o fornecedor
torna-se mais flexível e eficiente o fornecimento da energia eléctrica para o conjunto
total dos seus clientes, nas horas de maior consumo e na eventualidade de ocorrência
de situações extremas de consumo de electricidade.
• Contratos relacionados com o Mercado "Spot": Torna-se irrealista considerar
que todo e qualquer consumidor poderá exercer o direito de acesso directo ao
mercado “Spot”. Assim, o retalhista assume um papel decisivo que medeia as
transacções estabelecidas entre o mercado “Spot” e os consumidores. Nos contratos
relacionados com este mercado, a tarifa paga pelos consumidores está directamente
relacionada com o preço da electricidade do mercado “Spot” que, dada a
característica intermitente das ofertas de compra e venda de electricidade, explicam
a volatilidade dos preços de mercado. As compras “Spot”, de um modo geral, serão
para satisfazer necessidades de curto prazo e de aproveitamento da conjuntura.
Como forma de redução do risco é, por vezes, estabelecido um preço máximo
(“cap”) e um preço mínimo (“collar”) a pagar pelo consumidor, como forma de
limitar o risco para ambas as partes.
• Fornecimento misto de Energia: Os consumidores poderão usar diferentes fontes
energéticas para além da electricidade, como por exemplo o gás natural ou o
gasóleo. Assim, a existência de comercializadores que detenham vários tipos de
energia a fornecer aos seus clientes reflectir-se-á em melhores preços de venda e,
consequentemente, numa vantagem competitiva em termos de mercado.
• Canais de Distribuição: As empresas comercializadoras podem explorar outros
canais de venda. O exemplo da empresa petrolífera Norueguesa – Statoil, a actuar
no mercado eléctrico, é evidente. A Statoil comercializa electricidade nos seus
postos de gasolina espalhados pela Noruega, Suécia e Dinamarca. Os consumidores
têm a possibilidade de comprar indirectamente a electricidade sempre que
abastecem os seus automóveis, através da obtenção de bónus e descontos extra. A
Internet, à semelhança de outras áreas de negócios, é um canal de distribuição
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
114 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
largamente utilizado e explorado em que os consumidores podem comprar
electricidade, produtos, serviços e obterem informações úteis (Figueiredo, 2003a).
Qualquer cliente que reúna as condições de compra de energia eléctrica aos
comercializadores que actuam no mercado, deixando de estar sujeito à aquisição de
electricidade a preços regulados, é alvo de propostas comerciais para o fornecimento de
energia eléctrica.
Essas propostas visam proporcionar uma relação personalizada entre cliente/fornecedor,
existindo, geralmente, um gestor de cliente com a missão de resolver directamente
questões que envolvam o fornecimento de energia, de uma forma eficiente e adaptada às
necessidades do cliente.
No âmbito desta dissertação, foram visitadas algumas empresas comercializadoras de
energia eléctrica actuando no território português, nomeadamente a Union Fenosa, EDP
Corporate e a Endesa Energia / Sodesa, bem como um cliente não vinculado, mais
concretamente a empresa Aguas Douro e Paiva. Assim, foi averiguado que as propostas
de fornecimento de energia eléctrica, além do fornecimento de electricidade, podem,
também, contemplar um conjunto de serviços de valor acrescentado, como por exemplo:
• Qualidade de energia: soluções para a qualidade de energia, quer através da
monitorização da qualidade da energia quer através da realização de auditorias à
qualidade de energia;
• Eficiência energética: realização de auditorias energéticas e apresentação de
planos de racionalização de consumos;
• Serviços técnicos especializados: soluções para aumentos e estabilização do
nível de tensão, correcção do factor de potência, etc;
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 115
• Manutenção e assistência: oferta de manutenção a postos de transformação e às
instalações eléctricas do cliente através de equipas de técnicos especializados e
pertencentes à empresa fornecedora;
• Serviços ambientais: realização de auditorias e diagnósticos ambientais das
instalações do cliente.
Baseando-se na análise da caracterização do histórico do consumo de electricidade do
cliente, o comercializador de energia eléctrica propõe um preço de fornecimento de
electricidade, geralmente com descriminação horária em função dos ciclos de horário
praticados pelo cliente. Conforme definido regulamentarmente, fazem ainda parte do
processo de acesso ao sistema de mercado: o estabelecimento entre o cliente e a
empresa distribuidora de um contrato de acesso e operação das redes, a existência de
equipamento de telecontagem e a respectiva infraestrutura de telecomunicações, tendo
em vista a disponibilização de dados.
4.5 Telecontagem
No sistema tradicional verticalmente integrado, a empresa fornecedora de energia
eléctrica, aquando do pedido de celebração de contrato de abastecimento de
electricidade com um determinado cliente, instalava um contador de energia eléctrica de
forma a contabilizar o gasto de electricidade do seu cliente e a emitir a respectiva
factura.
Nos nossos dias, este processo mantém-se. Contudo, a reestruturação do sector eléctrico
acompanhou também a liberalização de outros sectores, como por exemplo o
abastecimento de água e gás. Para os agentes intervenientes no mercado de electricidade
são cruciais as estratégias de diferenciação e a adição do fornecimento de outros bens e
serviços, para além da electricidade, para que se assuma uma postura de mercado
competitiva.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
116 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
O sistema de telecontagem destina-se, deste modo, a empresas distribuidoras de energia
eléctrica, água e gás que, ao enfrentarem um sector energético em reestruturação,
procuram aumentos de competitividade na utilização de novas tecnologias de
informação e electrónica.
A telecontagem requer a aplicação de várias tecnologias. Os consumidores devem ter
aparelhos de medida capazes de gravar, armazenar e comunicar dados relacionados com
o consumo de energia eléctrica. Por sua vez, as empresas distribuidoras devem ser
capazes de providenciar aos seus clientes, em tempo adequado, preços e pedidos de
interrupções de abastecimento de energia eléctrica. Com base nestas informações
transmitidas, os clientes podem implementar acções de controlo, manuais ou
automáticas, de forma a racionalizar o uso e custo da energia eléctrica.
Por questões de competitividade, as empresas comercializadoras de energia eléctrica,
aquando do fornecimento de proposta de venda de energia eléctrica a um potencial
cliente, necessitam de saber, entre outros itens, o perfil típico de consumo, ou seja, o seu
diagrama de carga. A obtenção dos digramas de carga e a respectiva caracterização dos
perfis de consumo dos diversos clientes será mais simples e eficiente se existir registos
históricos do consumo de electricidade, provenientes dos aparelhos de medição.
Assim, a instalação de aparelhos de medida em tempo real assume um papel
fundamental no processo de liberalização do sector eléctrico. Com efeito, se o fluxo de
informação da contagem de energia eléctrica não estiver devidamente controlado,
fornecedores e consumidores não serão apropriadamente remunerados. Em alguns
países, são aceites as comunicações de leitura de consumos de electricidade efectuadas
directamente pelos clientes, o que contribui significativamente na redução de custos das
empresas distribuidores com a contagem de energia eléctrica. Nos casos em que não
existam leituras de consumos o distribuidor poderá fazer uma estimativa do consumo
efectuado (Euroelectric, 2004).
Os aparelhos de medida diferem na grandeza que medem e na frequência com que
realizam essa tarefa (Otero-Goodwin, 1999). Tradicionalmente, as empresas
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 117
distribuidoras utilizavam dois tipos de aparelhos de medidas, um para operações de
medição e outro para facturação. Os aparelhos para operações de medição recolhem e
transmitem dados de consumo para o centro de controlo com uma determinada
cadência, embora não possuam uma elevada precisão. Por outro lado, os aparelhos de
medição para efeitos de facturação levam mais tempo para medir e gravar o consumo de
electricidade mas, são suficientemente precisos para efeitos de facturação. Assim a
utilização de aparelhos de medição em tempo real para, por um lado, efeitos de
facturação e, por outro, para realizar decisões em tempo real ao nível da utilização da
carga, torna-se difícil dado que esses aparelhos apenas reportam os consumos no fim de
cada intervalo (Hirst, 2001).
Os aparelhos de medida, usualmente utilizados para o sector doméstico e pequeno
comércio são, na sua maioria, monofásicos e medem a energia activa instantânea. Os
aparelhos de medida utilizados para grande comércio e indústria são trifásicos com
medição da energia activa e reactiva podendo medir, ainda, as características de
qualidade da rede. No sector doméstico, os aparelhos de medida registam a electricidade
consumida ao longo do tempo sendo feita a contagem, tipicamente, pela empresa
distribuidora uma vez por mês, de casa a casa. Segundo Hirst (Hirst, 2001) aparelhos de
medição mais avançados gravam e armazenam consumos de electricidade em intervalos
de tempo mais refinados, em 10, 15, 30 ou 60 minutos.
Para Allera (Allera, 1990), o equipamento destinado à recolha e leitura de dados de
energia eléctrica deverá ser barato, robusto, preciso, fiável, fácil de controlar, fácil de
instalar e aceitável para todos os tipos de consumidores. Deverá poder abranger
pequenos, médios e grandes consumidores, bem como instalações monofásicas e
trifásicas.
No trabalho efectuado por Hébrail (Hébrail, 2001), para a Electricité de France (EDF),
este afirma que, para grandes consumidores, os aparelhos de medida de telecontagem
devem encontrar-se disponíveis por várias razões:
• Todos os meses é emitida facturação com maior precisão;
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
118 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
• O consumo de energia eléctrica, como é elevado, justifica o investimento a
efectuar na instalação de aparelhos de medida em tempo real;
• Dado que o preço da energia eléctrica varia ao longo do tempo, torna-se
necessário o registo detalhado do consumo de electricidade;
• Para estes consumidores, uma curva característica do seu consumo estará sempre
disponível, fazendo com que os fornecedores de energia eléctrica possam prever
o seu comportamento, em termos de consumo electricidade, para curtos e longos
períodos de tempo.
Actualmente, os avanços nos aparelhos automáticos de leitura – Automatic Meter
Reading (AMR) têm-se manifestado um pouco por todos os países da Europa. Estes
aparelhos enviam informação diária da utilização da energia para fornecedores, em
alguns casos, localizados a centenas de quilómetros de distância (Brasek, 2005).
Os fornecedores de energia eléctrica com a instalação deste tipo de aparelhos AMR,
poderão efectuar, à distância, o corte ou ligação do abastecimento de electricidade nos
seus consumidores, identificar e isolar falhas de energia e até mesmo executar a
distribuição e equilíbrio das cargas.
A reestruturação do sector eléctrico, aliada aos avanços verificados no sector das
comunicações, tornou possível o desenvolvimento dos AMR, fazendo com que os novos
agentes de mercado possam retirar proveito da instalação desses aparelhos, ganhando-se
milhares de euros por ano em eficiência e manutenção.
Para Brasek (Brasek, 2005), dos três contadores usualmente utilizados, água, gás e
energia eléctrica o alvo mais óbvio para a implementação do AMR é o contador de
energia eléctrica, dada a existência do meio de comunicação dentro da própria
instalação, ou seja, os dados medidos poderão ser transmitidos através da própria linha
de energia, denominado Power Line Carrie (PLC). O PLC opera transmitindo os sinais
de dados em alta-frequência, através dos condutores de energia eléctrica, minimizando
interferências com os sinais a baixas frequências, nas quais a potência é transmitida.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 119
Em Itália, os AMR têm sido aplicados com sucesso. Grupos destes aparelhos
transmitem os dados a altas-frequências através dos condutores de energia eléctrica até
um concentrador, utilizando um protocolo de comunicação denominado “Lonworks”
(Brasek, 2005). Por sua vez, este concentrador transmite a informação através de uma
ligação de satélite (“wireless satellite link”) para um local de administração remoto.
Aqui, chegam também milhares de dados provenientes de outros concentradores e são
recolhidas e analisadas as informações, tais como distribuição apropriada da carga, o
tempo dos picos de consumo e o auxílio na gestão da procura de energia.
A transmissão de dados pode ser efectuada mediante a utilização de uma linha
telefónica, através de sinal rádio frequência, tendo como limitação a curta distância de
transmissão/recepção, ou através de fibras ópticas.
Em Portugal Continental, as regras a observar na implantação e operação do sistema de
telecontagem constam do Guia de Telecontagem aprovado através do Despacho n.º 23
279-H/2003, de 28 de Novembro (ERSE, 2005b).
Para efeitos de tratamento tarifário, os serviços associados à alteração da parametrização
do contador são aqueles que visam alterar os parâmetros do contador de forma a
adequá-los ao tratamento tarifário escolhido pelo cliente, particularmente o ciclo
tarifário.
Neste sector, e neste ambiente típico liberalizado, é importante haver uma normalização
dos formatos da informação de contagem a disponibilizar aos clientes, produtores e
fornecedores de energia eléctrica pela entidade concessionária da RNT e pelo
distribuidor vinculado (ERSE, 2005b, Anexo III). A normalização dos formatos dos
ficheiros electrónicos com a informação de contagem de electricidade define a estrutura
dos respectivos ficheiros.
Segundo o Anexo III-B do despacho n.º 3 da ERSE (ERSE, 2005b), a disponibilização
de dados de clientes é identificada através de um número, designado por Pedido de
Envio. Cada agente (clientes e fornecedores de energia eléctrica) pode definir a
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
120 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
periodicidade com que pretende receber as leituras, diárias ou mensais. Para além da
periodicidade cada agente pode ainda definir outros parâmetros, nomeadamente:
• Valores: Energia ou Potência (em kilowatt ou megawatt);
• Interpolação, ou seja, estimativa para todos os valores em falta (valores não
registados);
• Perdas: aceitar leituras com algumas perdas ou exigir leituras sem perdas;
• Critério de agregação: geração de um ficheiro por cada ponto de entrega,
associado ao agente que solicitou os dados, ou geração de um ficheiro para um
determinado fornecedor com os consumos agregados de todos os seus pontos de
entrega.
A monitorização do consumo de energia eléctrica reveste-se de grande importância no
funcionamento do mercado de electricidade, pois fornece a informação do consumo de
energia eléctrica, durante um determinado período de tempo, a clientes e a fornecedores,
o que permitirá, por um lado, a opção de um determinado tarifário, e a previsão da
carga, por outro.
4.6 A livre escolha do fornecedor de electricidade
Num ambiente tipicamente liberalizado, qualquer consumidor de energia eléctrica pode
escolher livremente o seu fornecedor de electricidade, desde que possua estatuto de
cliente elegível.
Actualmente, em Portugal, qualquer instalação alimentada em Muito Alta Tensão
(MAT), Alta Tensão (AT), Média Tensão (MT) e Baixa Tensão Especial12 (BTE) pode
já escolher livremente o seu fornecedor de energia eléctrica. Está, também, previsto para
breve, em Portugal Continental, o alargamento da elegibilidade aos clientes de Baixa
12 Clientes elegíveis em BTE, apenas em Portugal Continental.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 121
Tensão Normal (BTN) concretizando-se, assim, a total liberalização do sector eléctrico,
conferindo a qualquer tipo de consumidor a opção de escolha do seu fornecedor de
electricidade.
Uma das peças fundamentais na concretização da liberalização do mercado de
electricidade é o acesso às redes de transporte e distribuição do SEP. Desta forma, a
qualquer cliente que pretenda escolher um outro fornecedor de electricidade é-lhe
conferido o direito de acesso e utilização das redes do SEP, de forma não
discriminatória, mediante o pagamento de um determinado valor pela sua utilização.
A tabela seguinte mostra as tarifas reguladas que o CNV tem de pagar pelo acesso às
redes do SEP.
Tabela 4.2 – Tarifas reguladas de acesso às redes do SEP
(fonte: ERSE)
Clientes
Tarifas MAT AT MT BTE
UGS – Uso Global do Sistema X X X X
URT – Uso das Redes de Transporte X X X X
URDAT – Uso das Redes de Distribuição em AT X X X
URDMT – Uso das Redes de Distribuição em MT X X
URDBT – Uso das Redes de Distribuição em BT X
CRNT – Comercialização de Redes em MAT, AT e MT X X X
CRBTE – Comercialização de Redes em BTE X
O direito de acesso às redes do SEP subentende a celebração de um Acordo de Acesso e
Operação das Redes (AAOR)13. O AAOR é um acordo entre o candidato a utilizador
das redes do SEP e o distribuidor da região onde está localizada a instalação eléctrica,
no qual são estabelecidas as condições técnico-comerciais para o exercício do direito de
acesso às redes. A salvaguarda dos níveis de qualidade de serviço e de abastecimento
estão, também, previstos neste acordo.
13 Informação disponível on-line: www.erse.pt
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
122 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
A parcela da factura de um CNV referente ao valor das tarifas pagas pelo acesso às
redes do SEP é igual àquela que o cliente pagaria se fosse abastecido pelo SEP. É usual
o CNV receber uma factura única do seu novo fornecedor que inclui as tarifas relativas
ao acesso às redes. Neste caso, é o fornecedor que liquida as tarifas de acesso às redes
do SEP por parte do seu cliente, emitindo, na factura, essas mesmas tarifas.
A competitividade que a liberalização do sector eléctrico acrescenta ao mercado de
energia reflecte-se no valor da energia pago pelo cliente ao seu fornecedor, sendo alvo
de negociações, não estando, por isso, sujeito a preços regulados.
Assim, para que um determinado consumidor de energia eléctrica possa livremente
escolher o seu novo fornecedor de electricidade, deve, previamente, verificar os
seguintes aspectos:
• Em função do seu nível de tensão, certificar-se se o critério de elegibilidade
regularmente estabelecido lhe é aplicado (enquanto não exista a total
elegibilidade para todos os tipos de consumidores);
• Após negociação com o novo fornecedor de energia eléctrica, realizar o
respectivo contrato de abastecimento de electricidade. A negociação entre estas
duas entidades é minuciosa e atende a uma lógica de mercado;
• Manifestar ao distribuidor da região onde se encontra localizada a sua instalação
eléctrica o pedido de acesso às redes do SEP, para que lhe seja conferido, deste
modo, o estatuto de cliente não vinculado, a fim de poder celebrar,
posteriormente, o AAOR;
• Verificar se a sua instalação possui equipamento de telecontagem antes de ser
abastecido o novo fornecedor do SENV. Actualmente, apenas as instalações
cujo nível de tensão seja de MAT, AT e MT terão de ter, obrigatoriamente,
equipamento de telecontagem.
Capítulo 4: Contratos de Electricidade em Ambiente de Mercado Liberalizado
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 123
Como nota final, e fazendo referência a Vasconcelos (Vasconcelos, 2004) o processo de
liberalização trouxe não só a liberdade de estabelecimento e comércio às empresas do
sector eléctrico, mas também a liberdade de escolha do fornecedor por parte dos
consumidores de energia eléctrica. Neste capítulo, foi apresentado, em linhas gerais, as
modalidades para transaccionar a energia eléctrica em ambiente de mercado, bem como
a análise de novos tipos de contratos a estabelecer.
O conhecimento de como e quando os consumidores usufruem da electricidade,
traduzindo-se na caracterização dos perfis típicos de consumo dos clientes de energia
eléctrica, nomeadamente nos clientes de MT, objecto de estudo desta dissertação,
assume um papel decisivo para as empresas comercializadoras de electricidade nos
mercados retalhistas.
Assim, é expectável que o consumo de electricidade dependa do seu preço. A
predictibilidade da procura de energia eléctrica constitui uma vantagem acrescida, em
termos de competitividade no mercado, para as empresas distribuidoras e
comercializadoras. A modelação da procura é, deste modo, uma área de base nos
mercados de energia a qual se reflecte directamente no preço da electricidade.
Como forma de caracterizar a procura nos clientes de Média Tensão, o próximo capítulo
apresenta uma metodologia para a caracterização de consumidores de energia eléctrica
de MT, com base nos processos descritos no capítulo 2.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 125
5. CARACTERIZAÇÃO DE PERFIS TÍPICOS DE CONSUMIDORES DE
MÉDIA TENSÃO
Neste capítulo, é apresentada uma metodologia para a caracterização de consumidores
de energia eléctrica em média tensão (MT). Recorrendo à aplicação de técnicas de Data
Mining (DM), pretende-se criar e caracterizar perfis típicos de consumo de electricidade
a partir de um conjunto de dados. Inicialmente, é feita uma descrição da amostra dos
dados usados, seguido da exposição do trabalho de preparação dos mesmos para análise,
nomeadamente o tratamento de dados em falta, redução do seu volume e normalização.
Seguidamente, e com a aplicação de algoritmos de Clustering, é descrito o processo de
determinação dos perfis típicos de consumo. Após a verificação da inexistência de
correlação entre perfis típicos e código de actividade comercial, foi implementado um
modelo de classificação que possa ser aplicado a registos não classificados, visando
classificá-los em classes. Para tal, foi usada uma árvore de decisão, gerando-se regras de
classificação a partir de índices de forma, extraídos dos diagramas de cargas.
5.1 Introdução
O conhecimento do diagrama de cargas típico de um consumidor ou de um conjunto de
consumidores de energia eléctrica e, consequentemente, de como e quando esse
consumo ocorre, constitui uma vantagem competitiva, em termos de posicionamento no
mercado de electricidade, para as empresas retalhistas.
A compreensão dos hábitos de consumo dos diferentes tipos de consumidores confere
às empresas de distribuição de energia eléctrica uma maior eficiência no planeamento
de operação das redes e, para as empresas retalhistas, uma mais valia traduzida numa
vantagem adicional na operação nos mercados de electricidade.
O conhecimento do perfil típico de consumo assume uma grande importância para os
diferentes sectores do sistema eléctrico de energia, nomeadamente no sector da
produção, na previsão de cargas, na comercialização e na definição e estabelecimento de
novas estruturas tarifárias.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
126 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Na MT, verifica-se uma variada diversidade na forma como é consumida a energia
eléctrica ao longo do tempo. Em grande número desses consumidores não existe ainda
aparelhagem que permita medir e registar a curva de carga sendo, então, utilizadas
técnicas de amostragem para monitorização, escolhendo-se, para tal, um conjunto
representativo de consumidores. Para consumidores providos de equipamento de
telecontagem, poderá haver, periodicamente, um acerto na forma do seu diagrama de
carga e, consequentemente, no perfil típico de consumo.
5.2 Técnicas de Data Mining na Caracterização de Perfis Típicos de Consumo
Os dados, alvo de estudo, foram disponibilizados pela EDP – Distribuição, e resultam
de uma campanha realizada nos anos noventa do século passado. A aplicação de
técnicas de DM para a descoberta de conhecimento contido nestas bases de dados foi
executada com recurso à ferramenta Clementine14.
O Clementine faculta um conjunto completo de funcionalidades de DM e uma boa
interface para programação visual. A programação visual é, aliás, uma das
características mais atractivas desta ferramenta, permitindo a construção de aplicações
de DM de uma forma intuitiva e comportando a integração de todos os estágios do DM.
É, assim, uma ferramenta que suporta todas as fases do processo de descoberta de
conhecimento como, por exemplo, o acesso aos dados, restrições na análise de certos
dados, visualização dos resultados em forma de texto, de tabela ou de gráfico, etc.
Neste trabalho são utilizados algoritmos de clustering e de classificação, descritos no
Capítulo 3, para a obtenção e caracterização dos diagramas de carga representativos.
Com o presente estudo é proposto determinar um conjunto de perfis típicos
representativos de consumidores de MT para, desta forma, extrair conhecimento
referente aos padrões de consumo de energia eléctrica. Com efeito, pretende-se efectuar
o agrupamento de consumidores que apresentem um certo grau de similaridade entre os
seus padrões e hábitos de consumo de electricidade.
14 Clementine version 8.5 [Clementine Data Mining System, web page – http://ww.spss.com]
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 127
5.3 Descrição da Amostra
Os dados utilizados neste trabalho resultaram de uma campanha de recolha de
informação ocorrida entre 1995 e 1996, em várias cidades do norte de Portugal, no
seguimento de um projecto de estimação de cargas. Aquando da definição da amostra,
foram também fixados os parâmetros do estudo da carga, nomeadamente:
• Período de recolha dos dados: quais os meses e dias em que se efectua a
recolha da informação do consumo de energia eléctrica;
• Cadência do registo dos dados: definição da cadência de registo, isto é, se de
15 minutos, meia hora ou 1 hora;
• Definição dos aparelhos de medida (Diagramadores): a escolha dos aparelhos
de medida é importante uma vez que afectam a precisão das medições e o
volume de dados que podem recolher e registar.
Os dados foram recolhidos em quatro cidades do norte de Portugal, mais concretamente
em Aveiro, Porto, Matosinhos e Vila Real, conforme apresentado na tabela 5.1. Nesta
fase do trabalho não foi possível obter informações acerca dos critérios de amostragem
implementada, bem como outro tipo de informação útil, nomeadamente as
características dos diagramadores utilizados, o erro das leituras, condições atmosféricas
e factores externos que possam ter influenciado o consumo de electricidade. O número
de clientes observados, para cada um dos níveis de tensão, está longe do ideal, assim
como o tempo utilizado para a recolha da informação. Contudo, com a aplicação
generalizada dos aparelhos de telecontagem, num futuro próximo a informação
disponível será superior, a caracterização dos perfis típicos de consumo de energia
eléctrica deverá ser optimizada.
Os registos foram disponibilizados em suporte informático, sob a forma de ficheiros
Excel, com extensão xls, ordenados pelas diferentes áreas geográficas de monitorização
e pelos diferentes tipos de consumidores, ou seja, clientes de BT, BTE e MT. Para AT e
MAT não foram fornecidos quaisquer dados.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
128 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Na tabela 5.1 apresentam-se algumas características dos dados recolhidos pelas
diferentes cidades, pelo período de tempo monitorizado e pelos níveis de tensão
escolhidos.
Tabela 5.1 – Resumo dos dados disponibilizados
Caracterização
Clientes Aveiro Matosinhos Porto Vila Real
Nível de Tensão
MT
BT, BTE e MT
BT, BTE e MT
BT e MT
Monitorização
(Período Verão)
Não existem dados de
Verão
08-07-1995
a
01-10-1995
13-07-1995
a
20-10-1995
Não existem dados de
Verão
Monitorização
(Período Inverno)
19-09-1995
a
23-11-1995
13-01-1996
a
09-04-1996
03-01-1996
a
29-03-1996
03-01-1996
a
29-03-1996
Embora o tempo de recolha da informação tenha durado cerca de um ano, as leituras
efectuados nos vários consumidores foram, infelizmente, de poucas semanas. O facto de
ter sido detectado que vários clientes utilizaram o mesmo diagramador, indicia que
tenha havido carência de aparelhos de registo para um número tão elevado de
consumidores, e daí a brevidade de tais registos de informação.
Foram, contudo, efectuadas campanhas de medição em clientes de diferentes níveis de
tensão e, naturalmente, de diferente dimensão e actividade. Ao nível da BT foram
monitorizados clientes do tipo doméstico, não-doméstico, iluminação pública,
iluminação decorativa de edifícios e actividades agrícolas. Na BTE foram registados
informações relativas ao consumo de electricidade em clientes com actividade
comercial e industrial sendo conhecido o seu código de actividade (Figueiredo, 2003a).
Nos clientes de MT monitorizados é disponibilizado o código de classificação das
actividades económicas de cada um dos consumidores.
Os clientes de BT, BTE e MT, para além do seu nível de tensão distinguem-se, também,
pela sua dimensão, pelo valor da potência contratada (e daí das suas necessidades em
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 129
termos energéticos), da forma como o consumo de energia eléctrica é tarifada e dos seus
hábitos de consumo. Torna-se, pois, necessário realizar o estudo da caracterização do
consumo de energia eléctrica para cada diferente nível de tensão.
Para Rueda (Rueda, 2004) a personalização da proposta de venda de electricidade
constitui uma das grandes diferenças trazidas com a liberalização do sector eléctrico. O
recurso a ferramentas de assimilação estatística permitiu, aos comercializadores de
energia eléctrica, com algum risco, personalizar essas propostas. A modelização da
procura constitui, assim, uma área de permanente melhoria, por parte dos
comercializadores, a qual se reflecte directamente no preço da electricidade.
O tratamento dos pequenos consumidores, isto é, aqueles para quem a telecontagem e a
manutenção de custos de medida não são viáveis economicamente, a utilização dos
perfis de consumo constitui a ferramenta mais apropriada para a sua caracterização.
Relativamente aos clientes de MT, a colocação de equipamento de telecontagem é algo
relativamente recente, pelo que grande parte dos consumidores pertencentes a este nível
de tensão não possui histórico do seu comportamento de consumo de electricidade, em
termos digrama de cargas, para além daquele que é detalhado mensalmente nas facturas
de energia eléctrica. Assim, e numa primeira análise, a utilização dos perfis de consumo
constitui, também, uma ferramenta importante na caracterização dos perfis típicos de
consumo para clientes de MT.
Em ambiente de mercado liberalizado, os comercializadores de energia eléctrica
necessitam de obter informações acerca do montante de energia eléctrica que os seus
clientes consomem e, fundamentalmente, qual o comportamento que estes apresentam
em termos de consumo, ou seja, qual a forma do seu diagrama de carga. No presente
trabalho, o estudo apresentado incide unicamente na caracterização de clientes de MT.
Para cada um dos consumidores de MT, a informação fornecida pela realização das
campanhas de medição foi a seguinte:
• Número do Diagramador utilizado para cada consumidor;
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
130 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
• Número de identificação de cada consumidor;
• Valor da Potência Contratada (PC) em kVA;
• Código de classificação das actividades económicas;
• Registo dos consumos mensais dos Postos de Transformação (PT) dos clientes
no período em estudo, nomeadamente o valor da potência de ponta (kW);
• Valor da energia consumida (kWh), com identificação dos diferentes tipos de
tarifas e períodos horários;
• Identificação do período de recolha da informação dos consumos;
• Registo da potência activa instantânea consumida, com uma cadência de 15
minutos, durante o período de monitorização do cliente.
A campanha de medição ocorreu durante a época de Verão e de Inverno para cada um
dos consumidores, excepto para os clientes de Aveiro e Vila Real que apenas foram
alvo de monitorização no período de Inverno. Porém, no estudo do perfil típico de
consumo em clientes de MT, não foi distinguido o consumo de energia eléctrica durante
os meses de Verão e Inverno pois a sazonalidade não foi considerado um factor decisivo
e fortemente influente para este tipo de clientes. Ao invés, para clientes de BT, o
comportamento da generalidade dos consumidores é influenciado pelas estações do ano.
No Anexo A são apresentadas várias tabelas respeitantes à informação fornecida pela
EDP – Distribuição, bem como o seu formato gráfico. Assim, na tabela A.1 é exposta
parte de uma folha de cálculo Excel contendo a informação referente à leitura da
potência consumida, com uma cadência de 15 minutos. Na tabela A.2 é apresentada
informação relativa à campanha de medição efectuada na cidade do Porto para
consumidores de MT.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 131
Aquando da fase de preparação dos dados, descrita na secção seguinte, foi detectado
que alguns ficheiros contendo informação relativa ao consumo da potência estavam
danificados, o que impossibilitou a sua consulta e o consequente tratamento. Foi ainda
detectado que em alguns clientes o registo dos seus valores, em todo o período de
monitorização, era nulo, pelo que foram considerados valores atípicos e, naturalmente,
retirados da amostra de forma a não influenciar os resultados da caracterização dos
perfis típicos de consumo. A tabela 5.2 caracteriza a amostra, evidenciando a
percentagem de consumidores com registos nulos e clientes com ficheiros danificados.
Tabela 5.2 – Dimensão percentual da amostra
Distribuição dos consumidores
Aveiro 11,79%
Matosinhos 46,72%
Porto 24,02%
Vila Real 17,47%
Ficheiros danificados 8,3%
Clientes com todos os registos nulo 0,9%
A tabela 5.3 indica a distribuição percentual dos consumidores de MT que estão
incluídos no mesmo intervalo de potência contratada.
Tabela 5.3 – Dimensão percentual dos consumidores com potências contratadas semelhantes
Potência Contratada (kW) Até 250 251 a 500 501 a
1000
1001 a
1500
Mais que
1500
Distribuição consumidores 52,40% 18,30% 13,50% 7,70% 8,10%
A tabela 5.4 indica a distribuição percentual dos consumidores de MT que pertencem ao
mesmo código de actividade comercial.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
132 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Tabela 5.4 – Dimensão percentual dos consumidores com o mesmo código de actividade comercial
Código
Actividade
Distribuição consumidores
Código
Actividade
Distribuição consumidores
20 2,4% 200 0,5%
30 6,3% 210 0,5%
40 1,9% 220 4,8%
50 0,5% 230 1,0%
60 9,6% 240 1,0%
70 4,8% 270 12,0%
90 4,8% 280 4,3%
110 0,5% 290 1,0%
120 1,0% 310 0,5%
130 0,5% 330 1,0%
140 3,8% 340 2,4%
160 1% 350 21,5%
170 0,5% 360 4,3%
190 1,9% 370 5,7%
5.4 Preparação dos Dados para Data Mining
Após a realização das campanhas de medição em consumidores de BT, BTE e MT,
devem surgir grandes volumes de dados armazenados contendo a informação relativa ao
consumo de potência de cada um deles. Adicionalmente, é disponibilizada a informação
comercial de cada consumidor, contendo valores da energia eléctrica mensal consumida,
bem como a informação acerca do código de actividade comercial e o tipo de Usos.
Dado que no presente trabalho é efectuada a caracterização dos perfis de consumidores
de MT, primeiramente foi feita a separação entre os dados relativos à BT e BTE dos
consumidores de MT.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 133
A base de dados foi disponibilizada em suporte informático, em ficheiros com extensão
xls. Ainda acerca da folha da tabela A.1 do anexo A, esta representa parte do ficheiro
denominado MT_01 e caracteriza o valor da potência consumida pelo cliente n.º 01
(neste exemplo pertencente à cidade de Aveiro) com uma cadência de 15 minutos. Em
cada um destes ficheiros é registado não só o valor da potência instantânea consumida
como também o dia da semana, a data e a hora. No total, existem 229 ficheiros deste
tipo, representando 229 clientes de MT monitorizados.
As folhas MT_A e MT_B do anexo A, apresentadas nas tabelas A.2 e A.3
respectivamente, apresentam informação adicional acerca do consumo dos clientes de
MT. A folha MT_A apresenta para cada consumidor de MT a informação relativa à data
inicial e de finalização do período de monitorização. Para cada cidade em estudo
existem geralmente duas folhas distintas, uma alusiva ao período de Verão e outra ao
período de Inverno.
A folha de cálculo referenciada como MT_B apresenta, para cada consumidor,
informação da potência contratada, do código reduzido de actividade e do valor da
energia eléctrica consumida no período de monitorização.
5.4.1 Limpeza dos Dados
A operação de limpeza dos dados é crucial para a obtenção de resultados válidos e
relevantes. Antes de se proceder ao manuseamento dos dados, de forma a ser retirado
conhecimento, é necessário proceder à sua inspecção, ou seja, identificar e eliminar
dados errados.
A fase de limpeza de dados consiste, essencialmente, no tratamento de dados omissos,
conversão de dados não numéricos para valores numéricos, eliminação de dados em
mau estado, etc.
No caso em estudo, a fase de limpeza de dados envolveu, essencialmente, duas fases:
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
134 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
1. Verificou-se a coerência entre os ficheiros MT_A e MT_01, ou seja, examinou-
se, para cada um dos consumidores, a concordância entre as datas de início e de
conclusão do período de monitorização.
Constatou-se que em alguns clientes a data de finalização da recolha de dados
não coincidia com a que estava mencionada na tabela resumo (MT_A). Assim,
todos os clientes foram alvo de examinação de forma a identificar e corrigir o
período de monitorização.
2. Foram, ainda, encontrados clientes com dados anómalos no registo das suas
leituras, bem como consumidores com ficheiros corrompidos aos quais não se
conseguiu ter acesso e, consequentemente, aproveitar o seu conteúdo para
estudo.
Nesta fase foram detectados clientes com vários dias de valores de leitura nulos, os
quais foram eliminados da amostra para evitar a introdução de consumos atípicos e,
desta forma, desvirtuar a caracterização de padrões típicos de consumidores. A
proveniência de dados em falta, ou nulos, pode ter origem na avaria dos diagramadores
ou na interruptibilidade no abastecimento de energia eléctrica.
Em cada um dos consumidores foram verificados o dia e a cadência de recolha, de
forma a detectar registos omissos. Os registos de todos os consumidores foram, então,
colocados num único ficheiro Excel e analisou-se a existência de dados anómalos e a
ocorrência de registos em falta.
Foram descobertos dois tipos de falhas no registo dos dados:
• Falhas curtas no registo de potência. Neste tipo de falhas estipulou-se omissões
iguais ou inferiores a 1 hora, ou seja, como a cadência de registo foi de 15
minutos, foram consideradas falhas curtas aquelas que apresentassem lacunas no
valor da potência instantânea até 4 registos consecutivos. Os valores de leituras
em falta representam menos de 0,06% dos dados e foram substituídos por
interpolação, de forma a completar todos os registos relativos aos consumos de
potência instantânea de 15 em 15 minutos;
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 135
• Falhas longas no registo de potência. Neste tipo de omissões do valor da
potência instantânea, consideraram-se falhas de registo superior a 1 hora, ou
seja, falhas de 5 ou mais registos consecutivos de potência instantânea. Para o
preenchimento desses registos foi implementada uma rede neuronal de forma a
estimar os valores de consumo de potência em falta. A percentagem de clientes
com registos em falta superiores a 1 hora foi de 7,4%.
O tamanho inicial da amostra, que era constituída por 229 clientes de MT, foi reduzido
para 208, dado terem sido detectados 2 clientes com todos os registos nulos e 19
consumidores com os seus ficheiros danificados.
5.4.1.1 Tratamento de Dados em Falta
De forma a completar a totalidade dos registos do consumo de potência instantânea
foram estimados valores de potência. Nos consumidores que apresentaram falta de
registos numa cadência igual ou inferior a 1 hora, os dados em falta forma estimados
por interpolação.
Nos clientes em que foram detectados dados em falta superiores a 1 hora de transmissão
consecutiva, procedeu-se à estimativa dos valores em falta, recorrendo-se à utilização de
uma rede neuronal artificial.
Com a informação disponível à data da ocorrência das medições foram criados diversos
campos temporais utilizados aquando do treino da rede neuronal, nomeadamente os
seguintes:
96..
)(anohoraquarto
anoDia = [5.1]
4..)( anohoraquartoanoHora = [5.2]
7.anoDiaSemana = [5.3]
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
136 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
( )[ ]4
96...)(* ×−
=anoDiaanohoraquartodiaHora [5.4]
* Valor nulo para o primeiro dia do ano.
Dado que no estudo efectuado se fez a separação entre dia de semana e de fim-de-
semana, aquando da previsão de valores de potência consumida, foi adicionado aos
dados de entrada da rede neuronal um campo identificativo dos dias de semana e de
fim-de-semana. Esse campo pode ser visto na folha B.1 do anexo B (flag do dia de
semana), em que valores de 1 a 5 representam os dias úteis e os valores 6 e 7
representam, respectivamente, o Sábado e o Domingo.
A rede neuronal foi treinada com os valores da potência instantânea medida e registada
pelos diagramadores. Em função da hora e do dia é perfeitamente plausível que o valor
da potência consumida possa assumir um valor nulo. Então, de forma a não desvirtuar a
previsão da potência, para os registos de potência em falta, atribuiu-se o valor de (-1).
Assim, com base no histórico do consumo de cada cliente treinou-se a rede neuronal,
utilizando o software Clementine 8.5, para dias de semana, fim-de-semana e, também,
sem distinção de consumo entre dias de semana e de fim de semana, tendo-se chegado
aos mesmo valores de potência estimada. A figura 5.1 mostra a stream15 utilizada para
criação da rede neuronal com recurso ao software mencionado.
Esta figura é composta por uma série de nós com funções distintas e específicas. Na
secção 5.6.3 é feita uma descrição de cada um destes nós, para além de outros, pelo que
não será feita agora essa exposição.
15 Dado não haver uma tradução precisa que ilustre estas figuras, será utilizada a palavra stream, ao longo desta dissertação, para designar as ilustrações geradas pelo software Clementine.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 137
Figura 5.1 – Stream da Rede Neuronal para previsão de valores em falta
O gráfico da figura 5.2 ilustra as curvas de potência à saída da rede neuronal. A curva a
vermelho representa o consumo da potência instantânea, registada pelo diagramador de
15 em 15 minutos no consumidor nº7 da cidade de Matosinhos, no qual foram
detectadas falhas de registo. A curva a azul representa os valores da potência estimada.
Figura 5.2 – Curvas da potência consumida real e estimada
Potência real Potência estimada
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
138 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Na tabela B.1 do anexo B podem ser observados os resultados da estimação da potência
consumida pelo cliente, prevista pela rede neuronal, correspondente aos valores (-1) da
potência, previamente preenchidos aquando da detecção dos valores em falta. Constata-
se que os valores previstos serão aproximadamente iguais aos valores reais pela análise
do histórico do consumo da potência. Com a informação do valor dessa potência
estimada procedeu-se, em seguida, ao preenchimento dos respectivos valores em falha,
de modo a ser feito, posteriormente, o tratamento completo dos dados.
5.4.2 Pré-processamento dos Dados
Nesta fase de pré-processamento dos dados um dos objectivos principais é o de procurar
reduzir ao máximo o tamanho da amostra, para esta ser tratada pelos algoritmos de
exploração e, simultaneamente, agregar o máximo de informação possível, tendo em
vista o alcance dos melhores resultados.
A cadência de registo das leituras de potência consumida na amostra em estudo foi de
15 minutos durante um período de, aproximadamente, 20 dias por cliente.
Deste modo, temos 96 registos diários do valor da potência consumida, num intervalo
de tempo com início às 0:00h e término às 23:45h, o que constitui na globalidade,
aproximadamente 400.000 registos para tratamento.
Dado o elevado volume de dados existente foi necessário, numa primeira fase, proceder
a uma redução desse mesmo volume de dados antes de iniciarmos os estudos da
caracterização dos consumidores.
5.4.2.1 Redução do Volume de Dados
O consumo da energia eléctrica é influenciado por diversos factores, entre os quais
podem ser apontados a sazonalidade e o dia de semana. Em estudos similares de
caracterização de perfis de consumidores de BT, são obtidos diagramas de carga
representativos para os dias de semana e de fim-de-semana, nos períodos de Verão e de
Inverno. Nestes clientes a sazonalidade influi fortemente no consumo de electricidade,
quer pela variação da temperatura quer pelo tempo de exposição solar. Nos clientes de
MT, dadas as suas características específicas (normalmente trata-se de clientes
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 139
industriais), o consumo de energia eléctrica não serão muito diferente ao longo do ano.
Esse consumo é distinto conforme se trate de dia de semana ou fim-de-semana.
Tendo-se, então, verificado que em muitos clientes observados apenas foram registadas
campanhas de medição da potência consumida no Verão e/ou no Inverno, optou-se por
juntar os dados anuais dos diferentes consumidores distinguindo-se, apenas, dias úteis e
de fim-de-semana (Ramos, 2004). A figura 5.3 ilustra a estrutura da organização dos
dados.
Figura 5.3 – Estrutura da redução do volume de dados.
Foram, assim, criados diagramas de carga representativos para cada consumidor, um
para dias úteis, outro para fins-de-semana, considerando que os hábitos de consumo
para os dias de semana serão diferentes dos do fim-de-semana.
Conforme já descrito, como a cadência da recolha da potência instantânea foi de 15
minutos, cada clientes terá um diagrama de cargas diário constituído por 96 registos.
Assim, teremos para cada consumidor um diagrama de cargas diário dado por:
[ ] { } { }HhMmlllL mh
mmmdiário ...1,...1,,...,, )()(
2)(
1)( ∈∈= [5.5]
em que:
L – vector dos valores do diagrama de carga diário de cada consumidor;
m – número do consumidor em análise;
DIAGRAMAS REPRESENTATIVOS
DADOS TRATADOS
SEMANA DIA – ANO
FIM-DE-SEMANA DIA-
ANO
DIAGRAMAS REPRESENTATIVOS
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
140 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
)(mhl – valor da leitura no instante h;
M – número de consumidores da amostra;
h – instante da cadência registada;
H – número de valores registados, variando com a cadência da recolha das
leituras (neste caso, a cadência do registo de leituras foi de 15 minutos, pelo que
H=96 registos).
Para cada cliente teremos um número de diagramas de cargas diários que corresponde
ao número de dias de monitorização. Nesta fase, existe um elevado volume de dados. É,
então, necessário proceder à redução do volume de dados antes da aplicação das
técnicas de Data Mining.
Ainda nesta fase, uma outra forma de reduzir o volume de dados e, consequentemente,
de aumentar a velocidade computacional, seria representar os diagramas de cargas por
leituras com cadência de 30 em 30 minutos, ou de hora a hora, em vez da cadência de
15 minutos, reduzindo consideravelmente o valor H.
No entanto, procedeu-se à redução do volume de dados, por um lado fazendo a
separação e distinção entre dias de semana e de fim-de-semana e a criação de diagramas
de carga representativos de cada consumidor, por outro. Dado que a representação de
cada cliente por um número de diagramas de carga diário igual ao número de dias de
monitorização seria excessiva, representou-se cada consumidor por um diagrama de
carga para os dias úteis e um outro para os dias de fim-de-semana.
Após este processo, cada consumidor será representado apenas por um diagrama de
carga:
[ ] { } { }HhMmlllL mh
mmm ...1,...1,,...,, )()(2
)(1
)( ∈∈= [5.6]
em que:
L – vector dos valores do diagrama de carga diário representativo de cada
consumidor;
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 141
m – número do consumidor em análise;
)(mhl – valor da leitura no instante h;
M – número de consumidores da amostra;
h – índice referente ao instante da cadência registada;
H – número de valores registados, variando com a cadência da recolha das
leituras (neste caso, H=96 registos).
Os diagramas de carga de cada consumidor, para os dias úteis e de fim-de-semana, são
obtidos pela média dos diagramas de carga diários de cada um desses clientes e em cada
um desses períodos. O processo foi executado com recurso a uma folha de cálculo
EXCEL. A título de exemplo, no anexo A é apresentada a tabela A.4 relativa à folha de
cálculo dos diagramas de carga representativos dos dias úteis, de cada um dos
consumidores.
Deste modo, ficamos com duas folhas de cálculo, uma referente aos diagramas de carga
de cada um dos consumidores para os dias úteis e uma outra para os dias de fim-de-
semana, conforme ilustrado na figura 5.3.
5.4.2.2 Normalização dos Dados
Após a estimação dos valores em falta e da redução do volume de dados, torna-se agora
necessário efectuar a sua normalização. De facto, a redução dos dados a uma mesma
escala é fundamental para o estudo dos mesmos.
Dado que os consumidores de MT podem ter uma potência instalada de valor elevado e,
além disso, muito diferente de cliente para cliente, então, os diagramas de carga
representativos só poderão ser comparáveis se tiverem a mesma dimensão. Caso
contrário, consumidores que apresentem grandes valores numéricos (em termos de
diagrama de cargas) podem dominar os efeitos dos diagramas com valores menores mas
que são de igual modo importantes no estudo dos perfis de consumo dos clientes de
MT.
A escolha do factor de normalização a utilizar deve ser feita considerando os dados
disponíveis, à análise que se pretende efectuar e o tipo de resultados finais que se
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
142 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
desejam obter. O tipo de normalização a usar deverá permitir comparar a forma dos
diagramas representativos, de forma a determinar perfis de consumidores.
A forma dos diagramas de carga traduz de certa maneira hábitos de consumo, os quais
serão comparados e agrupados segundo uma certa similaridade entre eles. Pretende-se,
desta forma, potenciar a separação de classes pela forma do diagrama, em detrimento da
amplitude.
Neste caso em estudo, foram testados 3 factores de normalização distintos:
1. Potência de pico – Potência máxima verificada no conjunto dos 208
consumidores;
2. Potência média – Potência média obtida no período em estudo;
3. Potência de pico ou máxima do diagrama de carga representativo de cada
consumidor.
No primeiro caso, em que a potência máxima observada no período de monitorização é
escolhida como factor de normalização, a informação relativa à energia total consumida
por qualquer consumidor é mantida. Porém, verifica-se por um lado a perda de
informação referente às diferenças entre as formas dos diagramas de carga dos
consumidores com valores de potência baixos (para consumidores com potências mais
baixas os valores normalizados assumiram valores muito pequenos) e, por outro lado,
corre-se o risco de utilizar um factor de normalização surgido de uma situação anómala
que causou esse pico de potência, adicionando, deste modo, imprecisão ao processo de
normalização.
Relativamente ao segundo caso, ou seja, a utilização do valor da potência média como
factor de normalização, embora a perda de informação das diferenças entre os
diagramas de carga seja menor, quando comparado com o caso anterior, apresenta
igualmente perdas de informação considerável.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 143
Por fim, foi utilizada a potência máxima do diagrama de carga representativo de cada
consumidor como factor de normalização. Com este tipo de normalização a informação
relativa às formas dos diagramas de carga é retida. Este tipo de normalização é
designado por normalização Min-Máx, já abordado na secção 2.3.4. e foi adoptado para
o presente estudo.
A expressão 5.7 corresponde ao factor de normalização utilizado e a expressão 5.8 ao
vector de cada diagrama de carga representativo normalizado:
)max( )(
)()(
m
mhm
hnorm lll = [5.7]
[ ] { } { }HhMmllll mHnorm
mhnorm
mhnorm
mnorm ...1,...1,,...,, )()(
2)(
1)( ∈∈= [5.8]
sendo:
lhnorm(m) – valor normalizado para o instante h;
l(m) – vector de 96 valores que representa o diagrama de carga representativo do
consumidor (m);
lh(m) – valor da leitura no instante h;
lnorm(m) – vector normalizado dos valores do diagrama de carga diário representativo
de cada consumidor;
m ∈ {1…M} m-ésimo cliente da amostra;
M – número de clientes da amostra;
h ∈ {1…H} – índice referente ao instante em que o registo foi efectuado;
H – número de valores registados, perfazendo um total de 96 registos;
Com este tipo de normalização todos os diagramas de carga representativos apresentam
valores pertencentes ao intervalo [0,1]. Deste modo, todos os diagramas possuem a
mesma ordem de grandeza podendo, agora, ser comparáveis. Este tipo de normalização
realiza uma transformação linear do conjunto de entrada original, neste caso, constituído
por cada diagrama representativo, para um novo conjunto específico pertencente à gama
[0,1] (Rodrigues, 2000). Este tipo de normalização preserva exactamente todas as relações
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
144 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
iniciais dos valores dos dados, não introduzindo qualquer alteração nos mesmos, ou seja,
mantém a forma da curva dos diagramas.
Na determinação dos perfis típicos de consumo, o critério de agrupamento utilizado foi o
de agrupar clientes com padrões de consumo de energia eléctrica semelhante, ou seja,
agrupar clientes com a forma dos diagramas de carga similares, para dias úteis e para fins-
de-semana.
A título de exemplo, nas tabelas A.4 e A.5 do anexo A são apresentadas, respectivamente,
partes de uma folha de cálculo referentes aos diagramas de carga representativos dos dias
úteis e diagramas de carga representativos normalizados no mesmo período, após a
aplicação do factor de normalização utilizado.
5.5 Atributos que Descrevem os Diagramas de Carga
Após a fase de pré-processamento dos dados, em que os valores em falta foram
estimados, os dados incorrectos filtrados e após o processo de normalização, é chegado
o momento de decidir a forma como os dados irão ser tratados e usados no modelo.
Cada consumidor pode ser representado por um conjunto de atributos que relacionam e
descrevem toda a informação relativa à caracterização dos clientes. Estes atributos são
classificados de acordo com o seu tipo e domínio, ou seja, relacionados com os dados
comerciais, com condições atmosféricas, com o dia de semana, mês do ano, etc. A
definição dos atributos a utilizar irá depender, antes de mais, do tipo de informação
disponível, relativo ao consumo e caracterização dos clientes e, posteriormente, do
modelo pretendido para implementação.
Em função dos dados disponíveis, foram distinguidos os seguintes tipos de atributos:
1. Atributos relacionados com o regime de funcionamento da carga:
• Mês: atributo categórico;
• Semana: atributo categórico;
• Dia da semana: atributo categórico;
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 145
• Dia do ano: atributo categórico;
• Hora do ano: atributo categórico;
• Hora do dia: atributo categórico.
2. Atributos relacionados com os dados comerciais:
• Potência contratada (kVA): número real não negativo, atributo categórico;
• Código de classificação de actividade económicas: atributo categórico;
• Energia mensal consumida (kWh): Energia mensal consumida no período
em estudo: atributo contínuo de domínio real não negativo;
• Potência de pontas (kW): atributo contínuo de domínio real não negativo;
• Tipo de tarifa (de curtas médias ou longas utilizações): atributo categórico.
3. Atributos relacionados com os diagramas de carga:
• Vector do diagrama de carga normalizado, que descreve o diagrama de
cargas representativo normalizado de cada consumidor: atributo contínuo;
• Índices de forma: Índices de forma extraídos dos diagramas de carga e que
reflectem a sua forma (factor de carga, factor de vazio, factor de utilização,
impacto do período de almoço e impacto da noite): atributos contínuos.
5.5.1 Escolha dos Atributos
A escolha e selecção dos atributos a utilizar no modelo, com vista à separação dos
consumidores num conjunto de classes, foi apoiada nos seguintes critérios:
• O conjunto de dados disponibilizados pela empresa distribuidora de energia
eléctrica permite apenas a utilização de atributos relacionados com a informação
comercial de cada cliente. Não foram disponibilizados quaisquer dados relativos
às condições atmosféricas, ao tipo e características dos equipamentos existentes
em cada consumidor nem às características dos edifícios16, que poderão de certa
maneira influenciar a utilização e consumo da energia eléctrica. Os atributos
relacionados com o regime de carga foram utilizados aquando da estimação de
valores de potência em falta, conforme descrito na secção 5.4; 16 Este tipo de informação é normalmente obtido através de inquéritos aos clientes aquando da realização das campanhas de medição.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
146 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
• O objectivo principal do modelo a implementar é separar os consumidores num
conjunto de classes, ou seja, cada classe é representada por um diagrama de
carga típico que reflecte o comportamento de um conjunto de consumidores.
Assim, os consumidores que pertencem a uma dada classe devem apresentar
hábitos de consumo (forma do seu diagrama de carga típico) semelhantes.
Foram, então, seleccionados os atributos relacionados com as condições
comerciais e com os diagramas de carga (vector do diagrama de carga
normalizado e índices de forma);
• Conforme a técnica de clustering utilizada, esta influencia o tipo de atributos a
utilizar. Uma vez que o algoritmo de clustering utilizado (Two-Step Algorithm)
pode usar atributos contínuos ou categóricos, não constituiu uma limitação na
escolha dos atributos. No processo de classificação os índices de forma foram
utilizados como atributos.
5.6 Caracterização de Consumidores de Média Tensão Usando Clustering
Hierárquico 5.6.1 Introdução
Nesta secção pretende-se determinar e caracterizar os perfis típicos de consumo dos
clientes de MT. Após o tratamento inicial dos dados e da escolha dos atributos, foi
criado um modelo para a determinação dos diferentes perfis de consumo.
O tipo de modelo desenvolvido assenta na análise de clusters (secção 3.7.5), em que o
principal objectivo é separar objectos em classes naturais segundo um determinado
critério de similaridade. Assim, os elementos pertencentes a um mesmo grupo ou
cluster deve possuir um elevado grau de semelhança, ao passo que quaisquer elementos
pertencentes a grupos distintos deverão ter pouca semelhança entre si. Para Tal,
utilizou-se um modelo que agrupe no mesmo cluster consumidores com diagramas de
carga representativos normalizados cuja forma da curva fosse o mais idêntica possível.
O vector normalizado do registo de potência e o vector normalizado dos índices de
forma foram utilizados como atributos para agrupar os consumidores.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 147
5.6.2 Definição do Número de Classes
O número de classes ou grupos é normalmente definidos a priori, devendo estar
compreendido no intervalo [ ]N,...,2 , em que [N] representa o número total de registos
do conjunto de dados, uma vez que este é o intervalo de valores em que se deverá
encontrar a partição realizada por um algoritmo de clustering. O número de classes a
adoptar baseia-se essencialmente no parecer de peritos, mas depende, também, da
informação comercial e tarifária disponível e do desenvolvimento e estrutura social dos
países. Dependendo da maior ou menor precisão que se pretender obter na
caracterização dos perfis típicos de consumo, o número de classes deverá ser maior ou
menor, respectivamente. Se o volume de dados for elevado, o número de classes
tenderá, também, a aumentar. Em consequência, o número de classes pode variar
significativamente de país para país, desde 6 classes na Noruega, 7 na Suécia e França,
sendo 14 na Itália e 46 na Finlândia. Por exemplo, na Holanda o número de classes
verificado foi de 100, devido à utilização exaustiva dos códigos de actividade comercial
como forma de partição.
Sendo o objectivo do estudo agrupar consumidores em classes, de forma a apoiar
posteriormente os agentes retalhistas na aplicação de tarifas aos seus clientes, o número
de clusters deve ser suficientemente pequeno para permitir a definição de estruturas
tarifárias para cada classe.
Com base no parecer de peritos, o número mínimo de classes fixado foi de 6 e o número
máximo de 9. No entanto, de forma a obter melhores resultados foi realizada uma
análise comparativa entre os índices de avaliação MIA e CDI (ver secção 2.6), para
diferentes valores de clusters. Relembrando, o índice MIA – Índice de Adequação
Média17 representa a média das distâncias entre o diagrama representativo de um cluster
e cada elemento pertencente a esse mesmo cluster, o índice CDI – Índice de Dispersão
dos Clusters18 combina directamente a distância entre elementos do mesmo cluster com
a distância entre elementos de outros clusters. Quanto menores forem estes índices
melhores serão os desempenhos no agrupamento dos diagramas de carga
representativos. 17 Do Inglês Mean Índex Adequacy. 18 Do Inglês Cluster Dispersion Indicator.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
148 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Utilizando o algoritmo de clustering Two-Step, o qual nos permite escolher e fixar o
número de classes pretendido, foi inicialmente fixado o número de clusters em 3, depois
6, 9, 12 e por fim 15. Para cada um destes estudos foram, posteriormente, agrupados os
clientes pertencentes a cada classe e extraído o respectivo diagrama de cargas
representativo.
Deste modo, começou-se com 3 classes de consumidores (aos quais correspondem 3
diagramas de carga representativos), tendo-se analisado os valores do MIA e CDI com
recurso a uma aplicação em MatLab. O processo de agrupamento dos diagramas
representativos repetiu-se para 6, 9, 12 e 15 classes. Na tabela B.2 do anexo B está
representada parte de uma folha de cálculo relativa à ordenação dos 15 clusters obtidos
pelo algoritmo Two-Step. Por sua vez, na tabela B.3 do mesmo anexo estão
representados os valores dos índices MIA e CDI obtidos para os diferentes números de
clusters, nesse exemplo, para os dias de fim-de-semana. O gráfico da figura 5.4 mostra a
variação dos valores dos índices MIA e CDI calculados.
Figura 5.4 – Evolução dos índices MIA e CDI com o número de clusters.
Usando uma aplicação em MatLab, os índices MIA e CDI foram calculados de forma a
verificar o número apropriado de classes a escolher. Conforme se pode observar pela
figura 5.4 os índices decrescem com o aumento do número de classes. Contudo, para
classes superiores a 9 o ganho na redução dos índices não é muito significativo pelo que
se fixou em 9 o número de clusters a determinar. Se a determinação de perfis de
consumidores for aplicado, por exemplo, na personalização de tarifas, o número de
classes deverá ser suficiente elevado para representar as diferenças entre os
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1
3 6 9 12 15 clusters
MIA
CDI
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 149
consumidores, mas simultaneamente pequeno, de forma a possibilitar a sua aplicação.
Daí que as empresas distribuidoras de energia eléctrica poderão ter dificuldades em lidar
com um maior número de classes de consumidores, dado que terão de desenvolver
estruturas tarifárias para cada uma dessas classes.
Uma outra potencialidade a ser explorada pelos algoritmos é a de não impor qualquer
número de classes, deixando ao critério do algoritmo a sua definição. Porém, tal
procedimento não se mostrou vantajoso dado que o algoritmo utilizado (Two-Step)
escolheu uma solução contendo apenas dois clusters reflectindo a distinção entre
consumo diurno e nocturno, pelo que a imposição do número 9 de classes foi mantida.
5.6.3 Aplicação de Algoritmos de Clustering
Com a definição do número de classes a usar, segue-se a fase de agrupamento ou
clustering, na qual a escolha e selecção do algoritmo a utilizar é determinante. Com
base no estudo apresentado no capítulo 3, foram escolhidos três algoritmos e,
posteriormente, comparado os seus desempenhos de clustering.
Assim, com recurso ao software Clementine, foram testados os seguintes algoritmos:
1. Algoritmo hierárquico: Two-Step Cluster Analysis;
2. Algoritmo de partição: K-means;
3. Rede neuronal: SOM - Self Organizing Features Maps (Rede Kohonen).
Nesta fase de comparação o conjunto de dados utilizados foi o conjunto dos diagramas
de carga representativos normalizados, obtido directamente das leituras registadas, em
que cada consumidor é representado pelo vector da expressão 5.8.
Com base nos diagramas de carga representativos de cada cliente, procedeu-se ao
agrupamento do conjunto de dados em 9 classes, usando separadamente cada um dos
algoritmos mencionados. Seguidamente, para cada resultado de clustering proveniente
de cada um dos algoritmos, comparou-se o seu desempenho de agrupamento através dos
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
150 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
índices MIA e CDI. Finalmente, os valores dos índices foram comparados e escolhido o
algoritmo a utilizar.
A figura 5.5 mostra a stream utilizada com recurso aos três algoritmos mencionados de
forma a proceder ao agrupamento dos dados de entrada. Em todas as operações, a
stream mantêm a mesma configuração, alterando-se apenas as ligações pretendidas
entre os nós.
Figura 5.5 – Clustering usando os algoritmos Two-Step Cluster Analysis, K-Means e SOM
Da figura 5.5 salientam-se os seguintes tipos de nós:
• Nó origem: Estes nós de entrada importam os dados provenientes de ficheiros
ou tabelas. Estes nós importam os dados em ficheiros de texto, normalmente
com extensão .txt;
• Nó Type: Este nó permite definir quais os atributos a usar como entradas (In),
quais os atributos a prever (Out) e quais a excluir (None), conforme
representado na figura 5.6.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 151
Figura 5.6 – Selecção das variáveis de entrada, tipo de atributos e resposta a usar no modelo
(Nó Type utilizado na Stream da figura 5.1)
• Nó Filter: Os campos que não são necessários para a operação de clustering
podem ser excluídos (bloqueados) por este nó. No caso da figura 5.7, a potência
contratada e o código de actividade foram excluídos do processo de
agrupamento;
Figura 5.7 – Campos excluídos para aplicação ao algoritmo de clustering
• Nó Table: A folha B.1 do anexo B apresenta um exemplo do resultado deste tipo
de nó. Os dados são disponibilizados sob a forma de tabela e, para este caso, é-
nos fornecida a coluna dos valores estimados pelo algoritmo;
• Nó Quality: Este tipo de nó detecta valores nulos e/ou não preenchidos. Fornece
a qualidade dos dados, ou seja, a percentagem de valores em falta para cada
atributo de entrada;
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
152 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
• Nó twostep: Cria o modelo do algoritmo para os dados de entrada. Para cada
conjunto de dados de entrada deve ser criado um novo nó twostep, ou seja, um
novo algoritmo. Deste modo são criados dois nós deste tipo para cada entrada.
Ainda neste nó existe a possibilidade de impor um número mínimo e máximo de
clusters, ou então de optar pela previsão do número de clusters a obter. Este
algoritmo permite operar com atributos categóricos e contínuos;
• Nó T-Twostep: Este nó retrata o modelo criado. Para cada conjunto de dados de
entrada o modelo é treinado individualmente. Após o treino do algoritmo, este
nó é ligado ao conjunto de dados para a geração das classes. Permite, ainda,
gerar informação acerca do número de registos, do valor de registos que
pertencem ao mesmo cluster e à distância entre cada atributo e o centro do
cluster, conforme a figura 5.8;
Figura 5.8 – Informação da operação de clustering do modelo usado
• Nó K-means: Cria o modelo do algoritmo K-means para o conjunto de dados de
entrada. Neste algoritmo todos os atributos são considerados como valores reais
contínuos. Também neste algoritmo é necessário criar um modelo para cada
conjunto de dados de entrada. O número de clusters é imposto inicialmente e
mantém-se fixo ao longo da operação de clustering;
• Nó Km-Kmeans: Este nó representa o modelo criado. Para cada conjunto de
dados de entrada o modelo é treinado individualmente. O nó é ligado aos dados
de entrada para originar os 9 clusters. À semelhança dos outros algoritmos, para
cada conjunto de dados de entrada é necessário gerar o modelo e substituir este
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 153
mesmo nó na stream. A figura 5.9 mostra a informação que é gerada por este
algoritmo, nomeadamente o número de clusters, o número de iterações e o erro
do processo iterativo. Pode ser também disponibilizada a informação relativa ao
número de objectos em cada cluster e aos centros dos clusters;
Figura 5.9 – Informação do modelo criado – Algoritmo K-Means
• Nó Kohonen: este nó cria a rede neuronal que será treinada utilizando o
conjunto de dados de entrada. Os parâmetros de treino da rede podem ser
especificados numa tabela, como apresentado na figura 5.10, em que é definida a
dimensão da grelha. O treino da rede é efectuado em duas etapas em que é
necessário especificar o tipo de função de aprendizagem, o raio de vizinhança e
o número de iterações. Este nó de treino da rede cria e treina a rede neuronal
para estimação de um determinado valor. Após o treino da rede, é
disponibilizado um outro nó (K-Kohonen), nó diamante, para agrupar os dados
em classes distintas.
Figura 5.10 – Parâmetros de treino da rede neuronal usada
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
154 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
• Nó K-Kohonen: Este nó ilustra o modelo gerado, ou seja, representa a rede
neuronal depois de treinada. O nó é ligado ao conjunto de dados de entrada a fim
de obter as coordenadas da projecção de cada um dos registos de entrada. Após
o treino da rede, este nó agrupa os dados de entrada em classes. Dado que a rede
pode ser usada para agrupamento não supervisionado, este nó irá inserir novos
valores nos clusters já existentes.
Algoritmo Two-Step Cluster Analysis
Com a aplicação do algoritmo hierárquico Two-Step ao conjunto de dados de entrada, e
após a fixação do número de clusters, obtiveram-se as tabelas da figura 5.11 onde se
encontram distribuídos o número de registos em cada um dos 9 clusters. Foram
realizadas duas operações de clustering, uma para cada condição de carga, ou seja, para
os dias úteis e fim-de-semana, conforme as figuras 5.11a) e 5.11b), respectivamente.
Figura 5.11 – Distribuição dos consumidores pelas 9 classes obtida com o algoritmo Two-Step
Cluster Analysis
Algoritmo de Partição K-means
Também neste algoritmo foram realizadas as duas operações de clustering, para o
conjunto de dados referente aos dias úteis e fins-de-semana. Os resultados da operação
de clustering são apresentados sob a forma de tabela organizada com a distribuição do
número de registos por cluster, tal como mostram as figuras 5.12a) e 5.12b).
a) Dias úteis b) Fim-de-semana
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 155
Figura 5.12 – Distribuição dos consumidores pelas 9 classes obtida com o algoritmo K-Means
Algoritmo SOM – Self Organizing Features Maps
Os resultados do agrupamento do conjunto de dados de entrada, pela aplicação da rede
neuronal, podem ser observados na figura 5.13 em que os registos que apresentem as
mesmas coordenadas no plano bidimensional são atribuídos ao mesmo cluster. Por
outro lado, a tabela B.6 do anexo B indica a ordenação dos clientes distribuídos pelas
várias classes.
Porém, os resultados obtidos necessitam ainda de uma operação de pós-processamento
para atribuir cada registo ao cluster correspondente. Por vezes as coordenadas dos
registos ficam sobrepostas sendo, então, necessário activar no gráfico a função
“agitação” de modo que as projecções dos registos não estejam sobrepostas. Os clusters
obtidos são facilmente distinguidos pelas manchas formadas pela projecção dos
registos.
Figura 5.13 – Projecção da distribuição dos consumidores pelas 9 classes obtida com a rede de
Kohonen – SOM
a) Dias úteis b) Fim-de-semana
a) Dias úteis b) Fim-de-semana
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
156 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Finalmente, torna-se necessário escolher um dos algoritmos a utilizar para efectuar a
caracterização dos perfis típicos de consumo dos consumidores de MT. Para tal foram
utilizadas medidas de similaridade. A medida de similaridade é vital na definição de um
cluster, pelo que a esta medida entre dois registos assume um carácter fundamental nos
algoritmos de clustering.
Neste tipo de modelos as operações de agrupamento são não supervisionadas, não
havendo, portanto, um valor objectivo que possa ser utilizado como comparação, não
permitindo obter directamente valores de avaliação do seu desempenho. Torna-se, por
isso, necessário definir índices que avaliem os resultados obtidos, ou seja, que avaliem
as distâncias entre os objectos pertencentes a uma mesma classe e a distância entre
classes diferentes.
Chicco (Chicco, 2003a) apresenta um conjunto de índices que possibilitam a
determinação de uma medida da qualidade de partição obtida, bem como uma medida
de dispersão dentro dos clusters – os índices MIA e CDI.
Estes dois índices foram calculados para o resultado da operação de agrupamento para
cada um dos algoritmos de clustering, com recurso a uma aplicação em MatLab. A
tabela B.7 do anexo B mostra os resultados obtidos dois índices para cada um dos
algoritmos utilizados. As tabelas 5.5 e 5.6 resumem o valor dos índices computados
para cada um dos modelos e em cada regime de carga.
Tabela 5.5 – Índices MIA e CDI calculados para a partição de 9 clusters para o conjunto de dados
de Fim-de-Semana
MIA CDI
Two-Step 0,1791 0,6381
K-Means 0,1746 0,6336
SOM 0,1874 0,8525 Tabela 5.6 – Índices MIA e CDI calculados para a partição de 9 clusters para o conjunto de dados
Dias Úteis
MIA CDI
Two-Step 0,1713 0,6743
K-Means 0,1478 0,4702
SOM 0,1776 0,8905
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 157
O desempenho do algoritmo é tanto melhor quanto menor forem os índices MIA e CDI.
Assim, podemos verificar que o algoritmo que apresenta melhor desempenho é o
algoritmo K-means, pois apresenta índices com menores valores.
No entanto, a diferença dos índices de partição entre os algoritmos de clustering Two-
Step e K-means não é significativa e tenderia a baixar se houvesse um maior número de
consumidores a analisar.
Assim, dado que o algoritmo Two-Step Cluster Analysis foi desenvolvido para aplicação
a bases de dados de elevada dimensão e havendo a tendência para que todos os clientes
de MT tenham contagem em tempo real, logo havendo grandes quantidades de dados
para análise, a escolha do algoritmo mais adequado será o Two-Step, numa perspectiva
futura de análise de grandes quantidades de bases de dados e não apenas na observação
dos 208 consumidores de MT em estudo. Pretende-se, pois, desenvolver uma
metodologia de caracterização de perfis de consumidores de MT que não se confine ao
presente estudo mas que seja antes um suporte e plataforma para o tratamento de
grandes quantidades de dados.
Após a escolha e definição do algoritmo de clustering a utilizar, procedeu-se à
caracterização dos perfis de consumidores de MT. Para tal, podem ser utilizados os
vectores normalizados das leituras da potência registada pelas campanhas de
monitorização ou os vectores dos índices normalizados extraídos dos diagramas de
carga representativos de cada consumidor. Os índices de forma escolhidos, e que
caracterizam os diagramas de carga, podem ser vistos na tabela A.6 do anexo A. Na
secção 2.4.2, estes índices foram já evidenciados.
Os índices de partição MIA e CDI foram calculados e comparados utilizando os
vectores dos registos e dos índices normalizados. Conforme se pode observar pelas
tabelas 5.7 e 5.8, utilizando-se os registos das leituras provenientes directamente da
campanha de medição obtêm-se melhores desempenhos de agrupamento, pelo que
foram estes os vectores seleccionados para a operação de clustering.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
158 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Tabela 5.7 – Índices MIA e CDI calculados para o conjunto de dados dos registos de leituras e para
os índices – Fim-de-Semana
MIA CDI
Vector dos registos das leituras
0,1767 0,6447
Vector dos índices 0,2060 0,7763
Tabela 5.8 – Índices MIA e CDI calculados para o conjunto de dados dos registos de leituras e para
os índices – Dias Úteis
MIA CDI
Vector dos registos das leituras
0,1618 0,5867
Vector dos índices 0,1859 0,6918
5.6.4 Determinação dos Perfis Típicos de Consumidores de MT
Seleccionado o algoritmo a utilizar, e efectuada a operação de clustering dos
consumidores de MT em 9 classes distintas (em que os consumidores pertencentes ao
mesmo cluster apresentam comportamentos de consumo de energia eléctrica
semelhantes). O diagrama de carga representativo de cada classe é a forma de
caracterização do perfil típico de consumo. Os diagramas de carga representativos de
cada cluster são obtidos pela média dos diagramas de carga normalizados que foram
atribuídos pelo modelo a cada uma das classes. Assim, obtiveram-se 9 perfis típicos de
consumo para cada regime de carga, ou seja para dias úteis e de fim-de-semana.
As figuras 5.14 e 5.15 apresentam os diagramas de carga obtidos para os períodos de
Dias Úteis e de Fim-de-Semana, respectivamente, representando os padrões típicos de
consumo de cada uma das classes. Estes perfis foram determinados a partir dos
resultados obtidos com a aplicação do algoritmo Two-Step Cluster Analysis.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 159
Figura 5.14 – Perfis típicos de consumo para os Dias Úteis
Figura 5.15 – Perfis típicos de consumo para Fim-de-Semana
É de realçar que o cluster 8 do agrupamento dos dias úteis apenas contém 4 registos
(foram apenas agrupados 4 consumidores na mesma classe: clientes n.º 46, 48, 133 e
180) pelo que poderão, à primeira vista, ser interpretados como clientes atípicos, dado o
reduzido número de clientes pertencentes a essa classe. Porém, dado a forma do
diagrama de carga, verifica-se que estes clientes consomem a energia eléctrica durante a
noite e madrugada, ou seja, nas zonas de vazio e super-vazio, lembrando o perfil da
iluminação pública no caso da BT. Então, a exclusão deste cluster, baseada apenas no
critério do número reduzido de clientes pertencentes à mesma classe, não parece
adequado pois pode eliminar um perfil de consumidores de MT que de facto possui
aquele padrão típico de consumo. Assim, este cluster foi mantido no estudo realizado.
Clusters - Dias Úteis
0,000000
0,100000
0,200000
0,300000
0,400000
0,500000
0,600000
0,700000
0,800000
0,900000
1,000000
1 3 5 7 9 11 13 15 17 19 21 23
Tempo (h)
Pot.n
orm
.
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Cluster 6
Cluster 7
Cluster 8
Cluster 9
Clusters - Fim-de-Semana
0,000000
0,100000
0,200000
0,300000
0,400000
0,500000
0,600000
0,700000
0,800000
0,900000
1,000000
1 3 5 7 9 11 13 15 17 19 21 23
Tempo (h)
Pot.n
orm
.
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Cluster 6
Cluster 7
Cluster 8
Cluster 9
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
160 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Figura 5.16 – Perfis típicos de consumo dos consumidores pertencentes ao Cluster 8 – Dias úteis
Foram, deste modo, obtidos os 9 perfis típicos de consumidores de MT, para cada um
dos regimes de carga: dias úteis e fim-de-semana. Pela observação directa das curvas é
possível retirar algumas conclusões acerca do consumo de electricidade dos vários
grupos de clientes de MT. Contudo, para obter uma caracterização completa desses
perfis é necessário encontrar relações entre as características de cada consumidor e a
classe a que este pertence. Torna-se necessário encontrar um conjunto de regras que
completem a caracterização dos perfis típicos de consumo.
5.7 Caracterização dos Perfis Típicos de Consumidores de Média Tensão
Cada classe de consumidores é representada por uma curva característica que expressa o
perfil típico de consumo do grupo de consumidores que pertencem à mesma classe.
Pretende-se, agora, encontrar relações entre os consumidores pertencentes à mesma
classe de forma a caracterizar o seu perfil típico de consumo para que, no futuro, novos
consumidores possam ser atribuídos a um determinado perfil típico de consumo, em
função do conhecimento do seu comportamento de consumo de energia eléctrica.
5.7.1 Perfil Típico de Consumo e Código de Actividade Comercial
Em consumidores de energia eléctrica de MT, desprovidos de telecontagem, em que o
seu histórico de consumo de electricidade se resume à informação comercial, ou seja,
apenas existindo o conhecimento da informação que consta das facturas de
electricidade, é efectuada uma primeira verificação da eventual relação entre o perfil
típico de consumo e o código de actividade comercial.
Cluster - Dias ùteis - Atípico
0,0000000,1000000,2000000,3000000,4000000,5000000,6000000,7000000,8000000,900000
1 3 5 7 9 11 13 15 17 19 21 23
Tempo (h)
Pot.n
orm
.Cluster 8
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 161
Assim, com recurso ao software Clementine, foi determinada a distribuição dos
consumidores referente a cada classe, de acordo com o seu código de actividade
comercial. O algoritmo anteriormente utilizado para a determinação dos padrões típicos
de consumo (Two-Step Cluster Analysis) foi novamente usado para verificar a relação
existente entre o perfil de consumo e a informação comercial.
As figuras 5.17a) e 5.17b) ilustram a distribuição dos consumidores de cada uma das 9
classes obtidas para os dois regimes de carga, respectivamente, dias úteis e fim-de-
semana, em função do código de actividade comercial de cada um deles.
Figura 5.17 – Distribuição dos clusters em função do código de actividade comercial
Pode-se concluir que em cada cluster existem consumidores com diferentes tipos de
códigos de actividade comercial não sendo, portanto, possível inferir regras de
associação entre os códigos e o perfil típico de consumo de cada uma das classes.
Uma outra tentativa de encontrar regras para caracterização de cada perfil típico de
consumo consistiu na procura de relações entre a potência contratada (PC) e o perfil de
consumo de cada cliente. As figuras 5.18a) e 5.18b) mostram a distribuição dos clusters
em função da PC para os dias úteis e fim-de-semana, respectivamente.
a) Dias úteis b) Fim-de-semana
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
162 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Figura 5.18 – Distribuição dos clusters em função da PC
Novamente se pode concluir que não existe qualquer relação entre o perfil de consumo
de um determinado consumidor e a sua potência contratada, dado que para todas as
classes existem consumidores com diferentes potências contratadas.
Então, consumidores que apresentem diferentes códigos de actividade comercial e/ou
diferentes valores de potência contratada podem ter a mesma forma do seu diagrama de
cargas representativo e, desta forma, pertencerem à mesma classe. Conclui-se, então,
que a classificação comercial disponível para estes consumidores de MT não constitui
uma forma válida para identificar e separar os vários consumidores em classes.
Não sendo possível encontrar uma relação directa entre a informação comercial
disponível e o padrão de consumo de cada consumidor, de forma a caracterizar os perfis
típicos de consumo, será necessário procurar outros modelos e outros atributos que
permitam estabelecer relações entre o perfil de cada consumidor e esse mesmos
atributos. Será, pois, necessário construir um modelo que, quando aplicado a
consumidores não classificados, os possa atribuir a um conjunto de classe predefinido.
5.7.2 Caracterização de Perfis de Consumidores de Média Tensão usando um
Modelo de Classificação
5.7.2.1 Introdução
A tarefa de classificação consiste em construir um modelo de classificação que possa
ser aplicado a registos não classificados, visando categorizá-los em classes. Consiste,
a) Dias úteis b) Fim-de-semana
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 163
pois, em examinar as características de um determinado objecto e atribuí-lo a um dos
conjuntos de classe pré-definidos (aprendizagem supervisionada).
A classificação é uma tarefa de aprendizagem que divide e classifica os dados de acordo
com um número específico de características. Usando o conteúdo de uma base de dados
que reflicta o historial do comportamento de um determinado consumidor de energia
eléctrica, é concebido um modelo mediante o qual seja possível classificar
comportamentos futuros.
O objectivo do processo de avaliação dos resultados consiste em avaliar quão bem um
determinado modelo e os seus parâmetros conseguem alcançar os objectivos de todo o
processo de descoberta do conhecimento armazenado em bases de dados.
A caracterização dos perfis de consumidores de MT foi baseada na classificação dos
diferentes clusters obtidos, com base num conjunto de índices de forma, associados aos
clientes de cada cluster.
Em Data Mining são usadas várias técnicas de classificação tais como árvores de
decisão e redes neuronais. Neste trabalho o modelo de classificação usado foi a árvore
de decisão, dada a simplicidade de aplicação deste método aliada à possibilidade da
obtenção de resultados sob a forma de estrutura em árvore e, em adição, a geração de
um conjunto de regras. Com efeito, uma árvore de decisão para além de disponibilizar
uma representação gráfica de como os dados foram classificados disponibiliza, também,
regras de classificação desses mesmos dados. Possibilita obter modelos com elevada
perceptibilidade, dado produzir regras de fácil interpretação.
Pretendeu-se utilizar um modelo que apresentasse uma boa compreensão e interpretação
dos resultados. Para tal, foi necessário utilizar um conjunto de índices de forma, os
quais reflectem o comportamento da forma de onda dos diagramas de carga
representativos de cada consumidor, sendo a interpretação das relações desses índices
facilmente inteligíveis.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
164 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
5.7.2.2 Modelo de Classificação
O processo de classificação inicia-se no nó raiz da árvore e termina num nó folha que
classifica uma determinada instância. Cada nó na árvore equivale a um teste de um
atributo de uma instância e cada ramo corresponde a um dos valores possíveis para esse
atributo.
O princípio consiste basicamente em subdividir, de forma recursiva, o conjunto inicial
de dados em subconjuntos de modo que os registos pertencentes a um subconjunto
tenham similaridade entre eles, e dissemelhanças com registos pertencentes a outros
subconjuntos.
O algoritmo de árvore de decisão utilizado no presente trabalho e também disponível no
software Clementine foi o C5.0, desenvolvido por Ross Quilan (Quilan, 1993). Este
algoritmo cria partições do conjunto inicial baseado no atributo que apresente maior
ganho de informação. Em seguida, cada partição é novamente dividida com base num
atributo diferente do anterior. Este processo é assim repetido até não ser possível obter
novas partições. A decisão de quando parar a subdivisão das partições é baseada em
alguns critérios, nomeadamente quando os registos contidos numa partição possuem
uma similaridade suficiente entre eles ou quando o modelo é suficientemente bom.
O algoritmo C5.0 utilizado permitiu obter dois tipos de modelos:
1. Uma representação gráfica de uma árvore de decisão em que nos é possibilitada
a interpretação visual das divisões efectuadas e dos subconjuntos existentes.
Cada nó folha representa um subconjunto dos dados do conjunto inicial de
treino.
2. Um conjunto de regras provenientes da árvore de decisão que resumem de forma
simplificada a informação da partição obtida. Assim, através de uma forma
menos complexa, o conjunto de regras de partição gerado revela a informação
mais importante contida na árvore de decisão.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 165
5.7.2.3 Utilização do Modelo de Classificação nos Dados
O modelo de classificação deverá permitir a atribuição de um determinado consumidor
a uma determinada classe ou cluster, com base num conjunto de determinados atributos.
Pretende-se, assim, que o modelo de classificação catalogue novos consumidores, ou
seja, classifique novos clientes em função dos clusters existentes. A caracterização de
cada um dos clusters é definida pelo conjunto de regras que é gerado por este modelo.
Como se verificou nas secções anteriores não é possível efectuar a classificação de
novos consumidores através da informação comercial. Assim, terão de ser criados novos
atributos de classificação que reflictam o comportamento de consumo dos clientes de
energia eléctrica de média tensão. A utilização dos vectores dos diagramas de carga
normalizados (extraídos directamente das leituras) como atributos no modelo de
classificação não mostrou ser de grande utilidade dado que as regras geradas foram
complexas e de interpretação algo abstracta.
Houve, deste modo, necessidade de criar índices de forma que caracterizassem os
diagramas de carga dos consumidores de energia eléctrica, para serem utilizados como
atributos no modelo de classificação.
Os índices de forma utilizados foram já apresentados na secção 2.4.2 e estão
representados na tabela 5.9. Foi usado este conjunto de seis índices de forma
normalizados, cada um deles pertencentes ao intervalo [0,1], para caracterizar a forma
dos diagramas de carga característicos de cada consumidor. O vector dos índices será
formado por:
[ ],,,,,, 654321 fffffff = [5.5]
Estes índices de forma constituem a base de clustering utilizada na operação de treino
do modelo de classificação. O algoritmo de classificação utilizou estes índices para
geração de regras na partição efectuada pela árvore de decisão.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
166 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Tabela 5.9 – Índices de forma utilizados na classificação
Parâmetro Expressão de Cálculo Período de Aquisição
Factor de Carga
Diário máxmédia PP / ⎟⎟⎠
⎞⎜⎜⎝
⎛=
diamáx
diamédia
PP
f,
,1 1 dia
Factor de Vazio
Diário máxmín PP / ⎟⎟⎠
⎞⎜⎜⎝
⎛=
diamáx
dia
PP
f,
min,2 1 dia
Diário médiamín PP / ⎟⎟⎠
⎞⎜⎜⎝
⎛=
diamédia
dia
PP
f,
min,3 1 dia
Impacto da noite ⎟⎟⎠
⎞⎜⎜⎝
⎛=
diamédia
noitemédia
PP
f,
,4 3
1 (8 horas nocturnas, das 22
às 6 horas)
Impacto período do
almoço
⎟⎟⎠
⎞⎜⎜⎝
⎛=
diamédia
almoçomédia
PP
f,
,5 8
1 (3 horas almoço, das 12 às
15 horas)
Factor de Utilização
Diário instméd PP / ⎟⎟⎠
⎞⎜⎜⎝
⎛=
instalada
diamédia
PP
f ,6 1 dia
Para além destes índices, foram utilizados outros atributos no modelo de classificação,
tais como a potência contratada, o código de actividade e os clusters gerados pelo
conjunto de treino.
A figura 5.19 mostra a stream usada para o modelo de classificação, para cada um dos
regimes de carga. O atributo objectivo é o número do cluster que representa a classe que
se pretende prever, com base nos demais atributos.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 167
Figura 5.19 – Stream do modelo de classificação usado.
A aplicação do modelo de classificação envolveu diversas etapas, nomeadamente as
seguintes:
1. Usando o conjunto de dados seleccionado, o modelo foi previamente treinado,
com recurso ao algoritmo Two-Step Cluster Analysis, obtendo-se para cada
regime de carga os 9 clusters associados aos índices de forma normalizados. A
figura 5.20 representa as classes obtidas usando os índices de forma como
atributos de entrada.
Figura 5.20 – Distribuição das classes dos índices de forma antes da classificação
a) Dias úteis b) Fim-de-semana
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
168 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
2. Seguidamente, e com recurso a uma rede neuronal, aferiu-se o grau de
importância que o modelo de clustering atribui a cada um dos índices de forma
normalizados, obtendo-se o resultado apresentado na tabela 5.10:
Tabela 5.10 – Importância relativa dos atributos de entrada
Índices de Forma
Importância dos atributos de entrada – Dias Úteis
Importância dos atributos de entrada – Fim-de-semana
1f 0,154454 0,218128
2f 0,310695 0,295792
3f 0,384934 0,227527
4f 0,122501 0.170267
5f 0,295777 0,189757
6f 0,074132 0,023604
Conforme se pode observar na tabela 5.10, o factor 6f – factor de utilização, é
aquele que tem menos importância relativa para o conjunto de treino, pelo que se
optou pela sua remoção.
3. Através do nó filter, o atributo correspondente ao factor de utilização foi retirado
do conjunto inicial de dados, conforme ilustrado na figura 5.21.
Figura 5.21 – Remoção do factor de utilização através do nó filter
4. Após a filtragem do factor de utilização, procedeu-se novamente ao
agrupamento dos conjuntos iniciais de dados, tendo-se obtido a distribuição de
classes representadas nas figuras 5.22a) e 5.22b). Novamente com recurso à rede
neuronal analisou-se a importância relativa atribuída a cada um dos atributos de
entrada, a qual é apresentada na tabela 5.11.
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 169
Figura 5.22 – Distribuição das classes dos índices de forma com remoção de 6f – factor de utilização
Tabela 5.11 – Importância relativa dos atributos de entrada com remoção de 6f – factor de utilização
Índices de
Forma
Importância dos atributos
de entrada – Dias Úteis
Importância dos atributos
de entrada – Fim-de-semana
1f 0,173279 0,237250
2f 0,393199 0,322243
3f 0,360990 0,267444
4f 0,211166 0,237413
5f 0,294055 0,136010
6f ---------- ----------
Analisando a importância dos atributos de entrada para o conjunto de treino,
verifica-se que, para os dias úteis, o coeficiente 2f (factor de vazio) é aquele que
apresenta maior importância relativa, seguido por 3f , 5f , 4f e 1f .
5. Os dados de entrada foram separados criando-se um conjunto de treino e um
conjunto de teste. A classe de treino foi constituída por 2/3 dos dados de entrada
e os restantes 1/3 do conjunto de dados foram utilizados para teste. O objectivo
da distinção entre conjuntos de treino e teste, aquando da classificação, é para
evitar que os resultados sejam viciados e para que o erro do modelo não seja um
valor de erro influenciado. Se o valor de erro do modelo de classificação for
a) Dias úteis b) Fim-de-semana
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
170 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
aceitável, o modelo poderá ser usado para classificar novos consumidores.
Observando as figuras 5.23a) e 5.23b), podemos ver a distribuição do conjunto
de treino para cada um dos regimes de carga.
Figura 5.23 – Distribuição das classes de treino
6. Em seguida, utilizando o algoritmo C5.0, procedeu-se ao teste do modelo de
classificação utilizando o conjunto de teste (1/3 do conjunto dos dados iniciais).
As figuras 5.24a) e 5.24b) mostram a distribuição das classes do conjunto de
teste obtida pelo nó “Classes de Teste” da stream da figura 5.19.
Figura 5.24 – Distribuição das classes de teste
7. O modelo gerou uma árvore de decisão, apresentada no Anexo B, figuras B.1 e
B.2. Foi, ainda, gerado automaticamente pelo modelo de classificação um
conjunto de regras para cada um dos regimes de carga. Estas regras são extraídas
directamente das árvores de decisão da figura B1 do Anexo B.
a) Dias úteis b) Fim-de-semana
a) Dias úteis b) Fim-de-semana
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 171
Regras geradas automaticamente pela árvore de decisão para os dias úteis
If 3f ≤ 0.48 and 2f ≤ 0.13 and 5f ≤ 0.55 and 1f ≤ 0.35 and 4f ≤ 0.31 then cluster -8 If 3f ≤ 0.48 and 2f ≤ 0.13 and 5f ≤ 0.55 and 1f ≤ 0.35 and 4f > 0.31 then cluster -9 If 3f ≤ 0.48 and 2f ≤ 0.13 and 5f ≤ 0.55 and 1f > 0.35 then cluster -5 If 3f ≤ 0.48 and 2f ≤ 0.13 and 5f > 0.55 and 5f ≤ 0.67 then cluster -7 If 3f ≤ 0.48 and 2f ≤ 0.13 and 5f > 0.55 and 5f > 0.67 and 2f ≤ 0.06 then cluster -6 If 3f ≤ 0.48 and 2f ≤ 0.13 and 5f > 0.55 and 5f > 0.67 and 2f > 0.06 then cluster -7 If 3f ≤ 0.48 and 2f > 0.13 and 4f ≤ 0.24 then cluster -4 If 3f ≤ 0.48 and 2f > 0.13 and 4f > 0.24 then cluster -5 If 3f > 0.48 and 3f ≤ 0.78 and 2f ≤ 0.44 then cluster -3 If 3f > 0.48 and 3f ≤ 0.78 and 2f > 0.44 then cluster -2 If 3f > 0.48 and 3f > 0.78 then cluster -1
O modelo de classificação usou todos os atributos disponíveis, seleccionando para cada
regra apenas aqueles que lhe proporcionaram maior ganho de informação.
Para os atributos referentes ao conjunto de dados dos dias úteis, o modelo de
classificação apresentou uma exactidão global de 94,83% conforme ilustra a figura
5.25, extraída do nó “analysis” da stream da figura 5.19.
Figura 5.25 – Resultado do modelo para dados dias úteis
Observando a matriz da figura 5.26 (em que as linhas representam os clusters obtidos
originalmente pelo algoritmo Two-Step e as colunas os clusters atribuídos pelo modelo
de classificação), podemos analisar a taxa de erro relativamente a cada classe, ou seja,
as fontes de erro na classificação. Para os dias úteis, este modelo apresentou uma
elevada precisão de classificação de novos clientes. Os clusters 3, 5, 7 e 8 representam a
principal fonte de erro na classificação. Com efeito, o cluster 3 apresenta 1 instância
incorrectamente classificada, dado que é confundido com o cluster 2, os clusters 5, 7 e 8
têm, também, 1 instância confundida com os clusters 4, 6 e 9, respectivamente. A
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
172 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
diagonal principal da matriz representa aos objectos que foram correctamente
classificados na operação de teste.
Figura 5.26 – Matriz de classificação das classes para dias úteis
Para os dias de fim-de-semana, o modelo gerou uma árvore de decisão, bem como um
conjunto de regras, extraídas directamente da figura B.2 do Anexo B.
Regras geradas automaticamente pela árvore de decisão para dias fim-de-semana
If 2f ≤ 0.32 and 2f ≤ 0.10 and 4f ≤ 0.17 and 5f ≤ 0.29 then cluster -5 If 2f ≤ 0.32 and 2f ≤ 0.10 and 4f ≤ 0.17 and 5f > 0.29 then cluster -6 If 2f ≤ 0.32 and 2f ≤ 0.10 and 4f > 0.17 and 1f ≤ 0.35 and 4f ≤ 0.53 then cluster -7 If 2f ≤ 0.32 and 2f ≤ 0.10 and 4f > 0.17 and 1f ≤ 0.35 and 4f > 0.53 then cluster -8 If 2f ≤ 0.32 and 2f ≤ 0.10 and 4f > 0.17 and 1f > 0.35 then cluster -9 If 2f ≤ 0.32 and 2f > 0.10 and 4f ≤ 0.34 then cluster -4 If 2f ≤ 0.32 and 2f > 0.10 and 4f > 0.34 then cluster -2 If 2f > 0.32 and 2f ≤ 0.58 then cluster -1 If 2f > 0.32 and 2f > 0.58 then cluster -3
Para os dias de fim-de-semana, o modelo de classificação não usou o atributo 3f . No
entanto, no caso dos atributos referentes ao conjunto de dados dos dias de fim-de-
semana, o modelo de classificação apresentou uma exactidão global de 95,45%
conforme indicado na figura 5.27.
Figura 5.27 – Matriz de classificação das classes para o conjunto de dados de Fim-de-Semana
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 173
Analisando, agora, a matriz da figura 5.28 podemos observar a taxa de erro
relativamente a cada cluster, para os dias de fim-de-semana. Assim, os clusters 2, 4 e 5
são as principais fontes de erro na classificação. A título de exemplo, o cluster 2
apresenta 9,0% das suas instâncias mal classificadas, dado que é confundido com o
cluster 4. O cluster 4 tem uma instância confundida com o cluster 2 e o cluster 5
apresenta, também, um registo confundido com o cluster 6. Os registos correctamente
classificados correspondem à diagonal principal da matriz.
Figura 5.28 – Matriz de classificação das classes para dias fim-de-semana
5.8 Comentários Finais do Capítulo
Neste capítulo abordou-se a determinação e caracterização dos perfis típicos de
consumidores de MT. Foram definidas e separadas 9 classes típicas, representando cada
uma dessas classes o padrão típico de consumo de energia eléctrica de um determinado
conjunto de consumidores. A determinação desses perfis foi executada com base na
análise de clusters. Foram, ainda, distinguidos 2 regimes de carga na definição das
classes típicas de consumo, um para os dias úteis e outro para fins-de-semana.
Com base no algoritmo C5.0 (em que os resultados são apresentados sob a forma de
árvore de decisão e, também, por um conjunto de regras), foi implementado um modelo
de classificação dos dados. Com utilização directa da informação comercial,
nomeadamente o código de actividade comercial e o valor da potência contratada, não
foi possível encontrar uma relação directa entre este tipo de informação disponível e o
padrão de consumo de cada consumidor. Foram, ainda, usados no modelo de
classificação os vectores dos diagramas de carga obtidos pelas leituras recolhidas. No
entanto, as regras geradas pelo modelo foram abstractas e sem interpretação lógica.
Assim, criaram-se índices de forma que reflectem a forma de onda dos diagramas de
Capítulo 5: Caracterização de Perfis Típicos de Consumidores de Média Tensão
174 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
carga representativos. Foi, então, possível classificar os clientes com base num conjunto
de regras inteligíveis.
Com esta aplicação, o conjunto inicial de consumidores de MT foi separado em classes,
para cada um dos regimes de carga, sendo cada classe representada por um diagrama de
carga típico representativo e por um conjunto de regras de classificação. Estas regras
permitirão no futuro classificar os novos consumidores.
Os perfis típicos de consumo obtidos poderão ser usados como ferramenta de apoio às
empresas retalhistas de electricidade, na previsão dos encargos com a transmissão de
electricidade, e na formulação de novas opções tarifárias. O próximo capítulo aborda a
criação de novas opções tarifárias, com base nos perfis típicos de consumo
determinados.
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 175
6. APOIO AOS AGENTES DOS MERCADOS RETALHISTAS DE ENERGIA
ELÉCTRICA
Com a liberalização dos mercados de energia eléctrica, é proporcionado aos
comercializadores de electricidade um maior grau de liberdade no estabelecimento de
novas tarifas. Neste cenário, estes novos agentes actuam num contexto orientado para a
competitividade e para o lucro estando, por isso, interessados em formular estratégias de
mercado adequadas ao consumidor final. Neste capítulo, é apresentado uma previsão
dos custos de transmissão de electricidade, que as empresas comercializadoras terão
pelo abastecimento de energia eléctrica aos seus clientes. Com recurso aos perfis típicos
de consumo são, ainda, propostas novas opções tarifárias.
6.1 Introdução
Para os comercializadores de energia eléctrica, o conhecimento detalhado do
comportamento de consumo de electricidade dos seus clientes é essencial para o
desenvolvimento de opções tarifárias específicas, as quais deverão estar em sintonia
com o uso efectivo de electricidade dos vários tipos de consumidores. Deste modo, a
informação adequada acerca dos padrões de consumo dos clientes de electricidade
constitui um recurso relevante nos mercados retalhistas de energia eléctrica.
Tradicionalmente, as empresas comercializadoras de energia eléctrica utilizavam alguns
índices comerciais para desenvolver as tarifas de electricidade, tais como o tipo de
actividade, o nível de tensão, etc. Em ambiente típico de mercado, os retalhistas podem
caracterizar os seus próprios clientes, definindo classes de consumidores com base no
seu comportamento de consumo de energia eléctrica. Assim, a tarifa pode ser formulada
baseada na identificação da contribuição das diferentes classes de consumidores no total
da carga agregada.
No capítulo precedente, procedeu-se à caracterização dos consumidores de energia
eléctrica de média tensão, em que, a partir de uma determinada base de dados foram
determinadas 9 classes de consumidores, sendo cada classe representada por um
diagrama de carga típico representativo. Então, a partir da definição de índices de
forma, derivados dos diagramas de carga, procedeu-se à classificação dos consumidores
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
176 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
de electricidade com base no seu comportamento de consumo de energia eléctrica. No
presente capítulo, utilizou-se os diagramas de carga representativos de cada classe, para
apoio aos comercializadores na formulação das tarifas de electricidade.
6.2 Regulação do Sector Eléctrico
O processo de reestruturação do sector eléctrico, a decorrer em vários países, modificou
substancialmente o relacionamento tradicional entre produtores, distribuidores e/ou
grandes consumidores. Com efeito, verifica-se a tendência em estender a elegibilidade a
todos os consumidores de energia eléctrica, originando o aparecimento de empresas
comercializadoras, muitas das quais não detêm quaisquer redes de transporte ou
distribuição havendo, portanto, uma clara separação entre empresas produtoras,
actividades de transporte e distribuição e entidades comercializadoras.
Dada a impossibilidade de multiplicação de redes eléctricas numa mesma área
geográfica, devido a factores económicos e ambientais, as actividades de transporte e
distribuição de electricidade mantêm-se, geralmente, em regime de monopólio. Assim, o
mercado está presente nas relações entre produtores e empresas comercializadoras e/ou
grandes consumidores, bem como entre empresas comercializadoras e clientes finais de
energia eléctrica.
A regulação do sector eléctrico emerge neste ambiente de mercado liberalizado, devido
ao aparecimento de áreas em que existe competição e áreas onde a concorrência não se
verifica. Há, então, necessidade de estabelecer regras para o normal funcionamento de
uma dada actividade, nomeadamente evitar, por um lado, efeitos viciados e perversos
das actividades que actuam em regime de monopólio e, por outro, acompanhar o
funcionamento das entidades reguladas. Estas regras poderão estar relacionadas com:
• Níveis de qualidade de serviço;
• Custo dos serviços prestados;
• Penalidades por incumprimentos contratuais;
• Indemnizações a atribuir a clientes;
• Remunerações.
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 177
A regulação do sector eléctrico de um determinado país requer, cada vez mais, uma
harmonização com práticas regulatórias de outros países, caso contrário poderiam
verificar-se situações de concorrência desleal. Hoje em dia assiste-se a um verdadeiro
processo de internacionalização dos mercados de energia eléctrica (como por exemplo o
mercado Ibérico ou o NordPool). As interligações entre zonas geográficas contíguas
justificam-se, sobretudo, pelas necessidades comerciais em vez das tradicionais
necessidades de estabilidade e segurança dos sistemas. A coexistência dos mesmos
padrões de qualidade e das mesmas regras de mercado são factores preponderantes para
a criação de mercados integrados em diferentes zonas geográficas.
Do ponto de vista do comercializador de energia eléctrica, as estratégias adoptadas para
resolução do problema de alocação dos custos pela utilização das redes e, em adição, o
preço de venda de electricidade, contribuirão fortemente para o regime tarifário a
adoptar. Essas estratégias, bem como as formas regulatórias, deverão obedecer aos
seguintes princípios gerais:
• Transparência;
• Eficiência;
• Estabilidade;
• Simplicidade.
6.3 Identificação dos Custos
Os novos agentes comercializadores e intermediários (Brokers) necessitam de
inventariar os custos associados à compra, transporte e distribuição da energia eléctrica
fornecida aos seus clientes. A identificação do valor e tipo de custos a considerar deverá
ser clara e transparente de modo a permitir que todas as companhias sejam tratadas de
forma justa e semelhante.
Quer se compre electricidade em bolsa a empresas grossistas, ou directamente a
produtores, aquela necessita de ser veiculada pelas linhas de transporte – actividade de
transporte, e pelas redes de distribuição – actividade de distribuição. Existe, pois, uma
clara distinção entre estas duas actividades, geralmente exercidas em regime de
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
178 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
monopólio. Estas duas actividades são normalmente distinguidas pelo nível de tensão
das redes.
De uma forma sucinta, podem identificar-se alguns custos relacionados com a
actividade de transporte de energia eléctrica, nomeadamente custos de exploração
associados a perdas no transporte, custos de manutenção das redes, custos relativos a
congestionamento das redes obrigando a redespachos, custos de energia não fornecida,
custos com regulação de frequência, entre outros. O nível de tensão influencia
directamente os custos de transporte, dado que o custo por unidade de potência
transportada diminui à medida que o nível de tensão aumenta. Conforme a regulação
existente num dado país, a distância a que se encontram os consumidores poderá ser ou
não um factor a ter em conta nas parcelas de custos de transporte.
Os custos associados com a actividade de distribuição são considerados
fundamentalmente custos de exploração, manutenção e expansão das redes.
Identificados os custos a remunerar pelo uso geral das redes de transporte e/ou
distribuição, é agora necessário alocar esses custos pelos diversos agentes utilizadores
do sistema. Existem diversos métodos que podem ser utilizados para a realização dessa
alocação de custos, tais como os métodos embebidos, incrementais e marginais.
Não é objectivo deste trabalho identificar e descrever cada um dos métodos de alocação
dos custos de utilização das redes actualmente existentes. No entanto, para que o
comercializador de electricidade possa identificar quais os custos que irá ter pelo
abastecimento de uma determinada quantidade de energia eléctrica a um determinado
cliente de MT, e uma vez que aquele conhece a sua classe típica de consumo, usar-se-á
um método embebido, designadamente o método Selo de Correio – Postage Stamp,
descrito nas secções seguintes.
6.3.1 Método do Selo de Correio – Postage Stamp
O método do Selo de Correio será utilizado no caso em estudo desta dissertação para
alocar custos de transmissão de electricidade pelo uso das redes. Este método, com
origem nos Estados Unidos da América, foi originalmente estabelecido para contratos
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 179
de compra/venda de energia eléctrica entre duas entidades em que se envolvia uma rede
pertencente a uma terceira entidade. Inicialmente, essa terceira companhia alocava os
custos de transacção às duas companhias iniciais tendo em conta um determinado grau
de utilização das redes, resultante da transacção efectuada.
De um modo geral, a alocação destes custos pretende atribuir um custo de um
determinado serviço de transmissão de electricidade, ou seja, custos de exploração,
manutenção e de investimento nas redes, pagos pelos seus utilizadores, usando-se para o
efeito uma medida de uso dessa mesma rede.
Com a utilização deste método supõe-se que todo o sistema de transporte ou
distribuição é usado de igual forma por todos os agentes aquando das transacções.
Independentemente da localização dos pontos de injecção e de consumo de energia
eléctrica, todo o sistema eléctrico é afectado de forma uniforme por uma determinada
transacção. Assim, não existem diferenças nos custos associados a transacções entre
utilizadores situados a poucas dezenas de quilómetros de distância ou a centenas de
quilómetros.
Este método é de simples aplicação, embora não faça uma verdadeira justiça (em termos
de custos) aos utilizadores das redes que não sejam responsáveis por congestionamentos
e perdas ou que se encontrem localizados em zonas muito próximas do ponto de
injecção de energia eléctrica. No entanto, para uma mesma zona geográfica oferece uma
igualdade de alocação de custos a todos os utilizadores das redes, independentemente da
sua localização, garantindo uma igualdade de tratamento a todos os agentes sem que a
localização geográfica seja, por isso, considerada um privilégio. Habitualmente, este
tipo de método é implementado em zonas com reduzidas extensões geográficas.
O valor da tarifa a pagar por um agente ou transacção, que use as redes de transmissão
em causa, corresponderá ao quociente entre o custo total regulado da actividade de
transmissão pelos vários utilizadores usando uma medida de uso que retrate a utilização
que cada um dos utilizadores faz da rede. Essa medida de uso poderá corresponder à
energia (ou potência) produzida ou consumida por um determinado agente. A expressão
6.1 fornece o valor da tarifa a ser paga por uma qualquer entidade:
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
180 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
)./(€)/(€ hMWouMWPCTTFTotal
= [6.1]
Na expressão 6.1:
TF – expressa o valor da tarifa a pagar por um determinado agente que utilize a rede de
transmissão de energia eléctrica (€/MW) ou (€/MW.h);
CT – representa o custo total de transmissão da actividade de transporte ou distribuição,
da entidade envolvida (€);
PTotal – expressa o valor total da medida do uso da rede, contabilizada num determinado
período (MW) ou (MW.h).
Daqui, um agente que use uma determinada rede de transmissão, alvo de análise, sendo
essa utilização medida pelo valor Pk, pagará o custo total de transmissão CTk fornecido
pela expressão 6.2, reflectindo o custo de utilização da rede de transmissão de energia
eléctrica.
(€)Total
kkk P
PCTTFPCT ×=×= [6.2]
Dada a sua simplicidade de aplicação, este método foi adoptado por vários países
europeus no âmbito da liberalização do sector eléctrico. Uma vez escolhido o valor da
grandeza que mede o uso da rede, a tarifa é aplicada independentemente dos locais de
injecção e consumo de electricidade, o que lhe confere uma elevada simplicidade.
Todos os nós da rede de transmissão de energia eléctrica são tratados de forma idêntica,
em termos de custos, originando uma uniformização tarifária em toda a zona geográfica
considerada.
Porém, não permite distinguir consumidores situados a 8 ou 80 km de distância, dado
que as perdas serão geralmente diferentes, não sendo correcto atribuir a esses dois
utilizadores o mesmo custo de transmissão. Em adição, dado não haver discriminação
de custos de uso das redes, não haverá por isso uma informação de sinais de utilização
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 181
das mesmas, por zonas geográficas, podendo inviabilizar investimentos nas redes das
zonas mais necessitadas, de forma a proporcionar melhores condições de operação.
Sempre que se verifique que os sistemas de transmissão de energia eléctrica se
encontram bem dimensionados, não sendo os custos de congestionamentos e perdas
significativos, com a aplicação desta metodologia de alocação de custos, haverá pouca
discriminação económica entre os agentes, sob o ponto de vista geográfico.
Com base na caracterização e classificação das classes típicas de consumo de energia
eléctrica de MT, abordadas no capitulo anterior, e com recurso à aplicação do método
do Selo de Correio para identificar e alocar os custos de uso das redes de transporte ou
distribuição, por parte dos retalhistas, a fim de satisfazer a necessidades energéticas dos
seus clientes, será proposto na secção seguinte um caso de estudo para determinar os
encargos que uma empresa comercializadora de electricidade teria para abastecer um
novo cliente de MT, no qual conhece o seu padrão típico de consumo e,
consequentemente, a sua classe típica de consumo de electricidade.
Desta forma, com o conhecimento dos encargos que a companhia terá com o
abastecimento e transmissão de energia eléctrica, através das redes de transporte ou
distribuição, os agentes de mercado retalhistas de electricidade estarão numa situação
privilegiada para formular tarifas competitivas e adequadas ao padrão de consumo dos
seus clientes.
6.4 Caso de Estudo
6.4.1 Introdução
No capítulo anterior estudou-se a caracterização de perfis típicos de consumidores de
energia eléctrica de média tensão. Com base numa amostra proveniente de uma
campanha de medição, determinaram-se os perfis típicos de consumo de cada
consumidor e, com utilização de técnicas de Data Mining, fez-se o agrupamento desses
perfis em classes, segundo uma medida de similaridade. As figuras 6.1 e 6.2 retratam as
9 classes encontradas para os dias úteis e para os dias de fim-de-semana,
respectivamente (ver secção5.6.4).
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
182 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Figura 6.1 – Perfis típicos de consumo para os Dias Úteis
Figura 6.2 – Perfis típicos de consumo para Fim-de-Semana
Conhecendo-se o perfil típico de consumo de cada uma das classes e em cada um dos
regimes, calcularam-se as curvas de custo de uso das redes, para cada uma dessas
classes, com recurso ao método do Selo de Correio. Pretendeu-se, assim, identificar os
custos associados à transmissão de energia eléctrica que os comercializadores teriam
com os seus diversos clientes de MT, pertencentes a cada uma das classes previamente
definidas.
Com os resultados do modelo de classificação de novos consumidores pretendeu
mostrar-se de que forma esses resultados podem ser usados para modificar as tarifas de
electricidade existentes fixando-se, convenientemente, coeficientes de unidade
monetária para cada uma das classes.
Clusters - Dias Úteis
0,000000
0,100000
0,200000
0,300000
0,400000
0,500000
0,600000
0,700000
0,800000
0,900000
1,000000
1 3 5 7 9 11 13 15 17 19 21 23
Tempo (h)
Pot.n
orm
.
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Cluster 6
Cluster 7
Cluster 8
Cluster 9
Clusters - Fim-de-Semana
0,000000
0,100000
0,200000
0,300000
0,400000
0,500000
0,600000
0,700000
0,800000
0,900000
1,000000
1 3 5 7 9 11 13 15 17 19 21 23
Tempo (h)
Pot.n
orm
.
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Cluster 6
Cluster 7
Cluster 8
Cluster 9
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 183
Das várias opções tarifárias de electricidade existentes, estas distinguem-se pelo seu tipo
de utilização, ou seja, a tarifa poderá ser a mesma independentemente do instante de
consumo, ou poderá ter variação do preço da energia eléctrica, conforme o instante de
consumo, se em horas de ponta, cheias ou de vazio. São, também, distinguidas pelo seu
nível de tensão.
Em Portugal, no caso da Média Tensão, as opções tarifárias são escolhidas com base no
número de horas de consumo por ano, podendo os clientes optarem por tarifas Tri ou
Tetra-horárias, havendo distinção entre curtas, médias ou longas utilizações. A estrutura
das tarifas de venda de energia eléctrica a clientes finais de MT, pelos distribuidores
vinculados e definida pela ERSE, é composta pelo termo fixo (preços de contratação,
leitura, facturação e cobrança), preços de potência contratada, preços da potência em
horas de ponta, preços da energia activa e reactiva.
No sistema de mercado, as empresas comercializadoras, quando solicitadas pelos
consumidores de MT que pretendem mudar de fornecedor de energia eléctrica, ao
elaborarem as suas propostas de venda de electricidade, fazem uma caracterização
prévia do consumo de energia eléctrica do seu cliente, com base numa análise extensiva
da informação normalmente cedida por esses. Usualmente, essa caracterização refere o
montante de consumo de energia activa anual, o valor da potência contratada, o ciclo
horário (diário ou semanal), o valor da potência média em horas de ponta e a
percentagem da energia nas horas de ponta, cheias e vazio.
Após a caracterização do consumo, e conhecendo, deste modo, o padrão típico de
consumo do seu cliente, o comercializador fornece o preço final para o fornecimento de
energia eléctrica para cada um dos períodos (horas de ponta, cheias e vazio).
Adicionalmente, englobam, ainda, a componente das redes, definida pela ERSE para
aplicação a Clientes Não Vinculados (CNV) em MT. Esta componente compreende o
Termo Fixo, o preço da potência contratada, preço da potência em horas de ponta e o
preço do Uso Geral do Sistema para cada um dos períodos horários. Finalmente, poderá
ainda acrescer o valor da energia reactiva consumida ou fornecida que esteja dentro dos
limiares da regulação vigente.
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
184 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
6.4.2 Determinação das Curvas de Custo de Uso das Redes
Partindo das classes de consumo definidas pelas figuras 6.1 e 6.2 pretende-se, agora,
obter um conjunto de curvas que, associadas a cada uma das classes, representem e
caracterizem o encargo com a transmissão da energia eléctrica que as empresas
comercializadoras terão para um qualquer consumidor que pertença a uma das classes
propostas. Para tal, foi usado o método do Selo de Correio, descrito na secção 6.3.1.
Assim, o vector dos diagramas de carga representativo de cada classe foi multiplicado
por um coeficiente (α) que reflecte o custo da transmissão de energia eléctrica em cada
um dos períodos horários. A tabela 6.1 mostra os coeficientes utilizados para cada um
dos períodos horários. A escolha destes índices envolveu a opinião de peritos,
nomeadamente das empresas comercializadores de energia eléctrica operando em
Portugal.
Tabela 6.1 – Coeficientes da Tarifa de Uso Global do Sistema
Uso Global do Sistema
Horas de Ponta
(u.m./kW.h)
Horas Cheias
(u.m./kW.h)
Horas de Vazio
(u.m./kW.h)
α1 = 0,0086 α2 =0,0083 α3 =0,0082
u.m. – Unidade monetária
Em cada uma das classes obtidas é conhecido o número de consumidores que as
compõe, bem como a identificação inicial do respectivo cliente. É, pois, possível
recuperar os valores inicias de potência registados para cada consumidor.
Com a definição do número e tipo de classes e, consequentemente, com a informação de
como e quando os consumidores utilizam a electricidade, as empresas distribuidoras e
comercializadoras de energia eléctrica podem determinar o encargo que irão ter para
abastecer esses consumidores.
Assim, e numa primeira aproximação, foi proposto a determinação das curvas de custo
de transmissão da energia eléctrica para cada uma das classes. Desta forma, e
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 185
negligenciando outro tipo de encargos que influenciam o preço final da electricidade,
tais como, margem de lucro das empresas, encargos das empresas, etc., o estudo foi
direccionado para a determinação do custo que as empresas retalhistas de energia
eléctrica teriam no abastecimento de electricidade aos seus clientes.
No presente estudo de determinação de custos de transmissão de energia eléctrica, assim
como na posterior apresentação de novos planos tarifários, analisaram-se os 9 perfis
obtidos no capítulo anterior. Dado que este estudo se processa de modo análogo para
cada uma das classes, e de forma a não tornar a apresentação demasiado repetitiva e
exaustiva, é apresentado um estudo para uma classe. A título de exemplo, é apresentado
o estudo feito para o cluster 2.
O cluster 2 é formado por 30 consumidores de energia eléctrica de MT. Conforme já
demonstrado na secção 5.7.1, a atribuição de tarifários com base no código de
actividade não é o mais indicado, dado que essa classificação tem pouco a ver com o
padrão de consumo. Os clientes pertencentes a este cluster apresentaram, na sua
maioria, tarifas de médias utilizações. Apenas em um consumidor foi detectada uma
tarifa de longas utilizações (cliente n.º 94). A figura 6.3 apresenta os diagramas
representativos do consumo de potência para cada um desses consumidores.
Figura 6.3 – Diagramas de consumo de potência para os clientes do cluster 2 – Dias Úteis
0,000
500,000
1000,000
1500,000
2000,000
2500,000
0:00
1:00
2:00
3:00
4:00
5:00
6:00
7:00
8:00
9:00
10:00
11:00
12:00
13:00
14:00
15:00
16:00
17:00
18:00
19:00
20:00
21:00
22:00
23:00
Tempo (h)
Potê
ncia
(kW
)
8 9 22 30 40 41 47 58 67 68 75 78 81 87 88 94116 128 137 143 146 150 154 156 158 168 193 194 206 207
Clientes:
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
186 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Com a utilização dos preços de Uso Global de Sistema (UGS) foi calculado o encargo
que uma empresa comercializadora teria com o abastecimento de energia eléctrica. Para
tal, considerou-se a expressão 6.1. Antes do cálculo do encargo com a transmissão de
electricidade foi determinado o valor da energia consumida para cada um dos clientes.
Assim, e com base na figura 6.3, calcularam-se as áreas de cada diagrama obtendo-se,
deste modo, o valor da energia consumida por cada um deles num período de um dia. É
de salientar que o valor do preço de transmissão de energia eléctrica depende da hora de
consumo (se em horas de ponta, cheias ou vazio), pelo que, e para cada um desses
períodos horários19, foi distinguido o custo de transporte/distribuição de electricidade. A
tabela B.8 do anexo B ilustra parte de uma folha de cálculo utilizada para a
determinação da energia eléctrica consumida, bem como o preço pela transmissão dessa
mesma energia.
Após a realização dos cálculos correspondentes à determinação do encargo com a
energia eléctrica transmitida a cada cliente (numa base diária), extraíram-se as curvas
representadas na figura 6.4. Estas curvas correspondem ao custo de transmissão de
electricidade para cada cliente que as empresas retalhistas (ou consumidores) terão de
remunerar às empresas detentoras das redes.
Figura 6.4 – Variação do preço de transmissão de electricidade para os clientes do cluster 2 – Dias Úteis
19 Na definição dos períodos horários utilizaram-se os definidos no tarifário de venda de energia eléctrica a clientes finais (ERSE, 2004b), ciclo diário e no período de hora legal de Inverno.
0,000
2,000
4,000
6,000
8,000
10,000
12,000
14,000
16,000
18,000
0:00
1:00
2:00
3:00
4:00
5:00
6:00
7:00
8:00
9:00
10:00
11:00
12:00
13:00
14:00
15:00
16:00
17:00
18:00
19:00
20:00
21:00
22:00
23:00
Tempo (h)
u.m
./kW
.h
8 9 22 30 40 41 47 58 67 68 75 78 81 87 88
94 116 128 137 143 146 150 154 156 158 168 193 194 206 207
Clientes:
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 187
Assim, sabendo-se os encargos de transmissão de energia eléctrica de todos os
consumidores pertencentes à classe 2, o encargo total do cluster corresponderá ao
somatório dos encargos individuais de cada consumidor. A figura 6.5 representa a curva
correspondente ao encargo de transmissão de energia eléctrica que um comercializador
terá pelo abastecimento de electricidade aos clientes pertencentes a essa classe.
Figura 6.4 – Variação do preço de transmissão de electricidade para o cluster 2 – Dias Úteis
Com este tipo de informação, as empresas retalhistas de electricidade conhecerão, por
um lado, como irá ser o encargo com a transmissão de energia eléctrica aos seus
consumidores e, por outro, poderão oferecer novas opções tarifárias, com base no perfil
típico de consumo dos seus clientes, previamente definido.
A secção seguinte propõe a utilização dos perfis típicos de consumo, para o estudo das
margens de actuação que as empresas retalhistas poderão aproveitar, na oferta de novas
opções tarifárias, adaptadas a cada tipo de perfil encontrado.
6.4.3 Opções para Melhorar a Oferta de Tarifas
Nesta secção, mostrou-se de que forma os perfis de consumo obtidos podem ser usados
para oferecer novas opções tarifárias. Actualmente, as tarifas de energia eléctrica podem
ser divididas em:
0,000
10,000
20,000
30,000
40,000
50,000
60,000
70,000
80,000
90,000
100,000
0:00
1:00
2:00
3:00
4:00
5:00
6:00
7:00
8:00
9:00
10:00
11:00
12:00
13:00
14:00
15:00
16:00
17:00
18:00
19:00
20:00
21:00
22:00
23:00
Tempo (h)
u.m
./kW
.h
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
188 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
• Tarifa única: O preço da electricidade é independente do instante de consumo;
• Múltiplas-tarifas: Com diferentes preços de energia para horas de ponta, cheias
e vazio.
Neste estudo, considerou-se a análise tarifária de um determinado consumidor
(pertencente a uma determinada classe), com base nos preços praticados no tarifário em
vigor de venda de energia eléctrica a clientes finais (ERSE, 2004b). Pelas razões já
apontadas na secção anterior, apenas será demonstrado um caso de exemplo para uma
classe, sendo que, para as restantes classes o processo se repete de igual modo.
Procedeu-se ao cálculo do preço de consumo da energia activa, para o período de um
dia, de um dado cliente pertencente ao cluster 2 (ignorando-se outros tipos de preços
que não têm uma relação significativa na potência consumida, tais como termo tarifário
fixo, etc.). Com base no perfil típico de consumo do cluster a que esse cliente pertence,
foi elaborada uma opção tarifária a oferecer, não apenas a esse cliente em estudo, mas a
todos os clientes pertencentes ao cluster 2. O presente estudo foi elaborado com base
em estudos similares, designadamente em Chicco (Chicco, 2001a e Chicco 2003a).
Deste modo, o cliente n.º 8 do cluster 2 foi seleccionado para estudo. Com base na
energia consumida por este cliente, foi calculado o preço de electricidade consumida,
para o período de um dia, utilizando-se os preços do tarifário a clientes finais. A figura
6.5 ilustra a curva do tarifário em vigor a clientes finais, com distinção de três períodos,
horas de ponta, cheias e de vazio (C1, C2 e C3, respectivamente).
Figura 6.5 – Variação típica do preço de energia eléctrica para o tarifário existente
0,000
0,020
0,040
0,060
0,080
0,100
0,120
0,140
0,160
0,180
0:00
1:00
2:00
3:00
4:00
5:00
6:00
7:00
8:00
9:00
10:00
11:00
12:00
13:00
14:00
15:00
16:00
17:00
18:00
19:00
20:00
21:00
22:00
23:00
Tempo (h)
u.m
./kW
.h
C3
C2
C1
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 189
A partir do valor de energia eléctrica consumida por este cliente foi calculado o preço
pelo consumo dessa energia. A figura 6.6 apresenta a variação da energia eléctrica
consumida pelo cliente 8 em análise.
Figura 6.6 – Variação do consumo de energia eléctrica do cliente 8 ao longo de um dia
Em função do perfil típico de consumo do cluster 2 (ao qual pertence o cliente 8), foi
proposta uma nova opção tarifária, a sugerir a todos os clientes pertencentes a esse
cluster. A figura 6.7 relembra o perfil típico de consumo do cluster 2 em análise,
extraído do estudo de perfis de consumidores do capítulo precedente (secção 5.6.4).
Figura 6.7 – Perfil típico de consumo do cluster 2 para Dias Úteis
Assim, foi proposto uma opção tarifária com base no perfil típico de consumo. A nova
opção tarifária assume dois preços para o consumo de energia C1 e C2. O cálculo de C1 e
C2 foi efectuado, de forma a manter o valor total do preço de consumo de energia
0,000
200,000
400,000
600,000
800,000
1000,000
1200,000
1400,000
0:00
1:00
2:00
3:00
4:00
5:00
6:00
7:00
8:00
9:0010
:0011
:0012
:0013
:0014
:0015
:0016
:0017
:0018
:0019
:0020
:0021
:0022
:0023
:00
Tempo (h)
kW.h
Clusters - Dias Úteis
0,000000
0,100000
0,2000000,300000
0,400000
0,500000
0,600000
0,7000000,800000
0,900000
1,000000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Tempo (h)
Potê
ncia
(p.u
.)
Cluster 2
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
190 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
eléctrica, previamente calculado para o cliente 8, mas aplicado agora ao cluster.
Fixando-se o valor de C1, determina-se C2, ou vice-versa, através da seguinte expressão:
.).().(.)(. 21 mupicohforahkWCpicohorashkWCPREÇO ×+×= [6.3]
u.m. – unidades monetárias
A figura 6.8 apresenta a variação do preço de energia com a nova tarifa proposta.
Conforme se pode observar na figura, esta opção tarifária adapta-se ao perfil típico de
consumo do cluster 2. Com esta tarifa, o comercializador incentiva os seus clientes a
modificar os hábitos de consumo de electricidade para horários onde o preço da energia
eléctrica é mais atractivo.
Os intervalos de tempo t1 e t2, que correspondem às horas de pico, foram definidos
tendo em conta o perfil típico do cluster 2. No entanto, podem ser definidos outros
intervalos de tempo para este período de pico, necessitando de se recalcular os preços de
C1 e C2. Assim, foram calculados novos valores de C1 e C2 para diferentes períodos de
horas de pico.
Figura 6.8 – Nova estrutura tarifária para os clientes do cluster 2
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0:00
1:00
2:00
3:00
4:00
5:00
6:00
7:00
8:00
9:00
10:00
11:00
12:00
13:00
14:00
15:00
16:00
17:00
18:00
19:00
20:00
21:00
22:00
23:00
Tempo (h)
u.m
./kW
.h
C2
C1
t1 t2
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 191
A figura 6.9 apresenta a localização dos resultados obtidos para os pares de valores C1 e
C2, para diferentes períodos de pico, nomeadamente para os intervalos de tempo entre
[8:00 ; 16:00h] e para [9:00 ; 15:00h].
Figura 6.9 – Localização dos coeficientes de preços para rendimentos totais constantes
Na figura 6.9 são representados os limites das tarifas, dentro dos quais as empresas
retalhistas têm algum grau de liberdade para modular os coeficientes de taxa (C1 e C2),
mantendo os preços globais de venda da energia eléctrica anteriormente calculados.
Deste modo, os clientes do cluster 2, que até então tinham uma tarifa com 3 preços
distintos de aquisição de electricidade, passam, agora, a ter dois diferentes preços de
energia eléctrica. Assim, a tarifa proposta foi tida em conta com o padrão típico de
consumo, e não em função do código de actividade comercial, do valor da potência
contratada ou de outro tipo tradicional de caracterização do cliente.
Uma visão dinâmica na opção de novas tarifas faz com que a escolha dos novos
coeficientes de preços (C1 e C2) dependa dos efeitos que as novas estruturas tarifárias
terão nos padrões de consumo dos clientes. De certo modo, uma tarifa “à medida” do
cliente, e em consideração com o seu perfil de consumo, pode aumentar os lucros das
empresas retalhistas de electricidade. Estes tipos de tarifas são ajustados para
satisfazerem um grupo de consumidores (consumidores pertencentes à mesma classe), e
não um único consumidor, pois tal seria economicamente inviável, tanto para o
comercializador como para o consumidor.
0,0000
0,0500
0,1000
0,1500
0,2000
0,2500
0,0200 0,0250 0,0300 0,0350 0,0400 0,0450 0,0500 0,0550
C1 (
u.m
./kW
.h)
C2 (u.m./kW.h)
t1=8:00h t2=16:00h
t1=9:00h t2=15:00h
Capítulo 6: Apoio aos Agentes dos Mercados Retalhistas de Energia Eléctrica
192 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Neste capítulo, foram determinadas as curvas correspondentes ao encargo de
transmissão de energia eléctrica, que as empresas distribuidoras e comercializadoras
terão de ter em conta, aquando da apresentação de propostas de venda de electricidade
aos seus novos clientes. O conhecimento do montante de energia eléctrica que os
clientes consomem e, em adição, o conhecimento de como e quando esse consumo
ocorre permitiu, ainda, a definição de novas opções tarifárias.
A definição de novas opções tarifárias teve em conta o perfil típico de consumo da
classe a que os clientes pertencem. Com efeito, recorrendo-se à caracterização dos perfis
típicos de consumo, foram propostas novas opções tarifárias, “à medida” do consumo
dos clientes, tendo-se proposto dois pares de preços (C1 e C2) para, respectivamente,
horas de pico e horas fora de pico. Foram, ainda, calculados vários pares de preços para
dois períodos de tempo, de forma a proporcionar maior liberdade de actuação às
empresas comercializadoras na escolha de novas opções tarifárias.
Capítulo 7: Conclusões
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 193
7. CONCLUSÕES
Neste capítulo, são apresentados os resultados obtidos ao longo do trabalho e as
conclusões finais, decorrentes desses resultados. São, ainda, apresentadas algumas
directrizes para trabalho futuro, de forma a melhorar e complementar o estudo encetado
nesta dissertação.
7.1 Objectivos Alcançados
O objectivo principal desta dissertação visou apoiar os agentes dos mercados retalhistas
de energia eléctrica na obtenção do conhecimento dos hábitos de consumo dos seus
clientes, bem como utilizar esse conhecimento para definir novas opções tarifárias. O
estudo incidiu em consumidores de energia eléctrica de Média Tensão (MT). Para
caracterizar esses consumidores utilizaram-se técnicas de Data Mining (DM).
Para a concretização do primeiro objectivo, a caracterização dos perfis típicos de
consumidores, foi necessário ter disponível uma amostra de dados que serviu de base ao
trabalho desenvolvido. Assim, foi disponibilizada pela EDP-Distribuição uma amostra
de dados resultante de uma campanha de recolha de informação ocorrida nos anos
noventa do século passado.
Neste trabalho, dada a utilização de técnicas de DM, foi realizado um estudo do estado
da arte nesta área, tendo sido apresentadas as técnicas e operações mais utilizadas. Além
do conceito de DM, foi, ainda, introduzida a noção de Descoberta de Conhecimento em
Bases de Dados (DCBD). A descrição das principais tarefas e técnicas de DM pretendeu
elucidar as opções feitas, ao longo deste trabalho, na escolha dos modelos
seleccionados.
Na determinação dos perfis típicos de consumo, foi desenvolvida e aplicada uma
metodologia assente no processo de DCBD, apresentada ao longo do capítulo 2. Com a
implementação desta metodologia pretendeu-se, assim, organizar de forma estruturada
as etapas, procedimentos e técnicas a adoptar em todo este processo.
Em cada uma dessas etapas foram evidenciados os critérios para a definição de uma
amostra, bem como o trabalho referente ao manuseamento dos dados (limpeza e
Referências
194 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
filtragem de dados, estimação de dados em falta, normalização e redução do volume de
dados). Os procedimentos e técnicas adoptados em cada uma das etapas, e pertencentes
ao processo de DCBD, foram baseados em trabalhos similares realizados nesta área de
investigação.
A aplicação da metodologia de DCBD na tarefa de determinação e caracterização dos
perfis de consumo de energia eléctrica constituiu a primeira aplicação prática deste
trabalho. Partindo-se de uma amostra de dados, em que foram monitorizados 229
clientes de MT, durante um determinado período de tempo no Verão e no Inverno,
foram registadas as potências activas consumidas com uma cadência de 15 minutos.
Foram, ainda, disponibilizados outro tipo de informações, tais como a identificação do
código de actividade comercial, as energias activas mensais consumidas e o valor da
potência contratada.
Aquando do tratamento dos dados, foram detectados registos de potência activa em
falta. Para valores de potência em falta, com sequências iguais ou inferiores a 1 hora, a
estimação desses valores foi feita através de interpolação. Para sequências de registos
em falta superiores a 1 hora, foi usada uma rede neuronal. A utilização da rede neuronal,
como forma de estimação de valores de potência consumida, revelou-se uma ferramenta
profícua, dado que os valores estimados acompanharam a tendência de consumo até
então verificada.
Com todos os dados completos, seguiu-se a redução do seu volume e a posterior
normalização. A redução do volume de dados foi feita tendo em conta o conhecimento
de como o consumo de electricidade é influenciado pelos dias de semana. Assim,
distinguiram-se dois regimes de carga, um para dias úteis, outro para fins-de-semana. A
redução do volume de dados assume uma importância vital, nesta fase de pré-
processamento dos dados, uma vez que, ao reduzir-se o seu volume, o esforço
computacional diminui substancialmente. A importância da normalização dos dados é
fundamentada pela necessidade de se comparar a forma dos diagramas de carga
representativos de cada consumidor. O factor de normalização foi criteriosamente
escolhido tendo em conta os objectivos a alcançar (comparação da forma dos
diagramas), de maneira a minimizar as perdas de informação.
Capítulo 7: Conclusões
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 195
Aquando da operação de clustering, não foi detectada grande influência de valores
isolados, pelo que se poderá concluir que a fase preliminar de limpeza e tratamento dos
dados foi eficiente.
Seguidamente, foi desenvolvido um modelo para determinação dos perfis típicos de
consumo. O número máximo de classes escolhido foi de 9. Com a aplicação de modelos
baseados na análise de Clusters utilizaram-se diferentes algoritmos de clustering. A
escolha do algoritmo mais adequado requereu uma análise comparativa do seu
desempenho. Para tal, foram usados dois índices, Mean Índex Adequacy (MIA) e
Cluster Dispersion Índex (CDI), que permitiram analisar o desempenho dos algoritmos
no agrupamento dos dados em classes, segundo uma medida de similaridade. Concluiu-
se que, para o volume de dados em estudo, o algoritmo que apresentou melhor
desempenho foi o K-Means.
No entanto, dado que um dos algoritmos em análise, o Two-Step Cluster Analysis, foi
desenvolvido para aplicação a bases de dados de elevada dimensão, e havendo a
tendência para que todos os clientes de MT tenham contagem em tempo real, logo
havendo grandes quantidades de dados para análise, optou-se pela escolha deste
algoritmo. A selecção deste algoritmo foi baseada numa perspectiva futura de análise de
grandes quantidades de bases de dados, e não apenas pela observação da amostra em
estudo.
Por observação dos diagramas de carga normalizados, concluiu-se que o algoritmo
executou uma correcta separação das classes. Com efeito, a diferença da forma dos
diagramas é perfeitamente visível para os dois regimes de carga.
Verificou-se, ainda, haver uma pobre correlação entre as classes obtidas e o código de
actividade comercial, bem como com a potência contratada. Conclui-se, assim, que a
separação dos consumidores por classes através desta informação comercial é
incorrecta.
Finalmente, foi necessário construir um modelo de classificação que, aplicado a registos
não classificados, os classificasse em classes. Para isso, foi usada uma Árvore de
Decisão (algoritmo C5.0) que, para além de proporcionar uma representação gráfica de
Referências
196 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
como os dados foram categorizados, proporcionou, também, regras de classificação.
Para que essas regras tivessem interpretabilidade, foram usados índices de forma
extraídos dos diagramas. O modelo de classificação mostrou-se muito eficiente na
classificação de novos registos, dado que a exactidão do modelo obtida foi de 94,83%
para os dias úteis e 95,45% para os fins-de-semana.
O segundo objectivo deste trabalho foi o de auxiliar as empresas retalhistas na
elaboração de novos tarifários e no conhecimento dos encargos com a transmissão de
energia eléctrica. Antes de se proceder a esse estudo, foram apresentadas as
modalidades para transaccionar a energia eléctrica em ambiente de mercado.
Identificaram-se os novos agentes participantes e os novos modelos de mercados.
Foram, ainda, identificados novos tipos de contratos e comentada a importância da
instalação de aparelhos de medição em tempo real, no processo de liberalização do
sector eléctrico.
Após a caracterização dos perfis de consumo dos clientes de MT, foi calculada a energia
consumida por cada classe. Com base no método do Selo de Correio, foram calculados
os encargos de transmissão de energia eléctrica que as empresas retalhistas terão para
abastecer um conjunto de clientes de uma dada classe. O conhecimento deste encargo
constitui, para empresas comercializadoras, uma melhor gestão da compra/venda de
energia eléctrica.
Finalmente, foram definidas novas opções tarifárias, tendo em conta o perfil típico de
consumo da classe a que os clientes pertencem. Foram propostas novas opções
tarifárias, “à medida” do consumo dos clientes. Foram propostos dois pares de preços
(C1 e C2) para horas de pico e horas fora de pico, respectivamente. Foram, também,
calculados pares de preços para dois períodos de tempo, de forma a proporcionar maior
liberdade de actuação às empresas comercializadoras na escolha de novas opções
tarifárias. Na escolha destes pares de preços teve-se o cuidado de manter o custo de
energia eléctrica total, se se tivessem usado os preços do tarifário de venda a clientes
finais em vigor.
Podemos concluir que o trabalho apresentado e desenvolvido nesta dissertação poderá
constituir um contributo para as empresas comercializadoras na criatividade de novos
Capítulo 7: Conclusões
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 197
serviços, adaptáveis aos consumidores, de modo a melhorar a sustentabilidade dos
processos de negócio da energia eléctrica.
Com recurso a técnicas de Data Mining, caracterizaram-se os perfis de consumo dos
clientes de média tensão. Como contributo da implementação da metodologia de
cararcterização de perfis de consumidores de energia eléctrica adoptada, pode ser
apontada a utilização de uma rede neuronal para estimação dos valores de potência em
falta.
A obtenção dos perfis típicos de consumo, de cada classe de consumidores de média
tensão, bem como a obtenção das regras de classificação para esse caso de estudo são,
também, contributos deste trabalho.
Finalmente, e como contributos finais, utilizou-se o conhecimento obtido da
caracterização dos consumidores no estabelecimento de novas opções tarifárias. O
estabelecimento de novas estruturas tarifárias para cada classe de consumidores teve em
conta o perfil de consumo dessa mesma classe. A definição de novas estratégias de
mercado, que advém do conhecimento obtido com o tratamento dos dados, podem
contribuir para o sucesso da implementação dos mercados retalhistas de electricidade.
7.2 Perspectivas Futuras
Nesta secção, pretende-se apresentar um conjunto de novas direcções, de forma a
potenciar o presente trabalho.
De forma a melhorar os resultados do trabalho de caracterização de consumos de
energia eléctrica será necessário aumentar o período de monitorização, idealmente por
um ano de duração, de forma a percorrer todas as estações do ano e aumentar a
dimensão da amostra.
A recolha de informação adicional, que influencia o consumo de electricidade, tal como
as condições atmosféricas, ocorrência de eventos extraordinários, condições térmicas
dos edifícios e ocorrência de férias, optimizará a caracterização de perfis de consumo.
Referências
198 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
Os modelos que incorporem este tipo de informação serão mais precisos na estimação
do consumo de energia eléctrica.
A evolução das tecnologias de informação e a colocação de aparelhagem de medida em
tempo real permitirão a obtenção de maior volume de dados actualizados, permitindo
melhorar e actualizar a caracterização dos perfis de consumo desses consumidores.
Melhorando a caracterização dos perfis de consumo, as empresas distribuidoras e
comercializadoras de energia eléctrica poderão propor tarifas mais competitivas e
aperfeiçoar o conhecimento dos hábitos de consumo dos seus clientes.
Referências
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 199
REFERÊNCIAS
(Allera, 1990) Allera, S.V., Alcock, N.D. & Cook A.A., “Load Research in a Privatised Electricity Supply Industry”, Sixth International Conference, United Kingdom, 3-5 April 1990.
(Azevedo, 2002) Azevedo, F., “Apoio à Decisão para o Estabelecimento de
Contratos no Mercado Competitivo da Electricidade”, Tese de Dissertação de Mestrado, FEUP, Dezembro, 2002.
(Azevedo, 2003) Azevedo, F., Vale, Z. & Almeida do Vale, A. “Decision-
Support Tool for the Establishment of Contracts in the Electricity Market”, IEEE Bologna Power Tech 2003, Bolonha, Itália, 23 a 26 de Junho, 2003.
(Bompard, 2001) Bompard, E., Carpaneto, E., Chicco, G. & Napoli, R.,
“Computation and uses of the energy flows for the distribution system analysis over time intervals”, Proc. IEEE Porto Power Tech Conference, paper PTT-238, Porto, Portugal, September, 2001.
(Brasek, 2005) Brasek, C., “Wireless Energy: Utilities are Warming to
Wireless Automatic Meter Reading”, IEE Power Engineer, December/January, pp. 32-35, 2004/05.
(Cabena et al, 1997) Cabena, P., et al., “Discovering Data Mining: from Concept
to Implementation”, New Jersey: Prentice Hall, 1997.
(Cardoso, 2001) Cardoso, J.M. & Madureira, M.J., “Reestruturação do Sector
Eléctrico”, Projecto final de Licenciatura, ISEP, Julho, 2001.
(Carpaneto, 2003) Carpaneto, E., Chicco, G., Napoli, R. & Scutariu, M.,
“Customer Classification by Means of Harmonic Representation of Distinguishing Features”, in Proc. IEEE Bologna Power Tech Conference, Bologna, Italy, June, 2003.
(Chicco, 2003a) Chicco, G., Napoli, R., Postulache, P., Scutariu, M. &
Toader, C., “Customer Characterization Options for Improving the Tariff Offer”, in IEEE Transactions on Power Systems, Vol, 18, nº 1, February, pp. 381-387, 2003.
Referências
200 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
(Chicco, 2003b) Chicco, G., Napoli, R. & Piglione, F., “Application of Clustering Algorithms and self Organising Maps to Classify Electricity Customers”, in Proc. IEEE Bologna Power Tech Conference, Bologna, Italy, June, 2003.
(Chicco, 2002) Chicco, G., Napoli, R., Piglione, F., Postulache, P., Scutariu,
M. & Toader, C., “Options to Classify Electricity Customers”, Proc. MedPower 2002 Conference, Athens, Greece, November, 2002.
(Chicco, 2001a) Chicco, G., Napoli, R., Postulache, P., Scutariu, M. &
Toader, C., “Electric Energy Customer Characterization for Developing Dedicated Market Strategies”, in Proc. IEEE Porto Power Tech Conference, paper POM5-378, Porto, Portugal, September, 2001.
(Chicco, 2001b) Chicco, G., Napoli, R. & Piglioni F., “Load Pattern
Clustering for Short-term Load Forecasting of Anomalous Days”, Proc. IEEE Porto Power Tech Conference, paper AIT2-377, Porto, Portugal, September, 2001.
(Chicco, 2001c) Chicco, G., Napoli, R. & Piglioni F., “Neural networks for
fast voltage prediction in power systems”, Proc. IEEE Porto Power Tech Conference, paper PTT-236, Porto, Portugal, September, 2001.
(Chiu, 2001) Chiu, T., Fang, D., Chen ,J., Wang, Y. & Jeris, C., “A Robust
and Scalable Clustering Algorithm for Mixed Type Attributes in Large Database Environment”, in Proc. of the 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp 263-268, San Francisco, EUA, 2001.
(Cordeiro, 2003) Cordeiro, J.M., “Cooperativa Eléctrica do Vale D´Este –
Sete Décadas ao Serviço da Electrificação Rural”, A.C. Litografia, V. N. Famalicão, 2003.
(Duarte, 2003) Duarte, F.J., Rodrigues, F., Figueiredo, V., Vale, Z., &
Cordeiro, M., ”Data Mining Techniques Applied to Electric Energy Consumers Characterization”, in Proc. of the 7th IASTED International Conference on Artificial Intelligence and Soft Computing - ASC 2003, Banff, Canada, July, 2003.
Referências
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 201
(EDP, 1990) EDP, Museu da Electricidade, “Um Século de Electricidade”, EDP – Gabinete de Relações Públicas e Informação, Lisboa, Abril, 1990.
(Ernoult, 1982) Ernoult, M. & Meslier, F., “Analysis and Forecast of
Electrical Energy Demand”, RGE, Nº4, 1982.
(ERSE, 2001a) ERSE, “Regulamento de Relações Comerciais”, Lisboa,
Agosto, 2001. [on-line] Disponível em: http://www.erse.pt
(ERSE, 2001b) ERSE, CNE, “Mercado Ibérico de Electricidade, Documento
de Discussão”, Lisboa, 2001. [on-line] Disponível em: http://www.erse.pt/files/RegP138.pdf
(ERSE, 2004a) ERSE, “Comparação Internacional dos Preços de Energia
Eléctrica”, Lisboa, Novembro, 2004. [on-line] Disponível em: http://www.erse.pt/files/Tag80.pdf
(ERSE, 2004b) ERSE, “Parâmetros e Tarifas e Preços para a Energia
Eléctrica e outros Serviços em 2005”, Lisboa, Novembro, 2004. [on-line] Disponível em: http://www.erse.pt/frontoffie/index.html
(ERSE, 2005a) ERSE, “Sector Eléctrico – História / Documentação”,
Lisboa, Março, 2005. [on-line] Disponível em: http://www.erse.pt/frontoffie/sector/home.asp
(ERSE, 2005b) ERSE, “Guia de Telecontagem em Portugal Continental”,
Despacho ERSE n.º 3, Lisboa, Fevereiro, 2005.
(Eurelectric, 2004) Eurelectric, Union of the Electricity Industry, “Union of the
Electricity Industry – Eurelectric Guidelines for Customer Switching”, June, 2004. [on-line] paper available in: http://www.eurelectri.org
(Fayyad, 1996a) Fayyad, U., Piatetsky-Shapiro G. & Smyth P., “The KDD
Process for Extracting Useful Knowledge from Volumes of Data”, in Communications of the ACM, Vol. 39, nº 11, pages 27-34, November, 1996.
Referências
202 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
(Fayyad et al., 1996b) Fayyad, U., Piatetsky-Shapiro G., & Smyth P., “From Data Mining to Knowledge Discovery: An Overview”, in Advances in Knowledge Discovery and Data Mining, pages 1-34, AAAI/MIT Press, 1996.
(Ferreira, 2003) Ferreira, J., Vale, Z., Almeida do Vale, A. & Puga, R., “Cost
of Transmission Transactions: Comparison and Discussion of used Methods”, International Conference on Renewable Energy and Power Quality (ICREPQ’2003), Vigo, Espanha, 09 a 11 de Abril, 2003.
(Figueiredo, 2003a) Figueiredo, V., “Caracterização de Perfis de Consumidores
de Energia Eléctrica usando Técnicas de Data Mining”, Tese de Dissertação de Mestrado, FEUP, Julho, 2003.
(Figueiredo, 2003b) Figueiredo, V., Vale, Z., Ramos, S., Rodrigues F., & Duarte,
J., “Electric Energy Customer Characterization by Clustering”, in Proc. 11th ISAP – Competitive Environment, Renewable Energy, Distributed Generation , Lemnos, Greece, September, 2003.
(Figueiredo, 2003c) Figueiredo, V., Duarte, J., Rodrigues, F., Vale, Z., Gouveia,
J., Ramos, S. & Ramos, C., “Determination of Electricity Consumers’ Load Profiles”, in Proc. 8º Congresso Luso-Espanhol de Engenharia Electrotécnica, pp. 199-204, Vilamoura, Portugal, Julho, 2003.
(Figueiredo, 2005) Figueiredo, V., Rodrigues, F., Vale, Z. & Gouveia, B., “An
Electric Energy Consumer Characterization Framework based on Data Mining Techniques”. In the IEEE Transactions on Power Systems, Vol. 20, N.2, pp. 596-602, May 2005.
(Frawley et al., 1992) Frawley, W., Piatetsky-Shapiro, G. & Matheus, C.,
“Knowledge Discovery in Databases: An Overview”, AI Magazine, Vol. 13, No 3, pp 57-70, Fall, 1992.
(Frawley et al., 1995) Frawley, W.J., Piatetsky-Shapiro, G. & Matheus, C.,
“Knowledge Discovery in Databases: An Overview”, Technical Report, 1995.
Referências
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 203
(Gabriel, 2002) Gabriel, Steven A., “A Simulation Approach to Balancing Annual Risk and Reward in Retail Electrical Power Markets”, IEEE Transactions on Power Systems, Vol. 17, nº 4, November, 2002.
(Gasperic, 2002) Gasperic, S., Gerbec, D. & Gubina, F., “Determination of the
Consumers’ Load Profiles”, TELMARK Discussion Forum 1, London, UK, September, 2002. [online] Disponível: www.telmark.org/index.htm [2002]
(Gellings, 1981) Gellings, C.W. & Taylor, R.W., “Electric Load Curve
Synthesis – A Computer Simulation of an Electric Utility Load Shape”, IEEE Transactions on Power Apparatus and Systems, Vol. PAS-100, nº 1, pp. 60-65, 1981.
(Gellings, 1998) Gellings, C.W., “Emerging Energy Customers of the Twenty-
First Century”, CIGRE/IEEE Technical Session, IEEE Power Engineering Review, October, 1998.
(Gellings, 2002) Gellings, C.W., “Power Delivery System of the Future”,
IEEE PES Summer Meeting, IEEE Power Engineering Review, December, 2002.
(Gellings, 2004) Gellings, C.W., “The Future’s Smart Delivery System:
Meeting the Demands for High Security, Quality, Reliability and Availability”, IEEE Power & Energy Magazine, pages 40-48, September/October 2004.
(Gervec, 2003a) Gervec, D., Gasperic, S., Smon, I. & Gubina, F., “Consumers
Load Profile Determination Based on Different Classification Methods”, TELMARK Discussion Forum 1, Kingston - London, UK, 2-4 September, 2002.
(Gervec, 2003b) Gervec, D., Gasperic, S., & Gubina, F., “Determination and
Allocation of Typical Load Profiles to the Eligible Consumers”, in Proc. IEEE Bologna Power Tech Conference, Bologna, Italy, June, 2003.
(Goebel, 1999) Goebel, M. & Gruenwald, L., “A Survey of Data Mining and
Knowledge Discovery Software Tools”, in SIGKDD Explorations, June, 1999.
Referências
204 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
(Gonçalves, 2003) Gonçalves, M.J. & Vale, Z. “Evaluation of Transmission Congestion Impact in Market Power”, IEEE Bologna Power Tech 2003, Bolonha, Itália, 23 a 26 de Junho, 2003.
(Hatziargyriou, 1990) Hatziargyriou, N.D., Karakatsanis, T.S., & Papadopoulos,
M., “Probabilistic Calculations on Aggregate Storage Heating Loads”, IEEE Transactions on Power Delivery, Vol. 5, nº 3, pp. 1520-1526, 1990.
(Hébrail, 2001) Hébrail, G., “Pratical Data Mining in a Large Utility
Company”, COMPSTAT 2000, Utrecht, Août 2000, et Revue Questiio (Quardens d’Estadistica i Invertigcio Operativa), vol.24, n.º 3, pp. 509-520, 2001.
(Hirst, 2001) Hirst, E. & Kirby, B., “Retail-Load Participation in
Competitive Wholesale Electricity Markets”, Edison Electric Institute, Washington D.C, January, 2001.
(Huang, 2002) Huang, S.-J. & Lin, J.-M., “Enhancement of Power System
Data Debugging Using DSA-Based Data-Mining Technique”, IEEE Transactions on Power Systems, Vol. 17, nº 4, pp. 1022-1029, November, 2002.
(Inmon, 1997) Inmon, W.H., “Como construir o Data Warehouse”, Editora
campus, pp. 33, 1997.
(Jardini, 1997) Jardini, J.A., Tahan, C.V., Ahn, S.U., & Ferrari, E.L.,
“Distribution Transformer Loading Evaluation Based on Load Profiles Measurements”, IEEE Transactions on Power Delivery, Vol. 12, nº 4, pages 1766-1770, October, 1997.
(Jardini, 2000) Jardini, J.A., Tahan, C.V., Gouvea, M.R., & Figueiredo,
F.M., “Daily Load Profiles for Residential, Commercial and Industrial Low Voltage Consumers”, IEEE Transactions on Power Delivery, Vol. 15, nº 1, pages 375-380, January, 2000.
(Kimball, 1996) Kimball, R., “The Data Warehouse Toolkit”, John Wiley
Sons, Inc, 1996.
Referências
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 205
(Kirschen, 2003) Kirschen, D., “Demand Side View of Electricity Markets”, IEEE Transactions on Power Systems, Vol. 18, nº 2, pages 520-527, May, 2003.
(Klemperer, 1999) Klemperer, P., “Auction Theory: A Guide to the Literature”,
J. Economic Surveys, vol. 13, n.º 3, July 1999, pp. 227-286.
(Leo et al., 1984) Leo, B., Friedman, J., Olshen, R. & Stone, C.,
“Classification and Regression Trees”, Wadsworth International Group, 1984.
(Mcclanahan, 2002) Mcclanahan, R.H., “Electric Deregulation”, IEEE Industry
Applications Magazine, Vol. 8, nº2, pp. 11-18, March/April, 2002.
(Nogueira, 2001) Nogueira, T., “Estabelecimento de Preços no Mercado da Electricidade”, Tese de Dissertação de Mestrado, FEUP, Dezembro, 2001.
(Nogueira, 2003) Nogueira, T., Almeida do Vale, A. & Vale, Z. “An
Electricity Day-Ahead Market Simulator”, 8º Congresso Luso-Espanhol de Engenharia Electrotécnica, Vilamoura, Portugal, 3 a 5 de Julho, 2003.
(Otero-Goodwin, 1999) Otero-Goodwin, C., “When You’re Gotta Have It: Options
for Collecting Interval Data”, EIC-8, E Source, Boulder, CO, November, 1999.
(Pessanha, 2002) Pessanha, J., Velasquez, R., Melo, A. & Caldas, R. “Técnicas
de Cluster Analysis na Construção de Tipologias de Curva de Carga”, XV Seminário Nacional de Distribuição de Energia Eléctrica, SENDI 2002, Salvador, BA, Brasil, Novembro, 2002.
(Pinto, 2004) Pinto, R., “Ferramentas para Estudo e Avaliação de
Contratos e Tarifas de Electricidade”, Projecto final de Licenciatura, ISEP, Fevereiro, 2004.
(Pitt, 2000) Pitt, B.D., “Applications of Data Mining Techniques to
Electric Load Profiling”, PhD Thesis, Electric and Electronic Engineering, University of Manchester Institute of Science and Technology, 2000.
Referências
206 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
(Praça et al., 2003) Praça, I., Ramos, C., Vale, Z. & Cordeiro, M., “Mascem: A Multiagent System That Simulates Competitive Electricity Markets”, IEEE Intelligent Systems – Special Issue on Agents and Markets Computer Society, Vol. 18, nº 6, pp. 54-60, November/December, 2003.
(Quinlan, 1993) Quinlan, “The Book, C4.5: Programs for Machine
Learning”, Morgan Kaufmann Publishers, 1993.
(Ramos, 2004) Ramos, S., Figueiredo, V., Rodrigues, F., Pinheiro, R. &
Zita, V. “Characterization of MV Consumers Using Hierarchical Clustering”, ICKEDS’04 – International Conference on Knowledge Engineering and Decision Support, Porto, Portugal, 21 a 23 de Julho, 2004.
(Ramos, 2005) Ramos, S., Rodrigues, F., Pinheiro, R., Duarte, J. & Zita, V.
“MV Electricity Contracts Definition Based on Patterns Extracted from MV Load Diagrams Consumers Using Hierarchical Clustering”, CEE05 – International Conference on Electrical Engineering, accepted for publication, Coimbra, Portugal, 9 a 11 de Outubro, 2005.
(Rodrigues, 1998) Rodrigues, F., Ramos, C. & Henriques, P. “Extracção de
Conhecimento em Sistemas de Informação Imprecisos”, 1ª Conferência do Colégio de Informática da Ordem dos Engenheiros, Dezembro, 1998.
(Rodrigues, 2000) Rodrigues, F., “Arquitectura Heterogénea para Extracção de
Conhecimento a partir de Dados”, Phd Thesis, Universidade do Minho, Dezembro, 2000.
(Rodrigues, 2003) Rodrigues, F., Duarte, F.J., Figueiredo, V., Vale, Z. &
Cordeiro, M., “A Comparative Analysis of Clustering Algorithms Applied to Load Profiling”, in Machine Learning and Data Mining in Pattern Recognition, Lecture Notes in Artificial Intelligence (LNAI 2734), Springer-Verlag, pp.73-85, 2003.
(Rueda, 2004) Rueda, F., “O Ponto de Vista das Novas Empresas no Sector
Eléctrico”, ERSE/UMIC, Conferência – Inovação no Sector Eléctrico: Benefícios para Consumidores e para Empresas, Lisboa, Janeiro, 2004.
Referências
Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica 207
(Santana, 2001) Santana, J., “A Influência do Sistema Eléctrico Espanhol no Sistema Português”, IST, 1º Encontro sobre Valor Acrescentado pela Engenharia, Lisboa, Junho, 2001.
(Santana, 2003a) Santana, J., “A Concorrência no Sector Eléctrico”, 4ª Série
dos Seminários sobre Complexidade, UECE, Lisboa, Dezembro, 2003.
(Santana, 2003b) Santana, J., “Energy Market Liberalisation: The Regulator
Perspective”, IST, Mestrado em Engenharia e Gestão da Tecnologia, Lisboa, Outubro, 2003.
(Schmutz, 2002) Schmutz, A., Gnansounou, E. & Sarlos, G., “Economic
Performance of Contracts in Electricity Markets: A Fuzzy and Multiple Criteria Approach”, IEEE Transactions on Power Systems, Vol. 17, nº 4, November, 2002.
(Schick, 1988a) Schick, I., Usoro, P., Ruane, M. & Schweppe F., “Modelling
and Weather-Normalisation of Whole-House Metered Data for Residential End-Use Load Shape Estimation”, IEEE Transactions on Power Systems, Vol. 3, nº 1, pp. 213-219, February, 1988.
(Schick, 1988b) Schick, I., Usoro, P., Ruane, M. & Hausman, A.,
“Residential End-Use Load Shape Estimation from Whole-House Metered Data”, IEEE Transactions on Power Systems, Vol. 3, nº 3, pp. 986-992, August, 1988.
(Sheblé, 1999) Sheblé, G., “Computational Auction Mechanisms for Restructured Power Industry Operation”, Kluwer Academy Publishers, 1999.
(Steel, 1997) Steel, J.A., McDonald, J.R. & D’Arcy, C., “Knowledge
Discovery in Databases: Applications in the Electrical Power Engineering Domain”, Strategies for Information Overload (Digest nº 1997/340), IEE Colloquium, London, December, 1997.
(Tavares, 2003) Tavares, C., “Descrição do Mercado Português de
Electricidade”, Ministério da Economia, Lisboa, Junho, 2003. [on-line] Disponível: http://www.min-economia.pt/port/documentos/programas /guia_merc_port.pdf
Referências
208 Utilização de técnicas de Data Mining para apoio aos agentes dos mercados retalhistas de energia eléctrica
(Teive, 2002) Teive, R.G. & Vilvert, S.H., “Demand Side Management for Residential Consumers by using Direct Control on the Loads”, Power Systems Management and Control, nº 488, pp. 233-237, Vale do Itajaí University, Brazil, April, 2002.
(Torgo, 2005) Torgo, L., “Extracção de Conhecimento de Dados –
Aprendizagem Redes Neuronais”, Universidade do Porto, [on-line] Disponível: www.liacc.up.pt/~ltorgo/Ensino/madsad/ecd1 [2005]
(Tsakoumis, 2002) Tsakoumis, A.C., Vladov, S.S. & Mladenov, V.M., “Daily
Load Forecasting Based on Previous Day Load”, 6th Seminar on Neural Network Applications in Electrical Engineering (NEUREL), Belgrade, Yugoslavia, September, 2002.
(Vasconcelos, 2003) Vasconcelos, J., “O mercado europeu da energia e a sua
regulação”, II Fórum de Energia do Diário Económico, Lisboa, 2003.
(Vasconcelos, 2004) Vasconcelos, J., “Do Monopólio à Concorrência no Sector
Eléctrico: O que Muda para os Consumidores e para as Empresas”, ERSE/UMIC, Conferência – Inovação no Sector Eléctrico: Benefícios para Consumidores e para Empresas, Lisboa, Janeiro, 2004.
(Vesanto, 2000) Vesanto, J., “Using SOM in Data Mining”, Thesis for the
degree of Licentiate of Science in Technology, Helsinki University of Technology, Finland, April, 2000.
(Wu, 2002) Wu, H.-C. & Lu, C.-N., “A Data Mining Approach for
Spatial Modeling in Small Area Load Forecast”, IEEE Transactions on Power Systems, Vol. 17, nº 2, pp. 516-521, May, 2002.
209
Anexo A – Dados dos Consumidores de Electricidade
210
Tabela A.1 – Folha de cálculo Excel, referência MT_01, relativa à campanha de medição na cidade de Aveiro, contendo informação do valor da potência consumida, com uma cadência de 15 minutos. Consumidor Nº, 1081 Nº, Diagramador DIA SEMANA DATA HORA POTÊNCIA Potência (kW)
12761982 Sexta 22-09-1995 12:00 754800,00 755 12:15 718533,33 719 12:30 714000,00 714 12:45 725333,33 725 13:00 745733,33 746 13:15 784266,67 784 13:30 825066,67 825 13:45 754800,00 755 14:00 850000,00 850 14:15 859066,67 859 14:30 877200,00 877 14:45 906666,67 907 15:00 890800,00 891 15:15 893066,67 893 15:30 888533,33 889 15:45 884000,00 884 16:00 872666,67 873 16:15 877200,00 877 16:30 931600,00 932 16:45 931600,00 932 17:00 933866,67 934 17:15 886266,67 886 17:30 863600,00 864 17:45 886266,67 886 18:00 893066,67 893 18:15 877200,00 877 18:30 884000,00 884 18:45 877200,00 877 19:00 877200,00 877 19:15 879466,67 879 19:30 890800,00 891 19:45 820533,33 821 20:00 863600,00 864 20:15 879466,67 879 20:30 865866,67 866 20:45 845466,67 845 21:00 838666,67 839 21:15 872666,67 873 21:30 949733,33 950 21:45 949733,33 950 22:00 931600,00 932 22:15 963333,33 963 22:30 999600,00 1000 22:45 974666,67 975
211
Tabela A.2 – Folha de cálculo Excel, referência MT_A, relativa à campanha de medição na cidade do Porto, com informação da data inicial e final do período de medição.
Período de recolha da informação dos consumos mensais
Nº do Diagramador
Número do consumidor Início Fim
dd-mm-aaaa hh:mm dd-mm-aaaa hh:mm 12761973 1 14-07-1995 11:12 14-08-1995 10:00 12761974 2 14-07-1995 16:22 14-08-1995 10:00 12761984 3 14-07-1995 15:38 14-08-1995 16:00 12761972 4 17-07-1995 15:25 21-08-1995 9:35 12761990 5 18-07-1995 11:02 21-08-1995 10:20 12761978 6 20-07-1995 9:24 21-08-1995 9:15 12762057 7 20-07-1995 10:28 21-08-1995 9:00 127762005 8 27-07-1995 9:04 29-08-1995 12:40 127762026 9 27-07-1995 16:18 29-08-1995 9:00 127762033 10 27-07-1995 11:57 29-08-1995 12:10 12761978 11 08-08-1995 12:35 07-09-1995 9:30 12761984 12 08-08-1995 14:50 07-09-1995 9:45 12761993 13 08-08-1995 15:38 07-09-1995 9:15 12761992 14 09-08-1995 12:30 08-09-1995 10:40 12762025 15 09-08-1995 16:00 08-09-1995 10:00 12761973 16 10-08-1995 15:24 08-09-1995 11:00 12762018 17 10-08-1995 12:30 08-09-1995 9:40 12762014 18 11-08-1995 8:55 12-09-1995 15:10 12761974 19 14-08-1995 15:02 13-09-1995 10:17 12762005 20 14-08-1995 11:31 13-09-1995 14:30 12762026 21 14-08-1995 10:49 13-09-1995 9:05 12762063 22 17-08-1995 10:01 15-09-1995 9:45 12762057 23 18-08-1995 13:35 18-09-1995 10:30 12762003 24 18-08-1995 9:50 15-09-1995 9:30 12761978 25 24-08-1995 16:50 22-09-1995 13:45 12761984 26 24-08-1995 15:00 22-09-1995 14:10 12761993 27 24-08-1995 14:20 22-09-1995 12:10 12761992 28 25-08-1995 12:15 25-09-1995 10:15 12762025 29 25-08-1995 14:05 25-09-1995 10:00 12761973 30 28-08-1995 16:00 27-09-1995 13:35 12762014 31 29-08-1995 11:00 28-09-1995 9:50 12762018 32 29-08-1995 9:35 28-09-1995 11:40 12761974 33 30-08-1995 13:35 29-09-1995 9:45 12762005 34 30-08-1995 14:30 29-09-1995 12:00 12762026 35 30-08-1995 15:30 29-09-1995 10:20 12761972 36 04-09-1995 14:35 04-10-1995 15:10 12761978 37 11-09-1995 15:46 11-10-1995 10:10 12761984 38 11-09-1995 16:20 11-10-1995 10:30 12761973 39 13-09-1995 12:46 13-10-1995 10:00 12761974 40 15-09-1995 12:10 16-10-1995 9:30 12761972 41 20-09-1995 11:32 20-10-1995 10:30 12761978 42 27-09-1995 11:35 27-10-1995 9:00
Tabela A.3 – Parte da folha de cálculo Excel tipo, referência MT_B, referente ao registo dos consumos mensais dos PT’s dos clientes no período em estudo. Energias (kWh) Pontas (kW) Curtas utilizações Médias utilizações Longas utilizações
Nº do Consumidor
Pot. Contratada
(kVA)
Código reduzido de actividade
simples horas de vazio
fora das horas de
vazio
Horas de Ponta
Horas Cheias
Horas de Vazio
Horas de Ponta
Horas Cheias
Horas de Vazio
Horas de Ponta
Horas Cheias
Horas de Vazio
1 174 60 48 704 3033 1057 2 145 360 95 722 1894 1025 3 92,8 70 40 1001 3114 1035 4 1135,2 30 795 92704 233891 192022 5 91,2 350 63 1809 4985 885 6 1072 350 569 26568 128353 113714 7 538,8 350 525 13373 48068 9849 8 200 30 102 5805 15837 11010 9 125 350 90 4365 3210 990
10 200 60 95 1985 6155 2615 11 250 30 225 4195 12224 2109 12 260 140 230 8543 26679 7654 13 350 130 184 6448 16688 6000 14 182,4 70 40 320 1050 455 15 630 360 150 2390 4750 6720 16 116 140 105 2778 8292 4485 17 197,9 350 38 1343 3893 1455 18 318,9 340 220 2320 6885 3825 19 570 140 450 16557 43599 31263 20 127 270 50 1880 5290 2395 21 400 350 128 6016 19288 6280 22 90 350 24 1125 3120 1017
212
Tabela A.4 – Parte da folha de cálculo Excel referente aos diagramas de carga representativos dos dias úteis – anual.
Cliente Valor
máximo 0:00 0:15 0:30 0:45 1:00 1:15 1:30 1:45 2:00 2:15 2:30 1 865,413 648,720 586,613 549,667 524,507 510,453 510,453 509,320 504,107 502,067 483,933 482,573 2 992,974 875,282 860,985 902,656 889,579 880,338 875,108 895,682 894,462 887,487 902,133 889,928 3 650,638 215,828 217,615 217,721 216,985 217,405 217,037 217,353 217,247 217,563 215,986 217,090 4 9,836 2,523 2,308 2,503 2,415 2,118 2,462 2,379 2,031 2,349 2,456 2,251 5 9,055 2,097 2,139 2,176 2,212 2,164 2,048 2,176 2,067 2,085 2,164 2,176 6 56,818 4,250 4,000 3,917 4,083 4,083 4,000 4,083 3,750 3,667 3,500 3,833 7 47,500 0,967 0,867 0,700 0,800 0,667 0,300 0,233 0,267 0,167 0,267 0,183 8 1289,053 368,107 370,827 361,080 361,533 356,093 362,667 365,613 355,640 357,680 357,000 349,747 9 802,513 276,760 249,673 244,687 241,853 229,160 220,887 207,173 213,067 205,133 208,193 203,207
10 1457,240 709,013 673,880 663,907 675,013 681,587 683,853 671,840 660,733 653,253 652,800 657,560 11 2,880 1,293 1,293 1,307 1,187 1,227 1,227 1,307 1,360 1,333 1,373 1,413 12 37,820 1,240 1,190 1,080 1,110 1,110 1,120 1,090 1,080 1,080 1,070 1,080 13 39,547 26,240 26,067 25,640 25,400 25,160 25,027 24,893 24,853 24,787 22,360 20,640 14 65,067 1,680 1,467 1,520 1,493 1,520 1,360 1,040 1,200 1,093 1,120 1,147 15 1994,492 1655,364 1656,933 1637,579 1498,964 1327,221 1180,759 1068,646 1023,487 1019,826 1012,154 1004,482 16 114,404 5,815 5,746 5,712 5,573 5,019 4,535 4,500 4,604 4,154 3,150 3,392 17 47,862 0,087 0,087 0,044 0,044 0,044 0,044 0,000 0,087 0,044 0,000 0,044 18 214,457 135,662 133,477 135,200 132,000 131,877 133,877 135,785 134,615 135,815 139,877 128,092 19 44,677 37,497 37,703 37,928 37,641 37,826 37,928 37,313 37,579 37,538 37,395 37,477 20 193,448 7,810 7,848 7,695 7,733 7,467 5,524 6,171 5,905 5,943 5,943 5,714 21 289,900 23,200 21,000 20,600 19,800 19,200 19,800 18,000 17,400 17,900 16,300 17,300 22 400,973 151,187 145,520 140,760 142,120 141,213 138,040 134,413 133,053 135,773 131,467 130,333 23 289,667 4,067 4,000 3,867 3,933 3,867 4,000 3,933 4,133 4,200 4,267 4,333 24 5,200 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 25 70,448 1,745 1,867 1,891 1,648 1,600 1,745 1,818 1,891 1,673 1,697 1,648 26 7,650 2,960 3,100 3,220 2,780 3,500 3,220 3,400 3,200 2,900 2,560 2,800 27 38,660 13,200 13,740 13,500 13,040 12,660 12,800 12,120 11,520 11,540 11,060 11,080 28 78,436 5,976 6,642 6,048 5,903 5,927 5,842 5,588 5,903 5,685 6,121 6,715
213
Tabela A.5 – Parte da folha de cálculo Excel referente aos diagramas de carga representativos normalizados dos dias úteis – anual.
Cliente Cod.Activ.Pot.
Contr. 0:00 0:15 0:30 0:45 1:00 1:15 1:30 1:45 2:00 2:15 2:30 1 190 1096 0,749607 0,677842 0,635149 0,606076 0,589838 0,589838 0,588528 0,582504 0,580147 0,559193 0,557622 2 220 1400 0,881475 0,867076 0,909043 0,895874 0,886567 0,881299 0,902019 0,90079 0,893766 0,908516 0,896225 3 190 810 0,331718 0,334464 0,334626 0,333495 0,334141 0,333576 0,33406 0,333899 0,334384 0,33196 0,333656 4 20 50 0,256517 0,234619 0,254432 0,245568 0,215328 0,250261 0,241919 0,206465 0,238791 0,249739 0,228884 5 340 29 0,231593 0,236278 0,240294 0,244311 0,238956 0,226238 0,240295 0,228246 0,230254 0,238956 0,240294 6 280 140 0,0748 0,0704 0,068933 0,071867 0,071867 0,0704 0,071867 0,066 0,064533 0,0616 0,067467 7 70 82 0,020351 0,018246 0,014737 0,016842 0,014035 0,006316 0,004912 0,005614 0,003509 0,005614 0,00386 8 270 1560 0,285564 0,287674 0,280113 0,280464 0,276244 0,281343 0,283629 0,275892 0,277475 0,276947 0,271321 9 350 1109 0,344867 0,311114 0,3049 0,30137 0,285553 0,275244 0,258156 0,265499 0,255614 0,259427 0,253213
10 190 1650 0,486545 0,462436 0,455592 0,463214 0,467724 0,46928 0,461036 0,453414 0,448281 0,44797 0,451237 11 190 125 0,449074 0,449074 0,453704 0,412037 0,425927 0,425927 0,453704 0,472222 0,462963 0,476852 0,490741 12 230 107 0,032787 0,031465 0,028556 0,02935 0,02935 0,029614 0,028821 0,028556 0,028556 0,028292 0,028556 13 200 123 0,66352 0,659137 0,648348 0,642279 0,63621 0,632839 0,629467 0,628456 0,62677 0,565408 0,521915 14 170 102 0,02582 0,022541 0,023361 0,022951 0,023361 0,020902 0,015984 0,018443 0,016803 0,017213 0,017623 15 220 2400 0,829968 0,830754 0,821051 0,751552 0,665443 0,59201 0,535799 0,513157 0,511321 0,507474 0,503628 16 290 202 0,050832 0,050227 0,049924 0,048714 0,043873 0,039637 0,039334 0,040242 0,036309 0,027534 0,029652 17 220 237 0,001822 0,001821 0,000911 0,000911 0,000911 0,000911 0 0,001822 0,000911 0 0,000911 18 220 413 0,632581 0,622394 0,630429 0,615508 0,614934 0,62426 0,633155 0,627703 0,633298 0,652237 0,597286 19 50 160 0,839302 0,843893 0,848944 0,842516 0,846648 0,848944 0,83517 0,841139 0,84022 0,837006 0,838843 20 110 338 0,04037 0,040567 0,039779 0,039976 0,038598 0,028555 0,031902 0,030524 0,030721 0,030721 0,029539 21 270 515 0,080028 0,072439 0,071059 0,068299 0,06623 0,068299 0,06209 0,060021 0,061745 0,056226 0,059676 22 350 2630 0,377049 0,362917 0,351046 0,354438 0,352176 0,344262 0,335218 0,331826 0,338609 0,327869 0,325042 23 270 410 0,014039 0,013809 0,013349 0,013579 0,013349 0,013809 0,013579 0,014269 0,014499 0,01473 0,01496 24 270 12 0 0 0 0 0 0 0 0 0 0 0 25 280 145 0,024776 0,026497 0,026841 0,0234 0,022712 0,024776 0,025809 0,026841 0,023744 0,024088 0,0234 26 270 203 0,386928 0,405229 0,420915 0,363399 0,457516 0,420915 0,444444 0,418301 0,379085 0,334641 0,366013 27 340 149 0,341438 0,355406 0,349198 0,3373 0,32747 0,331092 0,313502 0,297982 0,2985 0,286084 0,286601 28 280 131 0,076186 0,084686 0,077113 0,075259 0,075568 0,074486 0,071241 0,075259 0,072477 0,07804 0,085613
214
215
Tabela A.6 – Parte da folha de cálculo Excel referente aos índices de forma normalizados que caracterizam os diagramas de carga dos dias úteis – anual.
Cliente Pot. Contrat. Factor Carga Factor vazio Pmin./P.méd. Imp. Noite
Imp. Hora almoço
Factor Utilização
1 0,255781029 0,80286179 0,427710842 0,531373718 0,2258562 0,437858902 0,0779080772 0,327512978 0,90093403 0,560594089 0,621524658 0,29823604 0,373117857 0,0784186863 0,188296366 0,52553483 0,247212798 0,466019666 0,18238635 0,539011874 0,0522311764 0,008966494 0,48217805 0,113138709 0,232045119 0,1485369 0,5368773 0,0117537785 0,004011326 0,43136894 0,142570166 0,326029536 0,1608305 0,503671478 0,0167331916 0,030202926 0,36081684 0,0528 0,143683244 0,05583524 0,715640403 0,0182782317 0,016517225 0,36074742 0,003508772 0,009550114 0,00832651 0,820975522 0,02608565 8 0,365266635 0,63633937 0,267276245 0,417535951 0,14063797 0,54468457 0,0648376979 0,258848513 0,61384679 0,237960741 0,385131243 0,14787173 0,530306018 0,054805887
10 0,386503067 0,75994721 0,447970136 0,587542074 0,19729029 0,446491967 0,08254252311 0,026663521 0,41703462 0,023148272 0,054710185 0,27822292 0,2579089 0,00119104712 0,022416234 0,37585856 0,024325754 0,063620021 0,02253929 0,841727005 0,01656332613 0,0261916 0,51947571 0,056304797 0,107353324 0,24681484 0,537605062 0,02066772314 0,021236432 0,34955094 0,003278668 0,009201304 0,01654569 0,70377351 0,02786031215 0,563473336 0,79096374 0,473992483 0,597614249 0,22684018 0,439717148 0,08079634116 0,044832468 0,35254691 0,004538578 0,012632031 0,02260607 0,744717622 0,02494067 17 0,053091081 0,30818303 0 0 0,00096257 0,819318464 0,00780379718 0,094620104 0,75671964 0,543913587 0,71637913 0,2456797 0,419086565 0,04832625819 0,034922133 0,80781086 0,645546395 0,797155056 0,31168398 0,392163086 0,02771578 20 0,076923077 0,43187938 0,027569911 0,062974144 0,02530617 0,641856666 0,03071178321 0,11868806 0,46406565 0,055881338 0,118985502 0,06784744 0,633126565 0,03240424722 0,617744219 0,59424593 0,308083663 0,514783292 0,17079746 0,620716913 0,01118127123 0,093912223 0,34954152 0,012658229 0,035525177 0,01233962 0,769610035 0,03085580524 0 0,37540486 0 0 0,00204563 0,707811249 0,02028339925 0,031382728 0,3351726 0,021197517 0,061963311 0,02196944 0,741578981 0,02037092826 0,045068429 0,58071273 0,332026144 0,567488154 0,23043733 0,530309747 0,00269888227 0,032326569 0,5736384 0,232798758 0,402710511 0,15657236 0,588506534 0,01838276728 0,028079283 0,38411765 0,069850094 0,178858324 0,05861947 0,740077509 0,02866059729 0,024775838 0,54399518 0,297567954 0,542269777 0,18488445 0,460299586 0,01607149230 0,044360547 0,65079325 0,411418999 0,628666907 0,22273304 0,455801306 0,01273562531 0,693251534 0,83533105 0,684021923 0,817185234 0,26920393 0,457361229 0,07480113332 0,208588957 0,47185023 0,08998935 0,188517884 0,06597196 0,694448246 0,05621061133 0,22369042 0,84529758 0,590849025 0,69765344 0,24583613 0,41635772 0,08947314434 0,037753657 0,38477706 0,068042387 0,173938872 0,07461312 0,648123406 0,02499062735 0,034450212 0,35248513 0,113172637 0,315042213 0,15251778 0,385318017 0,00400206236 0,071495989 0,45043618 0,017709766 0,038823516 0,2271105 0,51822452 0,04129442737 0,090372817 0,55955453 0,012462744 0,022091483 0,04742966 0,642005895 0,04307704338 0,016045304 0,83757775 0,59579061 0,709891759 0,33419516 0,362698555 0,02382626639 0,074563473 0,81819511 0,615214648 0,750180426 0,26008773 0,43511207 0,17639210440 0,115148655 0,68568028 0,482157676 0,699839708 0,22939337 0,471104567 0,03663316 41 0,221330816 0,7416965 0,291130512 0,391100933 0,16426419 0,494518021 0,04737255642 0,610665408 0,50120858 0,072390572 0,142950148 0,1094843 0,606681893 0,03226115143 0,010618216 0,41661752 0,282916924 0,669317862 0,23051067 0,471666251 0,00897149244 0,009202454 0,42685779 0,067750678 0,156530246 0,14759498 0,605385066 0,015351848
216
217
Anexo B – Resultados Obtidos
218
Tabela B.1 – Tabela dos resultados da estimação da potência consumida pelo cliente n.º 10 de Matosinhos, prevista pela rede neuronal.
Quartohoraano Diaano horaano semana diasemana horadiaPotência
(VA) Flag
Dia de semana Potência
(VA) 2350 24 587.5 3 4 11.5 51800.0 1 31362,237 2351 24 587.75 3 4 11.75 45200.0 1 31719,428 2352 24 588.0 3 4 12.0 38000.0 1 32011,888 2353 24 588.25 3 4 12.25 39600.0 1 32239,633 2354 24 588.5 3 4 12.5 35600.0 1 32403,354 2355 24 588.75 3 4 12.75 34400.0 1 32504,362 2356 24 589.0 3 4 13.0 35600.0 1 32544,522 2357 24 589.25 3 4 13.25 37200.0 1 32526,182 2358 24 589.5 3 4 13.5 33800.0 1 32452,102 2359 24 589.75 3 4 13.75 39000.0 1 32325,376 2360 24 590.0 3 4 14.0 37400.0 1 32149,365 2361 24 590.25 3 4 14.25 -1.0 1 31927,623 2362 24 590.5 3 4 14.5 -1.0 1 31663,832 2363 24 590.75 3 4 14.75 -1.0 1 31361,745 2364 24 591.0 3 4 15.0 -1.0 1 31025,130 2365 24 591.25 3 4 15.25 -1.0 1 30657,720 2366 24 591.5 3 4 15.5 -1.0 1 30263,177 2367 24 591.75 3 4 15.75 -1.0 1 29845,054 2368 24 592.0 3 4 16.0 -1.0 1 29406,767 2369 24 592.25 3 4 16.25 -1.0 1 28951,570 2370 24 592.5 3 4 16.5 -1.0 1 28482,541 2371 24 592.75 3 4 16.75 -1.0 1 28002,570 2372 24 593.0 3 4 17.0 -1.0 1 27514,345 2373 24 593.25 3 4 17.25 -1.0 1 27020,357 2374 24 593.5 3 4 17.5 -1.0 1 26522,889 2375 24 593.75 3 4 17.75 -1.0 1 26024,027 2376 24 594.0 3 4 18.0 -1.0 1 25525,660 2377 24 594.25 3 4 18.25 -1.0 1 25029,483 2378 24 594.5 3 4 18.5 31400.0 1 24537,014 2379 24 594.75 3 4 18.75 30400.0 1 24049,594 2380 24 595.0 3 4 19.0 26200.0 1 23568,400 2381 24 595.25 3 4 19.25 28000.0 1 23094,456 2382 24 595.5 3 4 19.5 29000.0 1 22628,643 2383 24 595.75 3 4 19.75 31200.0 1 22171,709 2384 24 596.0 3 4 20.0 33000.0 1 21724,281 2385 24 596.25 3 4 20.25 28400.0 1 21286,872 2386 24 596.5 3 4 20.5 26400.0 1 20859,896 2387 24 596.75 3 4 20.75 26600.0 1 20443,674 2388 24 597.0 3 4 21.0 24800.0 1 20038,442 2389 24 597.25 3 4 21.25 25200.0 1 19644,365 2390 24 597.5 3 4 21.5 27000.0 1 19261,539 2391 24 597.75 3 4 21.75 25800.0 1 18890,004 2392 24 598.0 3 4 22.0 24000.0 1 18529,746 2393 24 598.25 3 4 22.25 24800.0 1 18180,708 2394 24 598.5 3 4 22.5 25200.0 1 17842,791 2395 24 598.75 3 4 22.75 27200.0 1 17515,866
219
Tabela B.2 – Parte da folha de cálculo relativa à ordenação dos 15 clusters obtidos pelo algoritmo Two-Step.
Cliente Cluster 0:00 0:15 0:30 0:45 1:00 1:15 1:30 1:45
202 1 0,855763 0,849101 0,853431 0,856429 0,861093 0,865423 0,862758 0,862425184 1 0,989712 0,979938 0,98714 0,98714 0,977881 0,992284 0,985597 0,986625152 1 0,775803 0,771126 0,77705 0,774244 0,770502 0,772997 0,774556 0,77455631 1 0,76328 0,761172 0,755902 0,752319 0,762121 0,762648 0,760013 0,746206148 1 0,767206 0,764619 0,753673 0,736557 0,729592 0,722228 0,713472 0,67446473 1 0,767432 0,766069 0,789137 0,768271 0,778232 0,79092 0,768795 0,76554533 1 0,669475 0,684506 0,683019 0,684011 0,688305 0,700363 0,710274 0,7150642 1 0,881475 0,867076 0,909043 0,895874 0,886567 0,881299 0,902019 0,90079
124 1 0,760851 0,747078 0,748609 0,744992 0,75153 0,7564 0,742766 0,74666174 1 0,630769 0,64011 0,634066 0,632418 0,653846 0,630769 0,676374 0,67472564 1 0,70763 0,648224 0,637158 0,650553 0,635411 0,624927 0,629004 0,63948763 1 0,756948 0,726511 0,722982 0,746361 0,760476 0,788266 0,802382 0,81693989 1 0,644161 0,645377 0,641119 0,636253 0,645377 0,619221 0,640511 0,652068183 1 0,538731 0,569771 0,649663 0,65722 0,662079 0,652632 0,664508 0,65722186 1 0,657827 0,602947 0,627624 0,619153 0,61326 0,656354 0,67477 0,66961376 1 0,786621 0,776245 0,775803 0,755713 0,745005 0,734187 0,729661 0,743349182 1 0,839999 0,951111 0,924444 0,915556 0,906666 0,884445 0,924445 0,933333157 1 0,836548 0,821372 0,826747 0,810939 0,803035 0,796712 0,78375 0,76952377 1 0,664985 0,671039 0,783047 0,849647 0,844601 0,857719 0,830474 0,801211153 1 1 1 1 1 1 1 1 1 80 1 0,837171 0,845395 0,856086 0,82023 0,840461 0,819079 0,827632 0,849013179 1 0,687657 0,648615 0,657431 0,656171 0,701511 0,65995 0,599496 0,672544175 1 0,763637 0,749091 0,756363 0,76 0,745454 0,730909 0,712727 0,716363186 1 0,634477 0,612929 0,589785 0,6249 0,636872 0,651237 0,643256 0,578611122 1 0,746463 0,734224 0,740821 0,733704 0,742904 0,734485 0,732402 0,72328890 1 0,760936 0,756332 0,768227 0,751343 0,742517 0,757866 0,770913 0,76515718 1 0,632581 0,622394 0,630429 0,615508 0,614934 0,62426 0,633155 0,62770359 1 0,7287 0,740471 0,809417 0,89574 0,897982 0,854821 0,872758 0,868274110 1 0,847617 0,877717 0,839465 0,832776 0,821488 0,845318 0,826505 0,812709103 1 0,809195 0,834483 0,832184 0,836782 0,845977 0,822988 0,822988 0,82069 39 1 0,759785 0,700126 0,737058 0,723801 0,684028 0,689078 0,666667 0,66130154 1 0,713594 0,71633 0,695918 0,650463 0,656355 0,664983 0,640783 0,62605219 2 0,839302 0,843893 0,848944 0,842516 0,846648 0,848944 0,83517 0,84113938 2 1 0,972477 0,960604 0,981112 0,937938 0,958985 0,952509 0,942795200 2 0,830537 0,554111 0,841862 0,799916 0,601091 0,669463 0,783557 0,675755160 2 0,702674 0,636078 0,639224 0,627163 0,644992 0,627687 0,633456 0,6172 195 2 0,670798 0,790419 0,738755 0,791533 0,884974 1 0,948475 0,94791892 2 0,883918 0,892987 0,868803 0,846131 0,88029 0,862757 0,865175 0,84492194 2 0,567416 0,51264 0,48736 0,508427 0,519663 0,511236 0,508427 0,508427207 2 0,665596 0,632188 0,602634 0,598779 0,630903 0,604562 0,58593 0,59235552 2 0,918308 0,924872 0,953319 0,919037 0,910284 0,897155 0,895697 0,905179178 2 0,65793 0,644489 0,655242 0,535618 0,643145 0,573925 0,639785 0,594086117 2 0,890372 0,860334 0,812837 0,804621 0,762773 0,725289 0,695507 0,669576116 2 0,344448 0,361434 0,478138 0,557723 0,612457 0,665933 0,710286 0,71437661 2 0,666667 0,671171 0,545045 0,628378 0,666667 0,574324 0,558559 0,646396102 3 0,985746 1 0,787697 0,273818 0,270067 0,264066 0,263316 0,257314199 3 0,336735 0,255103 0,755101 0,489798 0,367348 0,571426 0,816326 0,357144170 3 0,487964 0,441119 0,445023 0,430709 0,414444 0,413793 0,387768 0,386467188 3 0,90954 0,754934 0,710526 0,699013 0,618421 0,605263 0,574163 0,488038
220
Tabela B.3 – Índices MIA e CDI, obtidos através de uma aplicação em MatLab,
para os 15 clusters obtidos do Two-Step Algorithm, para os dias de fim-de-semana.
ÍNDICE MIA ÍNDICE CDI
>> calc_MIA('3_clusters_FDS.xls') N_clusters = 3 ans = 0.2193 >> calc_MIA('6_clusters_FDS.xls') N_clusters = 6 ans = 0.1933 >> calc_MIA('9_cluesters_FDS.xls') N_clusters = 9 ans = 0.1767 >> calc_MIA('12_clusters_FDS.xls') N_clusters = 12 ans = 0.1684 >> calc_MIA('15_clusters_FDS.xls') N_clusters = 15 ans = 0.1586
>> calc_CDI('3_clusters_FDS.xls') N_clusters = 3 ans = 0.8951 >> calc_CDI('6_clusters_FDS.xls') N_clusters = 6 ans = 0.7184 >> calc_CDI('9_cluesters_FDS.xls') N_clusters = 9 ans = 0.6447 >> calc_CDI('12_clusters_FDS.xls') N_clusters = 12 ans = 0.6141 >> calc_CDI('15_clusters_FDS.xls') N_clusters = 15 ans = 0.5411
221
Tabela B.4 – Parte da tabela com os resultados das classes obtidas com o algoritmo Two-Step Cluster Analysis para os dados de Fim-de-Semana.
Cliente Pot.Contr.
(kVA) 0:00 0:15 0:30 23:30 23:45 $T-woStep 177 183 0.12500625 0.12500625 0.20833125 0.04166875 0.125 cluster-1 173 325 0.666675 0.5 0.333325 0.0 0.0 cluster-1 121 93 0.754717218 0.754716813 0.792452937 0.726415327 0.73584956 cluster-1 42 2600 0.968253968 1.0 0.976190476 0.206349206 0.202380952 cluster-1 34 172 0.466200466 0.251748252 0.228438228 0.228438228 0.223776224 cluster-1
165 186 1.0 0.307692308 0.076923077 0.076923077 0.692307692 cluster-1 138 127 0.397849355 0.419355161 0.505376452 0.344086129 0.365591613 cluster-1 13 123 0.7030456 0.662436527 0.347715693 0.946700509 0.618020253 cluster-1
133 630 0.966037755 0.972327057 0.938364774 0.967295604 0.955974849 cluster-1 162 1500 0.92 0.88 0.92 0.04 0.0 cluster-1 109 69 0.857135969 0.928567985 0.857135969 0.57142398 0.71428801 cluster-1 65 120 0.2 0.24 0.12 0.4 1.0 cluster-1
104 120 0.218181818 0.272727273 0.490909091 0.272727273 0.254545455 cluster-1 36 315 0.785046729 0.742990654 1.0 0.0 0.0 cluster-2 17 237 0.0 0.0 0.0 0.0 0.0 cluster-2
174 31 0.0 0.0 0.0 0.0999991 0.06000006 cluster-2 180 125 0.0 0.0 0.0 0.0 0.0 cluster-2 45 57 0.0 0.0 0.0 0.0 0.0 cluster-2
191 110 0.0 0.0 0.0 0.0 0.0 cluster-2 203 292 0.159663622 0.151260472 0.151260472 0.168067402 0.176470551 cluster-2 192 36 0.0 0.0 0.0 0.0 0.0 cluster-2 108 315 0.04784689 0.038277512 0.04784689 0.038277512 0.04784689 cluster-2 48 1756 0.0 0.0 0.0 0.0 0.0 cluster-2
114 57 0.0 0.0 0.0 0.0 0.666666667 cluster-2 16 202 0.1359447 0.140552995 0.138248848 0.112903226 0.110599078 cluster-3 70 580 0.080223891 0.082089572 0.080223891 0.162313434 0.158582072 cluster-3 37 395 0.018564338 0.018564338 0.018564338 0.021039598 0.019801968 cluster-3
159 142 0.0 0.0 0.0 0.0 0.0 cluster-3 166 495 0.082746498 0.075704209 0.073943663 0.017605617 0.019366162 cluster-3 23 410 0.03990609 0.046948343 0.035211266 0.025821619 0.025821584 cluster-3
171 315 0.0 0.0 0.0 0.0 0.0 cluster-3 172 80 0.054312957 0.051118866 0.054313436 0.047923817 0.051118866 cluster-3 91 410 0.055970201 0.055970145 0.055970145 0.014925335 0.029850781 cluster-3 20 338 0.099184772 0.100543485 0.111413033 0.101902172 0.095108705 cluster-3
190 30 0.166665972 0.124999479 0.374998438 0.250003125 0.250003125 cluster-3 95 145 0.109289654 0.120218505 0.11475408 0.109289654 0.09836064 cluster-3 93 12 0.0 0.0 0.0 0.0 0.0 cluster-3
198 224 0.170918517 0.16581622 0.168367368 0.16581622 0.16581622 cluster-3 49 243 0.074999923 0.069230774 0.07500017 0.0 0.004807624 cluster-3 14 102 0.074074306 0.083333333 0.078703819 0.074074306 0.074074306 cluster-3 97 243 0.023952126 0.029940091 0.023952126 0.047904253 0.07185629 cluster-3 24 12 0.016666667 0.0 0.0 0.0 0.0 cluster-3
201 395 0.0 0.0 0.0 0.0 0.0 cluster-3 204 740 0.0 0.0 0.0 0.0 0.0 cluster-3 98 203 0.003333313 0.001666688 0.001666688 0.008750016 0.006249984 cluster-3 57 243 0.203124863 0.210937459 0.218750055 0.351562431 0.328125229 cluster-3 7 82 0.2 0.1875 0.15 0.25 0.25 cluster-3
222
Tabela B.5 – Parte da tabela com os resultados das classes obtidas com o algoritmo K-Means para os dados de Fim-de-Semana.
Cliente Pot.Contr.
(kVA) 0:00 0:15 23:30 23:45 $KM-K-Means
$KMD-K-Means
206 284 0.781394419 0.693022558 0.75659 0.75348907 cluster-1 1,645 182 25 0.799999538 0.792306858 0.799998385 0.846153314 cluster-1 0,480 156 2270 0.795072779 0.787234037 0.792833144 0.786114219 cluster-1 0,902 136 319 0.963541412 0.958333132 0.963541412 0.963541568 cluster-1 1,102 59 328 0.847494553 0.867102397 0.867102397 0.862745098 cluster-1 0,567 19 160 0.787052841 0.689948799 0.816013636 0.816013573 cluster-1 1,210
134 116 0.99170108 0.946058013 0.991701204 0.979253072 cluster-1 0,601 124 1072 0.919821826 0.923904973 0.951744616 0.941722353 cluster-1 1,055
8 1560 0.910077524 0.879069767 0.838759685 0.862015506 cluster-1 1,005 68 85 0.914893617 0.957446809 0.914893617 0.914893617 cluster-1 0,918
130 260 0.946666667 0.94 0.926666667 0.893333238 cluster-1 0,739 155 4250 0.676207512 0.683363146 0.697674414 0.699463328 cluster-1 1,778 147 315 0.948347098 0.942148782 0.871900838 0.861570239 cluster-1 0,665 137 570 0.863070597 0.87551873 0.709543583 0.709543583 cluster-1 0,707
2 1400 0.811396013 0.834757835 0.867806269 0.898005699 cluster-1 0,993 146 300 0.978947368 0.986842105 0.960526316 0.963157895 cluster-1 0,992 139 400 0.990565919 0.990565919 0.990565919 0.990565919 cluster-1 0,736 145 294 0.980952357 1.0 0.966666643 0.995238071 cluster-1 1,332 140 90 0.75862069 0.75 0.793103448 0.784482759 cluster-1 0,773 154 1500 0.875776398 0.877329193 0.899068323 0.908385093 cluster-1 0,749 149 330 0.706730803 0.850961579 0.822115424 0.793269341 cluster-1 1,335 148 684 0.859126985 0.808201057 0.816137571 0.800925923 cluster-1 0,878
1 1096 0.640866872 0.596284829 0.542414857 0.538080497 cluster-1 1,923 153 213 1.0 1.0 1.0 1.0 cluster-1 1,564 150 400 0.972477235 0.963302808 0.990825745 0.93577987 cluster-1 0,872 151 1000 0.919708029 0.883211679 0.927007299 0.941605839 cluster-1 0,686 179 125 0.773755569 0.796380114 0.674208182 0.864253409 cluster-1 1,109 158 1430 0.729180772 0.719702099 0.719025051 0.716316858 cluster-1 1,523 66 66 0.807874175 0.81259953 0.98425295 0.940945461 cluster-1 1,167
157 1600 0.989795913 0.981859409 0.945578231 0.954648524 cluster-1 1,062 175 61 0.846940228 0.826531034 0.887757086 0.897960152 cluster-1 0,572 161 750 0.664383541 0.664383541 0.654109568 0.674657513 cluster-1 1,322 167 1000 0.881481455 0.896296323 0.790123434 0.827160471 cluster-1 0,550 205 580 0.839181287 0.798245614 0.821637427 0.774853801 cluster-1 0,740 202 76 0.904615385 0.905641077 0.948717846 0.947692154 cluster-1 0,922 184 30 0.987755102 0.980612185 0.967346955 0.98061223 cluster-1 1,321 123 91 0.882352941 0.823529412 0.941176471 0.784313725 cluster-1 0,551 58 490 0.670790378 0.643298969 0.671477663 0.657044674 cluster-1 1,267 38 80 0.719132369 0.732480534 0.895995551 0.874304783 cluster-1 0,815
120 145 0.937500558 0.986111896 0.819445131 1.0 cluster-1 0,870 53 1000 0.913385839 0.913385805 0.992125973 1.0 cluster-1 1,056 52 315 0.967684022 0.929982047 0.908438061 0.87432675 cluster-1 0,950
119 174 0.850648729 0.883116627 0.805194841 0.824675079 cluster-1 1,202 92 80 0.993670886 0.967563291 0.859968354 0.868670886 cluster-1 1,469
110 385 0.928244272 0.948091596 0.767938929 0.761832051 cluster-1 1,468 65 120 0.2 0.24 0.4 1.0 cluster-2 2,971 34 172 0.466200466 0.251748252 0.228438228 0.223776224 cluster-2 1,196
223
Tabela B.6 – Parte da tabela com os resultados das classes obtidas com o SOM para os dados de Fim-de-Semana.
Cliente 0:00 0:15 23:30 23:45 $KX-
Kohonen $KY-
Kohonen Cluster176 0.392864318 0.348226124 0.357145727 0.366078723 0 0 1 170 0.508860761 0.501265813 0.417721521 0.42025317 0 0 1 129 0.44444381 0.377778095 0.355554286 0.511110476 0 0 1 127 0.649425172 0.678160862 0.557471379 0.574712759 0 0 1 28 0.283783846 0.279729742 0.292229911 0.300675773 0 0 1 77 0.512422365 0.506211176 0.459627352 0.462732905 0 0 1 71 0.253393696 0.210407238 0.149321266 0.138009032 0 0 1 21 0.290322581 0.241935484 0.238709677 0.248387097 0 0 1 51 0.25308642 0.209876543 0.293209877 0.234567901 0 0 1 32 0.405405398 0.404138502 0.395270254 0.388935813 0 0 1
164 0.325688073 0.325688073 0.321100917 0.330275229 0 0 1 143 0.788753056 0.562347191 0.410268953 0.410757947 0 0 1
9 0.345070422 0.319462229 0.410691423 0.333866839 0 0 1 142 0.28195122 0.287804878 0.269268293 0.251707317 0 0 1 163 0.0 0.0 0.0 0.0 0 0 1
7 0.2 0.1875 0.25 0.25 0 0 1 126 0.211882229 0.210304942 0.208201893 0.211356467 0 0 1 79 0.36437248 0.372469632 0.253711189 0.26450742 0 0 1 49 0.074999923 0.069230774 0.0 0.004807624 0 0 1 27 0.342905405 0.376689189 0.385135135 0.364864865 0 0 1 35 0.244444583 0.2 0.1222225 0.133333333 0 0 1 22 0.508064507 0.459677419 0.475806449 0.4858871 0 0 1
125 0.291907514 0.255780347 0.296965318 0.299855491 0 0 1 100 0.301075 0.462365591 0.322580376 0.322580645 0 0 1 99 0.486758475 0.462923729 0.445974576 0.457627119 0 0 1 25 0.430379837 0.354430007 0.337552557 0.400843687 0 0 1 69 0.666667308 0.512820192 0.538460577 0.512820192 0 1 2
144 0.514493168 0.557971118 0.608695652 0.528986025 0 1 2 75 0.661852167 0.629566695 0.55480034 0.542905692 0 1 2 10 0.519340519 0.525047558 0.365884591 0.333544703 0 1 2
178 0.583928624 0.566071524 0.65714296 0.664285774 0 1 2 188 0.867692174 0.883076633 0.818461489 0.879999903 0 1 2 186 0.650434752 0.673043537 0.678260929 0.674782754 0 1 2 193 0.567391286 0.567391286 0.87608696 0.563043396 0 1 2 200 0.767463179 0.90073529 0.368566147 0.712316255 0 1 2 207 0.518518519 0.521605093 0.513888889 0.498456944 0 1 2 206 0.781394419 0.693022558 0.75659 0.75348907 0 1 2 55 0.606061364 0.575759091 0.666665909 0.636365909 0 1 2 1 0.640866872 0.596284829 0.542414857 0.538080497 0 1 2 29 0.584507042 0.598591549 0.556338028 0.584507042 0 1 2 30 0.512345756 0.547325077 0.46913588 0.487654321 0 1 2 60 0.618090907 0.572864394 0.595477462 0.603014774 0 1 2
130 0.946666667 0.94 0.926666667 0.893333238 0 3 3 67 0.9853332 0.9506666 0.8160002 0.8146666 0 3 3
134 0.99170108 0.946058013 0.991701204 0.979253072 0 3 3 66 0.807874175 0.81259953 0.98425295 0.940945461 0 3 3
139 0.990565919 0.990565919 0.990565919 0.990565919 0 3 3
224
Tabela B.7 – Índices MIA e CDI calculados para a partição de 9 clusters para o conjunto de dados de Fim-de-Semana e Dias Úteis.
ÍNDICE MIA ÍNDICE CDI
Algoritmo
Two-Step
>> alc_MIA('9_clusters_FDS.xls') N_clusters = 9 ans = 0.1767 >> calc_MIA('9_clusters_DU.xls') N_clusters = 9 ans = 0.1618
>> calc_CDI('9_clusters_FDS.xls') N_clusters = 9 ans = 0.6447 >> calc_CDI('9_clusters_DU.xls') N_clusters = 9 ans = 0.5867
Algoritmo
K-means
>> alc_MIA('9_clusters_FDS.xls') N_clusters = 9 ans = 0.1690 >> calc_MIA('9_clusters_DU.xls') N_clusters = 9 ans = 0.1480
>> calc_CDI('9_clusters_FDS.xls') N_clusters = 9 ans = 0.5769 >> calc_CDI('9_clusters_DU.xls') N_clusters = 9 ans = 0.4823
Algoritmo
SOM
>> alc_MIA('9_clusters_FDS.xls') N_clusters = 9 ans = 0.1889 >> calc_MIA('9_clusters_DU.xls') N_clusters = 9 ans = 0.1585
>> calc_CDI('9_clusters_FDS.xls') N_clusters = 9 ans = 0.8640 >> calc_CDI('9_clusters_DU.xls') N_clusters = 9 ans = 0.8263
225
Figura B.1 – Árvore de decisão obtida para Dias Úteis
226
Figura B.2 – Árvore de decisão obtida para Fim-de-Semana
227
Tabela B.8 – Cálculo do valor da energia média consumida, e do preço de transmissão dessa energia, para cada cliente pertencente ao cluster 2 – Dias Úteis.
Cliente 0:00 0:30 1:00 1:30 2:00 2:30 3:00 3:30
8 507,471 507,471 507,471 507,471 507,471 507,471 507,471 507,4719 241,216 241,216 241,216 241,216 241,216 241,216 241,216 241,216
22 138,295 138,295 138,295 138,295 138,295 138,295 138,295 138,29530 15,231 15,231 15,231 15,231 15,231 15,231 15,231 15,23140 111,589 111,589 111,589 111,589 111,589 111,589 111,589 111,58941 239,431 239,431 239,431 239,431 239,431 239,431 239,431 239,43147 242,489 242,489 242,489 242,489 242,489 242,489 242,489 242,48958 157,475 157,475 157,475 157,475 157,475 157,475 157,475 157,47567 11,051 11,051 11,051 11,051 11,051 11,051 11,051 11,05168 9,724 9,724 9,724 9,724 9,724 9,724 9,724 9,72475 904,668 904,668 904,668 904,668 904,668 904,668 904,668 904,66878 74,991 74,991 74,991 74,991 74,991 74,991 74,991 74,99181 31,917 31,917 31,917 31,917 31,917 31,917 31,917 31,91787 71,556 71,556 71,556 71,556 71,556 71,556 71,556 71,55688 694,245 694,245 694,245 694,245 694,245 694,245 694,245 694,24594 4,053 4,053 4,053 4,053 4,053 4,053 4,053 4,053116 147,617 147,617 147,617 147,617 147,617 147,617 147,617 147,617128 4,535 4,535 4,535 4,535 4,535 4,535 4,535 4,535137 63,166 63,166 63,166 63,166 63,166 63,166 63,166 63,166143 118,620 118,620 118,620 118,620 118,620 118,620 118,620 118,620146 31,336 31,336 31,336 31,336 31,336 31,336 31,336 31,336150 14,261 14,261 14,261 14,261 14,261 14,261 14,261 14,261154 369,325 369,325 369,325 369,325 369,325 369,325 369,325 369,325156 391,761 391,761 391,761 391,761 391,761 391,761 391,761 391,761158 261,196 261,196 261,196 261,196 261,196 261,196 261,196 261,196168 16,191 16,191 16,191 16,191 16,191 16,191 16,191 16,191193 14,117 14,117 14,117 14,117 14,117 14,117 14,117 14,117194 66,583 66,583 66,583 66,583 66,583 66,583 66,583 66,583206 76,432 76,432 76,432 76,432 76,432 76,432 76,432 76,432207 8,331 8,331 8,331 8,331 8,331 8,331 8,331 8,331
Cliente 0:00 0:30 1:00 1:30 2:00 2:30 3:00 3:30
8 4,161 4,161 4,161 4,161 4,161 4,161 4,161 4,1619 1,978 1,978 1,978 1,978 1,978 1,978 1,978 1,978
22 1,134 1,134 1,134 1,134 1,134 1,134 1,134 1,13430 0,125 0,125 0,125 0,125 0,125 0,125 0,125 0,12540 0,915 0,915 0,915 0,915 0,915 0,915 0,915 0,91541 1,963 1,963 1,963 1,963 1,963 1,963 1,963 1,96347 1,988 1,988 1,988 1,988 1,988 1,988 1,988 1,98858 1,291 1,291 1,291 1,291 1,291 1,291 1,291 1,29167 0,091 0,091 0,091 0,091 0,091 0,091 0,091 0,09168 0,080 0,080 0,080 0,080 0,080 0,080 0,080 0,08075 7,418 7,418 7,418 7,418 7,418 7,418 7,418 7,41878 0,615 0,615 0,615 0,615 0,615 0,615 0,615 0,61581 0,262 0,262 0,262 0,262 0,262 0,262 0,262 0,26287 0,587 0,587 0,587 0,587 0,587 0,587 0,587 0,58788 5,693 5,693 5,693 5,693 5,693 5,693 5,693 5,69394 0,033 0,033 0,033 0,033 0,033 0,033 0,033 0,033116 1,210 1,210 1,210 1,210 1,210 1,210 1,210 1,210
Top Related