APLICAÇÃO DO PROCESSO DE DESCOBERTA DE CONHECIMENTO EM ... · envolvendo a menor unidade de área...

18
APLICAÇÃO DO PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS AGRÍCOLA PARA RECONHECIMENTO DE FATORES QUE IMPACTAM NA PRODUTIVIDADE DA CANA-DE-AÇÚCAR Área temática: Gestão da Produção Ederson Garcia [email protected] Luiz Camolesi Jr [email protected] Resumo: A pesquisa pelo aumento na produtividade é constante nas empresas agrícolas que produzem cana de açúcar, assim como é crescente o apelo pela preservação do meio ambiente. Este artigo apresenta, através do processo de descoberta de conhecimento em bases de dados, um método sistemático de classificação dos fatores que impactam a produtividade de forma que o agricultor possa identificar e atacar os pontos que causam os maiores impactos e que podem trazer os maiores retornos. Neste processo foi utilizada a técnica de Árvore de Decisão em que são apresentados os fatores que mais influenciam na produtividade agrícola. Na experimentação foram usados os dados da safra 2014/2015 de quatro usinas da região de São Jose do Rio Preto. Palavras-chaves:. Produtividade de Cana de Açúcar; Gestão do Processo de Colheita Agrícola; Descoberta de Conhecimento em bases de dados; Mineração de dados; ISSN 1984-9354

Transcript of APLICAÇÃO DO PROCESSO DE DESCOBERTA DE CONHECIMENTO EM ... · envolvendo a menor unidade de área...

APLICAÇÃO DO PROCESSO DE DESCOBERTA DE

CONHECIMENTO EM BASE DE DADOS AGRÍCOLA PARA RECONHECIMENTO DE FATORES QUE IMPACTAM NA

PRODUTIVIDADE DA CANA-DE-AÇÚCAR

Área temática: Gestão da Produção

Ederson Garcia

[email protected]

Luiz Camolesi Jr

[email protected]

Resumo: A pesquisa pelo aumento na produtividade é constante nas empresas agrícolas que produzem cana de

açúcar, assim como é crescente o apelo pela preservação do meio ambiente. Este artigo apresenta, através do processo

de descoberta de conhecimento em bases de dados, um método sistemático de classificação dos fatores que impactam a

produtividade de forma que o agricultor possa identificar e atacar os pontos que causam os maiores impactos e que

podem trazer os maiores retornos. Neste processo foi utilizada a técnica de Árvore de Decisão em que são

apresentados os fatores que mais influenciam na produtividade agrícola. Na experimentação foram usados os dados da

safra 2014/2015 de quatro usinas da região de São Jose do Rio Preto.

Palavras-chaves:. Produtividade de Cana de Açúcar; Gestão do Processo de Colheita Agrícola;

Descoberta de Conhecimento em bases de dados; Mineração de dados;

ISSN 1984-9354

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

2

1. Introdução O agronegócio é um importante setor para a economia do Brasil. A cana-de-açúcar, por sua

vez, possui uma cadeia de produção que é um dos destaques do agronegócio brasileiro e que segundo o

Procana, a cadeia foi responsável por aproximadamente 2% do PIB nacional e por 31% do PIB da

agricultura no Brasil em 2012, tendo empregado cerca de 4,5 milhões de pessoas.

Segundo o (CEPEA; 2014) “O Agronegócio é um setor estratégico para a economia brasileira

e, especialmente em 2015, pode ser o grande condicionante do seu desempenho. Representando 23%

do PIB brasileiro, ele pode ser o único setor com crescimento mais expressivo diante da indústria

claudicante e dos serviços em processo de exaustão.”

O setor passa por dificuldades econômicas e por isso é necessário investir no aumento da

produtividade, em que o objetivo é a eficiência em produzir mais no mesmo espaço físico. Neste

sentido, órgãos como o BNDES, FINEP e FAPESP têm investido em tecnologias inovadoras através

de programas como o PAISS (FINEP), o Inova Agro (BNDES), entre outros.

Este artigo aborda como o processo de descoberta de conhecimento em base de dados pode

ajudar a entender os fatores de impacto na produtividade e ajudar a melhorar os processos produtivos

envolvidos.

1.1 Objetivo Com o aumento da preocupação com a preservação do meio ambiente, aliada a necessidade da

produção de açúcar, álcool e energia elétrica, uma das alternativas é o investimento no aumento da

produtividade agrícola, isto é, produzir mais cana-de-açúcar na mesma área física, ou em uma área

menor ter a mesma produção. Com isso, faz-se uma racionalização do uso dos recursos naturais e

também uma diminuição dos custos com terras pelos produtores rurais.

Por exemplo, no local onde se tem uma usina de tamanho médio que moi 2.000.000 de

toneladas de cana por safra com uma produtividade média de 75 toneladas por hectare são necessários

aproximadamente 26.667 alqueires de terra. Se a produtividade aumentar em 5% para 78,8 toneladas

por hectare, serão necessários aproximadamente 25.397alqueires, isto é, 1.270 hectares podem ser

usados para outros fins. Por outra perspectiva, pode-se produzir na mesma área 100.000 toneladas de

cana a mais com praticamente os mesmos gastos fixos. Eleva-se, desta forma, os lucros em mais que

5% pois os custos fixos se mantem praticamente os mesmos.

O objetivo deste artigo é descrever a pesquisa realizada que aplicou o processo de descoberta

de conhecimento em base de dados (Knowledge Discovery in Databases - KDD) para auxiliar o

produtor rural a aumentar sua produtividade sem a necessidade de se aumentar a área plantada. O

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

3

processo KDD envolveu a utilização da técnica de Classificação em mineração de dados,

particularmente na produção de Árvores de Decisão para o reconhecimento dos fatores envolvidos na

produção de açúcar a álcool que apresentam maior impacto na produtividade.

Adicionalmente, esse trabalho apresenta requisitos e resultados experimentais para promover o

desenvolvimento de um software específico para o setor agrícola que permita diagnosticar a situação

da lavoura, através dos dados, de modo que o produtor rural, de forma fácil e intuitiva, consiga usar

com certa facilidade o processo de descoberta de conhecimento e por consequência consiga usar os

diagnósticos para melhorar a produtividade da lavoura.

1.2 Metodologia A metodologia utilizada nesta pesquisa é baseada no processo de descoberta de conhecimento

em base de dados, conhecido como Knowledge Discovery in Databases (KDD), o qual é dividido em

cinco etapas principais: Seleção dos dados brutos; Pré-processamento dos dados selecionados;

Transformação dos dados pré-processados; Mineração dos dados transformados e Interpretação e

Avaliação dos padrões encontrados pela mineração.

Para aplicação desta pesquisa foi selecionada a empresa Noble Agri sendo uma organização de

grande porte que conta com quatro usinas de açúcar e álcool no Brasil situadas na região noroeste do

estado de São Paulo, nas cidades de Meridiano, Sebastianópolis do Sul, Potirendaba e Catanduva.

Para seleção dos dados usados no processo, foram realizadas seções com a equipe da

organização envolvida no cotidiano da produção agrícola, para recolhimento de experiências sobre os

fatores (variáveis) de influência na produtividade agrícola. Como resultado, foram apontados diversos

fatores (variáveis) com diferentes graus de impactos e facilidade de manejo, descartando-se aqueles

que não podem ser operados. Por exemplo, a precipitação pluviométrica impacta fortemente na

produtividade da cana, porém não é possível seu manejo, por outro lado, a aplicação de insumos de

forma adequada impacta na produtividade e é possível de ser manejada.

Com as variáveis selecionadas, analisaram-se quais destas estariam contempladas nos sistemas

de informação em uso. A organização utiliza-se do sistema ERP de gestão agrícola e deste foram

analisadas quais as tabelas de dados e colunas possuíam dados relevantes. Para acesso a estes dados foi

desenvolvido um extrator desses dados e modelado uma base de dados para os dados pré-processados.

Partindo dos dados pré-processados, foi realizada a mineração de dados aplicando-se a técnica

de Árvore de Decisão utilizando-se do algoritmo J48 do Weka (HALL et al., 2009). O J48 é uma

implementação em Java do algoritmo C4.5 (QUINLAN, 1993) que gera Árvores de Decisão a partir de

um conjunto de dados de treinamento. A cada nó, o algoritmo determina o atributo que é mais

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

4

eficientemente para subdividir o conjunto das amostras em subconjuntos homogêneos. Para determinar

o atributo mais eficiente o critério usado pelo J48 é o ganho da informação definido em (QUINLAN,

1993; HALL et al., 2009).

2. Gestão de Colheitas de Cana-de-açúcar O processo de produção de cana-de-açúcar comumente é dividido em 4 grandes etapas,

envolvendo a menor unidade de área de terra no manejo para a cultura de cana-de-açúcar é

denominada talhão, que são: reforma, plantio, trato e colheita. Na etapa de reforma são feitas as

operações para a retirada da cultura que está plantada no local. No plantio são realizadas as operações

para a plantação da cana-de-açúcar. Na etapa de trato são feitas as operações para tratamento da área

para dar melhores condições de crescimento para a cana, sendo geralmente dividida em trato de cana

planta que é o trato feito após o plantio e trato de cana soca, que é o trato feito após a colheita. Na

etapa de colheita são realizadas as operações de colheita de cana e entrega à usina. Geralmente são

feitas cinco colheitas (corte) em um ciclo de plantio. Na Figura 1 é representado um ciclo de três cortes

na linha do tempo.

1º corte 2º corte 3º corte

Reforma Plantio Trato Planta Colheita Trato Soca Colheita Trato Soca Colheita

Tempo 12 meses ou 12 meses após 12 meses após

18 meses após o corte anterior o corte anterior

o plantio

Figura 1 - Ciclo da cultura de cana de açúcar.

Na etapa de trato são aplicados os insumos como adubos, herbicida, inseticida, maturadores,

etc. A adubação é realizada com base em uma recomendação agronômica feita por um engenheiro

agrônomo, com base em análises de solo do local. Essa recomendação indica a necessidade de

reposição de nitrogênio (N), fósforo (P) e potássio (K) no solo para que a cana possa se desenvolver e

ser viável economicamente. O engenheiro agrônomo indica uma fórmula de adubo (N-P-K) para cada

local e uma dose recomendada dessa fórmula por hectare, ideal de acordo com as análises de solo

apontando os nutrientes que a cultura de cana-de-açúcar necessita.

A etapa de colheita é executada em 3 ou 4 dias em média, dependendo do tamanho do talhão. A

colheita é planejada de acordo com algumas restrições, como: capacidade de moagem diária da

indústria; capacidade de corte; carregamento e transporte da empresa e melhor época de colheita de

cada variedade de cana. Para a usina, a época de colheita é a época de produção de energia, açúcar e

álcool, considerando as restrições acima, e varia de acordo com a região. No centro oeste do estado de

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

5

São Paulo essa época ocorre entre abril e dezembro ou de maio a novembro, dependendo da

quantidade de cana à ser processada.

A usina possui uma capacidade de processamento limitada, por isso a área agrícola precisa

colher de forma constante e continua durante todo o período da safra. Dessa forma a entrega de

matéria-prima precisa manter sempre a usina perto de seu limite de processamento, durante o período

de safra. Se o processo é interrompido por falta de matéria-prima, tem-se um custo alto, pois as

pessoas estão disponíveis para o trabalho, mas a indústria está parada, além de interromper a

fabricação de energia elétrica, açúcar e álcool.

Na etapa da colheita existem diversas medidas importantes para o gerenciamento da área

agrícola, entre elas destacam-se a produção de cana, a qualidade da cana (que é a medida do teor de

sacarose da cana) e a produtividade da cana que é a produção dividida pela área. No centro oeste de

São Paulo a medida de área mais comum é o hectare que equivale a 10.000 m sendo a produtividade

expressa por TCH (Tonelada de Cana por Hectare).

O ATR (Açúcar Total Recuperável) é uma das principais medidas de qualidade da cana-de-

açúcar. ATR é resultado de uma análise laboratorial que mede a qualidade da cana. O ATR representa,

resumidamente, a quantidade de quilos de açúcar que é possível extrair em uma tonelada de cana.

Portanto, se temos uma área em que a cana analisada está representando o ATR de 135, tem-se que,

com uma tonelada dessa cana é possível fabricar 135 quilogramas de açúcar.

Assim, o ATR representa quantos quilos de açúcar é possível extrair de uma tonelada de cana e

é calculado por meio da fórmula: 9,5263 x PC + 9,05 x ARC, onde os valores de PC e ARC são

fórmulas que envolvem valores obtidos através de análises de laboratório da cana-de-açúcar. As

normas dessas análises são determinadas pelo CONSECANA-SP (Conselho dos Produtores de Cana-

de-Açúcar, Açúcar e Álcool do Estado de São Paulo). Dessas análises são extraídas várias medidas

como BRIX, POL, PC, FIBRA, AR, ATR. (CONCECANA; 2007).

Cada variedade de cana tem sua curva de maturação padrão para o primeiro corte e para os

demais e, de acordo com essa curva, a variedade de cana pode ser precoce, normal ou tardia. Na Figura

2 é apresentada a curva de maturação da variedade de cana RB83-5486, para o primeiro corte de 12

meses.

Com base na curva de maturação e na produtividade é feito o planejamento de colheita para

todos os talhões, considerando as restrições de capacidade diária de moagem da usina, capacidade das

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

6

frentes de corte e transporte, área com aplicação de maturador, distância, período de colheita, e demais

restrições consideradas no planejamento.

Diversos fatores influenciam na qualidade da cana. Alguns desses fatores estão relacionados

com as características das variedades, época de colheita, idade da cana, etc. A princípio, a aplicação de

insumos e fertilizantes não afetam a qualidade da cana e sim a quantidade de cana produzida. Por isso

é comum empresas trabalharem com a curva de maturação da variedade para tirar o melhor rendimento

das variedades plantadas.

Figura 2 - Curva de maturação da variedade RB83-5486

Parte da materia-prima entregue à industria tem origem nos fornecedores. Por isso, os fornecedores de

tem um papel importante no processo de colheita, pois ele compõem a produção que será entregue a

industria. Os fornecedores recebem de acordo com a quantidade de cana entregue e também de acordo

com a qualidade da cana entregue (ATR).

Desse modo, quanto maior a sua produção em toneladas de cana e melhor sua qualidade em

(ATR), maior será o valor pago ao fornecedor. Como o pico de maturação ocorre nos meses de julho,

agosto e setembro para a maioria das variedades de cana e para evitar que todo fornecedor entregue

nesse periodo, foi criado o ATR relativo. Assim, o fornecedor recebe pela média do ATR da usina, ao

invés de receber pela média do ATR.

3. Descoberta de Conhecimento em Bases de Dados

A busca por padrões em bases de dados é objeto de pesquisa desde a década de 90 quando

criaram um algoritmo para buscar dados em relações de produtos comprados em uma mesma compra e

AT

R

Mês

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

7

desde então muitos foram os avanços em descobertas de conhecimento em bases de dados

(AGRAWAL; IMIELINSKI; SWAMI, 1993).

Esses dados, transformados em conhecimento através da descoberta de conhecimento em bases

de dados, trazem vantagens competitivas para o mundo corporativo com uma abordagem

multidisciplinar e de horizontes a serem desvendados nos mais diversos aspectos dos dados, desde o

agrupamento destes até as descobertas usando aprendizado de máquina.

O processo de descoberta de conhecimento em base de dados ou simplesmente KDD

(Knowledge Discovery in Databases) explora todos os aspectos que levam ao conhecimento extraído a

partir de uma base de dados, e pode ser dividido em diversas etapas que vão desde a limpeza e

integração dos dados até a avaliação de padrões e apresentação dos conhecimentos gerados, passando

pela etapa da Mineração dos Dados.

Na Figura 3 tem-se uma representação do processo de descoberta de conhecimento mostrando a

sequencia das etapas. Na Figura 4 tem-se uma descrição resumida de todas as etapas do processo de

descoberta do conhecimento segundo (HAN; KAMBER 2011).

Figura 3 - Processo de Descoberta de Conhecimento em BD (adaptação de HAN; KAMBER 2011)

O processo é composto por sete etapas segundo (HAN; KAMBER, 2011), sendo que para cada

etapa existem diversas técnicas para serem trabalhadas. O processo inicia-se com a etapa de seleção

dos dados a serem trabalhados, seguido da limpeza desses dados tirando os dados inconsistentes ou

imputando dados faltantes. Após a limpeza, os dados precisam ser integrados e compatibilizados e

transformados para dar início a etapa de mineração dos dados, que consiste em aplicar algum

algoritmo para extrair o conhecimento desses dados. Após a mineração dos dados, é necessário fazer

uma avaliação dos padrões gerados pela mineração e finalmente é possível a apresentação de

resultados.

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

8

Etapa Objetivo

1 Seleção de dados Buscar os dados relevantes à tarefa de análise

2 Limpeza de dados Eliminar dados inconsistentes e/ou com ruídos.

3 Integração de dados Compatibilizar os dados de múltiplas origens

4 Transformação de dadosTransformar os dados para o formato apropriado para a

tarefa de mineração

5 Mineração dos dados. Extrair conhecimento através de mecanismos inteligentes

de extração

6 Avaliação dos padrões.Identificar se o padrão extraído é realmente um

conhecimento, baseado em medidas de interesse.

7 Apresentação do ConhecimentoApresentar o conhecimento minerado usando técnicas

adequadas de representação.

Figura 4 - Etapas do Processo de KDD

4. Trabalhos Relacionados Existem alguns poucos trabalhos relativos à utilização da mineração de dados aplicados à

agricultura para geração de Árvores de Decisão. Podemos citar: Cintra (2012) que utiliza lógica fuzzy

para criar uma Árvore de Decisão com predição de alerta de ferrugem no café em plantações no Brasil;

Girolamo, (2014) que usa redes neurais artificiais e Árvore de Decisão para criar uma predição de

infestação de ferrugem no café; e Giasson (2013) que avalia cinco algoritmos de Árvores de Decisão e

três tipos de modelos digitais de elevação para mapeamento digital de solos na Bacia do Lageado

Grande (RS).

A utilização de mineração de dados na cultura de cana-de-açúcar tem alguns poucos trabalhos

como em (SOUZA et al. 2010), que faz uma análise dos atributos do solo e da produtividade da cultura

de cana-de-açúcar com o uso da geoestatística e Árvore de Decisão. Ainda, Garcia e Vieira (2008) que

apresentam uma técnica de mineração de dados multi-relacional para um problema semelhante ao

apresentado, contudo a relação desse trabalho estava voltada para o confronto de ganhos e perda em

relação ao esperado.

5. O Processo de Classificação dos Fatores que Impactam a Produtividade A abordagem empregada nesta pesquisa para geração de Árvore de Decisão na identificação de

regras de classificação de produtividade baseado em dados sobre colheita foi baseada no processo de

KDD, visto que é um método bastante consolidado na área de tecnologia. Esta seção apresenta os

passos percorridos durante este processo, desde a seleção e preparação dos dados brutos do processo

de colheita, passando pela etapa de mineração dos dados pré-processados, até a fase de análise dos

resultados preliminares obtidos.

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

9

5.1. Pré-processamento dos dados A aplicação das técnicas de mineração de dados tem como premissa que os dados a serem

pesquisados estejam pré-selecionados, uniformes, normalizados, centralizados e com um nível

satisfatório de completude. Todas essas atividades de preparação dos dados visam, sobretudo, otimizar

a significância e a confiabilidade dos resultados gerados na etapa de mineração.

Nessa pesquisa, a etapa de pré-processamento compreendeu atividades para seleção,

transformação, centralização, imputação e discretização dos dados, as quais serão apresentadas nas

próximas seções.

5.1.1. Seleção e Limpeza dos Dados O conjunto de dados a ser analisado foi selecionado com base em critérios gerais, relacionados

a aspectos mais abrangentes dos dados, e critérios específicos, associados a características mais

peculiares dos dados. A seguir, os critérios gerais e as respectivas descrições de como foram aplicados:

Critérios gerais para seleção dos dados:

Dados de produção de cana de açúcar das 4 usinas na safra 2014/2015

Dados das características dos locais de produção da safra 2014/2015;

Os critérios específicos para seleção dos dados levaram em conta especialmente a questão da

completude, uma das premissas básicas para que a etapa de mineração de dados seja bem sucedida.

A seguir, são apresentados cada um dos critérios específicos empregados na seleção dos dados.

Critérios específicos para seleção das colheitas:

Somente dados dos locais que tiveram produtividade válida (acima de 10 Toneladas de

Cana por Hectare (TCH) e abaixo de 300 TCH).

Somente dados dos locais com o valor do ATR válido entre 20 e 200.

Na tabela de histórico de produção que contem a sumarização da colheita dia-a-dia haviam

95.005 registros, depois de sumarizados por talhão, ficou com 18.973 registros da base de dados e após

a aplicação destes critérios, foram excluídos 1.373 (7,2% do total). Considerados os pontos com maior

riqueza e uniformidade de dados.

Critérios específicos dos parâmetros nas colheitas:

Somente parâmetros cujas frequências tenham valor válido, isto é, diferente de nulo e

diferente de “A Definir” maior que 50% em relação a base toda.

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

10

Como resultados destes critérios, foram selecionados 27 parâmetros para comporem a análise

dos dados, que estão descritos da Tabela 1. A aplicação destes critérios específicos, dos 27

parâmetros, resultou na seleção de 14 parâmetros, 13 parâmetros foram excluídos da análise por terem

menos de 50% de frequência com valores válidos (diferente de nulo e diferente de “A Definir”).

Permaneceram os parâmetros: ambiente de produção, ciclo de desenvolvimento, empresa,

espaçamento, estágio, frente de Transporte, grupo de estágio, grupo do tipo de propriedade, sistema de

colheita, tipo de propriedade, tipo de maturação, unidade administrativa, unidade industrial, variedade

de cana. Este último critério eliminou aproximadamente 48% dos parâmetros, considerados sem

valores consistentes para o processo de mineração de dados.

Ambiente Produção

Classificação do ambiente de solo variando

de A a F de acordo com sua produtividade

potencial.

Sistema CultivoModo como foi cultivada a cana,

Cultivo Convencional, sem cultivo...

Ciclo Desenvolvimento

Tipo do ciclo de desenvolvimento da cana,

se cana de ano, cana de ano e meio, cana

de meiose...

Sistema Drenagem Modo de drenagem do local

Classe DeclividadeClasse de declividade do solo de acordo

com seu % de inclinação do soloSistema Irrigação

Modo de irrigação do local,

gotejamento, não irrigado...

Classe FertilidadeClasse de fertilidade do solo em fornecer

nutrição a canaSistema Plantio

Modo como foi plantada a cana,

mecanizado, convencional...

Empresa Empresa responsável pelo talhão Textura Textura do Solo, areiosa, argilosa...

EspaçamentoEspaçamento entre linhas de plantação de

canaTipo Maturação

Tipo de maturação da cana,

precoce, tardia...

EstágioEstágio de corte da cana, variando entre

planta 12 meses, 2º corte, 3º corte...Tipo Solo

Classificação do tipo de solo,

latossolo, latossolo roxo,

eutrófico...

Frente Frente que transportou a cana Tipo TerraçoTipo de terraceamento feito,

embutido, base larga...

Grupo EstágioAgrupamento de estágios, como Cana

Planta, Cana Soca, reforma...Topografia

Topografia do terreno, ondulada,

suave, plana...

Grupo Tipo PropriedadeAgrupamento do tipo de propriedade,

Própria, Fornecedor...Trafegabilidade

Trafegabilidade do local, boa,

ruim...

Modulo ADMDistribuição das áreas de acordo com um

responsávelUnidade ADM

Distribuição das regiões

administrativos de acordo com um

responsável

Procedência Muda Descrição da origem da muda da área Unidade Industrial Usina que processou a cana

Região ADMDistribuição dos módulos administrativos

de acordo com um responsávelVariedades

Variedade da cana, CTC12, IACSP 95,

CV7231...

Sistema ColheitaModo como foi colhida a cana, manual,

mecanizado...

Tabela 1 – Parâmetros selecionados

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

11

5.1.2. Integração dos Dados

Os dados selecionados de uma base de dados relacional do ERP em um sistema gerenciador de

banco de dados Oracle foram limpos, sumarizados, transformados e carregados por meio de um

processo de extração, transformação e carga (ETL – Extract, Transform and Load).

Estes dados foram integrados em um Data Warehouse Relacional (Oracle) sumarizado de

forma a ter os atributos selecionados com os valores de ATR (açúcar total recuperado) e do TCH

(tonelada de cana por hectare), os dados com valores contínuos como o ATR e o TCH foram

sumarizados. Na tabela de histórico de produção, continham os dados de produção dia-a-dia com os

valores das toneladas de cana colhida e do ATR totalizando 95.005 registros, na tabela de talhões há a

área dos talhões em hectare (ha), os dados foram sumarizados por talhão, depois de sumarizados a

tabela resultante ficou com 18.973 registros, contendo os dados de produção, dos talhões e demais

parâmetros referentes à produção e características do talhão, como tipo de solo, ambiente de produção

entre outros.

Depois de carregado, os dados foram exportados para um arquivo texto em formato adequado

para importação no WEKA (ferramenta de Mineração de Dados) como representado na Figura 5.

ERP – Oracle

RelacionalETL

Oracle

Dimensional

Seleção, Limpeza,

Transformação,

sumarização e Carga

Conversão dos dados

para o Formato do

WEKA

Carregamento no

WEKA

ARFF

Figura 5 - Processo de integração dos dados.

Sumarização dos dados.

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

12

5.1.3. Transformação dos Dados - Discretização Normalmente, os mecanismos de classificação requerem que os atributos contínuos sejam

categorizados por meio de valores discretos, processo denominado discretização. De acordo com Tan

et al. (2009), a melhor abordagem de discretização é aquela que produz o melhor resultado para a

técnica de mineração de dados a ser utilizada. A conversão de um atributo contínuo em discreto

envolve duas tarefas: definir quantas categorias devem existir e como será feito o mapeamento dos

valores contínuos para os valores discretos.

O objetivo do trabalho é destacar quais são os maiores influenciadores do ATR e TCH, positiva

e negativamente, e para isso a discretização dos dados foi realizada utilizando-se de estatística

descritiva por meio da distribuição das frequências de quartil. Estabelecendo 4 faixas de valores tanto

para o ATR quanto para o TCH, com descrição de “Baixo”, “Médio Baixo”, “Médio Alto” e “Alto”,

sendo o “Baixo” do valor mínimo até o primeiro quartil, o “Médio Baixo” do primeiro quartil até a

mediana, o “Médio Alto” da mediana até o terceiro quartil e o “Alto” do terceiro quartil até o valor

máximo, sendo do ATR conforme Figura 6.

Figura 6 - Discretização do ATR

O TCH também foi discretizado com a mesma técnica e está apresentado na Figura 7.

Figura 7 - Discretização do TCH

Baixo >= 10.00 < 51.79

Médio Baixo >= 51.79 < 68.78

Médio Alto >= 68.78 < 88.23

Alto >=88.23 <= 299.00

FAIXAS DE TCH

Baixo >= 21.62 < 124.10

Médio Baixo >= 124.10 < 137.20

Médio Alto >= 137.20 < 146.90

Alto >=146.90 <= 190.60

FAIXAS DE ATRHistograma do ATR

Histograma do TCH

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

13

6. Resultados

Para configurar o processamento da classificação e visualizar os resultados gerados por este

processamento, foi utilizado o Weka 3.6 uma ferramenta desenvolvida em Java, de código aberto, da

Universidade de Waikato (WEKA; 2015), que contempla uma série de algoritmos de mineração e de

validação de resultados.

6.1 – Resultados - ATR

Para o processamento dos dados foi utilizado o algoritmo J48 do Weka, que gera Árvores de

Decisão, em que, a cada nó o algoritmo determina o atributo que é mais eficientemente para subdividir

o conjunto das amostras em subconjuntos homogêneos.

Nesse caso foi usado o ATR como atributo alvo para a criação da árvore.

Abaixo a árvore gerada pelo J48.

TIPO DE PROPRIEDADE = Fornecedor Esteira: ATR Alto (1957.0/1205.0)

TIPO DE PROPRIEDADE = Própria: ATR Baixo (12.0/1.0)

TIPO DE PROPRIEDADE = Fornecedor Campo: ATR Normal Acima (1254.0/840.0)

TIPO DE PROPRIEDADE = Arrendado: ATR Normal Abaixo (4232.0/3021.0)

TIPO DE PROPRIEDADE = Cana Spot Campo: ATR Alto (125.0/27.0)

TIPO DE PROPRIEDADE = Parceria: ATR Baixo (4028.0/2868.0)

TIPO DE PROPRIEDADE = Cana Spot Esteira: ATR Normal Acima (126.0/85.0)

Na Figura 8 e apresentado a árvore em forma de um diagrama.

Tipo Propriedade

ATR BaixoATR Médio

BaixoATR Médio

AltoATR Alto

Figura 8 - Representação da árvore gerada para ATR

O algorítmo gerou como maior influenciador na distribuição do ATR, o tipo de propriedade do

local de produção (talhão). Percebe-se que os locais com tipo de propriedade “Parceria” tendem a ter

um “ATR Baixo” e os locais com tipo de propriedade “Fornecedor Esteira” tendem a ter um “ATR

Alto”.

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

14

Ao apresentar esses resultados aos colaboradores, a principal indagação é o porquê dos locais

geridos pela empresa (“Parceria” e “Arrendado”) terem pior ATR em relação aos locais geridos pelos

fornecedores? (“Cana Spot Esteira”, “Fornecedor Campo”, Fornecedor Esteira” e “Cana Spot

Campo”). Uma das suposições levantadas para esse comportamento é de que como a empresa precisa

ter um fluxo continuo e constante de entrega de matéria prima (cana-de-açúcar) para a industria e a

curva de maturação da cana de açúcar tem seus picos de valores de ATR nos meses de Julho, Agosto e

Setembro, os fornecedores tendem a entregar suas canas nesses meses, as canas próprias da usina são

entregues nos meses em que tem baixa demanda de cana de fornecedores, desse modo há um

detrimento da qualidade da cana própria em favor da entrega da cana de fornecedor. Mesmo o

fornecedor recebendo pelo ATR Relativo ele tende a entregar nessses meses.

Considerando esse cenário percebido, para melhorar o ATR global das usinas nesse caso, um

plano de ação possivel é fazer o planejamento da colheita da safra, englobar os dados dos fornecedores

de modo a se ter um melhor ATR global independentemente se a cana é própria ou de fornecedor,

dessa forma o ATR global seria maior e como os fornecedores ganham por ATR relativo todos

ganhariam.

Alterando-se os parâmetros do algorítmo para aumentar o nivel da árvore, tem-se uma árvore

de dois níveis conforme apresentado na Figura 9

Grupo Tipo Propriedade

ATR BaixoATR Médio

BaixoATR Médio

Alto

ATR AltoEmpresa

Figura 9 - Representação da árvore gerada para ATR com dois níveis;

É possivel notar que o algorítmo classificou por grupo de tipo de propriedade, separando os

grupos “Cana Spot e “Fornecedor” com tendencia a “ATR Alto”, e os grupos do tipo “Próprio” abriu-

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

15

se um segundo nivel por empresa sendo que as empresas 1 e 2 tendem a ter “ATR Baixo”, a empresa 3

tende a ter “ATR Médio Baixo” e a empresa 4 tende a ter “ATR Médio Alto”.

6.2 – Resultados - TCH

Com o intuito de verificar os influenciadores do TCH, foi realizada a classificação usando o

TCH como atributo alvo. Para esse processamento também foi usado o algoritmo J48 do WEKA para

gerar a Árvore de Decisão.

Abaixo a árvore gerada pelo J48 para o atributo alvo TCH.

Estágio = 15meses: TCH Alto (364.0/216.0)

Estágio = 18meses: TCH Alto (1277.0/441.0)

Estágio = 2º Corte: TCH Alto (2522.0/1657.0)

Estágio = 3º Corte: TCH Normal Abaixo (2027.0/1401.0)

Estágio = 4º Corte: TCH Normal Abaixo (1088.0/736.0)

Estágio = 5º Corte: TCH Normal Abaixo (1257.0/764.0)

Estágio = 6º Corte: TCH Baixo (892.0/526.0)

Estágio = 7º Corte: TCH Normal Abaixo (718.0/426.0)

Estágio = 9º Corte: TCH Normal Abaixo (223.0/159.0)

Estágio = 2º Corte Bisada: TCH Alto (217.0/88.0)

Estágio = 3° Corte Bisada: TCH Normal Acima (115.0/70.0)

Estágio = 4º Corte Bisada: TCH Normal Abaixo (143.0/94.0)

Estágio = 8º Corte: TCH Normal Abaixo (299.0/202.0)

Na Figura 10 é apresentada a representação contendo uma amostra da árvore gerada.

Estágio

TCH BaixoTCH Médio

BaixoTCH Médio

AltoTCH Alto

Figura 10 - Representação da árvore gerada para o TCH

Desse modo o algorítmo gerou como maior influenciador na distribuição do TCH, o estágio de

corte do talhão. Sendo que os locais com estágios de 15 meses, 18meses e 2o Corte tendem a ter um

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

16

“TCH Alto”, 3o Corte Bisada e 6

o Corte Bisada tendem a ter “TCH Médio Alto”, 3

o e 4

o Corte tendem

a ter “TCH Médio Baixo” e 6o Corte tende a ter um “TCH Baixo”.

Esse comportamento já é um comportamento conhecido e esperado em relação ao TCH, isto é,

a cana-de-açúcar produz mais por hectare nos primeiros cortes (15 e 18 meses), depois esse

rendimento vai caindo gradativamente com o passar dos anos e cortes, até não ser mais viavel

economicamente e ser necessário renovar a plantação e plantar novamente.

Diante disto, foi realizado um segundo processamenti, retirando-se o estágio de corte ara se

perceber o comportamento dos dados. Na Figura 11 é apresentada a árvore com dois niveis do TCH

sem o parametro do estágio.

É possivel notar que o algorítmo gerou uma árvore com dois níveis, primeiramente

classificando por grupo de tipo de propriedade, assim como ocorreu com o ATR, e para os grupos do

tipo de propriedade “Cana Spot” tendem a ter um “TCH Alto”, para os grupo de Fornecedor tendem a

ter um “TCH Médio Alto”, para os grupo “Própria”, abre-se um novo nó na árvore para Tipo de

Maturação, sendo a Precoce com “TCH Alto”, a super precoce com “TCH Médio Alto” e a Média e

Tardia com “TCH Médio Baixo”.

Grupo Tipo Propriedade

TCH Médio Baixo

TCH Médio Alto

TCH AltoTipo

MaturaçãoTCH Médio

Alto

TCH Alto

Figura 11 - Árvore para TCH sem estágio

7. Considerações Finais

Neste artigo foi apresentada a utilização de técnicas específicas de mineração de dados para

descoberta de conhecimento dentro do domínio da produtividade da cana de açúcar.

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

17

Quanto aos dados selecionados para o estudo, procurou-se contemplar uma amostra

significativa dos dados, contemplando várias usinas e os diversos parâmetros possíveis de serem

usados para a classificação da produtividade. Também é intuito desse trabalho auxiliar as usinas a

melhorarem seus dados, trabalhando para ajudar a completude de seus dados na origem do

acontecimento dos fatos, com isso pode-se gerar outros processos de descoberta de conhecimento

acrescentando os parâmetros com dados completos afim de se ter um resultado mais acurado.

Outro elemento que deve ser considerado é que a descoberta de conhecimento é um processo

inerentemente exploratório e iterativo, característica que demanda muitos ajustes e, consequentemente,

novas iterações e experimentos em busca padrões em meio aos dados. Por este motivo, ainda serão

realizadas novas avaliações para consolidação de resultados e novas descobertas.

Durante esta pesquisa notou-se como as técnicas de mineração de dados podem prover

subsídios valiosos para a tomada de decisão no que diz respeito à gestão das lavouras de cana de

açúcar com intuito de melhorar a produtividade dos canaviais. Como complemento a esse trabalho,

temos a iniciativa para novos estudos acrescentando dados da influência das aplicações de insumos

(fertilizantes e herbicidas), além da influência do clima (precipitação e tempo de radiação solar) e a

influência de pragas e plantas daninhas. Além disso, temos a influência das safras como resultado de

uma análise temporal dos dados.

Agradecimentos

Agradecemos as instituições que apoiaram essa pesquisa: FAPESP, processo 13/50657-6;

FT/Unicamp, EsalqTec – Incubadora Tecnológica da Esalq/USP; Noble Agr, pelos dados e discussões

valiosas e Maxit-Sistemas pelos recursos humanos e equipamentos.

Referências Bibliográficas

AGRAWAL, R.; IMIELINSKI, T; SWAMI, A. Mining association rules between sets of items in large

databases. ACM SIGMOD Int'l Conf. on Management of Data, p. 207-216, 1993.

CEPEA, ESALQ. USP: Perspectivas para o Agronegócio em 2015; Piracicaba-SP, 2014. Disponível

em <http://www.cepea.esalq.usp.br/> . Acesso em 23 de Março de 2015

CINTRA, MARCOS EVANDRO; MEIRA, CARLOS A. A; MONARD MARIA C; CAMARGO,

HELOISA. The use of fuzzy decision trees for coffee rust warning in Brazilian crops. In: Intelligent

Systems Design and Applications (ISDA). 11th International Conference on. IEEE, 2011. p. 1347-

1352, 2011.

CONSECANA - Conselho dos Produtores de Cana de-Açúcar e Álcool do Estado de São

Paulo. Manual de instruções, v. 5, 2007.

XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015

18

DE SOUZA, ZIGOMAR MENEZES, CERRI, DOMINGOS GUILHERME PELLEGRINO; COLET,

MARCELO JOSÉ; RODRIGUES, LUIZ HENRIQUE ANTUNES; MAGALHÃES, PAULO SÉRGIO

GRAZIANO; MANDONI, RAFAEL JUNQUEIRA ARAÚJO. Análise dos atributos do solo e da

produtividade da cultura de cana-de-açúcar com o uso da geoestatística e árvore de decisão. Ciência

Rural, v. 40, n. 4, p. 840-847, 2010.

DI GIROLAMO NETO, C.; RODRIGUES, LHA; MEIRA, C.A.A. Modelos de predição da ferrugem

do cafeeiro (Hemileia vastatrix Berkeley & Broome) por técnicas de mineração de dados. Embrapa

Informática Agropecuária-Artigo em periódico indexado (ALICE), 2014.

GARCIA, EDERSON; VIEIRA, MARINA TERESA PIRES. Estudo de caso de mineração de dados

multi-relacional: aplicação do algoritmo connetionblock em um problema da agroindústria.

In: Proceedings of the 23rd Brazilian symposium on Databases. Sociedade Brasileira de Computação,

p. 224-237, 2008

GIASSON, ELVIO; HARTEMINK, ALFRED EDUARD; TORNQUIST, CARLOS GUSTAVO;

TESKE, RODRIGO; BAGATINI, TATIANE. Avaliação de cinco algoritmos de árvores de decisão e

três tipos de modelos digitais de elevação para mapeamento digital de solos a nível semi detalhado na

Bacia do Lageado Grande, RS, Brasil. Ciência Rural, v. 43, n. 11, p. 1967-1973, 2013.

HALL, M.A. Correlation-based feature subset selection for machine learning. Tese - Department of

Computer Science, University of Waikato. 1999.

HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers. 2011.

QUINLAN, J.R. C4.5: programs for machine learning. Sydney, Austrália: Morgan Kaufmann

Publishers, 1993.

TAN, P.; STEINBACH, M.; KUMAR, V. (2009). Introdução ao Data Mining – Mineração de Dados.

Rio de Janeiro: Editora Ciência Moderna. 900 p.

WEKA– Data Mining Software in Java. Disponível no site da University of Waikato (2015).

Disponível em <http://www.cs.waikato.ac.nz/ml/weka> Acesso em 23 de Março de 2015