61
FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO TECNOLÓGICA INSTITUTO DE ENSINO SUPERIOR FUCAPI COORDENAÇÃO DE GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO ABNER NEVES DE OLIVEIRA PREVISÃO EM UNIDADES DE EXTRAÇÃO DE PETRÓLEO UTILIZANDO TÉCNICAS DE APRENDIZADO DE MÁQUINA Manaus 2008

FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

  • Upload
    buinhu

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Page 1: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

I

FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO TECNOLÓGICA INSTITUTO DE ENSINO SUPERIOR FUCAPI

COORDENAÇÃO DE GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

ABNER NEVES DE OLIVEIRA

PREVISÃO EM UNIDADES DE EXTRAÇÃO DE PETRÓLEO UTILIZANDO TÉCNICAS DE APRENDIZADO DE MÁQUINA

Manaus 2008

Page 2: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

II

ABNER NEVES DE OLIVEIRA

PREVISÃO EM UNIDADES DE EXTRAÇÃO DE PETRÓLEO UTILIZANDO TÉCNICAS DE APRENDIZADO DE MÁQUINA

Monografia apresentada ao curso de graduação em Ciência da Computação do Instituto de Ensino Superior Fucapi – CESF como requisito parcial para obtenção do Título de Bacharel em Ciência da Computação Orientador: Prof. Dr. Marco Antonio P. Cristo

Manaus 2008

Page 3: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

048p Oliveira, Abner Neves de.Previsão em unidades de extração de petróleo utilizando técnicas de

aprendizado de máquina. / Abner Neves de Oliveira. - Manaus: FUCAPI,2008.

59 p. : il.

Trabalho de Conclusão de Curso (graduação) - Instituto de EnsinoSuperior Fucapi CESF, Coordenação de Ciência da Computação.

Orientador: Marco Antônio P. Cristo, Dr.

1. Redes neurais. 2. Rede de base radial. 3. Petróleo - equipamentos. I.Cristo, Marco Antônio P. (Orient.) 11.Instituto de Ensino Superior FucapiCESF, Coordenação de Ciência da Computação. m. Título.

--

Ficha catalográfica elaborada pela Biblioteca da FUCAPI

Page 4: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

III

ABNER NEVES DE OLIVEIRA

PREVISÃO EM UNIDADES DE EXTRAÇÃO DE PETRÓLEO UTILIZANDO TÉCNICAS DE APRENDIZADO DE MÁQUINA

Monografia apresentada ao curso de graduação em Ciência da Computação do Instituto de Ensino Superior Fucapi – CESF como requisito parcial para obtenção do Título de Bacharel em

Ciência da Computação. Aprovada em 22 / 12 / 2008, por:

___________________________________________________ Prof. Dr. Marco Antônio de Cristo

Orientador

___________________________________________________ Profa. Marcela Sávia Picanço Pessoa

Examinador

___________________________________________________ Prof. Dr. Eduardo Freire Nakamura

Examinador

Manaus 2008

Page 5: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

IV

DEDICATÓRIA

Dedico este trabalho a meus pais, Antonio Aderson de Oliveira e Rosita Maria Neves de

Oliveira, que mesmo enfrentando dificuldades lutaram para que eu pudesse ter a melhor educação

disponível.

A Daniela, namorada e companheira, onde sempre pude buscar carinho e compreensão,

mesmo nas horas mais difíceis.

Aos amigos da graduação e todos os professores que contribuíram, mesmo que de forma

indireta, para a minha formação.

Page 6: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

V

AGRADECIMENTOS

A Deus, pela oportunidade de participar da vida.

Ao Prof. Dr. Marco Antonio Cristo, pela paciência, esforço e dedicação na construção

desse trabalho.

À Petrobras, através da UN-AM, que possibilitou a realização desse trabalho.

E a todos que de alguma forma foram importantes em minha jornada.

Page 7: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

VI

"Você pode ter todo o dinheiro do mundo, mas há algo que jamais poderá comprar: um dinossauro” Homer J. Simpson

Page 8: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

VII

RESUMO

A indústria do petróleo enfrenta diversos desafios que, para serem resolvidos,

implicam na adoção de estratégias e equipamentos de custo elevado. Por exemplo, para

aferição da produção de um poço (exigência da Agência Nacional de Petróleo) é necessário

que seja instalado um equipamento separador que determina precisamente as proporções de

água, óleo e gás. O custo deste equipamento é da ordem de dezenas de milhões de reais. Da

mesma forma, para maximizar a produção de petróleo de um determinado reservatório, é

necessário acompanhar continuamente a pressão no fundo do poço. O custo de um

equipamento para executar tal acompanhamento pode ser da ordem de centenas de milhares

de dólares. Em ambos os casos, a adoção de tais soluções pode se tornar economicamente

insatisfatória.

Neste trabalho, propomos utilizar diversas técnicas de mineração de dados e analisar

os impactos de diferentes grandezas em termos de sua capacidade de prever características de

interesse como pressão no poço e vazão de fluidos. Além disso, pretendemos aplicar

diferentes técnicas de pré-processamento e pós-processamento estatístico nos dados para

maximizar a precisão das previsões a serem realizadas.

Palavras-Chave: Redes neurais, aprendizado de máquina, petróleo, funções de base radial, previsão

Page 9: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

VIII

ABSTRACT

Many problems in the oil industry lead to the adoption of high cost strategies and

equipments. For example, to quantify the production of an oil well (a legal requirement of

National Petroleum Agency), it is necessary a device, called separator, that precisely measures

the proportions of water, oil, and gas. The cost of such a device is about the order of millions

of reais. Similarly, to maximize the oil production of a reservatory, it is necessary to

continually monitor the pressure at the well bottom. The cost of the requited device is about

the order of two hundred thousand of reais. In the both two cases, the adoption of these

solutions can be economically unfeasible.

In this work we study several data mining techniques and analyze their usefulness on

forecasting physical quantities such as oil pressure and fluid ratios based on other tracked

physical quantities. Further, we intend to apply several pre- and post-processing techniques to

maximize the accuracy of our methods.

Keywords: Neural network, machine learning, oil, radial base function, forecasting.

Page 10: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

IX

SUMÁRIO

1.  Introdução ......................................................................................................................... 12 1.1.  Especificação do Problema ........................................................................................ 14 1.2.  Motivação e relevância do problema ......................................................................... 15 1.3.  Objetivos .................................................................................................................... 16 

1.3.1.  Objetivo Geral .................................................................................................... 16 1.3.2.  Objetivos Específicos ......................................................................................... 16 

1.4.  Trabalhos Relacionados ............................................................................................. 16 1.5.  Metodologia ............................................................................................................... 18 1.6.  Estrutura do Trabalho ................................................................................................ 19 

2.  Conceitos Básicos ............................................................................................................. 21 2.1.  Mineração de Dados .................................................................................................. 21 2.2.  Métodos de Previsão Numérica ................................................................................. 22 

2.2.1  Regressão Linear ................................................................................................ 22 2.2.2  Árvores de Decisão ............................................................................................. 22 2.2.3  Aprendizado Baseado em Instância .................................................................... 25 

2.3.  Redes Neurais ............................................................................................................ 27 2.4.  Rede de Base Radial .................................................................................................. 29 2.5.  Avaliação de Resultados ............................................................................................ 31 2.6.  Software Weka ........................................................................................................... 32 

3.  Modelagem do Problema .................................................................................................. 34 3.1.  Proporções de Fluídos no Petróleo Extraído .............................................................. 34 

3.1.1  Modelo Proposto ................................................................................................ 34 3.1.2  Obtenção dos Dados para Criação de Coleções de Teste e Treino .................... 36 

3.2.  Pressão no fundo do Poço .......................................................................................... 39 3.2.1  Modelo Proposto ................................................................................................ 39 3.2.2  Obtenção dos Dados para Criação de Coleções de Teste e Treino .................... 40 

4.  Experimentos .................................................................................................................... 42 4.1  Metodologia ............................................................................................................... 42 4.2  Estudos de atributos e métodos .................................................................................. 43 

4.2.1  Proporções de Fluídos no Petróleo Extraído ...................................................... 43  4.2.1.1 Numero K de vizinhos ........................................................................ 43  4.2.1.2 Impacto dos atributos .......................................................................... 44 4.2.2  Pressão de fundo ................................................................................................. 48  4.2.2.1 Numero k de vizinhos ......................................................................... 48  4.2.2.2 Impacto de atributos ............................................................................ 49 

4.3  Comparação dos métodos .......................................................................................... 51 4.3.1  Proporção de Fluídos no petróleo extraído ......................................................... 51 4.3.2  Pressão de fundo ................................................................................................. 52 

4.4  Comparação com trabalhos da literatura.................................................................... 53 5.  Conclusões e Trabalhos futuros ........................................................................................ 56 Referências Bibliográficas ........................................................................................................ 58 

Page 11: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

X

LISTA DE TABELAS

Tabela 1: Comparativo MLP Vs RBF ...................................................................................... 31 Tabela 2: Escolha do k. ............................................................................................................ 43 Tabela 3: Impacto de atributos Regressão Linear. ................................................................... 45 Tabela 4: Análise da melhor combinação, Regressão linear. ................................................... 46 Tabela 5: Impacto de atributos M5P......................................................................................... 46 Tabela 6: Análise da melhor combinação, M5P. ...................................................................... 47 Tabela 7: Impacto de atributos kNN......................................................................................... 47 Tabela 8: Análise da melhor combinação, kNN. ...................................................................... 48 Tabela 9: Escolha do k ótimo para pressão de fundo. .............................................................. 49 Tabela 10: Estudo de impacto para regressão linear. ............................................................... 49 Tabela 11: Análise da melhor combinação, Regressão Linear. ................................................ 50 Tabela 12: Estudo de impacto para M5P. ................................................................................. 50 Tabela 13: Estudo de impacto para kNN. ................................................................................. 50 Tabela 14: Comparativo melhor combinação de atributos. ...................................................... 51 Tabela 15: Comparação de métodos para previsão da vazão de óleo. ..................................... 51 Tabela 16: Comparação de métodos para previsão da vazão de gás. ....................................... 52 Tabela 17: Comparação de métodos para previsão da vazão de água. ..................................... 52 Tabela 18: Comparação de métodos para pressão do fundo do poço. ...................................... 53 Tabela 19: Todos os Atributos. ................................................................................................ 53 Tabela 20: Impacto de atributos para MLP. ............................................................................. 54 

Page 12: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

XI

LISTA DE FIGURAS

Figura 1: Poço visto na sala de controle. .................................................................................. 12 Figura 2: Poço de petróleo, visto na figura 1. ........................................................................... 13 Figura 3: Vaso separador. ......................................................................................................... 14 Figura 4: Rede Neural Aplicada ao Separador Lógico Programável. ...................................... 17 Figura 5: Árvore de regressão. ................................................................................................. 25 Figura 6: MCP Modelo Clássico de Perceptron. ...................................................................... 27 Figura 7: Rede de Base Radial. ................................................................................................ 30 Figura 8: Arquivo ARFF. ......................................................................................................... 33 Figura 9: Esquemático do Poço. ............................................................................................... 35 Figura 10: Planilha de Teste do Poço LUC-38H. ..................................................................... 37 Figura 11: Planilhas de teste utilizadas. ................................................................................... 38 Figura 12: Planilha Gerada. ...................................................................................................... 38 Figura 13: Planilha da Pressão de Fundo. ................................................................................ 40 

Page 13: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

XII

LISTA DE ABREVIATURAS E SIGLAS

Sigla Significado ANP Agência Nacional de Petróleo VCP Variável de Cabeça de Poço ANP Agência Nacional de Petróleo PETROBRAS Petróleo Brasileiro S/A RBR Rede de Base Radial RNA Rede Neural Artificial CLP Controlador Lógico programável SPP Sistema Petrolífero de Produção ECOS Estação Central de Operação e Supervisão

Page 14: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

12

1. Introdução

Historicamente, o petróleo no Brasil foi explorado pelo poder público, como um

monopólio. Em 1997, este monopólio foi quebrado com a criação da ANP (Agência Nacional

de Petróleo). Isto trouxe uma nova realidade para o mercado, transformando-o em um

mercado de alta competitividade. A Petrobras, empresa até então detentora do monopólio de

petróleo no Brasil em nome da união, deixou de ser uma mera abastecedora do mercado

interno para se tornar uma empresa de escopo internacional, visando lucro em suas atividades,

agora reguladas pela ANP.

Com o intuito de garantir os menores custos sem comprometer o coeficiente de

extração, as unidades de extração petróleo utilizam equipamentos para acompanhar

continuamente o seu processo de produção, através de uma central de operação pode-se

acompanhar todas as informações de produção do poço, conforme figura 1. Na figura 2

podemos observar as instalações físicas do poço, bem como os instrumentos que permitem tal

acompanhamento.

Figura 1: Poço visto na sala de controle.

Page 15: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

13

Figura 2: Poço de petróleo visto na figura 1.

Exemplos de grandezas monitoradas neste acompanhamento são a pressão do fundo

do poço de petróleo e as vazões dos fluidos extraídos. O acompanhamento da pressão do

fundo do poço possibilita a tomada de medidas corretivas no tempo adequado, contribuindo

para um alto índice de recuperação de reservatórios. O acompanhamento da vazão de fluidos

permite apurar os impostos devidos, uma exigência da Agência Nacional de Petróleo.

Para monitorar estas grandezas são necessários equipamentos que, muitas vezes,

inviabilizam a planta em termos econômicos, dado o seu alto custo. Por exemplo, a pressão

no fundo é monitorada por um equipamento individual que chega a custar R$ 200.000,00

(duzentos mil reais). Já o acompanhamento das vazões de fluidos é realizado por um

equipamento compartilhado por vários poços cujo valor pode chegar a milhões de reais, esse

equipamento é o vaso separador, mostrado na figura 3. Em certas plantas de produção, tais

custos podem inviabilizar a exploração dos poços.

Page 16: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

14

Figura 3: Vaso separador.

Uma alternativa para minimizar tais custos é inferir as grandezas de interesse com

base em outras grandezas já mensuradas nos poços e cujo processo de acompanhamento tem

custo menor ou não pode ser evitado, por questão de segurança. Por exemplo, na cabeça de

um poço de petróleo existem diversos instrumentos de medição que servem para manter a

segurança operacional. Tais instrumentos fornecem dados que, provavelmente, se

adequadamente processados poderiam ser usados para inferir outras grandezas de interesse de

um poço, tal como pressão de fundo e vazão de fluidos.

1.1. Especificação do Problema

A medição do fluxo multifásico1 on-line da produção de poços de petróleo é

fundamental para indústria, uma vez que possibilita a tomada de ações de forma pró-ativa e

atende a exigências da Agência Nacional de Petróleo. O alto custo dos equipamentos

utilizados para desempenhar essa função contribui para que novas abordagens sejam

consideradas para o problema.

Poços de produção de petróleo exigem uma moderna automação, tanto para garantir

a segurança ambiental como a industrial. Além disso, a automação dos poços possibilita o

acompanhamento do desempenho dos processos, garantindo sua máxima disponibilidade. 1 Fluxo de fluidos em diferentes estados da matéria.

Page 17: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

15

A agência nacional de petróleo exige que em um período de 42 dias, todos os poços

devem ser testados pelo menos uma vez. Um teste de poço consiste em alinhar a produção

para um equipamento aferidor seja ele um vaso separador trifásico ou um tanque de aferição,

conforme a característica do campo. Um poço alinhado para teste escoa por uma tubulação

individual, portanto não sofrendo interferência de outros poços. Dependendo da localização, é

necessário um tempo de estabilização para que o regime de produção do poço fique dentro

dos padrões esperados.

Somente após a estabilização do poço, tem início o teste, que deve durar no mínimo

4 horas. A ANP exige que seja feito o acompanhamento dos valores de produção de maneira

horária, o que resulta em uma planilha de acompanhamento.

Da mesma forma a pressão de fundo do poço é de extrema importância para a

garantia da produção. Este é um dado estratégico para o processo de tomada de decisão, pois

afeta diretamente aspectos como o coeficiente de extração e a drenagem de um campo.

Dado o alto custo de mensurar essas características de interesse diretamente, torna-se

interessante verificar como diferentes grandezas físicas monitoradas rotineiramente poderiam

ser usadas para prever estas outras características de interesse. Para tanto, é necessário

analisar que tipos de processamento devem ser realizados nos dados e que técnicas de

previsão deveriam ser aplicadas.

1.2. Motivação e relevância do problema

Em um mercado competitivo e de alto valor é de extrema importância a redução de

custos e o acesso à informação mais correta para o processo decisório.

Neste trabalho propomos utilizar os recursos de maneira mais racional, uma vez que

o processo decisório e até mesmo os aspectos legais podem ser cumpridos através de dados já

disponíveis, não necessitando de novos investimentos.

O acompanhamento da produção em tempo real pode facilitar a tomada de decisão

referente a uma manutenção preventiva, evitando uma manutenção corretiva e

conseqüentemente uma perda de produção.

Page 18: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

16

1.3. Objetivos

1.3.1. Objetivo Geral

Propor soluções alternativas de custo menos elevado para o problema de previsão de

proporções de gás, água e óleo no petróleo extraído, bem como a pressão no fundo do poço.

Para tanto, pretendemos determinar como explorar outras características físicas já aferidas nas

localidades onde se encontram os poços usando técnicas de mineração de dados, em

particular, baseadas em aprendizado de máquina.

1.3.2. Objetivos Específicos

• Determinar que grandezas explorar para fazer as previsões e qual o impacto de

cada uma delas;

• Determinar como tais grandezas podem ser exploradas, ou seja, que métodos

de aprendizado de máquina aplicar para este trabalho, comparando-os entre si;

• Avaliar os resultados obtidos, contrastando-os com outras abordagens

empregadas na literatura;

1.4. Trabalhos Relacionados

Trabalhos anteriores na literatura já sugeriram o uso de técnicas de aprendizado de

máquina para o problema da previsão da vazão de fluidos.

Em SILVA (2006), é apresentado um Separador Lógico Programável (SLP) baseado

em redes neurais. Este separador é capaz de predizer as vazões de fluidos, bem como detectar

quando certos instrumentos estão com problemas. Este sistema foi treinado com dados reais

de vários poços de petróleo coletados ao longo de três meses e avaliados com dados dos três

meses seguintes.

De acordo com SILVA (2006) os trabalhos dessa natureza devem estender o conceito

de Sistema Petrolífero de Produção (SPP) de Magoon e Dow, (1994). Portanto, essas técnicas

de acompanhamento de fluxo só são válidas para um mesmo conjunto de poços que fazem

Page 19: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

17

parte de um mesmo SPP, uma vez que os poços de um mesmo SPP apresentam características

físico-químicas semelhantes entre si. Portanto para outro SPP, a rede necessita ser re-treinada.

Utilizando os testes periódicos de cada poço, foi possível estabelecer uma relação

entre as vazões das fases de água, óleo e gás, com as variáveis de cabeça de poço, através de

uma rede neural de duas camadas escondidas (cf. Capítulo 2, para detalhes), como a da Figura

4.

Figura 4: Rede Neural Aplicada ao Separador Lógico Programável.

A rede neural artificial (RNA) utilizada apresenta as características:

• Densamente conectada, com duas camadas escondidas de seis neurônios cada

uma e três neurônios na saída da rede;

• Funções de ativação baseada em sigmóide para todas as camadas, inclusive na

saída da rede;

• Bias na entrada da rede, e na saída de cada camada escondida.

• Taxa de aprendizado variável; e

• Algoritmo de retropropagação do erro no treinamento da rede, com definição de

parada de treinamento para valor menor que 10% do erro.

Page 20: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

18

O trabalho inovou ao sugerir, realizar e aplicar o treinamento da RNA com padrões

obtidos com os valores de variáveis de cabeça do poço (VCP’s) e das vazões medidas nos

separadores durante os testes dos poços, garantindo, que o SLP acompanhe as vazões das

fases dos mesmos. Estes resultados foram comprovados nas aplicações realizadas em 33

poços diferentes. Em média, para os poços avaliados, o programa obteve uma taxa de erro da

ordem de 35%

Em SILVA (2008), os mesmos dados de treino e teste utilizados por SILVA (2006)

foram usados em uma variante do SLP, utilizando redes da base radial. Finalmente, em

CARMO (2008), outra variante foi estudada, baseada em lógica difusa. Os três trabalhos

apresentaram desempenhos similares, com menores tempos de treino para os dois últimos.

No trabalho de CARMO (2008), as características de interesse foram as vazões de

óleo, gás e água, porém houve mudanças nos dados de entrada, deixando de lado um dos

utilizados por SILVA (2006). A entrada de dados para o treinamento da rede foi através de

planilhas de teste, as mesmas enviadas como relatório à ANP. Nesta, constam todos os dados

de teste de um determinado poço com a diferença que é utilizada uma média aritmética dos

dados entre os tempos de inicio e fim do teste. Dessa maneira, uma planilha de teste gera

apenas um único vetor de entrada-saída.

Todos os trabalhos citados consideraram as proporções de fluidos como simples

séries temporais sem explorar outras grandezas físicas disponíveis que poderiam ter sido

usadas como evidências adicionais. Mais ainda, estes trabalhos não empregaram técnicas

consideradas hoje o estado-da-arte em aprendizado de máquina, como as máquinas de vetores

de suporte (WITTEN & FRANK, 2005) ou técnicas de natureza mais facilmente

compreensível por seres humanos, como previsão baseada em regras (WITTEN & FRANK,

2005). Além disso, até onde sabemos, nenhum trabalho na literatura abordou o problema da

previsão da pressão no fundo do poço a partir de grandezas medidas na superfície utilizando

aprendizado de máquina.

1.5. Metodologia

Este trabalho foi dividido em quatro etapas, sendo a primeira o levantamento de

dados, que foi realizado junto a Petrobras através da UN-AM (Unidade de Negócios da

Page 21: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

19

Amazônia). Esse levantamento considerou o conhecimento existente de engenharia de poços,

elevação, escoamento além das propriedades físico-químicas do petróleo.

A segunda etapa envolveu o levantamento de trabalhos relacionados, que foram um

ponto de partida para o modelo que propomos aqui.

Após a segunda etapa, foi necessário normalizar os dados adquiridos, para que

pudéssemos usá-los em nossa modelagem.

Por último, conduzimos experimentos para determinar as técnicas e métricas de

avaliação mais adequadas ao nosso caso. Em nossa avaliação, confrontamos nossos resultados

com outros trabalhos da literatura.

Este trabalho será desenvolvido através de técnicas de pré e pós-processamento dos

dados e aplicação de técnicas de mineração de dados para a previsão das grandezas de

interesse. Em particular, estudaremos técnicas de previsão numérica baseadas em regressão

linear, regras, separação espacial e programação genética.

Para o estudo das técnicas e impacto das grandezas de interesse, procuraremos

utilizar uma ferramenta de mineração de dados que permita a fácil experimentação e

prototipação. Essa ferramenta é o software Weka (Waikato Environment for Knowledge

Analysis) da universidade de Wakatoo na Nova Zelândia (WITTEN & FRANK, 2005).

Os dados analisados serão dados reais oriundos da Província Petrolífera de Urucu, o

que nos permitirá realizar uma comparação direta com os resultados apresentados em

(SILVA, 2006) e (SILVA, 2008). Como nos trabalho anteriores na literatura e em estudos

preliminares, tais dados foram utilizados mediante autorização fornecida pela Petrobrás.

1.6. Estrutura do Trabalho

Este trabalho está dividido em cinco capítulos, dos quais este é a Introdução.

No segundo capítulo, são mostrados os conceitos básicos para entendimento do

problema, relacionado às técnicas de mineração de dados, métricas de avaliação, conceitos

utilizados nos trabalhos relacionados e a ferramenta utilizada para o estudo.

Page 22: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

20

No terceiro capítulo, serão detalhados os problemas de medição das fases de fluidos

em poços de petróleo bem como a aferição da pressão estática e dinâmica de fundo do poço.

No quarto capítulo são mostrados os experimentos realizados, bem como a

comparação dos resultados obtidos com os resultados anteriores conseguidos através da

literatura, tudo isso baseado na metodologia de execução, aqui também apresentada.

Por fim o quinto capítulo traz as conclusões e sugestões para trabalhos futuros.

Page 23: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

21

2. Conceitos Básicos

Este capítulo tem como objetivo apresentar alguns conceitos básicos importantes

para a compreensão deste trabalho.

2.1. Mineração de Dados

É o processo que realizamos em uma massa de dados para descobrir alguma

informação ou relação entre os dados de entrada. Em geral, esperamos que tal informação seja

implícita, útil e previamente desconhecida. Este processo se dá através de uma série de

técnicas. Tais técnicas são utilizadas principalmente em grandes volumes de dados, de

maneira que não seria possível fazer através de um operador humano.

Apesar de ser classificada comumente como uma sub-área da inteligência artificial,

para o estudo da mineração de dados é preciso uma gama muito maior de conhecimentos,

como a aplicação de regras estatísticas e a manipulação de banco de dados.

Segundo Witten & Frank (2005), a busca por informações deve ter como resultado

alguma vantagem, geralmente econômica, caso contrario não faz sentido essa busca.

Das técnicas normalmente empregadas em mineração de dados, usaremos algumas

baseadas em aprendizado de máquina aplicadas à tarefa de previsão numérica. O fato de

usarmos técnicas de aprendizado de máquina implica que usaremos massas de dados

relacionando os atributos a serem usados (atributos de previsão) com os atributos que

queremos prever (atributos de interesse) para aprender um modelo do relacionamento.

Aprendido o modelo, podemos aplicá-lo a um novo conjunto de atributos de previsão, para

então determinar os seus atributos de interesse. No caso da tarefa de previsão, o atributo de

interesse é um número real. Em nosso caso particular, um valor de vazão de fluido ou pressão.

Em particular, estudaremos técnicas de previsão numérica baseadas em funções,

regras e instâncias. Dada a sua simplicidade, o método de regressão linear será usado como

base para comparação entre os métodos automáticos. Tais técnicas serão apresentadas a

seguir.

Page 24: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

22

2.2. Métodos de Previsão Numérica

2.2.1 Regressão Linear

É um método estatístico que busca encontrar a relação entre duas ou mais varáveis

sendo elas interdependentes, de forma a podermos pré-dizer a variável-alvo através da outras.

É um dos mais simples e é excelente para definir uma base para comparação entre

resultados de diferentes algoritmos.

Quando os dados de entrada e saída são numéricos é natural pensar em uma

regressão linear, um dos métodos mais básicos da estatística. Neste método, a relação entre os

atributos de previsão e o atributo de interesse é representado através de uma equação linear.

Ou seja, nesta equação, o atributo de interesse é dado como uma função direta do somatório

dos produtos dos atributos de previsão com os seus respectivos pesos. Assim, dados os

atributos de previsão x1, x2, ..., xn, o atributo de interesse y e o conjunto de pesos w1, w2, ..., wn,

o método de regressão busca encontrar a função w1 x1 + w2 x2 + ... + wn xn = y nos dados de

treino, tal que ela minimize o erro nos dados de teste. Para tanto, os pesos são calculados de

forma que a soma dos quadrados da diferença entre os valores calculados e o valor real seja

mínima. Isso é feito através da resolução de uma série de equações lineares nas variáveis

pesos (WITTEN & FRANK, 2005).

Caso a relação dos dados não seja linear o erro tende a ser maior.

2.2.2 Árvores de Decisão

Árvore, no sentido computacional, é uma estrutura de representação gráfica de

objetos (dados, condições, informações, etc). É formada por um conjunto de elementos

chamados nós, onde existe um nó especial, chamado raiz, esse nó é o principal da árvore.

Page 25: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

23

Existem diversos algoritmos que são utilizados para previsão em árvores, cada um

deles se difere na metodologia empregada, porém, a maneira como as árvores são usadas é a

mesma para todos.

Um nó interno é sempre um teste sobre um conjunto de atributos e uma folha

representa sempre um valor para a variável dependente. Quando se está tentando estabelecer o

valor da variável dependente para um determinado caso, ele é primeiramente testado na raiz.

Este teste determina qual sub-árvore o nó deve seguir. Se esta sub-árvore possuir apenas um

nó, então este nó é uma folha, e será obtido o valor desejado. Se esta sub-árvore possuir mais

de um nó, então haverá uma raiz para a sub-árvore, que será um novo teste. Como a árvore é

um conjunto finito de nós, tem-se que este processo resulta em uma folha e, portanto, num

valor para a variável dependente. Dessa maneira, conforme você “caminha” pela árvore, você

diminui as opções de resposta, até que só reste uma.

Caso um atributo de uma instância tenha um valor nulo, o que impossibilitaria a

comparação, ele recebe o valor da moda das outras instâncias.

Essas árvores podem ser de vários tipos, porém, as mais comuns são as binárias. As

folhas de uma árvore de decisão apresentam valores ou uma estatística do conjunto de

variáveis que “caíram” naquele nó durante o treinamento. O algoritmo que utilizaremos é

chamado M5P e foi desenvolvido por Quinlan, Wang e Witten (WITTEN & FRANK, 2005),

onde cada nó folha apresenta uma regressão linear.

Inicialmente as árvores eram chamadas de árvores de modelos, uma vez que as

árvores representam modelos lineares por partes, ou seja, cada nó da árvore apresenta uma

equação linear (WITTEN & FRANK, 2005).

Para atribuir um valor a uma determinada folha é utilizado o método dos mínimos

quadrados.

A divisão de uma árvore de atributos numéricos é bem definida, uma vez que será

utilizada uma constante como limiar, ou seja, para um lado os registros que tem o atributo

teste menor que o limite e para o outro os registros que tem o atributo teste maior. A busca

pelo nível de divisão não é otimizada, uma vez que é necessário percorrer todo o conjunto de

dados para determinar o valor a ser usado.

Page 26: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

24

Uma árvore que não tenha uma regra de divisão bem estabelecida pode ser muito

grande e complexa, podendo causar o overfitting, ou seja, muitos ajustes aos dados de

treinamento, prejudicando a generalização. Para evitar isso é utilizado o algoritmo de poda,

que reduz a árvore para aumentar a generalização.

A poda é dividida em duas partes, a primeira o modelo é testado para verificar se a

redução da quantidade de atributos usados pode ser reduzido de maneira a melhorar a função

de erro, após este teste ocorre realmente a poda, ou seja, nós internos passam a ser folhas.

Uma vez criada a árvore, as equações de regressão devem ser estimadas para cada

nó, isso é feito através do procedimento padrão de regressão (mínimos quadrados) e usando

somente os atributos da sub-arvore abaixo do nó em questão, por esse motivo as folhas não

apresentam modelos.

Para tratar os casos de descontinuidade, ou seja, valores iguais para todos os atributos

exceto um, o que faria uma previsão totalmente diferente para cada caso, são utilizados os

modelos lineares, chamado de técnica de suavização.

Essa técnica prevê a soma ponderada dos valores previsto por todos os modelos que

estão armazenados em cada nó no caminho da raiz até a folha, em que o caso alcança. Essa

soma é enviada para o nó pai da folha até a raiz.

O primeiro valor a ser calculado é na folha pelo modelo que está armazenado lá. O

valor previsto pelo nó S é calculado usando valor Si, previsto pelo seu filho, usando a equação

abaixo:

, (1)

onde PV é o valor previsto pelo nó, M é o valor de resposta estabelecido pelo modelo linear

do nó em questão, é o número de casos que caem no nó Si durante a fase de treinamento, e

k é uma constante de suavização, usualmente igual a 15.

Page 27: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

25

Figura 5: Árvore de regressão.

Podemos utilizar a árvore da figura 5 como exemplo. Para prever o valor do caso que

tenha caído na folha F1, será aplicada uma ponderação dos valores obtidos nas três equações

de regressão localizadas nos nós A, B e F1. O valor calculado em F1 será passado para o nó

B, que utilizará a equação anterior para calcular o valor que deverá ser enviado ao nó A. O nó

A por sua vez utilizará a equação novamente para calcular o valor final.

O uso deste procedimento de suavização aumenta substancialmente a precisão da

previsão (WITTEN & FRANK, 2005).

O tamanho da árvore está relacionado diretamente ao tamanho da base de dados

disponível para treinamento.

Uma desvantagem dessa abordagem é o seu alto custo computacional, uma vez que

tem natureza recursiva e uma quantidade de cálculos bem superior aos demais.

2.2.3 Aprendizado Baseado em Instância

É um método de classificação de objetos baseado no exemplo mais próximo dos

dados fornecidos. É um tipo de aprendizado baseado em analogia, ou seja, não exige a criação

Page 28: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

26

de um “conhecimento” de fato, apenas é necessário que se faça o armazenamento das

instâncias de treinamento para que possa ser feita uma busca.

Diferentes dos outros algoritmos, o conhecimento é representado pelos dados

armazenados, ou seja, não existe uma equação linear, uma árvore ou as conexões de uma rede

neural para representar esse conhecimento.

O método mais conhecido faz uma busca em seu espaço padrão por k casos que

sejam mais semelhantes para determinar o caso em questão. Essa semelhança é definida pela

distância entre os pontos do espaço padrão. Esse método é chamado de kNN, ou seja, número

k de vizinhos mais próximos.

Após armazenar as instâncias de treinamento é preciso uma métrica que possa

calcular similaridade entre as instâncias de treinamento e a desconhecida, para isso é utilizado

o cálculo da distância, que pode ser Euclidiana ou Manhattam.

Distância Euclidiana:

. (2)

Distância Manhattan:

. (3)

Em nosso trabalho utilizaremos o algoritmo kNN, que armazena as instâncias em

pontos representados no Rn e calcula a distância utilizando o forma euclidiana.

Quando um novo valor é apresentado ao algoritmo ele calcula sua distância e

compara com as instâncias que ele tem armazenado, caso seja um valor discreto, a resposta

será o valor que aparecer uma maior quantidade de vezes, agora se o valor for continuo a

resposta será a média das distâncias dos k vizinhos mais próximos, portanto a definição de um

k ótimo é de grande importância para o algoritmo, pois ele pode determinar ou não o sucesso.

Estas técnicas mostram-se muito rápidas na etapa de treinamento (que representa

apenas o armazenamento dos dados), mas consomem bastante tempo para obter a previsão de

um caso não rotulado. Normalmente, são requeridas técnicas de indexação eficientes para

agilizar esta consulta. Além disso, se a memória principal do computador não for suficiente

Page 29: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

27

para o armazenamento dos dados de treinamento, o procedimento pode ficar muito mais

demorado. É também um dos algoritmos de aprendizado bastante simples e antigo, porém

apresenta um excelente desempenho na maioria dos problemas.

2.3. Redes Neurais

Modelo computacional inspirado nos neurônios biológicos e na capacidade do

cérebro de adquirir, armazenar e utilizar uma experiência passada.

As redes neurais artificiais foram desenvolvidas na década de 40 por Walter Pitts e

McCulloch, matemático e neurofisiologista respectivamente. Essa é umas das técnicas mais

antigas e mais usadas de IA (BRAGA et al. 2007).

Em 1957, Frank Rosenblat criou uma rede neural que foi batizada de “Perceptron”,

essa rede era inspirada na retina, para demonstrar como o sistema nervoso reconhece padrões.

Porém, o perceptron simples, como ficou conhecido, foi restrito a soluções de problemas

linearmente separáveis, ou seja, problemas que podem ser resolvidos dividindo as entradas em

dois espaços por meio de uma superfície linear (BRAGA, et al, 2007).

O Modelo Clássico de Perceptron, mostrado na figura 6, obtinha a sua saída y através

de uma função f(.) sobre a soma ponderada das entradas, assim como a função de regressão

linear discutida anteriormente.

Figura 6: MCP Modelo Clássico de Perceptron. Fonte: BRAGA et al. 2007

Portando:

Page 30: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

28

, (4)

sendo, v a função de ativação, sendo o valor de entrada, , o peso sináptico da ligação i, e

f(.) é a função de transferência definida por:

. (5)

As primeiras aplicações práticas de redes neurais se deram em 1960, com Widrow e

Hoff, que desenvolveram redes do tipo ADALINE e MADALINE (Multiple ADAptive

LINear Elements), que utilizaram para reduzir o ruído em chamadas telefônicas. Produziram

também uma nova regra de aprendizado chamada “Widrow-Hoff learning rule”, que

minimizava os somatórios dos quadrados dos erros durante o treinamento (BRAGA, et al,

2007).

Com a publicação do trabalho de Minsky e Symor em 1969, a abordagem

conexionista ficou adormecida até a publicação do artigo de Jonh Hopfield, em 1982,

chamado “Neural networks and physical system with emergent collective properties”

mostrando a relação entre redes recorrentes auto-associativas e sistemas físicos, trouxe um

novo ânimo às pesquisas na área. Mas foi em 1986 com o trabalho “Learning representations

by back-propagating errors”, que Rumelhart, Hinton e Williams demonstraram o quanto

Minsky e Symor haviam sido pessimistas, uma vez que, puderam mostrar que um perceptron

de múltiplas camadas era capaz de resolver “problemas difíceis de aprender” (RUSSELL,

2006)

Um dos benefícios das redes neurais, diz respeito ao tratamento de um problema

clássico da I.A. que é a representação de um universo não-estacionário (onde as estatísticas

mudam com o tempo). Uma rede pode ser projetada para modificar seus pesos sinápticos em

tempo real (LUDWIG & MONTGOMERY, 2007).

A desvantagem de uma rede neural é que não é possível saber de forma clara como

ela chegou a um determinado resultados, ou saber exatamente qual a contribuição de cada

peso para um resultado.

Com as limitações do Perceptron foi necessário avançar os estudos em novas

arquiteturas de redes neurais que pudessem resolver problemas mais complexos, foi inserção

Page 31: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

29

de uma camada interna na rede perceptron, essa abordagem foi conhecida como Multilayer

Perceptron (MLP).

O MLP é uma rede com camada sensorial ou camada de entrada, que possui tantos

nós de entrada quanto forem os sinais de entrada, uma ou mais camadas ocultas de neurônios

e uma camada de saída com um número de neurônios igual ao número de sinais de saída

(LUDWIG & MONTGOMERY, 2007).

As MLP’s normalmente utilizam a retropropagação (backpropagation) de erro para

treinamento. Esse algoritmo de treinamento opera em duas etapas. Na primeira, um padrão é

enviado à camada de entrada da rede e propagado por toda a rede até à camada de saída. Na

segunda etapa, a saída obtida é comparada ao resultado desejado, o erro é calculado e

propagado de volta da camada de saída até a camada de entrada, onde os pesos das conexões

serão modificados a fim de minimizar esse erro.

Uma das características mais importantes das redes neurais artificiais é a capacidade

de aprendizado, que diferente da abordagem simbólica, não se baseia em regras explícitas e

sim através dos ajustes dos pesos de suas conexões.

2.4. Rede de Base Radial

Em geral, as redes MLP (Multi Layer Perceptron) têm funções de ativação de base

sigmoidais. Ao contrário, as redes de base radial usam funções de base radial (RBF, do inglês

Radial Base Function) às funções radiais são um tipo que aumentam ou diminuem em relação

à distância de um ponto central, existem diversas funções de base radial, porém as mais

comuns são:

• Função gaussiana: ; (6)

• Função multiquadrática: ; (7)

• Função thin-plate-spline: ; (8)

Onde, , que é dado geralmente pela distância euclidiana, μ é o centro da

função radial e σ a largura da função radial (raio).

A distância euclidiana serve de entrada para a função, que retorna o valor de

ativação da unidade intermediária. A resposta gerada pelo neurônio de saída é definida por:

Page 32: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

30

, (9)

Onde representa o termo de polarização.

Segundo Haykin (2001), a construção de uma rede de função de base radial, em sua

forma mais básica, envolve três camadas com papéis totalmente diferentes. A camada de

entrada é constituída por nós de fonte (unidade sensorial). A segunda camada, a única oculta

da rede, aplica uma transformação não-linear do espaço de entrada para o espaço oculto, e a

camada de saída que é linear, fornece a resposta da rede. Essa arquitetura pode ser observada

na figura 7.

Figura 7: Rede de Base Radial.

As redes RBF e MLP são bastante semelhantes, já que tratam de aproximadoras

universais de funções. Porém existem várias diferenças, entre as quais, a mais importante é na

partição do espaço de dados de entrada realizado pela camada oculta de cada modelo.

A tabela 1 mostra um comparativo entre as redes neurais e as redes de base radial.

Page 33: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

31

Tabela 1: Comparativo MLP Vs RBF.

MLP RBF

Pode ter uma ou mais camadas intermediárias Geralmente apenas uma cada intermediária

Os neurônios das camadas intermediários e de saída têm funções semelhantes

Os neurônios da camada intermediária e de saída tem funções diferentes

Entrada da função de ativação é o produto interno dos vetores de entrada e de pesos

Entrada da função de ativação é a distância euclidiana entre os vetores de entrada e de pesos

Separa dados de entrada em hiperplanos Separa dados de entrada em hiperelipsóides

Melhor em problemas complexos Melhor em problemas bem-definidos

Constrói aproximadores globais para mapeamentos entrada-saída

Constrói aproximadores globais para mapeamentos entrada-saída

Lenta em relação à RBF Rápida em relação à MLP

Fonte: (Haykin, 2007)

2.5. Avaliação de Resultados

Para comparar as diversas técnicas utilizaremos a raiz do erro quadrático relativo

(RRSE, root relative square erro), que é uma das medidas utilizadas para estimar a qualidade

de um algoritmo de previsão, comumente adotado em Estatística (WITTEN & FRANK,

2005). Esta é uma métrica de uma família que mede erro como a distância entre a função alvo

e a função sugerida para aproxima a função alvo. Ela nos dá uma idéia de quanto o previsto se

afastou do real.

Para calcularmos o RRSE, utilizando a Equação:

, (10)

onde, é o número de amostras, xi é o valor fornecido pelo classificador para a i-ésima

amostra, é a média dos valores de todas as amostras e é o valor correto para a amostra em

questão.

Page 34: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

32

2.6. Software Weka

Este software foi desenvolvido na Universidade de Waikato, na Nova Zelândia e teve

sua primeira versão em 1997, tendo como foco o estudo da mineração de dados. Foi

desenvolvido usando código livre e utilizando como linguagem o Java, dessa maneira poderia

ser utilizado nos mais diversos sistemas operacionais. (WITTEN & FRANK, 2005)

O software pode ser conseguido no endereço http://www.cs.waikato.ac.nz/ml/weka.

WEKA significa Waikato Environment for Knowledge Analysis e também é o nome

de uma ave que só existe na Nova Zelândia. Para este trabalho, utilizamos a versão 3.4.13 de

2008, rodando sob o Java versão 6.

Ele é um agrupamento de diversas técnicas e algoritmos de mineração de dados.

Possui tanto uma interface gráfica para utilização direta desses algoritmos, bem como uma

API para a criação de outros softwares.

Para a utilização desse software é necessário que os dados estejam em um formato

conhecido por ele, já que ele trabalha basicamente com CSV (Common Separed Values) e

ARFF (Attibute-Relation File Format). O CSV é um arquivo texto onde cada linha representa

uma instância de dados, sendo cada dado separado por vírgula.

O arquivo ARFF, como mostrado na figura 8, é na verdade um CSV também, porém

existem algumas formalidades nele. Sendo dividido em três partes distintas.

Page 35: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

33

Figura 8: Arquivo ARFF.

A primeira é o nome da relação, que é definida pelo marcador @RELATION.

A segunda parte faz a descrição dos dados de entrada, nomeando-os e atribuindo a

eles um tipo de dado, esse relacionamento é feito através do marcador @ATTRIBUTE.

E por fim, na terceira parte estão os dados propriamente ditos, sendo eles separados

por vírgula. Essa é maior parte do arquivo. Ela não exige que cada instância seja marcada

individualmente, requerendo apenas um marcador para definir o ponto de início dos dados.

Page 36: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

34

3. Modelagem do Problema

Neste capítulo, apresentamos os modelos de aprendizado propostos para os

problemas de previsão das proporções de fluído no petróleo extraído e pressão no fundo do

poço. Cada problema de previsão é tratado como um problema diferente, o que resultou em

dois modelos distintos.

3.1. Proporções de Fluídos no Petróleo Extraído

Aqui apresentaremos o modelo proposto para o problema das proporções de fluídos

na produção de petróleo.

3.1.1 Modelo Proposto

Dentre as várias grandezas medidas na superfície de um poço, observamos que a

temperatura e a pressão do recurso natural extraído são diferentes de acordo com os fluidos

que o constituem, quais sejam, o petróleo, a água e o gás. Assim, para este modelo,

descreveremos cada proporção de fluido extraída através de diferentes mensurações de

temperatura e pressão tomadas em diferentes pontos do processo de extração. Em particular,

utilizaremos as sete variáveis disponíveis na cabeça do poço (VCP) para descrever cada

proporção de fluido, sendo elas: Pressão na Cabeça, Pressão na linha de surgência,

Temperatura na Cabeça, Temperatura na Linha de surgência, Temperatura no Choke, HW

montante, HW jusante. Como dissemos anteriormente essas variáveis já são utilizadas para o

controle e segurança industrial, através do sistema de automação existente em cada poço.

A figura 9 representa, de forma simplificada, um poço que mostra onde cada variável

é medida.

Page 37: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

35

Figura 9: Esquemático do Poço.

A pressão de cabeça corresponde à pressão medida na parte superior do poço. É a

pressão com que os fluídos chegam à superfície. Da mesma forma, a temperatura de cabeça é

localizada na superfície em uma posição adequada para o instrumento de medição.

As grandezas HWM e HWJ são medidas através do diferencial de pressão gerado

quando o fluido passa por uma placa de orifício2 A parte anterior, na direção do fluxo é

chamada de “tomada de alta pressão” enquanto a parte posterior da placa é a “tomada de

baixa pressão”. A diferença de pressão gerada é diretamente proporcional à raiz quadrada da

vazão. Porém, essa relação só é válida para fluxos monofásicos.

A diferença de pressão é muito pequena. Por isso é medida em polegadas de água. A

letra “M” refere-se à Montante, ou seja, antes da válvula choke; e a letra “J” à jusante, ou seja,

depois da válvula choke. A válvula choke, por sua vez, é o instrumento de controle que

permite variar a vazão do poço.

2 Placa de metal com um orifício, usada para gerar um diferencial de pressão e auxiliar na medição de vazão.

Page 38: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

36

Para medir a pressão na linha de surgência aproveitamos o ponto de medição de alta

pressão do HWJ e, logo em seguida na linha, temos a medição de temperatura da linha de

surgência. A linha de surgência é a tubulação que transporta os fluidos seja para um separador

de teste ou de produção, para que a partir dele, cada fluido deva receber o tratamento

adequado.

Ao gerarmos um diferencial de pressão no fluxo, cada fluido reage de uma maneira

particular. Por isso, utilizamos estes instrumentos, de maneira a tentar mensurar essa

perturbação e, a partir dela, inferir as vazões.

As variáveis de interesse neste problema são três: a vazão de óleo (Qóleo), a vazão

de gás (Qgás) e a vazão de água (Qágua). Esses dados foram obtidos através de um vaso

separador durante um teste de produção de poço, sendo armazenado em um banco de dados

apropriado.

Somente após os dados terem sido devidamente normalizados poderemos construir o

arquivo a ser utilizado no Weka.

Resumidamente, nós modelamos o problema de previsão de vazão de fluídos como

um problema de regressão. Neste problema, as instâncias correspondem a vazões de fluidos.

Os atributos de interesse são as proporções de água, óleo e gás. Cada instância é representada

pelos valores medidos das variáveis pressão na cabeça, pressão na linha de surgência,

temperatura na cabeça, temperatura na linha de surgência, temperatura no Choke, HW

montante e HW jusante.

3.1.2 Obtenção dos Dados para Criação de Coleções de Teste e Treino

Os testes de produção realizados são acompanhados através de uma planilha, como a

mostrada na Figura 10.

Page 39: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

37

Figura 10: Planilha de Teste do Poço LUC-38H.

Dada a natureza sigilosa das informações contidas nestas planilhas, os dados aqui

usados foram obtidos mediante autorização da Petrobras.

Foram utilizados os dados de teste do poço RUC-16, dos anos 2007 e 2008

totalizando 31 testes, como mostrado na figura 11. Diferente de outros trabalhos na literatura,

procuramos os dados de apenas um poço que detêm as características da maioria dos poços da

província petrolífera de Urucu. Esse poço é de surgência natural, o que significa que não

existe a interferência do método de elevação. Sua localização próxima ao pólo Arara3 e sua

linha exclusiva de produção proporcionam um poço constantemente estabilizado4 e com

vários equipamentos de testes à disposição. Por fim, é um poço que também produz água.

Dessa maneira garantimos uma boa generalização do problema.

3 Nome da base de operações da Petrobras, localizada em Urucu. 4 Poço em linha exclusiva e que não sofre perturbações externas.

Page 40: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

38

Figura 11: Planilhas de teste utilizadas.

Ao contrário de trabalhos anteriores, não utilizamos os dados brutos fornecidos

diretamente pelos equipamentos de amostragem. Utilizamos dados oriundos dos sistemas de

automatização do processo de extração, que corresponde a informações do processo industrial

tomadas a cada 15 segundos. Como resultado do processamento destas informações,

montamos tabelas de dados como a da Figura 12.

Figura 12: Planilha Gerada.

Estes dados passaram por um processamento adicional para a eliminação de ruídos

(outliers). Este processamento consistiu em reduzir as amostras para entradas de cinco

Page 41: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

39

minutos de intervalo que consistiam de médias dos cinco minutos anteriores. Em trabalhos

anteriores, o conjunto de dados de cada planilha foi reduzido a um único valor. Desta forma,

trabalhamos com uma base muito mais detalhada que em trabalhos anteriores, o que nos

permite previsões de curtíssimo prazo.

Por conveniência de apresentação, os dados foram normalizados para unidades do

sistema internacional, já que os atributos de previsão HW montante e HW jusante são dados

originalmente em polegadas d’água.

3.2. Pressão no fundo do Poço

Aqui será apresentado o modelo proposto para o problema da pressão no fundo do

poço.

3.2.1 Modelo Proposto

Existem duas maneiras de fazer o acompanhamento da pressão no fundo do poço. A

primeira e mais antiga é chamada de técnica de wireline, onde um instrumento especial é

inserido no interior do poço e baixado através de um cabo de aço até a posição de medição.

Essa técnica exige que o poço seja fechado para a inserção dessa ferramenta e ainda apresenta

um alto risco. São feitas duas medições: a pressão estática, que é a pressão no fundo do poço

quando ele está sem produzir; e a pressão dinâmica, que é a pressão no fundo do poço durante

a produção normal.

A segunda técnica é a utilização de um instrumento fixo instalado no poço durante a

sua perfuração. Esse instrumento, chamado PDG (pressure downhole gauge), tem um alto

valor. Caso o poço a ser medido não tenha o equipamento, é necessário a utilização de uma

sonda de perfuração para instalá-lo, elevando ainda mais o seu custo, sem contar com a perda

de produção durante essa instalação.

Novamente, para este problema, acreditamos que a pressão e a temperatura medidas

na superfície podem variar de acordo com variações de pressão ocorridas no fundo do poço.

Page 42: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

40

Assim, definimos a pressão no fundo do poço em função de leituras de temperatura e pressão

tomadas na superfície. Em particular, usamos como atributos de previsão a Pressão na cabeça,

a Temperatura na cabeça, o HW montante, o HW Jusante e a pressão na linha de surgência.

O atributo alvo é apenas a pressão no fundo do poço. Note que para este problema,

não há nenhum outro trabalho semelhante na literatura. Assim, serão usadas para comparação

apenas os métodos automáticos de regressão descritos no capítulo 2.

3.2.2 Obtenção dos Dados para Criação de Coleções de Teste e Treino

Como o acompanhamento da pressão de fundo de poço não é obrigatório por nenhum

aspecto legal, apenas técnico, não existe uma planinha ou meio formal para isso. As

informações são armazenadas em um banco de dados específico da arquitetura do sistema de

automação da Petrobras.

Seguindo o exemplo do problema anterior, os dados foram normalizados através de

uma média dos últimos 5 minutos.

O poço utilizado para este problema foi o RUC-48, pois este é um poço novo e conta

com o PDG instalado. Os dados utilizados são de Janeiro de 2008 até Agosto de 2008. Como

essa informação é continuamente monitorada, esse tempo é suficiente para gerar uma massa

de dados bastante significativa.

Construímos uma planilha conforme a figura 13. Nessa planilha, os dados estão

ordenados e normalizados para que possamos gerar o arquivo ARFF, totalizando 61336

instâncias.

Figura 13: Planilha da Pressão de Fundo.

Page 43: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

41

Por conveniência, os dados também foram alterados para unidades do sistema

internacional.

Page 44: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

42

4. Experimentos

Neste capítulo será apresentado o conjunto de experimentos que conduzimos para

avaliar os modelos propostos, bem como a metodologia experimental empregada.

4.1 Metodologia

O desempenho dos algoritmos é medido usando a métrica raiz do erro quadrático

relativo (ver seção 2.8). Em todos os casos, os resultados foram obtidos a partir de validações

cruzadas de dez partições, conforme descrito nos parágrafos a seguir, para garantir a máxima

confiabilidade dos resultados (WITTEN & FRANK, 2005).

A validação cruzada de dez partições consiste em dividir os dados em 10 conjuntos

sendo que todos eles serão utilizados para treinamento e teste alternadamente.

Essa divisão em partições é feita de maneira aleatória, mas de maneira que possa

representar a dispersão real de todo o conjunto.

Das dez partições, uma é utilizada como conjunto de teste enquanto as nove restantes

são usadas como conjunto de treino. Após o treinamento, o erro é calculado baseado na

partição de teste. Esta passa a ser uma partição de treino em substituição a uma das partições

de treino ainda não usadas como teste. Isso ocorre com todas as partições alternadamente,

perfazendo dez etapas. Ao final, a taxa de erro global é a média da taxa de erro de cada etapa.

Não existe um consenso sobre quantas partições devem haver em uma validação

cruzada, mas a utilização de dez tem se mostrado confiável e tem sido usada como padrão

(WITTEN & FRANK, 2005).

Page 45: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

43

4.2 Estudos de atributos e métodos

4.2.1 Proporções de Fluídos no Petróleo Extraído

4.2.1.1. Numero K de vizinhos

No algoritmo kNN, ao contrário do M5P e da regressão linear, é necessário

determinar o numero de vizinhos (k) ótimo. Para isso, realizamos uma série de experimentos

usando como valor de k, inicialmente, 1, 5, 10, 20, 30, 40 e 50. A Tabela 2 apresenta os

resultados obtidos. Os espaços marcados com traço significa que este valor não foi tentado

para o determinar o k do fluido em questão.

Tabela 2: Escolha do k.

K RRSE [%]

Qóleo Qgás Qágua

1 18,9613 14,1912 61,8858 5 14,7907 10,875 47,3677 10 14,2675 10,3916 46,1473 20 13,8935 10,1471 44,1639 30 13,8234 10,0287 43,8091 40 13,8173 9,9896 43,4592 50 13,8246 9,9682 43,1222 34 13,7967 - - 35 13,7931 - - 37 13,7909 - - 38 13,8063 - - 60 - 9,9732 42,9916 55 - 9,9748 - 53 - 9,9695 - 52 - 9,9684 - 51 - 9,9692 - 49 - 9,9668 - 45 - 9,9713 - 47 - 9,9697 - 48 - 9,9637 - 70 - - 43,0226 65 - - 42,9638 63 - - 42,9911

Page 46: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

44

Observando os dados da Tabela 2, podemos notar que para diferentes fluídos,

diferentes valores de k levaram aos melhores resultados. Assim, para determinar a vazão de

óleo o melhor valor de k foi 37. No caso do gás, o melhor k foi 48. Finalmente, no caso da

água, o melhor valor foi 65. Todos os resultados relatados, daqui em diante, envolvendo o

kNN utilizarão estes valores de k. Note que, para estes experimentos, usamos todos os

atributos de previsão. O ideal teria sido fazer este estudo para cada conjunto possível de

atributos. Entretanto, dado o número de combinações possíveis, isso não seria viável. Assim,

usaremos os valores de k obtidos aqui em todas as combinações de atributos estudadas a

seguir.

4.2.1.2 Impacto dos atributos

Foi realizado um estudo sobre o impacto de cada variável de cabeça de poço. Dessa

forma, esperamos determinar quais variáveis são mais úteis para a previsão das proporções de

fluidos. Dado que o alto número de combinações possíveis de atributos inviabilizaria este

estudo, decidimos reportar o impacto de cada atributo individualmente, fazendo o

comparativo entre a previsão com todos os atributos e a previsão sem o atributo estudado.

Assim, nos dados reportados nas Tabelas 3 a 5, teremos duas colunas para cada fluido. A

primeira coluna (Sem) será o valor previsto por todas as variáveis com exceção da estudada, e

a segunda coluna (Com) será o valor da previsão feita exclusivamente pela variável em

questão. Ao lado de cada fluido, entre parênteses, temos o valor do erro obtido se

considerarmos o uso de todos os atributos. Assim, por exemplo, na Tabela 3, o erro obtido

pela regressão linear para a vazão de óleo corresponde a 55,05%. Na mesma tabela,

observamos que o erro obtido ao usar todos os atributos, exceto o HWM é 38,06%. Nas

tabelas os atributos marcados em negrito são os de maior contribuição para previsão.

Page 47: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

45

Tabela 3: Impacto de atributos Regressão Linear.

Óleo (55,05%) Gás (21,08%) Água (57,79%) Variável Sem (%) Com (%) Sem (%) Com (%) Sem (%) Com (%)

Pressão da cabeça 57,59 93,59 21,32 70,61 57,712 79,70

Pressão da surgência 42,48 98,85 49,28 29,09 69,79 79,70

HWM 38,06 93,07 21,15 81,63 57,74 97,53

HWJ 75,19 62,46 24,56 96,19 69,48 97,90 Temperatura da cabeça 53,50 97,35 21,30 98,66 57,76 96,52

Temperatura da surgência 55,05 83,38 21,17 99,20 57,79 98,93

Temperatura do choke 55,05 85,85 21,19 98,83 57,79 99,35

Diferentes atributos têm impactos diferentes sobre cada uma das variáveis. Podemos

observar que para a vazão de óleo, o HWJ contribui fortemente, uma vez que a ausência desse

atributo elevou o erro da previsão em quase 20%. Observamos também que o HWJ sozinho é

capaz de fazer a previsão com a menor taxa de erro dentre as variáveis estudadas

isoladamente.

Usando o mesmo princípio de análise, podemos notar que a Pressão da surgência e

HWM são os que menos contribuem para uma boa previsão. De fato, eles podem contribuir

para resultados piores. A previsão feita com a retirada individual dessas variáveis é melhor

que a previsão feita com todos os atributos.

Fizemos um teste para verificar se a previsão poderia ser melhorada com a retirada

dos dois atributos ao mesmo tempo, porém o erro obtido foi de 46,92%, ou seja, apesar de

menor que a previsão com todas as variáveis, é pior que a previsão feita com a exclusão

somente do HWM.

Para as vazões de gás e água não temos impactos negativos importantes, ou seja,

nenhuma previsão com a retirada de atributos representou ganhos significativos. Entretanto,

em ambos os casos, a pressão de surgência é o fator determinante para uma previsão correta,

uma vez que sua ausência adiciona um erro de 28,20% e 12% respectivamente. De fato, ao

representarmos a vazão de água apenas com a pressão de surgência e o HWJ, obtivemos um

erro de menos de 22%, bem abaixo dos quase 58% obtidos com todos os atributos.

Page 48: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

46

Em suma, como apresentado na tabela 4, para a regressão linear, estes experimentos

sugerem que a melhor representação da vazão de óleo é através de todos os atributos com

exceção do HWM. Para a vazão de gás, todos os atributos são úteis. Finalmente, para a vazão

de água, a melhor representação deveria envolver apenas a pressão de surgência e o HWJ.

Tabela 4: Análise da melhor combinação, Regressão linear.

Melhor Combinação Todos os Atributos

Vazão de óleo 38,06 % 55,05 %

Vazão de água 21,70% 57,79%

Portanto, sempre que mencionarmos as vazões previstas pela regressão linear, serão

referenciados pela combinação de fatores acima.

Tabela 5: Impacto de atributos M5P.

Óleo (13,77%) Gás (9,98%) Água (43,79%) Variável Sem (%) Com (%) Sem (%) Com (%) Sem (%) Com (%)

Pressão da cabeça 13,85 24,56 12,40 13,05 43,93 57,95

Pressão da surgência 13,77 38,71 9,99 20,86 43,84 57,95

HWM 13,77 13,90 9,98 10,54 43,47 43,17

HWJ 14,17 16,50 9,99 10,58 43,84 44,21 Temperatura da cabeça 13,93 57,42 10,01 41,41 43,33 54,19

Temperatura da surgência 13,78 23,47 9,98 50,49 43,81 51,06

Temperatura do choke 13,81 26,00 9,96 28,48 43,57 58,30

O estudo de impacto das variáveis para o algoritmo M5P (tabela 6) mostra que

combinações simples de atributos não apresentaram ganhos significativos sobre o uso de

todos os atributos. Ainda assim, se considerarmos os ganhos mínimos, temos que para o M5P,

a melhor representação da vazão de óleo é através de todas as variáveis, exceto a pressão

Page 49: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

47

surgência. Para a vazão de gás, todos os atributos são úteis, exceto temperatura de surgência e

choke. Finalmente, para a vazão de água, a melhor representação deveria excluir o HWM, a

temperatura na cabeça e de choke. Com estas combinações, obtivemos os resultados da tabela

6.

Tabela 6: Análise da melhor combinação, M5P.

Melhor Combinação Todos os Atributos

Vazão de óleo 13,77 13,77

Vazão de Gás 9,96 9,98

Vazão de água 43,32 43,79

Como esperado, no caso do algoritmo M5P, a eliminação de certos atributos não

contribui para ganhos significativos. Entretanto, a diminuição dos dados de entradas contribui

para um menor custo computacional, o que é vantajoso. Portanto, sempre que mencionarmos

as vazões previstas pela M5P, iremos usar as combinações de atributos descritas

anteriormente.

Tabela 7: Impacto de atributos kNN.

Óleo (13,79 %) Gás (9,96%) Água (42,96%) Variável Sem (%) Com (%) Sem (%) Com (%) Sem (%) Com (%)

Pressão da cabeça 13,78 26,70 9,97 14,32 43,00 56,99

Pressão da surgência 13,71 38,84 9,93 20,76 43,56 56,99

HWM 14,13 13,71 10,10 10,51 43,03 42,95

HWJ 13,86 16,41 10,01 10,21 43,10 43,97 Temperatura da cabeça 13,79 59,05 9,97 41,58 42,98 54,18

Temperatura da surgência 13,80 23,53 9,96 28,72 43,18 50,94

Temperatura do choke 13,78 25,77 9,97 50,28 43,13 57,73

Page 50: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

48

A tabela 7 mostra como o kNN utilizou bem todos os atributos, uma vez que

nenhuma variável contribui de forma definitiva para o aumento do erro. Novamente, se

considerarmos os ganhos, mesmo que reduzidos, podemos verificar que a vazão de óleo pode

ser melhor prevista por todas as variáveis, com exceção da pressão de cabeça, pressão de

surgência e temperatura do choke. Da mesma forma a vazão de gás pode ser mais bem

prevista por todas as variáveis com exceção da pressão de surgência. Já a vazão de água não

apresenta melhor combinação uma vez que a retirada de nenhuma variável resultou em

melhora da previsão. A tabela 8 apresenta os resultados da melhor combinação de atributos

Tabela 8: Análise da melhor combinação, kNN.

Melhor Combinação Todos os Atributos

Vazão de óleo 13,60% 13,79%

Vazão de Gás 9,93% 9,96

Mais uma vez, embora os ganhos sejam pequenos podemos observar que a correta

seleção dos atributos para previsão pode impactar no desempenho do algoritmo.

4.2.2 Pressão de fundo

4.2.2.1 Numero k de vizinhos

A exemplo do problema anterior e devido as características do algoritmo kNN é

necessário determinar um k ótimo.

O estudo do k foi realizado com a base de dados completa e os valores de k

estudados inicialmente foram 1, 5, 10, 20, 30, 40, 50.

Page 51: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

49

Tabela 9: Escolha do k ótimo para pressão de fundo.

k RRSE

1 4,5909

5 4,5838

10 4,9360

4 4,5283

3 4,4978

2 4,4661

Após as primeiras iterações do algoritmo, verificamos que não seria necessário

realizar todos os testes que pretendíamos, uma vez que atingimos um k “ótimo” logo no início

do estudo.

Dessa maneira, o k para o problema de pressão no fundo do poço é 2 e sempre que

for mencionado o algoritmo kNN para este problema o k utilizado será este.

4.2.2.2 Impacto de atributos

Podemos aplicar a mesma técnica para o estudo de impacto das variáveis feito no

estudo do problema anterior. O impacto de uma variável sob o resultado esperado foi

analisado fazendo a comparação do erro obtido da previsão excluindo a variável estuda com a

previsão realizada com todos os atributos, utilizamos também a previsão realizada

exclusivamente pelo atributo estudo, como forma de determinar a contribuição individual.

Assim, nos dados reportados nas Tabelas 10 a 14, quanto maior o valor na primeira

coluna (Sem) maior a contribuição para a previsão. Assim como, quanto menor o valor na

segunda coluna, menor a sua contribuição. Tabela 10: Estudo de impacto para regressão linear.

Variável Sem (%) Com (%) Total (%)

Pressão Cabeça 32,53 18,51

32,47

Pressão Surgência 32,48 95,33

HWM 13,90 40,14

HWJ 33,37 38,27

Temp. Cabeça 38,20 34,74

Page 52: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

50

O estudo de impacto para a regressão linear trouxe uma surpresa. Todas as variáveis

se comportam de maneira bastante similar, porém o HWM se mostrou bastante sensível, pois

com a retirada dele da previsão podemos diminuir o erro em 18,5%. A melhor representação,

neste caso, deveria evitar o HWM, como na representação da tabela 11.

Tabela 11: Análise da melhor combinação, Regressão Linear.

Melhor Combinação Todos os Atributos

Pressão no fundo 13,90% 32,47%

Com essa combinação conseguimos reduzir o erro em mais da metade, o que

corresponde a um ganho significativo. Dessa forma, sempre que nos referenciarmos a

previsão da pressão de fundo com a regressão linear, essa combinação será usada.

Tabela 12: Estudo de impacto para M5P.

Variável Sem (%) Com (%) Total (%)

Pressão Cabeça 4,22 9,12

3,74

Pressão Surgência 3,82 25,71

HWM 6,41 5,65

HWJ 3,84 11,07

Temp. Cabeça 4,13 12,68

Para o algoritmo M5P o HWM também se mostra importante. As outras variáveis

pouco influenciam, isoladamente, no resultado final. De qualquer modo, o experimento sugere

que para o M5P, todas as variáveis são úteis.

Tabela 13: Estudo de impacto para kNN.

Variável Sem (%) Com (%) Total (%)

Pressão Cabeça 5,02 9,64

4,46

Pressão Surgência 4,18 28,09

HWM 7,03 5,70

HWJ 4,56 12,03

Temp. Cabeça 5,03 13,75

Page 53: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

51

Como para o M5P, o kNN também mostrou-se bastante estável, sofrendo influências

significativas somente do HWM. A melhor representação parece ser com todas as variáveis,

exceto a pressão de surgência. Com isso temos a tabela 14.

Tabela 14: Comparativo melhor combinação de atributos.

Melhor Combinação Todos os Atributos

Pressão no fundo 4,18 4,46

Com esse estudo pudemos perceber que o HWM tem um peso considerável em todos

os algoritmos, podendo inclusive ser um impacto negativo como no caso da regressão linear.

O estudo mostrou que nem todas as variáveis têm o mesmo peso. Portanto, a escolha da

melhor combinação deve ser feita com cuidado e critério, um vez que ela pode impactar na

qualidade da regressão obtida.

4.3 Comparação dos métodos

Agora apresentaremos os resultados obtidos ao compararmos os algoritmos testados.

4.3.1 Proporção de Fluídos no petróleo extraído

Nas tabelas 15 a 17 faremos um comparativo entre os algoritmos de previsão que

utilizamos. Em todos estes experimentos, usamos a melhor combinação de atributos obtida

com o estudo de impacto das variáveis.

Tabela 15: Comparação de métodos para previsão da vazão de óleo.

Óleo RRSE [%]

Todos Atributos Melhor Comb. atributos kNN, k=37 13,79 13,60 M5P 13,77 13,77 Regressão Linear 55,05 38,06

Analisando os dados dos algoritmos para previsão de vazão de óleo podemos

perceber que o menor erro é do M5P. Ao considerarmos a combinação dos melhores

Page 54: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

52

atributos, o erro diminui um pouco. Porém, devido ao alto custo computacional do M5P, o

melhor algoritmo para essa tarefa é o kNN.

Tabela 16: Comparação de métodos para previsão da vazão de gás.

Gás RRSE [%]

Todos Atributos Melhor Comb. atributos kNN, k=48 9,96 9,93 M5P 9,98 9,96 Regressão Linear 21,08 -

O erro obtido na previsão de vazão de gás pode ser reduzido com a combinação dos

melhores atributos. A exceção fica para o algoritmo regressão linear que neste caso não

possuía nenhum atributo candidato à retirada, sendo assim, não apresenta uma melhor

combinação de atributos. Dessa maneira, a melhor previsão foi do kNN, com a seleção de

melhores atributos. Quanto ao M5P, mesmo com a seleção de atributos não foi possível

superar o kNN.

Tabela 17: Comparação de métodos para previsão da vazão de água.

Água RRSE [%]

Todos Atributos Melhor Comb. atributos kNN, k=65 42,96 - M5P 43,79 43,32 Regressão Linear 57,79 21,70

A combinação dos melhores atributos mais uma vez se mostrou vantajosa para a

maior parte dos casos. Porém, para nossa surpresa, na previsão de vazão de água, o melhor

resultado foi foi da regressão linear com todos os atributos.

Com esse estudo pudemos perceber que a combinação adequada de atributos pode

afetar de maneira positiva a previsão.

4.3.2 Pressão de fundo

Assim como o problema anterior, a melhor combinação de atributos foi realizada no

estudo de impacto das variáveis.

Page 55: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

53

Tabela 18: Comparação de métodos para pressão do fundo do poço. Regressão

Linear M5P kNN

Todos os atributos 32,47% 3,74 4,46 Melhor Combinação 13,90% - 4,18

Observando a tabela podemos constatar que o algoritmo que obteve o menor erro foi

o M5P.

O pior desempenho ficou com a regressão linear, o que era esperado, já que se trata

de um algoritmo bem mais simples. Mas pudemos observar um grande ganho com a

combinação de atributos.

Este problema, até onde sabemos, nunca foi abordado na literatura. Por isso não

faremos comparações dos resultados dele com os resultados de outros algoritmos.

4.4 Comparação com trabalhos da literatura

Assim como para este trabalho, os trabalhos de Silva (2006), Cleison (2008) e

Eliomar (2008) utilizam dados de caráter sigiloso. Portanto, não pudemos obter o mesmo

conjunto de dados de entrada. Por essa razão, resolvemos utilizar os algoritmos nos dados de

apenas um poço que garantisse uma boa generalização. Para comparação com os resultados

anteriores, re-implementamos os algoritmos desses autores, baseado nas descrições fornecidas

pelos mesmos. Como antes, as comparações são todas obtidas por meio de processos de

validação cruzada. A tabela 19 mostra o resultado final.

Tabela 19: Todos os Atributos.

Vazão de Óleo Vazão de Gás Vazão de Água MLP 19,34 11,69 49,79 Melhor algoritmo 13,77 (kNN) 9,93 (kNN) 21,70 (Lin. Reg.)

Resultados expressos em RRSE (Root Relative Square Error)

Analisando a tabela 19 podemos perceber que os modelos que nós propomos foram

superiores em no caso comparado.

Page 56: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

54

O melhor resultado obtido para a previsão da vazão de óleo foi conseguido com a

combinação ideal de atributos e do algoritmo kNN.

Em todos os casos da literatura os resultados que mais se aproximaram foram os

obtidos com a rede multilayer perceptron. Os resultados conseguidos através da RBF

apresentam um erro bastante superior, indicando que houve um erro em nossa implementação,

uma vez que o erro da RBF foi bem superior a uma regressão linear simples. No futuro,

pretendemos voltar a este método para ter certeza se um melhor estudo de parâmetros não

poderia ter contribuído para um desempenho, pelo menos, superior ao da regressão linear.

A previsão da vazão de gás ficou abaixo dos 10%, enquanto o resultado mais

próximo foi de mais de 11,5%. Algo semelhante aconteceu com a vazão de água, o nosso

melhor resultado foi de aproximadamente 22% enquanto o melhor resultado da literatura se

aproximou dos 50%. Isto nos surpreendeu uma vez que não esperávamos que a regressão

linear figurasse entre os melhores algoritmos.

Diante destes resultados e mesmo não fazendo parte do escopo de nosso trabalho,

fizemos um estudo de impacto dos atributos para tentar determinar uma melhor combinação

de variáveis a fim de melhorar o resultado obtido na rede neural. Esse estudo é mostrado na

tabela 20. Tabela 20: Impacto de atributos para MLP.

Óleo (19,34%) Gás (11,69%) Água (49,79%) Variável Sem (%) Com (%) Sem (%) Com (%) Sem (%) Com (%)

Pressão da cabeça 21,91 92,96 12,83 35,90 53,42 79,40

Pressão da surgência 21,39 80,66 13,90 30,84 51,60 85,40

HWM 22,74 73,03 13,72 84,44 52,24 105,65

HWJ 19,94 52,84 13,32 91,64 50,01 93,55 Temperatura da cabeça 20,89 84,32 12,60 104,31 52,65 66,78

Temperatura da surgência 20,38 44,44 13,63 104,10 51,27 87,84

Temperatura do choke 20,16 42,47 13,32 103,97 51,84 103,43

Page 57: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

55

Adotamos a mesma metodologia utilizada no estudo de impacto de atributos para os

outros algoritmos. Ou seja, confrontamos o resultado obtido com a previsão utilizando todas

as variáveis.

Analisando os resultados obtidos, pudemos observar que não foi possível determinar

uma melhor combinação de atributos, uma vez que todas as variáveis contribuem de forma

muito parecida para a previsão da rede neural. Portanto os melhores resultados obtidos em

uma rede neural devem utilizar todos os atributos.

Page 58: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

56

5. Conclusões e Trabalhos futuros

Neste trabalho estudamos as técnicas de previsão e aprendizado de máquina que

podem ser utilizados na indústria petrolífera a fim de reduzir o custo das instalações

indústrias, otimizando os recursos já instalados. Em particular, aplicamos estas técnicas para

os problemas de previsão das vazões de fluidos do petróleo extraído, bem como a pressão do

fundo do poço. Estas são informações estratégicas que tem um alto valor agregado, uma vez

que, de posse delas, é possível tomar decisões a fim de aumentar o coeficiente de extração de

um campo e atender normas legais.

Atualmente, a aquisição dessas informações é feita através de equipamentos de custo

elevado. O que propusemos neste trabalho foi à utilização de informações já disponíveis na

cabeça do poço para que, através de técnicas de mineração de dados, pudéssemos inferir essas

informações.

Para tanto, utilizamos três algoritmos para previsão das proporções de fluidos e

fizemos a comparação de nossos resultados com os resultados obtidos em trabalhos da

literatura. Os resultados obtidos no capitulo 4 mostram o sucesso que obtivemos em prever

todas as características com erros menores que em trabalhos anteriores.

Mesmo não fazendo parte do escopo de nosso trabalho, tentamos melhorar a previsão

feita pela rede neural, fizemos um estudo de impacto de atributos e não pudemos determinar

uma melhor combinação das variáveis.

Como, até onde sabemos, não existe nenhum trabalho relacionado à previsão da

pressão de fundo, estabelecemos um marco, que deverá ser considerado para trabalhos

futuros. Devemos levar em consideração os ganhos que podem ser obtidos com a utilização

dessa solução uma vez que dispensa o uso da técnica de wireline, contribuindo com isso para

o aumento da segurança industrial.

Page 59: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

57

5.1 Trabalhos Futuros

Espera-se que este trabalho possa servir de base para outros que virão melhorar os

resultados obtidos aqui.

As proporções dos fluidos produzidos por um poço de petróleo é um trabalho muito

maior do que poderia sem explorado aqui. Dessa forma, esperamos que possa ser dado

continuidade a esses estudos e outros envolvendo a área de petróleo, uma vez que essa área

apresenta diversos desafios que podem ser enfrentados através de técnicas de mineração de

dados.

A previsão da pressão de fundo pode ser melhorada com a utilização de variáveis

adicionais da cabeça do poço e com a aplicação de outras técnicas de mineração de dados, em

particular, métodos baseados em separação espacial, como as máquinas de vetores de suporte

(SVM) e métodos evolutivos, como de programação genética (WITTEN & FRANK, 2005).

Neste trabalho, de fato, pretendíamos ter usado SVM, mas desistimos devido ao alto custo do

método e o pouco tempo que tínhamos para a experimentação. No futuro, entretanto, vale a

pena retomar este estudo, visto que SVM é considerado o estado-da-arte em muitos problemas

de aprendizado de máquina.

Um passo mais à frente neste estudo seria a implementação da melhor técnica

observada diretamente nos sistemas de automação e acompanhamento industrial, algo que, de

certa forma, já foi feito antes no trabalho de Silva (2006).

Page 60: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

58

Referências Bibliográficas

BRAGA, Antonio de Padua; LUDERMIR, André Ponce de Leon F. de Carvalho;

BERNARDA, Teresa. Redes Neurais Artificiais, teoria e aplicações, 2ª Edição, Editora

LTC, 2007

CARMO, Eliomar. Um sistema Fuzzy-Neural para estimação de vazões de petróleo e gás.

Dissertação de Mestrado apresentada ao Departamento de Engenharia Elétrica da

Universidade Federal do Pará, Belém, Pará, Brasil, Março de 2008

COELHO, Paulo Sérgio de Souza. Um sistema para indução de modelos de predição

baseados em árvore. Tese de Doutorado apresentado ao programas de pós-graduação de

engenharia da universidade Federal do Rio de janeiro, Rio de Janeiro, Abril de 2005

FERNANDES, Anita Maria da Rocha. Inteligência artificial, Noções gerais. Editora Visual

Books. 2008

HAYKIN, Simon. Redes Neurais, Princípios e práticas. 2ª Edição, Editora Bookman, 2001

KREMER, R. Sistemas de Apoio à decisão para previsões genéricas utilizando técnicas

de data mining. Blumenau, 1999. Trabalho de conclusão de curso – Centro de ciências

exatas. Universidade Regional de Blumenau.

LUDWIG, Oswaldo e MONTGOMERY, Eduard. Redes Neurais, Fundamentos e

Aplicações com programas em C, Editora Ciência Moderna, 2007

LUGER, George. Inteligência artificial, Estruturas e estratégias para a solução de

problemas complexos, 4ª Edição, Editora Bookman, 2004

NASCIMENTO, Cairo e YONEYAMA, Takashi. Inteligência artificial em controle e

automação, Editora Edgard Blücher LTDA, 2004

PINHEIRO, Carlos André Reis. Inteligência Analítica, Mineração de dados e Descoberta

de conhecimento, Editora Ciência Moderna, 2008

Page 61: FUNDAÇÃO CENTRO DE ANÁLISE, PESQUISA E INOVAÇÃO ... · que seja instalado um equipamento separador que determina precisamente as proporções de água, óleo e gás. O custo

59

RUSSELL, Stuart e NORVIG, Peter. Inteligência artificial. 2ª Edição, Editora Campus

ELSEVIER, 2006

SHAW, Ian e SIMÕES, Marcelo Godoy. Controle e modelagem fuzzy, Editora Edgard

Blücher LTDA, 1999

SILVA, Cleison, Uma estratégia baseada em rede neural de base radial aplicada ao

gerenciamento da produção de petróleo e gás natural. Dissertação de Mestrado

apresentada ao Departamento Engenharia Elétrica da Universidade Federal do Pará, Belém,

Pará, Brasil. Março de 2008

SILVA, Paulo. Programa de Automação Inteligente Aplicado ao Gerenciamento e

Fiscalização da produção de poços de petróleo e gás natural. Tese de Doutorado

apresentado ao Departamento de Engenharia Elétrica da Universidade Federal do Pará,

Belém, Pará, Brasil, Maio de 2006.

WITTEN, Ian and FRANK, Eibe. Data Mining: Practical machine learning tools and

techniques, 2nd Edition, Morgan Kaufmann, San Francisco, 2005

Sites Consultados Geologia do petróleo. Disponível em: <http://br.geocities.com/geologiadopetroleo/>. Acessado em 15 de novembro de 2008 Tn Petróleo. Disponível em: <http://www.tnpetroleo.com.br/sala_de_aula>.Acessado em 15 de novembro de 2008 Petrobras. Disponível em: <http://www2.petrobras.com.br/portugues/ads/ads_Petrobras.html>. Acessado em 15 de novembro de 2008 Petrobras. Espaço conhecer. Disponível em: <http://www2.petrobras.com.br/EspacoConhecer/apresentacao/apresentacao.asp>. Acessado em 15 de novembro de 2008 A indústria do petróleo. Disponível em: <http://www4.prossiga.br/dep-fem-unicamp/petroleo/ind_petr.html>. Acessado em 15 de novembro de 2008 ANP. Agência Nacional de Petróleo. Disponível em: <http://www.anp.gov.br/>. Acessado em 15 de novembro de 2008