AVALIAÇÃO DA SUPPORT VECTOR MACHINE NA …repositorio.unicamp.br/bitstream/REPOSIP/331008/1/Caldato_EduardoB... · do projeto de pesquisa, pelas chances únicas que tive de aprender

UNIVERSIDADE ESTADUAL DE CAMPINAS

INSTITUTO DE GEOCIÊNCIAS

EDUARDO BOMFIN CALDATO

AVALIAÇÃO DA SUPPORT VECTOR MACHINE NA

CLASSIFICAÇÃO DE FÁCIES NO CAMPO DE PEREGRINO,

BACIA DE CAMPOS-RJ, BRASIL.

CAMPINAS

2017

EDUARDO BOMFIN CALDATO

AVALIAÇÃO DA SUPPORT VECTOR MACHINE NA CLASSIFICAÇÃO DE FÁCIES NO

CAMPO DE PEREGRINO, BACIA DE CAMPOS-RJ, BRASIL.

DISSERTAÇÃO APRESENTADA AO INSTITUTO DE

GEOCIÊNCIAS DA UNIVERSIDADE ESTADUAL DE

CAMPINAS PARA OBTENÇÃO DO TÍTULO DE MESTRE

EM GEOCIÊNCIAS NA AREA DE GEOLOGIA E

RECURSOS NATURAIS

ORIENTADORA: Profa. Dra. Fresia Soledad Ricardi-Branco

ESTE EXEMPLAR CORRESPONDE À VERSÃO FINAL

DA DISSERTAÇÃO DEFENDIDO PELO ALUNO

EDUARDO BOMFIN CALDATO E ORIENTADO PELA

PROFA. DRA. FRESIA SOLEDAD RICARDI-BRANCO

CAMPINAS

2017

Agência(s) de fomento e nº(s) de processo(s): Não se aplica.

Ficha catalográficaUniversidade Estadual de CampinasBiblioteca do Instituto de Geociências

Marta dos Santos - CRB 8/5892

Caldato, Eduardo Bomfin, 1987- C126a CalAvaliação da support vector machine na classificação de fácies no campo

de Peregrino, Bacia de Campos-RJ, Brasil / Eduardo Bomfin Caldato. –Campinas, SP : [s.n.], 2017.

CalOrientador: Fresia Soledad Ricardi-Branco. CalDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de

Geociências.

Cal1. Aprendizagem. 2. Petrofísica. 3. Campos, Bacia de (RJ). I. Ricardi-

Branco, Fresia, 1963-. II. Universidade Estadual de Campinas. Instituto deGeociências. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Evaluation of support vector machine to classify facies in Peregrinofield, Bacia de Campos-RJ, Brazil.Palavras-chave em inglês:LearningPetrophysicsCampos, Basin (RJ)Área de concentração: Geologia e Recursos NaturaisTitulação: Mestre em GeociênciasBanca examinadora:Fresia Soledad Ricardi Torres BrancoEmilson Pereira LeiteRodrigo de Souza PortugalData de defesa: 06-11-2017Programa de Pós-Graduação: Geociências

Powered by TCPDF (www.tcpdf.org)

UNIVERSIDADE ESTADUAL DE CAMPINAS

INSTITUTO DE GEOCIÊNCIAS

AUTOR: Eduardo Bomfin Caldato

AVALIAÇÃO DA SUPPORT VECTOR MACHINE NA CLASSIFICAÇÃO DE

FÁCIES NO CAMPO DE PEREGRINO, BACIA DE CAMPOS-RJ, BRASIL

ORIENTADORA: Profa. Dra. Fresia Soledad Ricardi-Branco

Aprovado em: 06 / 11 / 2017

EXAMINADORES:

Profa. Dra. Fresia Soledad Ricardi-Branco - Presidente

Prof. Dr. Emilson Pereira Leite

Dr. Rodrigo de Souza Portugal

A Ata de Defesa assinada pelos membros da Comissão Examinadora,

consta no processo de vida acadêmica do aluno.

Campinas, 06 de novembro de 2017.

SÚMULA

Eduardo Bomfin Caldato é geólogo (2015) pela Universidade Estadual de Campinas. Tem

experiência na área de Geociências, especificamente com ênfase em petrofísica,

caracterização de reservatórios e modelagem tridimensional. Atuou como auxiliar didático na

disciplina de Introdução a Geologia do programa PROFIS (2012 e 2013) e na disciplina de

Paleontologia (2013) para o curso de Graduação em Biologia pela UNICAMP, foi professor

assistente no programa PED da disciplina de Geofísica (2016) para a graduação em Geologia.

Trabalhou no projeto pesquisa e desenvolvimento da ANP “Análise de incertezas integradas”

executado com o financiamento da SINOCHEM PETRÓLEO DO BRASIL. Contribuiu com a

construção de um modelo de reservatório e no desenvolvimento de uma ferramenta

computacional para o cálculo da transmissibilidade de fluidos em falhas. Atualmente está

finalizando o mestrado na área de Geociências pela Universidade Estadual de Campinas, com

a temática voltada para a avaliação de ferramentas de aprendizagem de máquina na

classificação de fácies no reservatório localizada no Campo de Peregrino na Bacia de

Campos-RJ.

AGRADECIMENTOS

Gostaria de agradecer primeiramente a minha família, pelo apoio durante essa longa e difícil

jornada. Especialmente aos meus pais, Rubens e Lucimar, que me ajudaram

incondicionalmente durante todo o período.

Agradeço também pelo apoio de meus amigos de faculdade, que dividiram as alegrias e os

problemas enfrentados durante o período, destaque especial para Oton, Mateus, Juliana,

Jackeline, Felipe, Marcela, Gabriela e o Jaume.

A minha orientadora, a professora Frésia, agradeço pela oportunidade de participar comigo do

desafio que foi levar esse projeto de mestrado, mesmo sabendo de todas as nossas limitações.

Gostaria de agradecer a professora Sueli e ao professor Zaupa pela oportunidade de participar

do projeto de pesquisa, pelas chances únicas que tive de aprender novas técnicas e de ver um

lado aplicado da ciência.

Finalmente, agradeço a Sinochem do Brasil, pelo apoio dado ao projeto de pesquisa e pelo

suporte oferecido.

RESUMO

Um considerável volume de informações pode ser obtido a partir das perfilagens geofísicas,

tais como composição química, mineralogia, textura, porosidade além da identificação das

zonas de acumulação de hidrocarbonetos. Para atingir uma interpretação confiável é

necessária uma correta correlação entre os testemunhos de amostragem, amostras de

laboratório e perfilagens geofísicas. Algoritmos de aprendizagem de máquina vêm sendo

utilizados com o intuito de auxiliar o intérprete na tarefa de correlação entre as diferentes

fontes de dados. O algoritmo da Support Vector Machine (SVM) tem aplicação em diversas

áreas tais como a bioinformática, análise de imagens e categorização de textos. Os resultados

obtidos até o momento mostram que o algoritmo pode atingir os mesmos ou melhores

resultados que outras técnicas já em uso. A SVM foi desenvolvida por Vapnik e se baseia na

Teoria da Aprendizagem Estatística (TAE). Tem como características a utilização de

equações de kernel para amostras não lineares e o uso das margens de máxima separação para

determinação do hiperplano canônico. Neste trabalho foi obtida uma classificação de

eletrofácies com a SVM em dados oriundos do Campo de Peregrino na Bacia de Campos.

Para avaliar a capacidade de classificação e predição de fácies do SVM, foram utilizados seis

poços e suas respectivas leituras de perfilagem do poço, descrições petrográficas e dados

laboratoriais. Foram testadas duas equações de Kernel, Linear e Radial Basis Function (RBF).

O resultado foi comparado à outra técnica, KNN. Ambas as técnicas atingiram bons

resultados tendo o SVM atingido taxa de acerto de 89% e o KNN com 70,8%. Com esse

resultado o SVM se mostrou um confiável classificador para a utilização no campo de

Peregrino.

Palavras-chave: algoritmos de aprendizagem de máquina, classificação de fácies, support

vector machine, perfilagem de poço, Bacia de Campos.

ABSTRACT

Log curves generate a considerable amount of information like, chemistry composition,

mineralogy, texture, porosity and even identify hydrocarbon accumulations. To obtain a

reliable interpretation is important to do a correct correlation between the core log, the

laboratory samples and the log curves. Machine learning algorithms help the interpreter on the

job of correct correlation between different data sources. Many knowledge areas apply the

Support Vector Machine (SVM) algorithm, e.g., bioinformatics, image analysis and texts

categorization. The studies obtained show that the algorithm can achieve the same or better

results of other techniques in use. Based on the Statistical Learning Theory, the SVM was

proposed by Vapnik (1995). It’s characterized by the presence of kernel equations for

nonlinear samples and determination of hyperplane through maximum separation margins. In

this work, an electrofacies classification obtained with SVM using data from the Peregrino

field, Campos Basin. To evaluate the classification and prediction capacities of the SVM, we

utilized six exploratory wells with log curves, petrographic descriptions and laboratorial

analysis. Two kernel equations was utilized, the Linear and Radial Basis Function (RBF).

The results were compared to another technique, KNN. Both algorithms achieved good

results, with SVM scoring 89% and KNN with 70.8%. With this result the SVM algorithm

showed to be a reliable classifier to be applied in the Peregrino Field.

Keyword: machine learning algorithms, facies classification, support vector machine, log

curves readings, Campos Basin.

Lista de Figuras

Figura 1. Mapa de localização da área de estudos. Em vermelho está indicada a área do bloco BM-C-7

(Modificado de ANP, maio de 2017). .............................................................................................................. 17

Figura 2. Carta estratigráfica proposta por Winter et al., (2007). Em vermelho é indicado o período de deposição

da formação Carapebus alvo de interesse deste trabalho. ................................................................................. 19

Figura 3. Determinação do classificador em aprendizado supervisionado. Extraído de Lorena e Carvalho (2007).

.......................................................................................................................................................................... 25

Figura 4. Exemplo de como o hiperplano se posiciona em função das margens de máxima separação, H1 e H2.

Extraído de Lorena e Carvalho, 2007. .............................................................................................................. 27

Figura 5. SVM de margens suaves. Extraído de Awad e Khana (2015). ........................................................ 30

Figura 6. Exemplo de margens obtidas para diferentes valores de "C". Extraído de Awad e Khana (2015). . 31

Figura 7. Neste exemplo de SVM de Margens Suaves, os elementos em branco estão corretamente classificados,

os elementos em cinza indicam os vetores de suporte correto e os elementos com bordas são vetores de suporte

erroneamente classificados. Extraído de Lorena e Carvalho, 2007. ................................................................. 32

Figura 8. No gráfico a esquerda não é possível separar as duas classes com um hiperplano, enquanto que após a

transformação do espaço dimensional pelo kernel, as classes podem ser divididas. ........................................ 33

Figura 9. Exemplo de separação dos dados de acordo com a vizinhança (k=5) escolhidos. Extraído de Mitchel

(1997). .............................................................................................................................................................. 36

Figura 10. Mapa de localização dos poços utilizados na tarefa de classificação. ............................................ 38

Figura 11. Fluxo de trabalho utilizado para a aplicação do SVM na classificação de fácies. ......................... 39

Figura 12. Nesta imagem são ilustrados em (a) a relação entre altos valores de raios gama com a presença de

litologias mais finas, apesar de não haver evidente acréscimo no teor de argilominerais, a matriz rochosa

apresenta teor arcosiano. Em (b) é descrita como areia fina micácea com presença de bioclastos carbonáticos e

glauconita com óleo retido. A descrição macroscópica (c) indica a ocorrência de areia fina laminada enquanto

que em (d) ocorre areia maciça. Em (e) a amostra é descrita como areia fina micácea com presença de bioclastos

carbonáticos e grãos detríticos de argila. A linha amarela representa o topo do reservatório; a linha roxa marca a

porção intermediária do reservatório. ............................................................................................................... 41

Figura 13. Gráfico comparativo da porosidade-RHOB com a porosidade de laboratório, para o poço 51. A curva

em azul indica a porosidade proveniente do laboratório enquanto que a curva em vermelho representa a

porosidade calculada. ....................................................................................................................................... 42

Figura 14. Poço 54 com ocorrência de litologia cimentada por carbonatos (2267m). Da esquerda para a direita, o

perfil de GR não indica anomalias presentes, enquanto o perfil de DT apresenta um pico de aumento na

velocidade e os perfis de NPHI e RHOB também apresentam valores anômalos, indicados pelas setas, devido à

presença de cimentação carbonática. Fotomicrografia em (b) que esclarece alguns dos comportamentos

inesperados para litologia arenítica. ................................................................................................................. 43

Figura 15. Identificação da litologia preferencial para a ocorrência de reservatório de hidrocarbonetos, exemplo

do poço 56. Em detalhe é mostrado o arenito com óleo retido. ........................................................................ 44

Figura 16. Poço 57 no qual foi caracterizada uma região com fácies Possível reservatório. ......................... 45

Figura 17. Gráficos utilizados para distinção das litologias descritas nos poços referentes ao Poço 54. Em (a) é

mostrado à relação NPHI x RHOB, em (b) RHOB x SÔNICO e em (c) SÔNICO x NPHI. ........................... 47


mostrado a relação NPHI x RHOB, em (b) RHOB x SÔNICO e em (c) SÔNICO x NPHI. ........................... 48

Figura 19. Determinação litológica por meio do plote M x N. (a) Poço 54 e (b) Poço 55. No eixo X estão os

valores de N no eixo Y e valores de M. Os termos M e N são adimensionais. ................................................ 49

Figura 20. O histograma mostra comparativamente os resultados obtidos pelos métodos preditivos testados e os

dados carregados no grupo de amostra. ............................................................................................................ 51

Figura 21. Gráfico de M x N para a determinação litológica. Os gráficos mostram as comparações entre os

dados dos Poços (amostra) e os classificados pelo SVM. Em (a) e (b) estão evidenciados os resultados obtidos a

partir do SVM. Em (c) e (d) são plotados os resultados obtidos a partir do KNN. No eixo X estão os valores de N

no eixo Y e valores de M. Os termos M e N são adimensionais. ..................................................................... 52

Lista de Tabelas

Tabela 1. Exemplos de equações de kernel. Modificado de Awad e Khana (2015). ....................................... 33

Tabela 2. Resumo dos dados disponíveis de acordo com o poço. ................................................................... 37

Tabela 3. Classificação das litologias descritas nos poços testemunhados em função do reservatório. Legenda:

Reservatório (R); Possível Reservatório (PR); Não Reservatório (NR). .......................................................... 40

Tabela 4. Matriz de confusão com os valores de erros e acertos por fácies são apresentados para o SVM com

kernel Linear (a) e RBF (b), para o algoritmo do KNN (c) e para o modo robusto do SVM-RBF (d). Em azul são

mostradas as fácies corretamente classificadas enquanto que em vermelho estão as fácies erradas. ............... 50

Tabela 5. Valores encontrados para as variáveis de interesse para o kernel Linear e RBF com suas respectivas

taxas de acerto. ................................................................................................................................................. 50

Lista de Equações

Equação 1 ........................................................................................................................................................ 26

Equação 2 ........................................................................................................................................................ 26

Equação 3 ........................................................................................................................................................ 26

Equação 4 ........................................................................................................................................................ 27

Equação 5 ........................................................................................................................................................ 27

Equação 6 ........................................................................................................................................................ 27

Equação 7 ........................................................................................................................................................ 27

Equação 8 ........................................................................................................................................................ 28

Equação 9 ........................................................................................................................................................ 28

Equação 10 ...................................................................................................................................................... 28

Equação 11 ...................................................................................................................................................... 28

Equação 12 ...................................................................................................................................................... 28

Equação 13 ...................................................................................................................................................... 29

Equação 14 ...................................................................................................................................................... 29

Equação 15 ...................................................................................................................................................... 29

Equação 16 ...................................................................................................................................................... 30

Equação 17 ...................................................................................................................................................... 30

Equação 18 ...................................................................................................................................................... 30

Equação 19 ...................................................................................................................................................... 31

Equação 20 ...................................................................................................................................................... 31

Equação 21 ...................................................................................................................................................... 31

Equação 22 ...................................................................................................................................................... 31

Equação 23 ...................................................................................................................................................... 33

Equação 24 ...................................................................................................................................................... 33

Equação 25 ...................................................................................................................................................... 34

Equação 26 ...................................................................................................................................................... 34

Equação 27 ...................................................................................................................................................... 34

Equação 28 ...................................................................................................................................................... 35

Equação 29 ...................................................................................................................................................... 35

Sumario

1. Introdução ..................................................................................................................... 14

2. Geologia Local ............................................................................................................. 17

3. Artigo: Avaliação da Support Vector Machine na classificação de fácies no Campo de

Peregrino, Bacia de Campos-RJ. .......................................................................................... 20

Introdução ......................................................................................................................... 22

Support Vector Machine ................................................................................................... 24

SVM linear de Margens rígidas .................................................................................... 27

SVM linear de Margens Suaves ................................................................................... 30

SVM- Não linear .......................................................................................................... 32

SVM-Multiclasses ........................................................................................................ 34

K-Nearest Neighbor (KNN) ............................................................................................. 35

Materiais e Métodos ......................................................................................................... 36

Resultados ......................................................................................................................... 39

Interpretação petrofísica ............................................................................................... 39

Fase de treinamento ...................................................................................................... 45

Fase de classificação ..................................................................................................... 49

Discussão ...................................................................................................................... 52

Conclusão ..................................................................................................................... 55

4. Considerações Finais .................................................................................................... 56

Bibliografia ........................................................................................................................... 57

14

1. Introdução

A determinação de eletrofácies é uma tarefa fundamental na caracterização de reservatórios,

dado que correlacionam propriedades petrofísicas semelhantes para construir os modelos de

reservatório. Para esse fim devem-se analisar conjuntamente os testemunhos de sondagem,

dados laboratoriais e perfilagens geofísicas. Dado que há uma enorme quantidade de dados a

ser correlacionada, esta tarefa se transforma em uma das mais desafiadoras pela repercussão

na caracterização do reservatório (Stinco, 2006).

Em 1980, Serra e Abbot adicionaram o prefixo eletro ao termo fácies de maneira a diferenciar

a classificação litológica e petrofísica feita com base em perfis geofísicos, das obtidas a partir

da análise de afloramentos e testemunhos. De acordo com os autores as eletrofácies são

definidas como “um grupo de respostas a leituras geofísicas que caracterizam uma camada e

que permitem distingui-la de outras camadas”. Estes perfis fornecem uma série de

informações a respeito das rochas analisadas, tais como composição química, arranjo

estrutural e textural.

De acordo com Doventon (1994), uma importante distinção a ser feita entre eletrofácies e

litofácies está no fato de que as eletrofácies são observações primárias do estado da rocha

enquanto as litofácies estão tradicionalmente ligadas à gênese. Os perfis geofísicos têm a

capacidade de fornecer uma série de informações a respeitos das rochas analisadas, tais como

a composição química, arranjo estrutural e textural.

A correta integração entre testemunhos e suítes de logs é fundamental para determinar as

eletrofácies. Da interpretação desses resultados podemos reconhecer diversos ambientes

deposicionais do reservatório. Usualmente uma ou mais litofácies podem ser alocadas na

mesma eletrofácies. Isso pode ocorrer, por exemplo, quando duas litofácies são diferenciadas

a partir de um afloramento com base em uma diferente coloração, uma característica que não

causa impacto direto nas leituras das propriedades petrofísicas da rocha (Rider, 2002).

As informações provenientes dos logs são processadas com o uso de ferramentas de análise

multivariadas de dados, as quais permitem distinguir diferentes agrupamentos de dados.

Representando características petrofísicas semelhantes, estes agrupamentos serão utilizados

nos algoritmos de classificação das eletrofácies (Doventon, 1994).

15

Uma das principais vantagens no uso da classificação baseada em eletrofácies está na

possibilidade caracterizar zonas desconhecidas geologicamente com base apenas nos atributos

geofísicos obtidos na perfilagem e na relação estabelecida com os locais de onde foram

extraídos testemunhos (Soares, 2005).

Métodos computacionais permitem ensinar o computador a identificar padrões e

agrupamentos de dados idênticos aos definidos pelo intérprete, em um processo conhecido

como aprendizagem supervisionada, com o objetivo de diminuir as incertezas associadas ao

processo de caracterização faciológica e permitir o uso do maior número de informações

disponíveis (Soares, 2005).

Diversos métodos computacionais vêm sendo empregados na caracterização de fácies, como o

K-nearest neighbor (KNN) e as Redes Neurais Artificiais (ANN). Com o avanço das técnicas

de aprendizagem de máquina e a maior capacidade de processamento dos computadores

modernos, novas técnicas podem ser implementadas e a Support Vector Machine(SVM) se

encaixa nesse modelo.

O trabalho de Wong (2005) mostrou diferentes resultados que podem ser atingidos através da

mudança não apenas do algoritmo de classificação, como também do kernel que é carregado

junto a Support Vector Machine. Em seu artigo, o autor aponta como melhor combinação para

a caracterização dos folhelhos estudados a combinação do SVM com função kernel Radial

Basis Function (RBF) com valores de 85% de acerto nos dados de teste.

Para a classificação de eletrofácies em um campo siliciclástico localizado na Venezuela,

Torres e Reverón (2014) conseguiram uma taxa de acerto de 86% no poço teste com o uso da

SVM. As eletrofácies foram geradas a partir da integração de perfilagem geofísica, dados de

laboratório e uso da inversão sísmica que foram carregados como dados de treinamento para a

classificação.

Zhao (2015) efetuou uma comparação entre diversas técnicas de classificação, e concluiu que

o SVM apresenta melhores resultados quando o reservatório está na fase de desenvolvimento,

uma vez que há uma maior disponibilidade de dados para serem usado na fase de treinamento.

Ao contrário de Awad e Khana (2015) que indicaram que a técnica tem ótimo rendimento

quando utilizada em condições de escassez de dados.

Quanto à questão do consumo computacional, Awad e Khana (2015) relataram que o

treinamento dos dados é lento, os autores consideraram que sendo o modelo do hiperplano

16

baseado na soma dos vetores de suporte não é possível saber o número de vetores antes de se

obter o hiperplano. Dessa forma, o SVM pode ter seu uso limitado em operações que

demandam uma rápida tomada de decisão ou quando a plataforma computacional instalada

possua capacidade limitada.

Para o desenvolvimento deste trabalho, foi escolhido o uso do algoritmo conhecido como

Support Vector Machine (SVM) que é baseado na teoria de aprendizagem estatística (TAE)

proposta por Vapnik (1995) e tem como principal característica buscar a classificação das

amostras através do ajuste de um hiperplano a partir da construção das margens de separação

máxima. As vantagens do algoritmo de SVM residem no fato de que se trata de uma técnica

de kernel, na qual o algoritmo utiliza uma função pré-definida pode efetuar uma separação

linear em um novo espaço dimensional (Al-Anazi e Gates, 2010).

Este trabalho propõe analisar o comportamento do algoritmo na classificação faciológica do

Campo de Peregrino, localizado na Bacia de Campos. Utilizando como dados de entrada as

leituras de poços: Raios Gama (GR), Densidade (RHOB), Nêutrons (NPHI), Resistividade

(ILD), Sônico (DT), o perfil estimado de Porosidade-RHOB, além da curva de fácies

interpretada para o reservatório utilizada como classificador durante o processo de

treinamento do algoritmo.

Foram utilizados seis poços de exploração para a execução do trabalho, por serem os mais

completos na disponibilidade de dados de testemunhos e perfilagens geofísicas. Esses poços

foram separados em dois grupos que seguem a premissa de que 2/3 dos dados são dedicados

exclusivamente para o processo de treinamento e o 1/3 restante são utilizados como amostra

para o processo de classificação.

Para o uso na SVM, foram selecionadas duas equações diferentes para o Kernel: a equação

Linear e a Radial Basis Function (RBF) sendo que ambas as equações, possuem as variáveis

C (custo) e G (gamma) em comum. Assim para encontrar o melhor par de variáveis (C, G) foi

gerado um grid de busca iterativo, que utilizando o espaço amostral fornecido, definiu os

valores a serem utilizados no processo de classificação.

Com o intuito de comparar o resultado obtido pelo algoritmo do SVM, o mesmo pacote de

dados foi submetido a uma segunda técnica de aprendizagem de máquina, o K-nearest

neighbor (KNN), um classificador já em uso na indústria do petróleo.

17

2. Geologia Local

O Campo de Peregrino está localizado na Bacia de Campos (Figura 1). A área pertence

ao bloco exploratório da ANP BM-C-7 ao sul da Bacia de Campos. O campo possui

aproximadamente 535 km². Sua descoberta ocorreu em 2004 a partir da perfuração de um

poço pioneiro em zona de lâmina d’água próxima de 135 m de profundidade.

Figura 1. Mapa de localização da área de estudos. Em vermelho está indicada a área do bloco BM-C-7 (Modificado

de ANP, maio de 2017).

A Bacia de Campos é uma das bacias sedimentares mais estudadas na geologia brasileira. A

evolução da bacia é abordada por diversos autores tais como, Guardado et al., (1989);

Rangel et al., (1994); Mohriak (2003) e Winter et al., (2007).

Esta bacia está localizada no litoral norte do estado do Rio de Janeiro e ao sul do estado do

Espírito Santo. Seus limites são marcados ao norte pelo Arco de Vitória e a sul pelo Arco de

Cabo Frio. A bacia possui área aproximada de 120.000km² (Mohriak, 2003).

Schaller (1973) elaborou a primeira carta estratigráfica proposta para a Bacia de Campos.

Com o avanço dos conhecimentos a respeito da evolução da bacia, diversas atualizações

foram sendo executadas, como Rangel et al., (1994) e Winter et al., (2007). A caracterização

estratigráfica seguida por esta pesquisa se baseia na carta estratigráfica (Figura 2) proposta

por Winter et al.,(2007) na qual também foram atualizados os dados cronoestratigráficos das

principais sequências deposicionais encontradas na bacia.

18

Após o evento de separação das placas tectônicas Sulamericana e Africana no Mesozóico, são

reconhecíveis dois domínios na margem brasileira: o domínio distensivo e um domínio

transformante. A Bacia de Campos está situada no domínio distensivo, que compreende desde

as bacias do nordeste até o sul do país (Milani et al., 2000).

Localmente, o campo de Peregrino tem sua evolução associada aos depósitos da Formação

Carapebus durante a transição do Cretáceo-Paleógeno. O modelo deposicional é baseado na

transgressão de corpos de areia, originados por fluxos gravitacionais. Os depósitos formam

estruturas sísmicas onlap sobre o Grupo Macaé. O sistema arenoso do Carapebus desse

intervalo é considerado como mais rico em areia quando comparado aos depósitos anteriores.

Seus depósitos são limitados em locais proximais em calhas amplas, enquanto que em porções

mais distais é limitado por muralhas de sal (Winter et al., 2007).

O sistema petrolífero que compõem o campo de Peregrino possui como geradora o Grupo

Lagoa Feia e reservatório a Formação Carapebus. Os folhelhos calcários do Grupo Lagoa Feia

são a principal fonte dos hidrocarbonetos presentes no campo. A qualidade da rocha fonte é

considerada muito boa, com TOC acima de 9% e índice de hidrogênio próximo de 900, sendo

que o pico de geração de óleo para a Bacia de Campos, de maneira geral ocorreu no Mioceno

superior. A presença de óleo pesado na região de Cabo Frio ocorre em consequência dos

processos de biodegradação (Winter et al., 2007).

Processo de migração vertical do hidrocarboneto ocorreu pela passagem do óleo através de

diferentes níveis estratigráficos aproveitando estruturas como falhas e fraturas nas sucessões

carbonáticas e janelas de sal na sequência evaporítica (Guardado et al., 1989).

19

Figura 2. Carta estratigráfica proposta por Winter et al., (2007). Em vermelho é indicado o período de deposição da

formação Carapebus alvo de interesse deste trabalho.

20

3. Artigo: Avaliação da Support Vector Machine na classificação de

fácies no Campo de Peregrino, Bacia de Campos-RJ.

Eduardo Bomfin Caldato¹, Marciano

Salbego², Oton Rúbio

Cunha¹, Mateus de Godoy

Krettleys¹, Felipe Mesquita¹, Jaume Landazuri¹, Sueli

Yoshinaga¹, Frésia Ricardi Branco¹.

e-mail: [email protected] , [email protected]

1Laboratório de Análise de Incertezas Integradas, Departamento de Geologia e Recursos

Naturais (DGRN), Instituto de Geociências, Universidade Estadual de Campinas.

2Faculdade de Engenharia Elétrica e Computação, Universidade Estadual de Campinas.

Resumo

Um considerável volume de informações pode ser obtido a partir das perfilagens geofísicas, tais como

composição química, mineralogia, textura, porosidade além da identificação das zonas de acumulação

de hidrocarbonetos. Para atingir uma interpretação confiável é necessária uma correta correlação entre

os testemunhos de amostragem, amostras de laboratório e perfilagens geofísicas. Algoritmos de

aprendizagem de máquina vêm sendo utilizados com o intuito de auxiliar o intérprete na tarefa de

correlação entre as diferentes fontes de dados. O algoritmo da Support Vector Machine (SVM) tem

aplicação em diversas áreas tais como a bioinformática, análise de imagens e categorização de textos.

Os resultados obtidos até o momento mostram que o algoritmo pode atingir os mesmos ou melhores

resultados que outras técnicas já em uso. A SVM foi desenvolvida por Vapnik e se baseia na Teoria da

Aprendizagem Estatística (TAE). Tem como características a utilização de equações de kernel para

amostras não lineares e o uso das margens de máxima separação para determinação do hiperplano

canônico. Neste trabalho foi obtida uma classificação de eletrofácies com a SVM em dados oriundos

do Campo de Peregrino na Bacia de Campos. Para avaliar a capacidade de classificação e predição de

fácies do SVM, foram utilizados seis poços e suas respectivas leituras de perfilagem do poço,

descrições petrográficas e dados laboratoriais. Foram testadas duas equações de Kernel, Linear e

Radial Basis Function (RBF). O resultado foi comparado à outra técnica, KNN. Ambas as técnicas

atingiram bons resultados tendo o SVM atingido taxa de acerto de 89% e o KNN com 70,8%. Com

esse resultado o SVM se mostrou um confiável classificador para a utilização no campo de Peregrino.

Abstract

Log curves generate a considerable amount of information like, chemistry composition, mineralogy,

texture, porosity and even identify hydrocarbon accumulations. To obtain a reliable interpretation is

important to do a correct correlation between the core log, the laboratory samples and the log curves.

Machine learning algorithms help the interpreter on the job of correct correlation between different

data sources. Many knowledge areas apply the Support Vector Machine (SVM) algorithm, e.g.,

bioinformatics, image analysis and texts categorization. The studies obtained show that the algorithm

can achieve the same or better results of other techniques in use. Based on the Statistical Learning

Theory, the SVM was proposed by Vapnik (1995). It’s characterized by the presence of kernel

equations for nonlinear samples and determination of hyperplane through maximum separation

margins. In this work, an electrofacies classification obtained with SVM using data from the Peregrino

mailto:[email protected]

mailto:[email protected]

21

field, Campos Basin. To evaluate the classification and prediction capacities of the SVM, we utilized

six exploratory wells with log curves, petrographic descriptions and laboratorial analysis. Two kernel

equations was utilized, the Linear and Radial Basis Function (RBF). The results were compared to

another technique, KNN. Both algorithms achieved good results, with SVM scoring 89% and KNN

with 70.8%. With this result the SVM algorithm showed to be a reliable classifier to be applied in the

Peregrino Field.

22

Introdução

A caracterização faciológica é uma etapa crítica para o desenvolvimento de um reservatório

de hidrocarbonetos. A correlação lateral das fácies e suas dimensões determinarão a geometria

do reservatório. A distribuição e o número de fácies identificadas servirão como parâmetros

de entrada para a estimativa de diversas características do campo, tais como, porosidade,

permeabilidade, saturação de água e volume de hidrocarbonetos.

A classificação por eletrofácies foi pela primeira vez mencionada em 1980, por Serra e Abbot,

com o intuito de diferenciar a classificação litológica e petrofísica obtida a partir da

perfilagem geofísica da classificação baseada na análise de afloramentos e testemunhos de

sondagem. Conceitualmente, define-se como “um grupo de respostas a leituras geofísicas que

caracterizam uma camada e que permitem distingui-lá de outras camadas”.

Para a determinação das eletrofácies, uma etapa fundamental é a correta integração entre

testemunhos e a suíte de logs. O reconhecimento de inúmeros ambientes deposicionais pode

ser obtido através da correta interpretação resultante da união de ambos os pacotes de dados.

Como um grande volume de informações é gerado durante o processo, o excesso de dados

têm tornado o trabalho mais complexo e demorado (Rider, 2002; Stinco, 2006; Sebtosheikh et

al., 2015).

A tarefa de correlacionar as estruturas geológicas descritas em testemunhos com composição

química, valores de radioatividade, entre outros dados, pode ser otimizada através do uso de

ferramentas computacionais de aprendizagem de máquina, que permite ensinar o computador

a identificar padrões e agrupamentos de dados idênticos aos definidos pelo intérprete

(Sebtosheikh et al., 2015).

Para embasar a aplicação do algoritmo da Support Vector Machine (SVM) nesta pesquisa,

foram revistos alguns trabalhos que buscam entender de maneira semelhante, como o uso de

algoritmos de aprendizagem podem auxiliar no processo de classificação faciológica.

No trabalho de Wong (2005) é mostrado como diferentes equações de kernel podem

influenciar na caracterização dos folhelhos estudados. No geral, o kernel Radial Basis

Funcion (RBF) atingiu os melhores resultados.

Al-Anazi e Gates (2010) desenvolveram a classificação litológica de um reservatório arenítico

heterogêneo com o uso da SVM. Além de mostrarem que os melhores resultados são obtidos

23

com o kernel RBF, os autores também comparam com os resultados fornecidos por outros

algoritmos, tais como Redes Neurais e Análise Discriminante. No trabalho apresentado, o

algoritmo da SVM se destacou na tarefa de classificação em relação às Reder Neurais e

Análise Discriminante.

A versatilidade no uso dos algoritmos de classificação permite à integração de dados de

diversas fontes, no trabalho de Torres e Reverón (2014), a classificação das eletrofácies foi

obtida a partir da integração dos perfis geofísicos, dados laboratoriais e da inversão sísmica.

O Support Vector Machine é baseado na teoria de aprendizagem estatística desenvolvida por

Vapnik (1995) e tem como característica principal a minimização do risco empírico. As

vantagens do algoritmo de SVM residem no fato de que é uma técnica de kernel, no qual o

algoritmo utilizando uma segunda função pré-definida pode efetuar uma separação linear em

um novo espaço dimensional (Al-Anazi e Gates, 2010).

Este trabalho se propõe em analisar o comportamento do algoritmo na classificação

faciológica do campo de Peregrino, localizado na Bacia de Campos com base na classificação

faciológica interpretada para o campo. Utilizando como dados de entrada as leituras de poços,

Raios Gama, Densidade, perfil Nêutrons, Resistividade, Sônico e o perfil de Porosidade-

RHOB.

Para o algoritmo de SVM foram selecionadas duas equações diferentes para o Kernel: Linear

e Radial Basis Function (RBF). Assim para encontrar o melhor resultado de acerto, foi gerado

um grid de busca iterativo que utilizando o espaço amostral fornecido, definiu as melhores

variáveis a serem utilizadas para cada kernel. Com o intuito de comparar o resultado obtido

pelo algoritmo do SVM, o mesmo pacote de dados foi submetido a uma segunda técnica de

aprendizagem de máquina, o K-nearest neighbor (KNN), um classificador já em uso na

indústria do petróleo.

Os dados fornecidos pertencem ao campo de Peregrino, que está localizado na Bacia de

Campos e possui aproximadamente 535 km² e foi descoberto em 2004. A Bacia de Campos

possui como limites, ao norte o Arco de Vitória e ao sul o Arco de Cabo Frio com área total

aproximada de 120.000 km² (Mohriak, 2003).

Atualmente, a Bacia de Campos é uma das mais estudadas bacia sedimentares da costa

brasileira. A evolução geológica da bacia é discutida por diversos autores, tais como

Guardado et al., (1989); Rangel et al., (1994); Mohriak (2003) e Winter et al., (2007).

24

O campo de Peregrino é composto pelos depósitos arenosos da Formação Carapebus na

transição do Cretáceo-Paleógeno. Fluxos gravitacionais levaram a transgressão de corpos de

areia que se depositaram em sobre o Grupo Macaé em estruturas sísmica de onlap. Os

arenitos desse período são considerados os mais ricos em areia se comparados aos depósitos

mais antigos (Winter et al, 2007).

Support Vector Machine

O Support Vector Machine (SVM) é um algoritmo de aprendizagem que é utilizado na

classificação de dados em diversas áreas tais como, categorização de textos, análise de

imagens e bioinformática. Os resultados desta técnica são comparáveis ou superiores aos

obtidos por outros algoritmos já estabelecidos, como as Redes Neurais Artificiais (Lorena e

Carvalho, 2007; Al-Anazi e Gates, 2010; Awad e Khana, 2015).

De acordo com Awad e Khanna (2015) devido a sua robustez e boa habilidade em

generalizações, o SVM é o algoritmo mais popular e simples para abordagens de

aprendizagem de máquina. De acordo com os autores, algumas vantagens que tornam a

técnica atraente para seu uso na classificação de amostras estão listadas abaixo:

O SVM é uma técnica esparsa. A partir do momento que todos os dados de

treinamento se encontrem carregados, o algoritmo aprende a classificação e a

armazena na forma de vetores de suporte. Dessa forma, quando for realizar a

tarefa de classificação, não serão necessários que os dados de treinamentos

estejam carregados na memória, apenas os vetores de suporte. A complexidade

da tarefa de classificação é dependente do número de vetores utilizados.

É uma técnica de Kernel. Quando o SVM mapeia dados não separáveis

linearmente na dimensão de entrada, a partir do uso do kernel permite-se que

um separador hábil discrimine a amostra linearmente em suas diferentes

classes dentro de um novo espaço dimensional. Na fase de optimização será

aprendido à superfície linear discriminante do espaço mapeado.

Separador de margem máxima. SVM impõe uma limitação na fase de

otimização. Para a determinação do hiperplano canônico, a SVM faz uso das

margens de máxima separação. As margens máximas são posicionadas de

maneira que nenhum dado possa estar entre a margem e o hiperplano.

25

O SVM tem como base a teoria de aprendizagem estatística (TAE) desenvolvida por Vapnik

(1995), compondo parte de um grupo de algoritmos de aprendizagem de máquina. Tais

técnicas devem ser capazes de lidar com dados complexos que muitas vezes contém ruídos e

atributos imperfeitos.

De acordo com Lorena e Carvalho (2007), um algoritmo de classificação atua a partir de um

conjunto n de dados no qual cada amostra Xi possui m atributos associados. As variáveis

tomam a posição Yi e representam as classes. Com os valores das amostras e suas classes, o

algoritmo extrairá um classificador, que poderá então ser utilizado para separar os dados de

interesse (Figura 3). Para manter o controle e determinar a qualidade da classificação adotada,

normalmente são gerados dois grupos de dados. O primeiro é utilizado para o treinamento,

enquanto que no segundo grupo é efetuado o teste de classificação.

Figura 3. Determinação do classificador em aprendizado supervisionado. Extraído de Lorena e Carvalho

(2007).

Durante a classificação deve-se prestar especial atenção a duas situações, denominados de

overfitting e underfitting. O overfitting ocorre quando o classificador se especializa nos dados

de treinamento e consegue gerar excelentes resultados, porém quando confrontado com novos

dados, gera classificações abaixo do esperado. O underfitting ocorre quando os dados de

treinamento apresentam baixa taxa de acerto, sendo possível que as amostras usadas sejam

pouco representativas do modelo usado.

O objetivo do algoritmo é minimizar o erro entre o número de classes previstas e as classes

reais. O risco real ou esperado, (1, é controlado por dois fatores: o risco empírico apresentado

na Equação (2) e o intervalo de confiança, representado pela Equação (3). O risco empírico é

a medida de confiança do classificador, através dos erros obtidos nas classificações.

26

𝑅(𝑓) ≤ 𝑅𝑒𝑚𝑝(𝑓) + ∅(𝑁

ℎ)

(1)

𝑅𝑒𝑚𝑝(𝑓) =1

𝑁∑ 𝑐( 𝑓(𝑥𝑖), 𝑦𝑖)

𝑁

𝑖=1

(2)

∅(𝑁

ℎ) =

√ℎ (ln (2𝑁ℎ

) + 1) − ln (𝜂4)

𝑁 (3)

Onde, f é o classificador, 𝑐(𝑓(𝑥𝑖), 𝑦𝑖) é a função de custo que retorna 0 para classificações

corretas e 1 para os erros, N é o tamanho da amostra, 𝜂 é um número entre 0≥ 𝜂 ≤1 e h é a

dimensão Vapnik–Chervonenkis (VC) (Lorena e Carvalho, 2007; Al-Anazi e Gates, 2010;

Wang, 2014).

A dimensão VC é responsável por medir a complexidade das funções obtidas pelo

classificador. No caso de uma classificação binária, o número VC pode ser definido como o

número máximo de combinações binárias dos dados (Lorena e Carvalho, 2007).

A equação do Risco esperado Equação (1) traz o cálculo para os limites de generalização,

proposto por Vapnik (1995). Existem duas formas de se minimizar o lado direito da Equação

(3): (1) Utilizando o número VC para manter o valor do intervalo de confiança fixo, assim

têm-se o método de Redes Neurais ou (2) mantém-se o risco empírico fixo e com baixo valor

e então se busca a minimização do número VC, tendo assim o método do SVM. Apenas a

minimização do risco empírico não garante um baixo valor de risco real, pois o valor VC pode

ser muito elevado, indicando um grande número de erros nos dados de teste, levando ao

overfitting (Wong et al.,2005; Wang et al., 2014).

O algoritmo de SVM subdivide-se em dois grupos, SVM-Linear e SVM-Não linear. No grupo

do SVM-Linear por sua vez há uma separação em SVM de margens rígidas e margens suaves.

27

SVM linear de Margens rígidas

Na SVM de margens rígidas, objetivo consiste em separar dois grupos de classes de dados

através da aplicação de um hiperplano linear. Consideremos um conjunto de dados T para

treinamento composto por n dados xi ∈ X, tendo como rótulos yi ∈ Y, no qual X compõe o

espaço dos dados e Y ={-1,+1}. A equação definida para o hiperplano é apresentada na (4),

onde w ∙ x é o produto escalar dos vetores w e x, sendo o vetor w ∈ X e normal ao hiperplano:

𝑓(𝑥) = 𝐰 ∙ 𝐱 + 𝑏 = 0 (4)

Como o hiperplano efetua a divisão do espaço dos dados em duas regiões, podemos escrever

as respectivas equações como: 𝐰 ∙ 𝐱 + 𝑏 > 0 e 𝐰 ∙ 𝐱 + 𝑏 < 0. É possível obter infinitas

equações através da multiplicação de w e b por uma constante yi. Logo, o hiperplano canônico

será aquele em que w e b satisfaçam a (5),

|𝐰 ∙ 𝐱𝐢 + 𝑏| = 1 (5)

Por conveniência matemática, a (5) pode ser reescrita na forma das inequações abaixo:

{𝐰 ∙ 𝐱 + 𝑏 ≥ +1 se 𝑦𝑖 = +1𝐰 ∙ 𝐱 + 𝑏 ≤ −1 se 𝑦𝑖 = −1

ou (6)

𝑦𝑖(𝐰 ∙ 𝐱 + 𝑏) − 1 ≥ 0 , ∀ (𝑥𝑖, 𝑦𝑖) ∈ 𝑇 (7)

Sendo x1 um ponto pertencente à H1: 𝐰 ∙ 𝐱 + 𝑏 = +1 e x2 um ponto de H2: 𝐰 ∙ 𝐱 + 𝑏 = −1

(Figura 4).

Figura 4. Exemplo de como o hiperplano se posiciona em função das margens de máxima separação, H1 e H2. Extraído de

Lorena e Carvalho, 2007.

28

É possível projetar x1- x2 na direção do vetor w perpendicular ao hiperplano, e assim se obter

a distância entre os planos H1 e H2. A projeção é:

(𝑥1 − 𝑥2)(𝑤

||𝑤||∙ (

(𝑥1 − 𝑥2)

||𝑥1 − 𝑥2||) (8)

A partir da diferença das equações 𝐰 ∙ 𝐱 + 𝑏 = +1 e 𝐰 ∙ 𝐱 + 𝑏 = −1, temos 𝐰 ∙ (𝐱𝟏 − 𝐱𝟐) ,

que substituído na equação anterior resulta na (9),

d = 2

||𝒘|| (9)

Essa equação descreve a distância d entre as margens (H1 e H2) do hiperplano canônico, sendo

que w e b foram determinados de maneira a não haver dados entre os hiperplanos H1 e H2.

Como umas das premissas do SVM é ser um separador de margem máxima, deve-se então

maximizar a distância entre os hiperplanos. Para tal, pode-se maximizar o termo ||w|| ou

minimizar a seguinte Equação (10):

Minimizar𝑤,𝑏

1

2||𝐰||² (10)

A restrição imposta por 𝑦𝑖(𝐰 ∙ 𝐱 + 𝑏) − 1 ≥ 0 , ∀𝑖 = (1, … , 𝑛), impede a presença de dados

do treinamento entre as margens, sendo por este motivo que a SVM recebe a nomenclatura de

margens rígidas.

Para a resolução de um problema de otimização, será utilizada uma função Lagrangiana que

engloba as restrições à função objetivo e as associa a um multiplicador de Lagrange αi,

𝐿(𝑤, 𝑏, 𝛼) =1

2||𝒘||

2− ∑ 𝛼𝑖(𝑦𝑖(𝐰 ∙ 𝐱𝐢

𝑛

𝑖=1

+ 𝑏) − 1) (11)

A resolução esperada para o problema, demanda a minimização de w e b enquanto o termo αi

deve ser maximizado, formando um ponto de sela:

𝜕𝐿

𝜕𝑏= 0 e

(12) 𝜕𝐿

𝜕𝐰= 0

29

A partir da resolução das equações acima, temos:

∑ 𝛼𝑖 𝑦𝑖 = 0

𝑛

𝑖=1

(13)

𝑤 = ∑ 𝛼𝑖 𝑦𝑖 𝑥𝑖

𝑛

𝑖=1

Efetuando a substituição das equações acima na função Lagrangiana, encontra-se o seguinte

problema:

Maximizar𝛼

∑ 𝛼𝑖

𝑛

𝑖=1

−1

2 ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 (𝐱𝐢 ∙ 𝐱𝐣)

𝑛

𝑖,𝑗=1

(14)

Com as restrições: {

𝛼𝑖 ≥ 0, ∀𝑖 = 1, … , 𝑛

∑ 𝛼𝑖𝑦𝑖 = 0

𝑛

𝑖=1

Com a resolução do problema de maximização a partir da teoria da otimização e respeitando

as restrições impostas, se obtém:

𝛼𝑖(𝑦𝑖(𝐰 ∙ 𝐱𝐢 + 𝑏) − 1) = 0, ∀𝑖 = 1, … , 𝑛 (15)

A Equação 15 indica que para αi ≠ 0 os dados se encontram sobre os hiperplanos H1 e H2,

para situações em que αi = 0 , os pontos não irão participar do cálculo de w. Para dados que

possuem αi > 0, os mesmo recebem a denominação de vetores de suporte e são considerados

de suma importância para a fase de treinamento, pois são eles os dados que determinarão o

hiperplano canônico.

Uma vez que temos os dados que formarão os vetores de suporte e a subsequente definição do

hiperplano, pode-se prosseguir para o cálculo da função que determinará o classificador,

objetivo final do processo de treinamento do algoritmo.

O termo b será calculado com os vetores de suporte a partir da equação 16, e serão

considerados para todos xj tal que 𝛼𝑗 > 0. Na equação abaixo, nsv se refere ao número de

vetores de suporte e SV é o conjunto de vetores de suporte.

30

𝑏 =1

𝑛𝑠𝑣∑ (

1

𝑦𝑗− ∑ 𝛼𝑖𝑦𝑖 𝐱𝐢 ∙ 𝐱𝐣

𝑥𝑖 ∈ 𝑆𝑉

)

𝑥𝑗 ∈ 𝑆𝑉

(16)

Assim, será possível escrever o resultado final como o classificador g(x), apresentado abaixo,

onde sgn significa a função sinal, w é fornecido pela equação 13 e b pela equação acima.

𝑔(𝑥) = 𝑠𝑔𝑛(𝑓(𝑥)) = 𝑠𝑔𝑛 ( ∑ 𝛼𝑖𝑦𝑖 𝐱𝐢 ∙ 𝐱𝐣 + 𝒃

𝑥𝑖∈𝑆𝑉

) (17)

SVM linear de Margens Suaves

Com o intuito de utilizar o SVM quando a amostra não pode ser separável linearmente, houve

a introdução de uma variável ξi com o objetivo de permitir que durante o processo de

classificação, a SVM classifique a maior quantidade de dados corretamente, enquanto que o

modelo obtido (Figura 5) irá permitir alguns erros na vizinhança das margens de separação.

Assim sendo, as margens de máxima separação são consideradas margens suaves (Awad e

Khana, 2015).

Figura 5. SVM de margens suaves. Extraído de Awad e Khana (2015).

A equação 11 receberá a variável ξi, tomando a forma abaixo:

𝐽(𝑤, 𝑏, ξ) = 1

2||𝐰||

2+ C ∑ ξi

𝑛

𝑖=1

(18)

Com as restrições: 𝑦𝑖(𝑤 ∙ 𝑥𝑖 + 𝑏) ≥ 1 − ξi, ξi ≥ 0, ∀i = 1, … , n

31

O termo de regularização C é um parâmetro que varia de acordo com o processo de

classificação tendo um peso na minimização dos erros do conjunto de treinamento. Com o

aumento do valor de C, é enfatizada a minimização do erro e do número de classificações

erradas, enquanto que com a diminuição do C, são permitidos mais erros com a maximização

das margens entre os grupos classificados (Figura 6) (Al-Anazi e Gates, 2010).

Figura 6. Exemplo de margens obtidas para diferentes valores de "C". Extraído de Awad e Khana (2015).

Para a equação 18, devem ser resolvidos problemas de otimização similares aos apresentados

para a SVM de margens rígidas. Utilizando novamente da função Lagrangiana, há:

Maximizar𝛼

∑ 𝛼𝑖

𝑛

𝑖=1

−1

2∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗(𝐱𝐢 ∙ 𝐱𝐣)

𝑛

𝑖,𝑗=1

(19)

Com as restrições: {0 ≤ 𝛼𝑖 ≤ 𝐶, ∀𝑖 = 1, … , 𝑛

∑ 𝛼𝑖𝑦𝑖𝑛𝑖=1 = 0

A variável ξi é determinada da seguinte maneira:

ξi = max {0,1 − 𝑦𝑖 ∑ 𝑦𝑗𝛼𝑗𝐱𝐢 ∙ 𝐱𝐣 + 𝑏

𝑛

𝑗=1

} (20)

Com a definição da variável ξi, efetua-se o novo cálculo para a determinação dos vetores de

suporte na SVM de margens suaves,

𝛼𝑖 = (𝑦𝑖(𝐰 ∙ 𝐱𝐣 + 𝑏) − 1 + ξi) = 0 (21)

(𝐶 − αi)ξi = 0 (22)

A definição dos vetores de suporte segue o mesmo padrão das SVM de margens rígidas. Os

dados para os quais 𝛼𝑖 > 0 serão chamados de vetores de suporte. A maior diferença para a

32

SVM de margens rígidas reside no fato de que agora, com o uso da variável ξi, podem ser

definidas diferentes posições para os vetores de suporte.

Para 𝛼𝑖 < 𝐶 e ξi = 0, os pontos estão posicionados sobre as margens e recebem a

denominação de vetores de suporte livres. Para a situação em que 𝛼𝑖 = 𝐶, ocorrem três

situações diversas: ξi > 1 que indica pontos erroneamente classificados; 0 < ξi ≤ 1 que

representa pontos corretamente classificados porém situados entre as margens separadoras;

ξi = 0 que indica os pontos sobre as margens separadoras (Figura 7).

A equação de classificação g(x) será a mesma que foi demonstrada para o caso da SVM de

margens rígidas.

Figura 7. Neste exemplo de SVM de Margens Suaves, os elementos em branco estão corretamente classificados, os

elementos em cinza indicam os vetores de suporte correto e os elementos com bordas são vetores de suporte

erroneamente classificados. Extraído de Lorena e Carvalho, 2007.

SVM- Não linear

Em diversas situações os dados que se deseja classificar não podem ser discriminados a partir

de um hiperplano linear. Para classificações com dados não lineares, a adoção da equação de

kernel pode ser utilizada.

O kernel tem a capacidade de transformar o espaço dimensional de entrada em um novo

espaço dimensional, no qual a amostra passa a ser linearmente separável. No novo espaço

amostral gerado pelo kernel, um hiperplano linear pode então ser utilizado, ao invés de se

executar um cálculo de alta ordem para se classificar os dados no espaço amostral de entrada

(Figura 8).

33

Figura 8. No gráfico a esquerda não é possível separar as duas classes com um hiperplano, enquanto que após a

transformação do espaço dimensional pelo kernel, as classes podem ser divididas.

De maneira geral, um kernel é uma função que após receber os pontos (xi,xj) do espaço

amostral de entrada, efetua o produto escalar dos dados em um novo espaço amostral,

𝐾(𝑥𝑖, 𝑥𝑗) = 𝜑(𝑥𝑖) ∙ 𝜑(𝑥𝑗) (23)

Na prática, faz se a utilização da função Kernel sem o conhecimento do espaço dimensional

(φ) no qual os dados estão inseridos.

As equações de kernel mais utilizadas são apresentadas na Tabela 1:

Tabela 1. Exemplos de equações de kernel. Modificado de Awad e Khana (2015).

Para o uso da equação de Kernel, inicialmente os dados serão mapeados em uma dimensão

utilizando φ (Equação 24), então aplica-se sobre o resultado obtido a SVM de margens

suaves, devido a sua maleabilidade quanto a presença de dados entre as margens de máxima

separação.

φ(x) = φ(x1, x2) = (x12, √2𝑥1𝑥2, 𝑥22) (24)

34

Como apresentado nas etapas anteriores, deve-se resolver o problema de otimização,

Maximizar𝛼

∑ 𝛼𝑖

𝑛

𝑖=1

−1

2∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗(φ(xi) ∙ φ(xj))

𝑛

𝑖,𝑗=1

(25)

Seguindo as restrições impostas para a SVM de margens suaves, é possível então definir um

classificador,

𝑔(𝑥) = 𝑠𝑔𝑛(𝑓(𝑥)) = 𝑠𝑔𝑛 ( ∑ 𝛼𝑖𝑦𝑖 (φ(xi) ∙ φ(xj) + 𝑏


) (26)

Enquanto que b pode ser definido por:

𝑏 =1

𝑛𝑠𝑣: 𝛼 < 𝐶∑ (

1

𝑦𝑗− ∑ (φ(xi) ∙ φ(xj)


)

𝑥𝑗 ∈ 𝑆𝑉∶ 𝛼𝑗<𝑐

(27)

Características a respeito da amostra também devem ser levadas em conta na escolha da

equação do kernel. O kernel linear apresenta melhores resultados para conjuntos com dados

mais esparsos. A função Polinomial é mais utilizada em processamento de imagens. A função

gaussiana e laplaciana tem aplicações mais generalizadas, sendo aplicadas quando há pouco

conhecimento prévio sobre o dado (Awad e Khana, 2015).

SVM-Multiclasses

A discussão prévia a respeito do SVM como técnica de classificação de amostras, foi

referente a dados binário, ou seja, compostos apenas por duas classes. Autores como Weston e

Watkins (1999) e Platt (2000) começaram as pesquisas para o desenvolvimento da

classificação multiclasses.

De acordo com Awad e Khana (2015), uma das estratégias adotadas para a resolução do

problema da classificação binária do SVM foi à adoção do One-Against-All (OAA). A

estratégia para a construção da classificação multiclasses nesse caso, parte do princípio de se

obter n classificadores binários, no qual n é o número de classes. Assim, cada classificador

separa uma classe de outra, reduzindo para uma situação de classificação binária.

35

Outra estratégia apontada para a resolução de casos multiclasses, é conhecida como

One-Against-One (OAO). Nessa abordagem, é construído uma combinação de 𝑛(𝑛 − 1)/2

binários, sendo que cada binário é utilizado para discriminar duas classes de todas c classes

carregadas (Al-Anazi e Gates, 2010).

Nessa pesquisa foi adotada a abordagem OAA, que está programada na biblioteca do SVM

(LIBSVM) utilizada no Matlab para executar o trabalho de classificação.

K-Nearest Neighbor (KNN)

Este método é amplamente conhecido e utilizado em softwares comerciais na caracterização

de reservatórios (i.e. Petrel®- Schlumberger). No KNN, o algoritmo assume que todos os

pontos pertencem a um mesmo espaço dimensional n. Os vizinhos mais próximos ao ponto

podem ser definidos por uma distância euclidiana ((28)) ou por outras fórmulas de distância

(Tartakovsky et al., 2007).

Nesta técnica, a função do KNN ((29)) permite a aprendizagem de valores contínuos ou

discretos. A função para valores discretos f(xq) irá estimar o valor mais comum para f entre k

pontos mais próximos do ponto de interesse xq. No caso de k=1, será o valor encontrado pela

equação F(xq), enquanto que para valores k>1, a função fornecerá o valor mais comum

encontrado entres os pontos carregados no treinamento do algoritmo (Mitchel, 1997).

𝑑(𝑥𝑖, 𝑥𝑗) = √∑ (𝑎𝑟(𝑥𝑖) − 𝑎𝑟(𝑥𝑗))²𝑛𝑟=1 (28)

𝑓(𝑥𝑞) ← 𝑎𝑟𝑔𝑚𝑎𝑥 ∑ 𝛿(𝑣, 𝑓(𝑥𝑖))

𝑘

𝑖=1

(29)

As etapas para a utilização do KNN podem ser simplificadas nos seguintes passos:

(1) Determinação da distância entre o ponto de interesse e os vizinhos conhecidos;

(2) Definição do número de vizinhos (k) que devem ser levados em consideração no

processo;

36

(3) Classificação dos dados vizinhos, para que o algoritmo rotule o ponto

desconhecido com base nas informações fornecidas.

Definir corretamente os valores de k vizinhos mais próximos é vital para o desempenho do

algoritmo durante o processo de aprendizagem. Os valores escolhidos devem levar em

consideração que com um k muito pequeno a classificação fica sensível a dados estranhos ou

ruídos no pacote de informação carregados. Para valores elevados de k, há o risco de pontos

sem relação com o interesse sejam inclusos (Figura 9).

Figura 9. Exemplo de separação dos dados de acordo com a vizinhança (k=5) escolhidos. Extraído de Mitchel

(1997)

Materiais e Métodos

A presente pesquisa foi realizada utilizando seis poços exploratórios e suas respectivas

perfilagens geofísicas, dados de laboratório e amostra de sondagem referente ao campo de

Peregrino, localizado na Bacia de Campos. As leituras de poço são: Raios Gama (GR),

Densidade (RHOB), Nêutrons (NPHI), Resistividade (ILD) e Sônico (DT). Dados

laboratoriais também foram disponibilizados para a utilização, sendo estes referentes à

porosidade, permeabilidade, e distribuição de granulometria.

O testemunho de sondagem foi avaliado por meio de fotografias e descrição digitalizada,

foram disponibilizados os dados referentes a quatro poços exploratórios. Para outros dois

poços, as informações litológicas foram incluídas com base em fotos de lâminas petrográficas

com suas respectivas descrições digitalizadas.

Os poços têm comprimento variável, e as seções estudadas mudam consideravelmente. A

Tabela 2 mostra de maneira resumida a disponibilidade dos dados nos poços utilizados.

37

Tabela 2. Resumo dos dados disponíveis de acordo com o poço.

O trabalho proposto foi dividido em quatro etapas principais. A primeira etapa do trabalho

consistiu no levantamento bibliográfico sobre o tema de classificação e predição de

eletrofácies e as principais técnicas e metodologias adotadas atualmente. O levantamento

bibliográfico a respeito da bacia de Campos e os depósitos turbidíticos da Formação

Carapebus foram atualizados.

A segunda etapa compreendeu as interpretações litológicas e petrofísicas dos poços utilizados.

Inicialmente foi realizado um controle de qualidade dos dados fornecidos. Em diversas seções

ao longo dos poços muitas amostras de testemunhos não puderam ser recuperadas, dessa

forma, a interpretação geofísica permitiu a continuidade dos dados ao longo de toda a seção.

A área de interesse para a aplicação do algoritmo abrange a seção do reservatório, porção com

a maior quantidade de dados disponíveis para o desenvolvimento da análise proposta. Assim

sendo, foram determinados os limites, superior e inferior do reservatório, e uma superfície de

máxima inundação que marca a sub-compartimentação do reservatório em superior e inferior.

Após a determinação da zona do reservatório, a porosidade foi calculada com base na curva

de densidade - RHOB.

A definição da classificação de fácies baseou-se no agrupamento das litologias com base em

seu comportamento em relação à perfilagem e nos valores de porosidade encontrados.

Seguindo a propostas de trabalhos já publicados (e.g. Wohlberg, 2006; Guadagnini, 2006;

Tartakovsky, 2007; Al-Anazi e Gates, 2010; Torres, 2014) a classificação das eletrofácies foi

focada no reservatório, e as fácies foram definidas como Reservatório (R), Possível

Reservatório (PR) e Não Reservatório (NR).

A terceira etapa compreendeu o trabalho desenvolvido no MATLAB, no qual as fácies

interpretadas foram utilizadas no algoritmo de treinamento e predição de classes. No

MATLAB, os poços foram separados em dois grupos: (1) treinamento e (2) amostra. Seguiu

38

orientação proposta por Awad e Khana (2015), na qual se deve utilizar 2/3 dos dados para

treinamento e 1/3 como amostra de teste.

Do conjunto de seis poços disponíveis, foram escolhidos para servirem como dados do

conjunto de treinamento do algoritmo os poços 51, 53, 56 e 57. Para o grupo de amostra os

poços 54 e 55 foram selecionados para o pacote de teste (Figura 10).

Figura 10. Mapa de localização dos poços utilizados na tarefa de classificação.

O algoritmo de SVM depende da equação de Kernel para sua execução, sendo que cada

kernel, tem um grupo de variáveis próprias. Neste trabalho foram utilizadas duas funções de

kernel: linear e Radial Basis function (RBF). As variáveis dessas equações são as mesmas e

consistem em duas: a função custo (C) e o Gama (G). A taxa de sucesso atingido pelo

algoritmo na classificação das fácies é diretamente dependente dessas variáveis.

Para que o par (C, G) com melhor taxa de acerto fosse escolhido na fase de treinamento, foi

criado um grid de busca, que testou a combinação de todos os valores de C e G dentre os

limites de valores determinados pelo intérprete, até que o melhor acerto seja atingido.

A quarta etapa consistiu na validação dos resultados obtidos no treinamento através de

comparação gráfica entre pré e pós-classificação e uso da matriz de confusão, construídas a

partir dos poços de amostra que compõem do 1/3 restante dos dados do trabalho.

39

Outra abordagem para melhor distinção das litologias depende do gráfico MxN da formação

de interesse. Essa mesma configuração de gráfico também pode ser explorada na

determinação dos minerais que compõem a matriz rochosa. Os termos M e N são calculados a

partir dos valores medidos pelas curvas RHOB, NPHI e Sônico, além das constantes da

densidade, velocidade intervalar e a porosidade neutrônica do fluido contido na formação

(Asquith, 2004).

A matriz de confusão ou matriz de erros é uma ferramenta extremamente útil para a

comparação entre as fácies originais e as classificadas pelo algoritmo. Nessa ferramenta de

análise estatística, cada coluna representa o dado preditivo enquanto a linha apresenta o dado

original. Na diagonal principal da matriz estão presentes os números de dados que foram

corretamente preditos, enquanto que nas células restantes são mostrados os valores errados. A

Figura 11 mostra um esquema resumido do fluxo de trabalho empregado no desenvolvimento

do trabalho.

Figura 11. Fluxo de trabalho utilizado para a aplicação do SVM na classificação de fácies.

Resultados

Interpretação petrofísica

No trabalho executado, decidiu-se por utilizar uma classificação de fácies com foco no

reservatório de hidrocarbonetos. Com o agrupamento das litologias em fácies do tipo

Reservatório (R), Possível Reservatório (PR) e Não Reservatório (NR) focou-se em associar

litologias com comportamentos similares perante as perfilagens geofísicas. A Tabela 3

apresenta as litologias descritas nos poços testemunhados e sua classificação faciológica.

40

Tabela 3. Classificação das litologias descritas nos poços testemunhados em função do reservatório. Legenda: Reservatório

(R); Possível Reservatório (PR); Não Reservatório (NR).

A descrição dos poços determinou 14 diferentes litologias ao longo do reservatório. O

agrupamento permitiu a redução para apenas três classes tendo função parecida com a

regularização métrica do poço. A classificação utilizada diminui a resolução geológica do

poço, porém sem que ocorram perdas na caracterização do reservatório.

A interpretação litológica dos poços foi realizada com base na combinação das perfilagens

geofísicas do poço, descrições dos testemunhos e lâminas petrográficas. A Figura 12, mostra

uma seção do poço com os elementos que foram considerados na determinação litológica.

41

Figura 12. Nesta imagem são ilustrados em (a) a relação entre altos valores de raios gama com a presença de litologias

mais finas, apesar de não haver evidente acréscimo no teor de argilominerais, a matriz rochosa apresenta teor arcosiano.

Em (b) é descrita como areia fina micácea com presença de bioclastos carbonáticos e glauconita com óleo retido. A

descrição macroscópica (c) indica a ocorrência de areia fina laminada enquanto que em (d) ocorre areia maciça. Em (e) a

amostra é descrita como areia fina micácea com presença de bioclastos carbonáticos e grãos detríticos de argila. A linha

amarela representa o topo do reservatório; a linha roxa marca a porção intermediária do reservatório.

Com a análise dos poços interpretados, o início do processo de agrupamento das litologias nas

classes de interesse começou com a construção da curva de porosidade, elemento utilizado em

associação com as características texturais para a separação faciológica. A curva de

porosidade escolhida para este trabalho foi a Porosidade-RHOB, devido a sua compatibilidade

com os dados de porosidade fornecidos pelos plugues testados em laboratório (Figura 13) e

sua simplicidade no cálculo, uma vez que seus parâmetros de entrada são todos conhecidos.

42

Figura 13. Gráfico comparativo da porosidade-RHOB com a porosidade de laboratório, para o poço 51. A curva em

azul indica a porosidade proveniente do laboratório enquanto que a curva em vermelho representa a porosidade

calculada.

Seguindo com o agrupamento das litologias, a fácies NR (não reservatório) é composta pelas

litologias que compreendem frações sem qualidades de reservatório e seriam as classes 1,2, 3,

4, 6, 7, 13 e 14 (Tabela 3). Tais litologias no geral apresentam grãos em fração de argila em

sua matriz. A presença de elevados teores de argila está relacionada aos valores obtidos pela

leitura de raios gama, além de algumas especificidades que serão discutidas a seguir.

Nos poços 2, 3, 6, 13, em que foi identificada a presença de litologias ricas em carbonato, a

dolomita é descrito com granulometria fina ou na forma de cimento associado com grãos

siliciclásticos de silte a areia fina. Há ocorrência de arenito fino (6) cimentado por calcita com

granulometria variando de silte a areia fina. O intervalo de 2272-2275m do poço 54 (Figura

14) foi interpretado como arenito fino dolomítico com base na petrografia. A presença de

argila no intervalo é indicada pelos valores encontrados na curva de GR.

O siltito (classe 14), conglomerado (classe 4) e o arenito (classe 7) são classificados como não

reservatórios, pois apresentam elevados teores de argila em suas matrizes rochosas. A

ocorrência de níveis conglomeráticos também é localmente restrita aos poços 56 e 57, sendo

que tais depósitos estão relacionados a um ambiente deposicional de brecha com matriz

lamosa-carbonática.

43

Figura 14. Poço 54 com ocorrência de litologia cimentada por carbonatos (2267m). Da esquerda para a direita, o

perfil de GR não indica anomalias presentes, enquanto o perfil de DT apresenta um pico de aumento na velocidade e

os perfis de NPHI e RHOB também apresentam valores anômalos, indicados pelas setas, devido à presença de

cimentação carbonática. Fotomicrografia em (b) que esclarece alguns dos comportamentos inesperados para litologia

arenítica.

A fácies R (reservatório) compreende as litologias agrupadas com ótimas

características para o reservatório, essas são compostas pelas classes 5 e 12 (Tabela 3). Foram

levados em consideração os comportamentos das curvas de leitura geofísica somadas com a

curva de porosidade calculada a partir do RHOB.

As classes 5 e 12 são as mais recorrentes entre as litologias descritas. Apresentam

baixo teor de argila em seus poros, com valores acima de 30% de porosidade. De acordo com

a Figura 15, a seção de 2276-2279m foi interpretada como arenito médio (classe 12). Os

valores de GR são intermediários e a curva apresenta formato cilíndrico, levando a

interpretação de um aporte constante de areia. A curva do sônico (DT) não apresenta

expressivas variações nos valores de velocidade.

44

Figura 15. Identificação da litologia preferencial para a ocorrência de reservatório de hidrocarbonetos, exemplo do

poço 56. Em detalhe é mostrado o arenito com óleo retido.

A fácies PR é classificada como possível reservatório, pois apresentam características

mistas entre as fácies NR e R, sendo que o fator decisivo para a exploração do óleo presente é

dependente da tecnologia empregada na produção. As litologias classificadas são as classes 8,

9, 10 e 11 (Tabela 3).

Na Figura 16, o intervalo 2256-2259m apresenta a litologia 8, um arenito fino com

argila. Na imagem do testemunho é possível ver a retenção de óleo na litologia, porém a

presença de argila e carbonato na matriz impede a caracterização plena como reservatório

para essa litologia.

45

Figura 16. Poço 57 no qual foi caracterizada uma região com fácies Possível reservatório.

Fase de treinamento

Os resultados deste capítulo são referentes aos poços 51, 53, 56 e 57, que foram utilizados na

fase de treinamento do algoritmo e seguem a proposta de Rider (2002), Asquith (2004) e Ellis

e Singer (2008) para a determinação litológica através de técnicas petrofísicas.

As Figura 17 e Figura 18 trazem os dados para os poços 54 e 55 no quais é possível observar

que a nuvem de pontos está bastante aglomerada dificultando a separação das litologias pelo

seu comportamento frente às leituras NPHI, RHOB ou DT. A principal causa apontada para

isso é a leitura do NPHI que é influenciada por zonas com ocorrência de hidrocarbonetos,

sendo sua leitura de hidrogênios livres normalmente acima do esperado.

O predomínio dos cimentos calcários (calcita, dolomita) na matriz rochosa influi no

comportamento das curvas, levando à superestimação nos valores litológicos das areias

cimentadas. Apesar dessas anomalias, os gráficos mostram clara separação entre as litologias

e a possibilidade de agrupamento em fácies para a aplicação do SVM.

Para o poço 54, os gráficos de NPHI x RHOB e Sônico x RHOB são bons separadores de

areias com cimentação dolomítica e que não possuem características de reservatório. Porém,

estes gráficos não se demonstraram eficientes para indicar a distinção entre o arenito limpo do

reservatório do arenito com matriz argilosa. O gráfico de NPHI x Sônico apresenta uma

46

melhor distinção entre as litologias do poço 54, permitindo uma separação mais eficiente das

litologias com cimentação calcária ou matriz argilosa.

É possível observar no gráfico NPHI x RHOB abaixo, que litologias classificadas como

reservatório (R) estão agrupadas como a areia média (medium sand) e areia fina (fine sand),

enquanto que litologias identificadas como não reservatório (NR) formam um aglomerado de

pontos, como calcário (limestone), areia fina dolomítica (dolomitic fine sd) e siltito (siltstone).

a)

b)

47

c)


mostrado à relação NPHI x RHOB, em (b) RHOB x SÔNICO e em (c) SÔNICO x NPHI.

No poço 55 não há presença de litologias com cimentação calcária, a areia média apresenta

uma grande variabilidade nos valores de RHOB e NPHI, enquanto para o perfil Sônico (DT) o

comportamento da litologia permite uma separação das litologias nos grupos de velocidades.

a)

48

b)

c) Figura 18. Gráficos utilizados para distinção das litologias descritas nos poços referentes ao Poço 55. Em (a) é mostrado a

relação NPHI x RHOB, em (b) RHOB x SÔNICO e em (c) SÔNICO x NPHI.

A Figura 19 apresenta os gráficos MxN para os poços 54 e 55, e foi utilizada na distinção de

litologias com diferentes conteúdos na composição de sua matriz. Na porção inferior do

gráfico há presença de litologias com matriz predominantemente carbonática. Enquanto que

na porção intermediária há presença de matriz argilosa, a porção superior contém litologias

mais limpas, tais como areia fina e média, que compõem a fácies reservatório.

Quando aplicado para os dados do poço 54, o gráfico de MxN apresenta uma melhor

separação entre os grupos de litologias descritas no poço. Evidenciando dessa forma um

posicionamento das litologias mais ligadas a fácies Não reservatório na porção inferior do

gráfico.

49

No gráfico gerado para o poço 55 (Figura 19b) é indistinguível o agrupamento das litologias

em diferentes pacotes. É perceptível uma tendência à concentração de litologias relacionáveis

à fácies Reservatório na porção superior. Porém, dentre as litologias arenosas em ambos os

poços, não há um claro comportamento das amostras que leve a fácil separação das litologias

descritas.

a)

b)

Figura 19. Determinação litológica por meio do plote M x N. (a) Poço 54 e (b) Poço 55. No eixo X estão os valores de N no

eixo Y e valores de M. Os termos M e N são adimensionais.

Fase de classificação

Após a determinação das litologias e seu agrupamento em fácies classificadas como

Reservatório, Não Reservatório e Possível Reservatório, foram realizadas as etapas de

treinamento e predição de fácies através dos algoritmos KNN e SVM.

Com uma aplicação mais complexa, no caso do SVM, busca-se responder a 3 questões

durante o treinamento do algoritmo.

(1) Quais os poços quando combinados no pacote de treinamento fornecem os

melhores resultados classificação?

(2) Qual função Kernel consegue retornar a melhor taxa de acerto nas amostras?

(3) Quais os valores do par C (cost) e G (gamma) devem ser utilizados na entrada para

atingir os melhores resultados?

Como foi apresentado na seção dos métodos, o processo de desenvolvimento de uma

aplicação de aprendizagem de máquina é um processo iterativo, no qual, diversas repetições

serão executadas para que o melhor resultado seja atingido. Sendo assim, diversas rodadas de

50

classificação de fácies foram executadas e os melhores resultados encontrados são mostrados

nesta seção.

As questões (1) e (2) foram resolvidas conjuntamente, sendo que foram combinados

aleatoriamente os poços e foram testados para cada função kernel disponível. Logo,

encontrou-se que a combinação dos poços 51, 53, 56 e 57 para os dados de treinamento e os

poços 54 e 55 para os dados de amostra.

Para a resolução do problema apresentado em (3), optou-se pela criação de um grid de busca,

que testa diversas combinações aleatórias para as variáveis (C, G) respeitando os limites de

busca pré-estabelecidos pelo intérprete. No final do processo, o melhor resultado atingido pela

combinação dos poços, dos perfis, do kernel e das variáveis (C, G) foi salvo para a etapa

posterior. A taxa de acerto atingida pelo KNN foi de 70,8%, para o SVM-linear foi de 54% e

para o SVM-RBF os valores atingiram 89%.

Tabela 4. Matriz de confusão com os valores de erros e acertos por fácies são apresentados para o SVM com kernel Linear

(a) e RBF (b), para o algoritmo do KNN (c) e para o modo robusto do SVM-RBF (d). Em azul são mostradas as fácies

corretamente classificadas enquanto que em vermelho estão as fácies erradas.

Com intuito de testar a robustez do SVM, decidiu-se por uma classificação de fácies com

apenas um poço no grupo de treino (poço 57), enquanto que foram utilizados cinco poços no

grupo de amostra (poços 51, 53, 54, 55 e 56). Foi escolhido o Kernel do tipo RBF, que no

teste anterior já havia mostrado o melhor rendimento. Nessa aplicação foram estipulados os

valores de C: 1.22 e G: 1.63, enquanto a taxa de acerto obtida foi de 72,3% (Tabela 5).

Tabela 5. Valores encontrados para as variáveis de interesse para o kernel Linear e RBF com suas respectivas taxas de

acerto.

C G Taxa de acerto

linear 3.66 1 54%

RBF 4.49 4.71 89%

51

O multi-histograma foi gerado com a intenção de comparar a semelhança nas fácies preditas

com as originais (Figura 20) encontradas para os poços 54 e 55. Apesar da elevada taxa de

acerto, o multi-histograma mostra que as fácies R e PR tiveram suas frequências elevadas em

relação ao encontrado no original.

Figura 20. O histograma mostra comparativamente os resultados obtidos pelos métodos preditivos testados e os dados

carregados no grupo de amostra.

Entre as informações disponibilizadas pelas Figura 17 e Figura 18, estão os erros fornecidos

pelos métodos utilizados na classificação. O SVM- RBF gerou maior volume de erros na

classificação das fácies PR rotulando-as como fácies R. Enquanto que o SVM-Linear possui

um número elevado de erros na classificação das fácies PR como fácies R.

O KNN cometeu erros similares ao SVM na classificação das fácies R como fácies PR em

maior número e em menor número foram gerado erros de classificação de fácies PR como

fácies R. A Figura 21 mostra a comparação entre os dados oriundos da classificação feita pelo

intérprete versus a classificação do algoritmo de aprendizagem.

Na Figura 21a é mostrada a comparação entre as fácies R-poço versus fácies R do SVM,

sendo que a nuvem de pontos para a fácies R do SVM está mais compacta que os pontos

originais. Essa maior quantidade de pontos também é vista no multi-histograma fornecido, no

qual os dados da fácies R do algoritmo possuem maior ocorrência que as fácies R

originalmente descritas. É possível ver que a há uma maior dispersão dos dados na Figura 21b

quando comparado com a Figura 21d. Isso reafirma o ilustrado na Tabela 4 quanto aos erros

encontrados.

52

a)

b)

c)

d)

Figura 21. Gráfico de M x N para a determinação litológica. Os gráficos mostram as comparações entre os dados dos Poços

(amostra) e os classificados pelo SVM. Em (a) e (b) estão evidenciados os resultados obtidos a partir do SVM. Em (c) e (d)

são plotados os resultados obtidos a partir do KNN. No eixo X estão os valores de N no eixo Y e valores de M. Os termos M

e N são adimensionais.

Discussão

O cálculo da curva de porosidade-RHOB foi executado com vistas na classificação do

reservatório no algoritmo SVM. Como os dados de entrada são oriundos de aquisição

geofísica, a curva de porosidade, por ser um parâmetro petrofísico, descreve melhor as

características litológicas e permite que o intérprete obtenha uma classificação de fácies com

melhor qualidade.

Após o cálculo da curva de porosidade, foram realizadas as interpretações de todas as curvas

com o foco na classificação de fácies. A primeira dificuldade a ser contornada, de maneira

geral no campo, reside no fato que os arenitos que compõem o reservatório são arcosianos.

Depósitos arcosianos influenciam na aquisição da curva de raios gama (GR), devido a maior

presença de elementos radioativos, como os feldspatos potássicos e as micas quando

53

comparado com arenitos limpos, levando os valores de leitura do GR a ficarem relativamente

elevados (Doventon, 1994).

Durante a execução da pesquisa, houve a tentativa de desenvolver a aplicação do algoritmo

em fácies clássicas de turbiditos (e.g. Mutti et al., 1999; Mayall et al., 2006) para o uso em

fase de exploração. Os resultados alcançados não foram satisfatórios. Acredita-se que a razão

esteja ligada aos dados de entrada, como as curvas de perfilagem geofísica, que são limitadas

na capacidade de descreverem as características típicas presentes em um depósito

turbidíticos, tanto na litologia quanto em estruturas sedimentares.

É possível também, que a grande variedade de fácies presentes em depósitos deste tipo, esteja

acima da capacidade computacional do algoritmo. Nesse sentido, Awad e Khana (2015) citam

entre as limitações, a dificuldade em se determinar os parâmetros necessários e a maior

complexidade da interpretação dos resultados obtidos.

A classificação usando os rótulos em Reservatório (R), Não Reservatório (NR) e Possível

Reservatório (PR), buscou atender uma maneira de agrupar as litologias descritas nos poços

relacionadas com as características obtidas pelas leituras geofísicas.

Não foram observadas maiores dificuldade nesta etapa, respeitando os indicadores de

reservatórios e não reservatórios, como a relação entre as curvas de NPHI e RHOB, o

comportamento da curva de resistividade, quando em zonas de hidrocarbonetos.

O uso da classificação em Possível Reservatório (PR) tem o intuito de isolar em grupo,

litologias que tiveram um comportamento mais anômalo durante a interpretação, e quando

plotados nos gráficos aparecem associadas tanto às zonas de reservatório quanto a seção Não

Reservatório.

Os resultados de maneira geral demonstram que o algoritmo do SVM superou o KNN em uma

comparação direta da taxa de acerto. A superioridade na classificação do SVM era esperada

devido à forma de operação da técnica. O uso da equação de kernel permite que a SVM

classifique padrões de dados em espaços dimensionais mais complexos, enquanto o KNN atua

apenas na dimensão amostral na qual a amostra esta associada.

A Figura 21 mostra a relação entre os dados obtidos pelo SVM e pelo KNN na predição de

fácies em comparação ao dado original. É possível ver que os resultados se sobrepõem

54

fortemente, mostrando uma boa relação entre o classificado e o original, com exceção para a

fácies de Não Reservatório, que foi suprimida por ambos os algoritmos.

Quando analisamos o histograma das fácies (Figura 20), podemos ver que ambas as técnicas

geraram mais fácies reservatório que as disponíveis nos dados de controle. Em consequência

do excesso de fácies reservatório, há diminuição na frequência das fácies Não-Reservatório.

Fato que está fora do esperado para o resultado, a possível causa para tal anomalia, pode estar

associado a que todos os dados utilizados estão todos compreendidos na seção reservatório do

campo. Para melhorar a resolução do algoritmo e possivelmente ter uma resposta mais

próxima da realidade, em termo de distribuição de fácies, é recomendável a inclusão de mais

dados externos a zona do reservatório.

Essa peculiaridade da SVM lhe atribui à capacidade de atuar com maior precisão em pacotes

de dados altamente complexos e também, como ocorre no caso da classificação em modo

robusto, em situações em que não há abundância de dados na fase de treinamento.

Durante o desenvolvimento da fase de treinamento, foram tomados cuidados para se evitar o

overfitting. Valores de erros muito baixos, inicialmente podem induzir o intérprete a acreditar

no sucesso da classificação. Para evitarmos tal problema, foi proposto a determinação das

variáveis (C,G) do SVM através do uso de um grid de busca, como indicado na metodologia

do trabalho.

Quando utilizado o SVM-RBF o resultado pode ser considerado excelente, com taxa de acerto

de 89% e com o KNN apresentando os melhores resultados com taxa de acerto de 70,8%. Na

classificação com apenas um poço no pacote de treinamento, o modo robusto, a SVM foi

capaz de atingir resultado de 72% de acerto.

A decisão por testar o aplicativo no modo “robusto” visa aferir a capacidade do SVM em

atingir bons valores de acerto na classificação com baixa disponibilidade de dados durante o

treinamento. Este fato apontado por Lorena (2007) descreve como vantagens no uso do SVM

a robustez perante dados de alta dimensão. Além de permitir a adição de funções de kernel

perante conjunto de dados não lineares, pois isto permite a criação de hiperplanos em espaços

de alta dimensão.

Quando comparadas as duas funções de kernel utilizadas, Linear e RBF, a diferença de

resultados é bastante elevada. Al-Anazi e Gates (2010) obtiveram melhores resultados para o

kernel-RBF no estudo de classificação litológica. Na classificação linear, o SVM não gera um

55

novo espaço amostral, os resultados inferiores obtidos com essa análise, levam a crer que os

dados utilizados não obedecem a prerrogativas para uma classificação correta no espaço

amostral linear. Com o kernel RBF, os dados são analisados em uma dimensão mais propicia

a tarefa de categorização. A função trabalha de forma a mapear a distribuição dos dados em

um espaço amostral não linear, permitindo assim estabelecer melhores relações entre as

classes e seus atributos.

Conclusão

O objetivo principal deste trabalho foi de testar a capacidade do algoritmo da Support Vector

Machine na tarefa de classificação de fácies em um campo de hidrocarbonetos brasileiro.

Diversos trabalhos são publicados com o uso da SVM em muitos reservatórios no mundo

inteiro, mostrando os ganhos que o avanço das ferramentas de aprendizagem de máquina pode

trazer para a modelagem de dados na geologia. Os resultados obtidos são considerados

satisfatórios, como esperado a SVM se sobrepõe ao KNN no processo de classificação de

fácies, e apesar de sua operação ainda ser consideravelmente mais complexa, é uma técnica

que deve ser adotada para a melhor caracterização de fácies em modelagens futuras.

56

4. Considerações Finais

No texto aqui apresentado foi utilizado um algoritmo de classificação supervisionado para a

tarefa de caracterização de fácies. A pesquisa está focada na classificação dos dados extraídos

a partir dos poços perfilados. Os algoritmos de aprendizagem de máquina evoluem

constantemente e com o advento das ciências dos dados ficam em aberto algumas questões:

- O artigo deixa um vazio no conhecimento sobre o impacto de tal método na fase de

modelagem tridimensional do corpo geológico. Ainda não há ainda trabalhos publicados que

utilizam o SVM na correlação lateral dos dados de poço, de maneira similar à Geoestatística.

- A biblioteca do SVM utilizada contém algumas fórmulas de Kernel pré-carregadas para o

teste. O RBF que foi utilizado no trabalho, está entre elas, e de acordo com a literatura é o

melhor Kernel disponível, porém com um maior conhecimento em programação científica

seria possível explorar novas equações no Kernel do algoritmo.

- O SVM possui uma ferramenta que permite a estimativa de valores contínuos, uma fronteira

a se explorar para futuros trabalhos é a estimativa de valores petrofísicos, como porosidade,

permeabilidade, volume de argila entre outros.

- Este trabalho foca na classificação de fácies seguindo a classificação em Reservatório ou

Não-Reservatório. E no caso da fase de exploração, onde são gerados os dados primários, a

classificação faciológica usualmente é focada em descrever o sistema deposicional. Porém

não há trabalhos na literatura que apliquem o SVM na fase exploratória. Pode-se indicar

futuramente uma maneira de utilizar a SVM durante a exploração, momento este que possui

poucos dados disponíveis, elevados custos e riscos associados.

57

Bibliografia

Al-Anazi, A., and Gates, I. D. 2010.On the Capability of Support Vector Machines to Classify

Lithology from Well Logs. Natural Resources Research, Vol. 19, No. 2.

Asquith, G., Krygowski, D. 2004. Basic Well Log Analysis. 2nd. AAPG Methods in

Exploration Series 16. 229pp.

Awad,M., Khanna, R. 2015. Efficient Learning Machines: Theories, Concepts, and

Applications for Engineers and System Designers. ApresOpen. 248 pp

Chang, C., Lin, C., 2011. LIBSVM: a library for support vector machines. ACM Transactions

on Intelligent Systems and Technology vol.2 (27), pp.1–27. Software available from:

⟨http://www.csie.ntu.edu.tw/_cjlin/libsvm⟩.

Doveton, J. H.1994.Geologic Log Analysis Using Computer Methods: Computer Application

in Geology. American Association of Petroleum Geologists, Tulsa.

Guadagnini, A., Wohlberg ,B., Tartakovsky, D.M, Simoni,M. 2006. Support Vector Machines

for Delineation of Geologic Facies from Poorly Differentiated Data. XVI International

Conference on Computational Methods in Water Resources (CMWR-XVI).

Guardado, L.R., Gamboa, L.A.P. Luchesi, C.F. 1989. Petroleum geology of the Campos

Basin, a model for a producing Atlantic-type basin. In: Edwards, J. D., Santogrossi,

P.A. (eds.). Divergent/Passive Margin Basins. Am. Assoc. Pet. Geol. Mem., 48:3-7.

Herbrich, R. 2001. Learning Kernel Classifiers: Theory and Algorithms. MIT Press.

Lorena, A.C., Carvalho, A.C.P.L.F.2007. Uma Introdução às Support Vector Machines. RITA

, Volume XIV, Número 2. 25pp.

Milani, E.J., Thomaz Filho, A. 2000. Sedimentary basins of South America. In: Cordani,

U.G., Milani, E.J., Thomaz Filho, A., Campos,D.A. (eds.). Tectonic evolution of

South America, 31 International Geological Congress, 31, Rio de Janeiro, 389-449.

Mitchell. T.M. 1997. Machine Learning. McGraw-Hill Science. 432 pp.

Mohriak, W.U., 2003. Bacias Sedimentares da Margem Continental Brasileira. Geologia,

Tectônica e Recursos Minerais do Brasil. LA. Bizzi, C. 56. Schobbenhaus, R.M.

Vidotti e J. H. Gonçalves (Eds.) CPRM, Brasilia, 2003. Capitulo 3, p. 87-165.

Platt, John C., Nello Cristianini, and John Shawe-Taylor. 2000. Large Margin DAGs for

Multiclass Classification. In Advances in Neural Information Processing Systems 12

(NIPS ‘99), edited S. A. Solla, T. K. Leen, and K.-R. Müller, 547–553. Cambridge,

MA: Massachusetts Institute of Technology Press.

Raider, M. 2002. The geological interpretation of well logs. 2nd ed.Whittles Publishing.

58

Rangel, H. D.; Martins, F. A.; Esteves, F. R.; Feijó, F.J. 1994. Bacia de Campos. Boletim de

Geociências da Petrobras, Rio de Janeiro, v. 8, n. 1, p. 203-217, jan./mar.

Reading, H. G.1978. Sedimentary environments and facies: Elsevier, New York, 557 p.Serra

e abbott 1980: Serra, O. and Abbott, H.T. 1980. The Contribution of Logging Data to

Sedimentology and Stratigraphy. SPE-9270-PA.

Schaller, H. 1973. Estratigrafia da Bacia de Campos. In: CONGRESSO BRASILEIRO DE

GEOLOGIA, 27. Aracaju. Anais. São Paulo: Sociedade Brasileira de Geologia, 1973.

v. 3, p. 247-258.

Soares, J.A. 2005. Um fluxo de trabalho para modelagem de eletrofácies com entrelaçamento

de técnicas de classificação supervisionada e não-supervisionada. 9th International

Congress of the Brazilian Geophysical Society. Salvador, Brazil, 11-14 September.

Stinco, L.P. 2006. Core and log data integration the key for determining electrofacies.

SPWLA 47th Annual Logging Symposium, June 4-7.

Tartakovsky, D.M., Wohlberg ,B., Guadagnini, A. 2007. Nearest-neighbor classification for

facies delineation. Water Resources Research, Vol. 43.

Torres, A., Reverón, J. 2014. Integration of rock physics, seismic inversion, and support

vector machines for reservoir characterization in the Orinoco Oil Belt, Venezuela. The

Leading Edge (Special Edition: Latin America). p 774-782.

Vapnik, V.N., 1995. The Nature of Statistical Learning Theory. Springer-Verlag, New York,

NY, USA p.188.

Wang, G., Carr, T.R., Ju, Y., Li, C. 2014. Identifying organic-rich Marcellus Shale lithofacies

by support vector machine classifier in the Appalachian basin. Computers &

Geosciences. Vol. 64, pp 52–60.

Weston, J., and C. Watkins.1999. Support Vector Machines for Multi-Class Pattern

Recognition. In ESANN 1999: Proceedings of the 7th European Symposium on

Artificial Neural Networks, Bruges, Belgium, 21–23 April 1999, 219–224.

Winter, W. R.; Jahnert, R. J.; França, A. B. 2007. Bacia de Campos. Boletim de Geociências

da Petrobras, Rio de Janeiro, v. 15, p. 511-529.

Wohlberg ,B., Tartakovsky, D.M., Guadagnini, A. 2006. Subsurface Characterization with

Support Vector Machines. Ieee Transactions on Geoscience and Remote Sensing, Vol.

44, No. 1.

Wong, K.W., Ong, Y.S., Gedeon, T.D., Fung, C.C. 2005. Reservoir Characterization Using

Support Vector Machines. International Conference on Computational Intelligence for

Modelling, Control and Automation, and International Conference on Intelligent

Agents, Web Technologies and Internet Commerce. IEEE.

59

Zhao, T., Jayaram, V., Roy, A., Marfurt, K.J. 2015. A comparison of classification techniques

for seismic facies recognition. Interpretation: Special section: Pattern recognition and

machine learning. Society of Exploration Geophysicists and American Association of

Petroleum Geologists.

Documents

AVALIAÇÃO DA SUPPORT VECTOR MACHINE NA …repositorio.unicamp.br/bitstream/REPOSIP/331008/1/Caldato_EduardoB... · do projeto de pesquisa, pelas chances únicas que tive de aprender