Upload
doandien
View
220
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE ESTADUAL DE CAMPINAS
INSTITUTO DE GEOCIÊNCIAS
EDUARDO BOMFIN CALDATO
AVALIAÇÃO DA SUPPORT VECTOR MACHINE NA
CLASSIFICAÇÃO DE FÁCIES NO CAMPO DE PEREGRINO,
BACIA DE CAMPOS-RJ, BRASIL.
CAMPINAS
2017
EDUARDO BOMFIN CALDATO
AVALIAÇÃO DA SUPPORT VECTOR MACHINE NA CLASSIFICAÇÃO DE FÁCIES NO
CAMPO DE PEREGRINO, BACIA DE CAMPOS-RJ, BRASIL.
DISSERTAÇÃO APRESENTADA AO INSTITUTO DE
GEOCIÊNCIAS DA UNIVERSIDADE ESTADUAL DE
CAMPINAS PARA OBTENÇÃO DO TÍTULO DE MESTRE
EM GEOCIÊNCIAS NA AREA DE GEOLOGIA E
RECURSOS NATURAIS
ORIENTADORA: Profa. Dra. Fresia Soledad Ricardi-Branco
ESTE EXEMPLAR CORRESPONDE À VERSÃO FINAL
DA DISSERTAÇÃO DEFENDIDO PELO ALUNO
EDUARDO BOMFIN CALDATO E ORIENTADO PELA
PROFA. DRA. FRESIA SOLEDAD RICARDI-BRANCO
CAMPINAS
2017
Agência(s) de fomento e nº(s) de processo(s): Não se aplica.
Ficha catalográficaUniversidade Estadual de CampinasBiblioteca do Instituto de Geociências
Marta dos Santos - CRB 8/5892
Caldato, Eduardo Bomfin, 1987- C126a CalAvaliação da support vector machine na classificação de fácies no campo
de Peregrino, Bacia de Campos-RJ, Brasil / Eduardo Bomfin Caldato. –Campinas, SP : [s.n.], 2017.
CalOrientador: Fresia Soledad Ricardi-Branco. CalDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de
Geociências.
Cal1. Aprendizagem. 2. Petrofísica. 3. Campos, Bacia de (RJ). I. Ricardi-
Branco, Fresia, 1963-. II. Universidade Estadual de Campinas. Instituto deGeociências. III. Título.
Informações para Biblioteca Digital
Título em outro idioma: Evaluation of support vector machine to classify facies in Peregrinofield, Bacia de Campos-RJ, Brazil.Palavras-chave em inglês:LearningPetrophysicsCampos, Basin (RJ)Área de concentração: Geologia e Recursos NaturaisTitulação: Mestre em GeociênciasBanca examinadora:Fresia Soledad Ricardi Torres BrancoEmilson Pereira LeiteRodrigo de Souza PortugalData de defesa: 06-11-2017Programa de Pós-Graduação: Geociências
Powered by TCPDF (www.tcpdf.org)
UNIVERSIDADE ESTADUAL DE CAMPINAS
INSTITUTO DE GEOCIÊNCIAS
AUTOR: Eduardo Bomfin Caldato
AVALIAÇÃO DA SUPPORT VECTOR MACHINE NA CLASSIFICAÇÃO DE
FÁCIES NO CAMPO DE PEREGRINO, BACIA DE CAMPOS-RJ, BRASIL
ORIENTADORA: Profa. Dra. Fresia Soledad Ricardi-Branco
Aprovado em: 06 / 11 / 2017
EXAMINADORES:
Profa. Dra. Fresia Soledad Ricardi-Branco - Presidente
Prof. Dr. Emilson Pereira Leite
Dr. Rodrigo de Souza Portugal
A Ata de Defesa assinada pelos membros da Comissão Examinadora,
consta no processo de vida acadêmica do aluno.
Campinas, 06 de novembro de 2017.
SÚMULA
Eduardo Bomfin Caldato é geólogo (2015) pela Universidade Estadual de Campinas. Tem
experiência na área de Geociências, especificamente com ênfase em petrofísica,
caracterização de reservatórios e modelagem tridimensional. Atuou como auxiliar didático na
disciplina de Introdução a Geologia do programa PROFIS (2012 e 2013) e na disciplina de
Paleontologia (2013) para o curso de Graduação em Biologia pela UNICAMP, foi professor
assistente no programa PED da disciplina de Geofísica (2016) para a graduação em Geologia.
Trabalhou no projeto pesquisa e desenvolvimento da ANP “Análise de incertezas integradas”
executado com o financiamento da SINOCHEM PETRÓLEO DO BRASIL. Contribuiu com a
construção de um modelo de reservatório e no desenvolvimento de uma ferramenta
computacional para o cálculo da transmissibilidade de fluidos em falhas. Atualmente está
finalizando o mestrado na área de Geociências pela Universidade Estadual de Campinas, com
a temática voltada para a avaliação de ferramentas de aprendizagem de máquina na
classificação de fácies no reservatório localizada no Campo de Peregrino na Bacia de
Campos-RJ.
AGRADECIMENTOS
Gostaria de agradecer primeiramente a minha família, pelo apoio durante essa longa e difícil
jornada. Especialmente aos meus pais, Rubens e Lucimar, que me ajudaram
incondicionalmente durante todo o período.
Agradeço também pelo apoio de meus amigos de faculdade, que dividiram as alegrias e os
problemas enfrentados durante o período, destaque especial para Oton, Mateus, Juliana,
Jackeline, Felipe, Marcela, Gabriela e o Jaume.
A minha orientadora, a professora Frésia, agradeço pela oportunidade de participar comigo do
desafio que foi levar esse projeto de mestrado, mesmo sabendo de todas as nossas limitações.
Gostaria de agradecer a professora Sueli e ao professor Zaupa pela oportunidade de participar
do projeto de pesquisa, pelas chances únicas que tive de aprender novas técnicas e de ver um
lado aplicado da ciência.
Finalmente, agradeço a Sinochem do Brasil, pelo apoio dado ao projeto de pesquisa e pelo
suporte oferecido.
RESUMO
Um considerável volume de informações pode ser obtido a partir das perfilagens geofísicas,
tais como composição química, mineralogia, textura, porosidade além da identificação das
zonas de acumulação de hidrocarbonetos. Para atingir uma interpretação confiável é
necessária uma correta correlação entre os testemunhos de amostragem, amostras de
laboratório e perfilagens geofísicas. Algoritmos de aprendizagem de máquina vêm sendo
utilizados com o intuito de auxiliar o intérprete na tarefa de correlação entre as diferentes
fontes de dados. O algoritmo da Support Vector Machine (SVM) tem aplicação em diversas
áreas tais como a bioinformática, análise de imagens e categorização de textos. Os resultados
obtidos até o momento mostram que o algoritmo pode atingir os mesmos ou melhores
resultados que outras técnicas já em uso. A SVM foi desenvolvida por Vapnik e se baseia na
Teoria da Aprendizagem Estatística (TAE). Tem como características a utilização de
equações de kernel para amostras não lineares e o uso das margens de máxima separação para
determinação do hiperplano canônico. Neste trabalho foi obtida uma classificação de
eletrofácies com a SVM em dados oriundos do Campo de Peregrino na Bacia de Campos.
Para avaliar a capacidade de classificação e predição de fácies do SVM, foram utilizados seis
poços e suas respectivas leituras de perfilagem do poço, descrições petrográficas e dados
laboratoriais. Foram testadas duas equações de Kernel, Linear e Radial Basis Function (RBF).
O resultado foi comparado à outra técnica, KNN. Ambas as técnicas atingiram bons
resultados tendo o SVM atingido taxa de acerto de 89% e o KNN com 70,8%. Com esse
resultado o SVM se mostrou um confiável classificador para a utilização no campo de
Peregrino.
Palavras-chave: algoritmos de aprendizagem de máquina, classificação de fácies, support
vector machine, perfilagem de poço, Bacia de Campos.
ABSTRACT
Log curves generate a considerable amount of information like, chemistry composition,
mineralogy, texture, porosity and even identify hydrocarbon accumulations. To obtain a
reliable interpretation is important to do a correct correlation between the core log, the
laboratory samples and the log curves. Machine learning algorithms help the interpreter on the
job of correct correlation between different data sources. Many knowledge areas apply the
Support Vector Machine (SVM) algorithm, e.g., bioinformatics, image analysis and texts
categorization. The studies obtained show that the algorithm can achieve the same or better
results of other techniques in use. Based on the Statistical Learning Theory, the SVM was
proposed by Vapnik (1995). It’s characterized by the presence of kernel equations for
nonlinear samples and determination of hyperplane through maximum separation margins. In
this work, an electrofacies classification obtained with SVM using data from the Peregrino
field, Campos Basin. To evaluate the classification and prediction capacities of the SVM, we
utilized six exploratory wells with log curves, petrographic descriptions and laboratorial
analysis. Two kernel equations was utilized, the Linear and Radial Basis Function (RBF).
The results were compared to another technique, KNN. Both algorithms achieved good
results, with SVM scoring 89% and KNN with 70.8%. With this result the SVM algorithm
showed to be a reliable classifier to be applied in the Peregrino Field.
Keyword: machine learning algorithms, facies classification, support vector machine, log
curves readings, Campos Basin.
Lista de Figuras
Figura 1. Mapa de localização da área de estudos. Em vermelho está indicada a área do bloco BM-C-7
(Modificado de ANP, maio de 2017). .............................................................................................................. 17
Figura 2. Carta estratigráfica proposta por Winter et al., (2007). Em vermelho é indicado o período de deposição
da formação Carapebus alvo de interesse deste trabalho. ................................................................................. 19
Figura 3. Determinação do classificador em aprendizado supervisionado. Extraído de Lorena e Carvalho (2007).
.......................................................................................................................................................................... 25
Figura 4. Exemplo de como o hiperplano se posiciona em função das margens de máxima separação, H1 e H2.
Extraído de Lorena e Carvalho, 2007. .............................................................................................................. 27
Figura 5. SVM de margens suaves. Extraído de Awad e Khana (2015). ........................................................ 30
Figura 6. Exemplo de margens obtidas para diferentes valores de "C". Extraído de Awad e Khana (2015). . 31
Figura 7. Neste exemplo de SVM de Margens Suaves, os elementos em branco estão corretamente classificados,
os elementos em cinza indicam os vetores de suporte correto e os elementos com bordas são vetores de suporte
erroneamente classificados. Extraído de Lorena e Carvalho, 2007. ................................................................. 32
Figura 8. No gráfico a esquerda não é possível separar as duas classes com um hiperplano, enquanto que após a
transformação do espaço dimensional pelo kernel, as classes podem ser divididas. ........................................ 33
Figura 9. Exemplo de separação dos dados de acordo com a vizinhança (k=5) escolhidos. Extraído de Mitchel
(1997). .............................................................................................................................................................. 36
Figura 10. Mapa de localização dos poços utilizados na tarefa de classificação. ............................................ 38
Figura 11. Fluxo de trabalho utilizado para a aplicação do SVM na classificação de fácies. ......................... 39
Figura 12. Nesta imagem são ilustrados em (a) a relação entre altos valores de raios gama com a presença de
litologias mais finas, apesar de não haver evidente acréscimo no teor de argilominerais, a matriz rochosa
apresenta teor arcosiano. Em (b) é descrita como areia fina micácea com presença de bioclastos carbonáticos e
glauconita com óleo retido. A descrição macroscópica (c) indica a ocorrência de areia fina laminada enquanto
que em (d) ocorre areia maciça. Em (e) a amostra é descrita como areia fina micácea com presença de bioclastos
carbonáticos e grãos detríticos de argila. A linha amarela representa o topo do reservatório; a linha roxa marca a
porção intermediária do reservatório. ............................................................................................................... 41
Figura 13. Gráfico comparativo da porosidade-RHOB com a porosidade de laboratório, para o poço 51. A curva
em azul indica a porosidade proveniente do laboratório enquanto que a curva em vermelho representa a
porosidade calculada. ....................................................................................................................................... 42
Figura 14. Poço 54 com ocorrência de litologia cimentada por carbonatos (2267m). Da esquerda para a direita, o
perfil de GR não indica anomalias presentes, enquanto o perfil de DT apresenta um pico de aumento na
velocidade e os perfis de NPHI e RHOB também apresentam valores anômalos, indicados pelas setas, devido à
presença de cimentação carbonática. Fotomicrografia em (b) que esclarece alguns dos comportamentos
inesperados para litologia arenítica. ................................................................................................................. 43
Figura 15. Identificação da litologia preferencial para a ocorrência de reservatório de hidrocarbonetos, exemplo
do poço 56. Em detalhe é mostrado o arenito com óleo retido. ........................................................................ 44
Figura 16. Poço 57 no qual foi caracterizada uma região com fácies Possível reservatório. ......................... 45
Figura 17. Gráficos utilizados para distinção das litologias descritas nos poços referentes ao Poço 54. Em (a) é
mostrado à relação NPHI x RHOB, em (b) RHOB x SÔNICO e em (c) SÔNICO x NPHI. ........................... 47
Figura 18. Gráficos utilizados para distinção das litologias descritas nos poços referentes ao Poço 55. Em (a) é
mostrado a relação NPHI x RHOB, em (b) RHOB x SÔNICO e em (c) SÔNICO x NPHI. ........................... 48
Figura 19. Determinação litológica por meio do plote M x N. (a) Poço 54 e (b) Poço 55. No eixo X estão os
valores de N no eixo Y e valores de M. Os termos M e N são adimensionais. ................................................ 49
Figura 20. O histograma mostra comparativamente os resultados obtidos pelos métodos preditivos testados e os
dados carregados no grupo de amostra. ............................................................................................................ 51
Figura 21. Gráfico de M x N para a determinação litológica. Os gráficos mostram as comparações entre os
dados dos Poços (amostra) e os classificados pelo SVM. Em (a) e (b) estão evidenciados os resultados obtidos a
partir do SVM. Em (c) e (d) são plotados os resultados obtidos a partir do KNN. No eixo X estão os valores de N
no eixo Y e valores de M. Os termos M e N são adimensionais. ..................................................................... 52
Lista de Tabelas
Tabela 1. Exemplos de equações de kernel. Modificado de Awad e Khana (2015). ....................................... 33
Tabela 2. Resumo dos dados disponíveis de acordo com o poço. ................................................................... 37
Tabela 3. Classificação das litologias descritas nos poços testemunhados em função do reservatório. Legenda:
Reservatório (R); Possível Reservatório (PR); Não Reservatório (NR). .......................................................... 40
Tabela 4. Matriz de confusão com os valores de erros e acertos por fácies são apresentados para o SVM com
kernel Linear (a) e RBF (b), para o algoritmo do KNN (c) e para o modo robusto do SVM-RBF (d). Em azul são
mostradas as fácies corretamente classificadas enquanto que em vermelho estão as fácies erradas. ............... 50
Tabela 5. Valores encontrados para as variáveis de interesse para o kernel Linear e RBF com suas respectivas
taxas de acerto. ................................................................................................................................................. 50
Lista de Equações
Equação 1 ........................................................................................................................................................ 26
Equação 2 ........................................................................................................................................................ 26
Equação 3 ........................................................................................................................................................ 26
Equação 4 ........................................................................................................................................................ 27
Equação 5 ........................................................................................................................................................ 27
Equação 6 ........................................................................................................................................................ 27
Equação 7 ........................................................................................................................................................ 27
Equação 8 ........................................................................................................................................................ 28
Equação 9 ........................................................................................................................................................ 28
Equação 10 ...................................................................................................................................................... 28
Equação 11 ...................................................................................................................................................... 28
Equação 12 ...................................................................................................................................................... 28
Equação 13 ...................................................................................................................................................... 29
Equação 14 ...................................................................................................................................................... 29
Equação 15 ...................................................................................................................................................... 29
Equação 16 ...................................................................................................................................................... 30
Equação 17 ...................................................................................................................................................... 30
Equação 18 ...................................................................................................................................................... 30
Equação 19 ...................................................................................................................................................... 31
Equação 20 ...................................................................................................................................................... 31
Equação 21 ...................................................................................................................................................... 31
Equação 22 ...................................................................................................................................................... 31
Equação 23 ...................................................................................................................................................... 33
Equação 24 ...................................................................................................................................................... 33
Equação 25 ...................................................................................................................................................... 34
Equação 26 ...................................................................................................................................................... 34
Equação 27 ...................................................................................................................................................... 34
Equação 28 ...................................................................................................................................................... 35
Equação 29 ...................................................................................................................................................... 35
Sumario
1. Introdução ..................................................................................................................... 14
2. Geologia Local ............................................................................................................. 17
3. Artigo: Avaliação da Support Vector Machine na classificação de fácies no Campo de
Peregrino, Bacia de Campos-RJ. .......................................................................................... 20
Introdução ......................................................................................................................... 22
Support Vector Machine ................................................................................................... 24
SVM linear de Margens rígidas .................................................................................... 27
SVM linear de Margens Suaves ................................................................................... 30
SVM- Não linear .......................................................................................................... 32
SVM-Multiclasses ........................................................................................................ 34
K-Nearest Neighbor (KNN) ............................................................................................. 35
Materiais e Métodos ......................................................................................................... 36
Resultados ......................................................................................................................... 39
Interpretação petrofísica ............................................................................................... 39
Fase de treinamento ...................................................................................................... 45
Fase de classificação ..................................................................................................... 49
Discussão ...................................................................................................................... 52
Conclusão ..................................................................................................................... 55
4. Considerações Finais .................................................................................................... 56
Bibliografia ........................................................................................................................... 57
14
1. Introdução
A determinação de eletrofácies é uma tarefa fundamental na caracterização de reservatórios,
dado que correlacionam propriedades petrofísicas semelhantes para construir os modelos de
reservatório. Para esse fim devem-se analisar conjuntamente os testemunhos de sondagem,
dados laboratoriais e perfilagens geofísicas. Dado que há uma enorme quantidade de dados a
ser correlacionada, esta tarefa se transforma em uma das mais desafiadoras pela repercussão
na caracterização do reservatório (Stinco, 2006).
Em 1980, Serra e Abbot adicionaram o prefixo eletro ao termo fácies de maneira a diferenciar
a classificação litológica e petrofísica feita com base em perfis geofísicos, das obtidas a partir
da análise de afloramentos e testemunhos. De acordo com os autores as eletrofácies são
definidas como “um grupo de respostas a leituras geofísicas que caracterizam uma camada e
que permitem distingui-la de outras camadas”. Estes perfis fornecem uma série de
informações a respeito das rochas analisadas, tais como composição química, arranjo
estrutural e textural.
De acordo com Doventon (1994), uma importante distinção a ser feita entre eletrofácies e
litofácies está no fato de que as eletrofácies são observações primárias do estado da rocha
enquanto as litofácies estão tradicionalmente ligadas à gênese. Os perfis geofísicos têm a
capacidade de fornecer uma série de informações a respeitos das rochas analisadas, tais como
a composição química, arranjo estrutural e textural.
A correta integração entre testemunhos e suítes de logs é fundamental para determinar as
eletrofácies. Da interpretação desses resultados podemos reconhecer diversos ambientes
deposicionais do reservatório. Usualmente uma ou mais litofácies podem ser alocadas na
mesma eletrofácies. Isso pode ocorrer, por exemplo, quando duas litofácies são diferenciadas
a partir de um afloramento com base em uma diferente coloração, uma característica que não
causa impacto direto nas leituras das propriedades petrofísicas da rocha (Rider, 2002).
As informações provenientes dos logs são processadas com o uso de ferramentas de análise
multivariadas de dados, as quais permitem distinguir diferentes agrupamentos de dados.
Representando características petrofísicas semelhantes, estes agrupamentos serão utilizados
nos algoritmos de classificação das eletrofácies (Doventon, 1994).
15
Uma das principais vantagens no uso da classificação baseada em eletrofácies está na
possibilidade caracterizar zonas desconhecidas geologicamente com base apenas nos atributos
geofísicos obtidos na perfilagem e na relação estabelecida com os locais de onde foram
extraídos testemunhos (Soares, 2005).
Métodos computacionais permitem ensinar o computador a identificar padrões e
agrupamentos de dados idênticos aos definidos pelo intérprete, em um processo conhecido
como aprendizagem supervisionada, com o objetivo de diminuir as incertezas associadas ao
processo de caracterização faciológica e permitir o uso do maior número de informações
disponíveis (Soares, 2005).
Diversos métodos computacionais vêm sendo empregados na caracterização de fácies, como o
K-nearest neighbor (KNN) e as Redes Neurais Artificiais (ANN). Com o avanço das técnicas
de aprendizagem de máquina e a maior capacidade de processamento dos computadores
modernos, novas técnicas podem ser implementadas e a Support Vector Machine(SVM) se
encaixa nesse modelo.
O trabalho de Wong (2005) mostrou diferentes resultados que podem ser atingidos através da
mudança não apenas do algoritmo de classificação, como também do kernel que é carregado
junto a Support Vector Machine. Em seu artigo, o autor aponta como melhor combinação para
a caracterização dos folhelhos estudados a combinação do SVM com função kernel Radial
Basis Function (RBF) com valores de 85% de acerto nos dados de teste.
Para a classificação de eletrofácies em um campo siliciclástico localizado na Venezuela,
Torres e Reverón (2014) conseguiram uma taxa de acerto de 86% no poço teste com o uso da
SVM. As eletrofácies foram geradas a partir da integração de perfilagem geofísica, dados de
laboratório e uso da inversão sísmica que foram carregados como dados de treinamento para a
classificação.
Zhao (2015) efetuou uma comparação entre diversas técnicas de classificação, e concluiu que
o SVM apresenta melhores resultados quando o reservatório está na fase de desenvolvimento,
uma vez que há uma maior disponibilidade de dados para serem usado na fase de treinamento.
Ao contrário de Awad e Khana (2015) que indicaram que a técnica tem ótimo rendimento
quando utilizada em condições de escassez de dados.
Quanto à questão do consumo computacional, Awad e Khana (2015) relataram que o
treinamento dos dados é lento, os autores consideraram que sendo o modelo do hiperplano
16
baseado na soma dos vetores de suporte não é possível saber o número de vetores antes de se
obter o hiperplano. Dessa forma, o SVM pode ter seu uso limitado em operações que
demandam uma rápida tomada de decisão ou quando a plataforma computacional instalada
possua capacidade limitada.
Para o desenvolvimento deste trabalho, foi escolhido o uso do algoritmo conhecido como
Support Vector Machine (SVM) que é baseado na teoria de aprendizagem estatística (TAE)
proposta por Vapnik (1995) e tem como principal característica buscar a classificação das
amostras através do ajuste de um hiperplano a partir da construção das margens de separação
máxima. As vantagens do algoritmo de SVM residem no fato de que se trata de uma técnica
de kernel, na qual o algoritmo utiliza uma função pré-definida pode efetuar uma separação
linear em um novo espaço dimensional (Al-Anazi e Gates, 2010).
Este trabalho propõe analisar o comportamento do algoritmo na classificação faciológica do
Campo de Peregrino, localizado na Bacia de Campos. Utilizando como dados de entrada as
leituras de poços: Raios Gama (GR), Densidade (RHOB), Nêutrons (NPHI), Resistividade
(ILD), Sônico (DT), o perfil estimado de Porosidade-RHOB, além da curva de fácies
interpretada para o reservatório utilizada como classificador durante o processo de
treinamento do algoritmo.
Foram utilizados seis poços de exploração para a execução do trabalho, por serem os mais
completos na disponibilidade de dados de testemunhos e perfilagens geofísicas. Esses poços
foram separados em dois grupos que seguem a premissa de que 2/3 dos dados são dedicados
exclusivamente para o processo de treinamento e o 1/3 restante são utilizados como amostra
para o processo de classificação.
Para o uso na SVM, foram selecionadas duas equações diferentes para o Kernel: a equação
Linear e a Radial Basis Function (RBF) sendo que ambas as equações, possuem as variáveis
C (custo) e G (gamma) em comum. Assim para encontrar o melhor par de variáveis (C, G) foi
gerado um grid de busca iterativo, que utilizando o espaço amostral fornecido, definiu os
valores a serem utilizados no processo de classificação.
Com o intuito de comparar o resultado obtido pelo algoritmo do SVM, o mesmo pacote de
dados foi submetido a uma segunda técnica de aprendizagem de máquina, o K-nearest
neighbor (KNN), um classificador já em uso na indústria do petróleo.
17
2. Geologia Local
O Campo de Peregrino está localizado na Bacia de Campos (Figura 1). A área pertence
ao bloco exploratório da ANP BM-C-7 ao sul da Bacia de Campos. O campo possui
aproximadamente 535 km². Sua descoberta ocorreu em 2004 a partir da perfuração de um
poço pioneiro em zona de lâmina d’água próxima de 135 m de profundidade.
Figura 1. Mapa de localização da área de estudos. Em vermelho está indicada a área do bloco BM-C-7 (Modificado
de ANP, maio de 2017).
A Bacia de Campos é uma das bacias sedimentares mais estudadas na geologia brasileira. A
evolução da bacia é abordada por diversos autores tais como, Guardado et al., (1989);
Rangel et al., (1994); Mohriak (2003) e Winter et al., (2007).
Esta bacia está localizada no litoral norte do estado do Rio de Janeiro e ao sul do estado do
Espírito Santo. Seus limites são marcados ao norte pelo Arco de Vitória e a sul pelo Arco de
Cabo Frio. A bacia possui área aproximada de 120.000km² (Mohriak, 2003).
Schaller (1973) elaborou a primeira carta estratigráfica proposta para a Bacia de Campos.
Com o avanço dos conhecimentos a respeito da evolução da bacia, diversas atualizações
foram sendo executadas, como Rangel et al., (1994) e Winter et al., (2007). A caracterização
estratigráfica seguida por esta pesquisa se baseia na carta estratigráfica (Figura 2) proposta
por Winter et al.,(2007) na qual também foram atualizados os dados cronoestratigráficos das
principais sequências deposicionais encontradas na bacia.
18
Após o evento de separação das placas tectônicas Sulamericana e Africana no Mesozóico, são
reconhecíveis dois domínios na margem brasileira: o domínio distensivo e um domínio
transformante. A Bacia de Campos está situada no domínio distensivo, que compreende desde
as bacias do nordeste até o sul do país (Milani et al., 2000).
Localmente, o campo de Peregrino tem sua evolução associada aos depósitos da Formação
Carapebus durante a transição do Cretáceo-Paleógeno. O modelo deposicional é baseado na
transgressão de corpos de areia, originados por fluxos gravitacionais. Os depósitos formam
estruturas sísmicas onlap sobre o Grupo Macaé. O sistema arenoso do Carapebus desse
intervalo é considerado como mais rico em areia quando comparado aos depósitos anteriores.
Seus depósitos são limitados em locais proximais em calhas amplas, enquanto que em porções
mais distais é limitado por muralhas de sal (Winter et al., 2007).
O sistema petrolífero que compõem o campo de Peregrino possui como geradora o Grupo
Lagoa Feia e reservatório a Formação Carapebus. Os folhelhos calcários do Grupo Lagoa Feia
são a principal fonte dos hidrocarbonetos presentes no campo. A qualidade da rocha fonte é
considerada muito boa, com TOC acima de 9% e índice de hidrogênio próximo de 900, sendo
que o pico de geração de óleo para a Bacia de Campos, de maneira geral ocorreu no Mioceno
superior. A presença de óleo pesado na região de Cabo Frio ocorre em consequência dos
processos de biodegradação (Winter et al., 2007).
Processo de migração vertical do hidrocarboneto ocorreu pela passagem do óleo através de
diferentes níveis estratigráficos aproveitando estruturas como falhas e fraturas nas sucessões
carbonáticas e janelas de sal na sequência evaporítica (Guardado et al., 1989).
19
Figura 2. Carta estratigráfica proposta por Winter et al., (2007). Em vermelho é indicado o período de deposição da
formação Carapebus alvo de interesse deste trabalho.
20
3. Artigo: Avaliação da Support Vector Machine na classificação de
fácies no Campo de Peregrino, Bacia de Campos-RJ.
Eduardo Bomfin Caldato¹, Marciano
Salbego², Oton Rúbio
Cunha¹, Mateus de Godoy
Krettleys¹, Felipe Mesquita¹, Jaume Landazuri¹, Sueli
Yoshinaga¹, Frésia Ricardi Branco¹.
e-mail: [email protected] , [email protected]
1Laboratório de Análise de Incertezas Integradas, Departamento de Geologia e Recursos
Naturais (DGRN), Instituto de Geociências, Universidade Estadual de Campinas.
2Faculdade de Engenharia Elétrica e Computação, Universidade Estadual de Campinas.
Resumo
Um considerável volume de informações pode ser obtido a partir das perfilagens geofísicas, tais como
composição química, mineralogia, textura, porosidade além da identificação das zonas de acumulação
de hidrocarbonetos. Para atingir uma interpretação confiável é necessária uma correta correlação entre
os testemunhos de amostragem, amostras de laboratório e perfilagens geofísicas. Algoritmos de
aprendizagem de máquina vêm sendo utilizados com o intuito de auxiliar o intérprete na tarefa de
correlação entre as diferentes fontes de dados. O algoritmo da Support Vector Machine (SVM) tem
aplicação em diversas áreas tais como a bioinformática, análise de imagens e categorização de textos.
Os resultados obtidos até o momento mostram que o algoritmo pode atingir os mesmos ou melhores
resultados que outras técnicas já em uso. A SVM foi desenvolvida por Vapnik e se baseia na Teoria da
Aprendizagem Estatística (TAE). Tem como características a utilização de equações de kernel para
amostras não lineares e o uso das margens de máxima separação para determinação do hiperplano
canônico. Neste trabalho foi obtida uma classificação de eletrofácies com a SVM em dados oriundos
do Campo de Peregrino na Bacia de Campos. Para avaliar a capacidade de classificação e predição de
fácies do SVM, foram utilizados seis poços e suas respectivas leituras de perfilagem do poço,
descrições petrográficas e dados laboratoriais. Foram testadas duas equações de Kernel, Linear e
Radial Basis Function (RBF). O resultado foi comparado à outra técnica, KNN. Ambas as técnicas
atingiram bons resultados tendo o SVM atingido taxa de acerto de 89% e o KNN com 70,8%. Com
esse resultado o SVM se mostrou um confiável classificador para a utilização no campo de Peregrino.
Abstract
Log curves generate a considerable amount of information like, chemistry composition, mineralogy,
texture, porosity and even identify hydrocarbon accumulations. To obtain a reliable interpretation is
important to do a correct correlation between the core log, the laboratory samples and the log curves.
Machine learning algorithms help the interpreter on the job of correct correlation between different
data sources. Many knowledge areas apply the Support Vector Machine (SVM) algorithm, e.g.,
bioinformatics, image analysis and texts categorization. The studies obtained show that the algorithm
can achieve the same or better results of other techniques in use. Based on the Statistical Learning
Theory, the SVM was proposed by Vapnik (1995). It’s characterized by the presence of kernel
equations for nonlinear samples and determination of hyperplane through maximum separation
margins. In this work, an electrofacies classification obtained with SVM using data from the Peregrino
21
field, Campos Basin. To evaluate the classification and prediction capacities of the SVM, we utilized
six exploratory wells with log curves, petrographic descriptions and laboratorial analysis. Two kernel
equations was utilized, the Linear and Radial Basis Function (RBF). The results were compared to
another technique, KNN. Both algorithms achieved good results, with SVM scoring 89% and KNN
with 70.8%. With this result the SVM algorithm showed to be a reliable classifier to be applied in the
Peregrino Field.
22
Introdução
A caracterização faciológica é uma etapa crítica para o desenvolvimento de um reservatório
de hidrocarbonetos. A correlação lateral das fácies e suas dimensões determinarão a geometria
do reservatório. A distribuição e o número de fácies identificadas servirão como parâmetros
de entrada para a estimativa de diversas características do campo, tais como, porosidade,
permeabilidade, saturação de água e volume de hidrocarbonetos.
A classificação por eletrofácies foi pela primeira vez mencionada em 1980, por Serra e Abbot,
com o intuito de diferenciar a classificação litológica e petrofísica obtida a partir da
perfilagem geofísica da classificação baseada na análise de afloramentos e testemunhos de
sondagem. Conceitualmente, define-se como “um grupo de respostas a leituras geofísicas que
caracterizam uma camada e que permitem distingui-lá de outras camadas”.
Para a determinação das eletrofácies, uma etapa fundamental é a correta integração entre
testemunhos e a suíte de logs. O reconhecimento de inúmeros ambientes deposicionais pode
ser obtido através da correta interpretação resultante da união de ambos os pacotes de dados.
Como um grande volume de informações é gerado durante o processo, o excesso de dados
têm tornado o trabalho mais complexo e demorado (Rider, 2002; Stinco, 2006; Sebtosheikh et
al., 2015).
A tarefa de correlacionar as estruturas geológicas descritas em testemunhos com composição
química, valores de radioatividade, entre outros dados, pode ser otimizada através do uso de
ferramentas computacionais de aprendizagem de máquina, que permite ensinar o computador
a identificar padrões e agrupamentos de dados idênticos aos definidos pelo intérprete
(Sebtosheikh et al., 2015).
Para embasar a aplicação do algoritmo da Support Vector Machine (SVM) nesta pesquisa,
foram revistos alguns trabalhos que buscam entender de maneira semelhante, como o uso de
algoritmos de aprendizagem podem auxiliar no processo de classificação faciológica.
No trabalho de Wong (2005) é mostrado como diferentes equações de kernel podem
influenciar na caracterização dos folhelhos estudados. No geral, o kernel Radial Basis
Funcion (RBF) atingiu os melhores resultados.
Al-Anazi e Gates (2010) desenvolveram a classificação litológica de um reservatório arenítico
heterogêneo com o uso da SVM. Além de mostrarem que os melhores resultados são obtidos
23
com o kernel RBF, os autores também comparam com os resultados fornecidos por outros
algoritmos, tais como Redes Neurais e Análise Discriminante. No trabalho apresentado, o
algoritmo da SVM se destacou na tarefa de classificação em relação às Reder Neurais e
Análise Discriminante.
A versatilidade no uso dos algoritmos de classificação permite à integração de dados de
diversas fontes, no trabalho de Torres e Reverón (2014), a classificação das eletrofácies foi
obtida a partir da integração dos perfis geofísicos, dados laboratoriais e da inversão sísmica.
O Support Vector Machine é baseado na teoria de aprendizagem estatística desenvolvida por
Vapnik (1995) e tem como característica principal a minimização do risco empírico. As
vantagens do algoritmo de SVM residem no fato de que é uma técnica de kernel, no qual o
algoritmo utilizando uma segunda função pré-definida pode efetuar uma separação linear em
um novo espaço dimensional (Al-Anazi e Gates, 2010).
Este trabalho se propõe em analisar o comportamento do algoritmo na classificação
faciológica do campo de Peregrino, localizado na Bacia de Campos com base na classificação
faciológica interpretada para o campo. Utilizando como dados de entrada as leituras de poços,
Raios Gama, Densidade, perfil Nêutrons, Resistividade, Sônico e o perfil de Porosidade-
RHOB.
Para o algoritmo de SVM foram selecionadas duas equações diferentes para o Kernel: Linear
e Radial Basis Function (RBF). Assim para encontrar o melhor resultado de acerto, foi gerado
um grid de busca iterativo que utilizando o espaço amostral fornecido, definiu as melhores
variáveis a serem utilizadas para cada kernel. Com o intuito de comparar o resultado obtido
pelo algoritmo do SVM, o mesmo pacote de dados foi submetido a uma segunda técnica de
aprendizagem de máquina, o K-nearest neighbor (KNN), um classificador já em uso na
indústria do petróleo.
Os dados fornecidos pertencem ao campo de Peregrino, que está localizado na Bacia de
Campos e possui aproximadamente 535 km² e foi descoberto em 2004. A Bacia de Campos
possui como limites, ao norte o Arco de Vitória e ao sul o Arco de Cabo Frio com área total
aproximada de 120.000 km² (Mohriak, 2003).
Atualmente, a Bacia de Campos é uma das mais estudadas bacia sedimentares da costa
brasileira. A evolução geológica da bacia é discutida por diversos autores, tais como
Guardado et al., (1989); Rangel et al., (1994); Mohriak (2003) e Winter et al., (2007).
24
O campo de Peregrino é composto pelos depósitos arenosos da Formação Carapebus na
transição do Cretáceo-Paleógeno. Fluxos gravitacionais levaram a transgressão de corpos de
areia que se depositaram em sobre o Grupo Macaé em estruturas sísmica de onlap. Os
arenitos desse período são considerados os mais ricos em areia se comparados aos depósitos
mais antigos (Winter et al, 2007).
Support Vector Machine
O Support Vector Machine (SVM) é um algoritmo de aprendizagem que é utilizado na
classificação de dados em diversas áreas tais como, categorização de textos, análise de
imagens e bioinformática. Os resultados desta técnica são comparáveis ou superiores aos
obtidos por outros algoritmos já estabelecidos, como as Redes Neurais Artificiais (Lorena e
Carvalho, 2007; Al-Anazi e Gates, 2010; Awad e Khana, 2015).
De acordo com Awad e Khanna (2015) devido a sua robustez e boa habilidade em
generalizações, o SVM é o algoritmo mais popular e simples para abordagens de
aprendizagem de máquina. De acordo com os autores, algumas vantagens que tornam a
técnica atraente para seu uso na classificação de amostras estão listadas abaixo:
O SVM é uma técnica esparsa. A partir do momento que todos os dados de
treinamento se encontrem carregados, o algoritmo aprende a classificação e a
armazena na forma de vetores de suporte. Dessa forma, quando for realizar a
tarefa de classificação, não serão necessários que os dados de treinamentos
estejam carregados na memória, apenas os vetores de suporte. A complexidade
da tarefa de classificação é dependente do número de vetores utilizados.
É uma técnica de Kernel. Quando o SVM mapeia dados não separáveis
linearmente na dimensão de entrada, a partir do uso do kernel permite-se que
um separador hábil discrimine a amostra linearmente em suas diferentes
classes dentro de um novo espaço dimensional. Na fase de optimização será
aprendido à superfície linear discriminante do espaço mapeado.
Separador de margem máxima. SVM impõe uma limitação na fase de
otimização. Para a determinação do hiperplano canônico, a SVM faz uso das
margens de máxima separação. As margens máximas são posicionadas de
maneira que nenhum dado possa estar entre a margem e o hiperplano.
25
O SVM tem como base a teoria de aprendizagem estatística (TAE) desenvolvida por Vapnik
(1995), compondo parte de um grupo de algoritmos de aprendizagem de máquina. Tais
técnicas devem ser capazes de lidar com dados complexos que muitas vezes contém ruídos e
atributos imperfeitos.
De acordo com Lorena e Carvalho (2007), um algoritmo de classificação atua a partir de um
conjunto n de dados no qual cada amostra Xi possui m atributos associados. As variáveis
tomam a posição Yi e representam as classes. Com os valores das amostras e suas classes, o
algoritmo extrairá um classificador, que poderá então ser utilizado para separar os dados de
interesse (Figura 3). Para manter o controle e determinar a qualidade da classificação adotada,
normalmente são gerados dois grupos de dados. O primeiro é utilizado para o treinamento,
enquanto que no segundo grupo é efetuado o teste de classificação.
Figura 3. Determinação do classificador em aprendizado supervisionado. Extraído de Lorena e Carvalho
(2007).
Durante a classificação deve-se prestar especial atenção a duas situações, denominados de
overfitting e underfitting. O overfitting ocorre quando o classificador se especializa nos dados
de treinamento e consegue gerar excelentes resultados, porém quando confrontado com novos
dados, gera classificações abaixo do esperado. O underfitting ocorre quando os dados de
treinamento apresentam baixa taxa de acerto, sendo possível que as amostras usadas sejam
pouco representativas do modelo usado.
O objetivo do algoritmo é minimizar o erro entre o número de classes previstas e as classes
reais. O risco real ou esperado, (1, é controlado por dois fatores: o risco empírico apresentado
na Equação (2) e o intervalo de confiança, representado pela Equação (3). O risco empírico é
a medida de confiança do classificador, através dos erros obtidos nas classificações.
26
𝑅(𝑓) ≤ 𝑅𝑒𝑚𝑝(𝑓) + ∅(𝑁
ℎ)
(1)
𝑅𝑒𝑚𝑝(𝑓) =1
𝑁∑ 𝑐( 𝑓(𝑥𝑖), 𝑦𝑖)
𝑁
𝑖=1
(2)
∅(𝑁
ℎ) =
√ℎ (ln (2𝑁ℎ
) + 1) − ln (𝜂4)
𝑁 (3)
Onde, f é o classificador, 𝑐(𝑓(𝑥𝑖), 𝑦𝑖) é a função de custo que retorna 0 para classificações
corretas e 1 para os erros, N é o tamanho da amostra, 𝜂 é um número entre 0≥ 𝜂 ≤1 e h é a
dimensão Vapnik–Chervonenkis (VC) (Lorena e Carvalho, 2007; Al-Anazi e Gates, 2010;
Wang, 2014).
A dimensão VC é responsável por medir a complexidade das funções obtidas pelo
classificador. No caso de uma classificação binária, o número VC pode ser definido como o
número máximo de combinações binárias dos dados (Lorena e Carvalho, 2007).
A equação do Risco esperado Equação (1) traz o cálculo para os limites de generalização,
proposto por Vapnik (1995). Existem duas formas de se minimizar o lado direito da Equação
(3): (1) Utilizando o número VC para manter o valor do intervalo de confiança fixo, assim
têm-se o método de Redes Neurais ou (2) mantém-se o risco empírico fixo e com baixo valor
e então se busca a minimização do número VC, tendo assim o método do SVM. Apenas a
minimização do risco empírico não garante um baixo valor de risco real, pois o valor VC pode
ser muito elevado, indicando um grande número de erros nos dados de teste, levando ao
overfitting (Wong et al.,2005; Wang et al., 2014).
O algoritmo de SVM subdivide-se em dois grupos, SVM-Linear e SVM-Não linear. No grupo
do SVM-Linear por sua vez há uma separação em SVM de margens rígidas e margens suaves.
27
SVM linear de Margens rígidas
Na SVM de margens rígidas, objetivo consiste em separar dois grupos de classes de dados
através da aplicação de um hiperplano linear. Consideremos um conjunto de dados T para
treinamento composto por n dados xi ∈ X, tendo como rótulos yi ∈ Y, no qual X compõe o
espaço dos dados e Y ={-1,+1}. A equação definida para o hiperplano é apresentada na (4),
onde w ∙ x é o produto escalar dos vetores w e x, sendo o vetor w ∈ X e normal ao hiperplano:
𝑓(𝑥) = 𝐰 ∙ 𝐱 + 𝑏 = 0 (4)
Como o hiperplano efetua a divisão do espaço dos dados em duas regiões, podemos escrever
as respectivas equações como: 𝐰 ∙ 𝐱 + 𝑏 > 0 e 𝐰 ∙ 𝐱 + 𝑏 < 0. É possível obter infinitas
equações através da multiplicação de w e b por uma constante yi. Logo, o hiperplano canônico
será aquele em que w e b satisfaçam a (5),
|𝐰 ∙ 𝐱𝐢 + 𝑏| = 1 (5)
Por conveniência matemática, a (5) pode ser reescrita na forma das inequações abaixo:
{𝐰 ∙ 𝐱 + 𝑏 ≥ +1 se 𝑦𝑖 = +1𝐰 ∙ 𝐱 + 𝑏 ≤ −1 se 𝑦𝑖 = −1
ou (6)
𝑦𝑖(𝐰 ∙ 𝐱 + 𝑏) − 1 ≥ 0 , ∀ (𝑥𝑖, 𝑦𝑖) ∈ 𝑇 (7)
Sendo x1 um ponto pertencente à H1: 𝐰 ∙ 𝐱 + 𝑏 = +1 e x2 um ponto de H2: 𝐰 ∙ 𝐱 + 𝑏 = −1
(Figura 4).
Figura 4. Exemplo de como o hiperplano se posiciona em função das margens de máxima separação, H1 e H2. Extraído de
Lorena e Carvalho, 2007.
28
É possível projetar x1- x2 na direção do vetor w perpendicular ao hiperplano, e assim se obter
a distância entre os planos H1 e H2. A projeção é:
(𝑥1 − 𝑥2)(𝑤
||𝑤||∙ (
(𝑥1 − 𝑥2)
||𝑥1 − 𝑥2||) (8)
A partir da diferença das equações 𝐰 ∙ 𝐱 + 𝑏 = +1 e 𝐰 ∙ 𝐱 + 𝑏 = −1, temos 𝐰 ∙ (𝐱𝟏 − 𝐱𝟐) ,
que substituído na equação anterior resulta na (9),
d = 2
||𝒘|| (9)
Essa equação descreve a distância d entre as margens (H1 e H2) do hiperplano canônico, sendo
que w e b foram determinados de maneira a não haver dados entre os hiperplanos H1 e H2.
Como umas das premissas do SVM é ser um separador de margem máxima, deve-se então
maximizar a distância entre os hiperplanos. Para tal, pode-se maximizar o termo ||w|| ou
minimizar a seguinte Equação (10):
Minimizar𝑤,𝑏
1
2||𝐰||² (10)
A restrição imposta por 𝑦𝑖(𝐰 ∙ 𝐱 + 𝑏) − 1 ≥ 0 , ∀𝑖 = (1, … , 𝑛), impede a presença de dados
do treinamento entre as margens, sendo por este motivo que a SVM recebe a nomenclatura de
margens rígidas.
Para a resolução de um problema de otimização, será utilizada uma função Lagrangiana que
engloba as restrições à função objetivo e as associa a um multiplicador de Lagrange αi,
𝐿(𝑤, 𝑏, 𝛼) =1
2||𝒘||
2− ∑ 𝛼𝑖(𝑦𝑖(𝐰 ∙ 𝐱𝐢
𝑛
𝑖=1
+ 𝑏) − 1) (11)
A resolução esperada para o problema, demanda a minimização de w e b enquanto o termo αi
deve ser maximizado, formando um ponto de sela:
𝜕𝐿
𝜕𝑏= 0 e
(12) 𝜕𝐿
𝜕𝐰= 0
29
A partir da resolução das equações acima, temos:
∑ 𝛼𝑖 𝑦𝑖 = 0
𝑛
𝑖=1
(13)
𝑤 = ∑ 𝛼𝑖 𝑦𝑖 𝑥𝑖
𝑛
𝑖=1
Efetuando a substituição das equações acima na função Lagrangiana, encontra-se o seguinte
problema:
Maximizar𝛼
∑ 𝛼𝑖
𝑛
𝑖=1
−1
2 ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 (𝐱𝐢 ∙ 𝐱𝐣)
𝑛
𝑖,𝑗=1
(14)
Com as restrições: {
𝛼𝑖 ≥ 0, ∀𝑖 = 1, … , 𝑛
∑ 𝛼𝑖𝑦𝑖 = 0
𝑛
𝑖=1
Com a resolução do problema de maximização a partir da teoria da otimização e respeitando
as restrições impostas, se obtém:
𝛼𝑖(𝑦𝑖(𝐰 ∙ 𝐱𝐢 + 𝑏) − 1) = 0, ∀𝑖 = 1, … , 𝑛 (15)
A Equação 15 indica que para αi ≠ 0 os dados se encontram sobre os hiperplanos H1 e H2,
para situações em que αi = 0 , os pontos não irão participar do cálculo de w. Para dados que
possuem αi > 0, os mesmo recebem a denominação de vetores de suporte e são considerados
de suma importância para a fase de treinamento, pois são eles os dados que determinarão o
hiperplano canônico.
Uma vez que temos os dados que formarão os vetores de suporte e a subsequente definição do
hiperplano, pode-se prosseguir para o cálculo da função que determinará o classificador,
objetivo final do processo de treinamento do algoritmo.
O termo b será calculado com os vetores de suporte a partir da equação 16, e serão
considerados para todos xj tal que 𝛼𝑗 > 0. Na equação abaixo, nsv se refere ao número de
vetores de suporte e SV é o conjunto de vetores de suporte.
30
𝑏 =1
𝑛𝑠𝑣∑ (
1
𝑦𝑗− ∑ 𝛼𝑖𝑦𝑖 𝐱𝐢 ∙ 𝐱𝐣
𝑥𝑖 ∈ 𝑆𝑉
)
𝑥𝑗 ∈ 𝑆𝑉
(16)
Assim, será possível escrever o resultado final como o classificador g(x), apresentado abaixo,
onde sgn significa a função sinal, w é fornecido pela equação 13 e b pela equação acima.
𝑔(𝑥) = 𝑠𝑔𝑛(𝑓(𝑥)) = 𝑠𝑔𝑛 ( ∑ 𝛼𝑖𝑦𝑖 𝐱𝐢 ∙ 𝐱𝐣 + 𝒃
𝑥𝑖∈𝑆𝑉
) (17)
SVM linear de Margens Suaves
Com o intuito de utilizar o SVM quando a amostra não pode ser separável linearmente, houve
a introdução de uma variável ξi com o objetivo de permitir que durante o processo de
classificação, a SVM classifique a maior quantidade de dados corretamente, enquanto que o
modelo obtido (Figura 5) irá permitir alguns erros na vizinhança das margens de separação.
Assim sendo, as margens de máxima separação são consideradas margens suaves (Awad e
Khana, 2015).
Figura 5. SVM de margens suaves. Extraído de Awad e Khana (2015).
A equação 11 receberá a variável ξi, tomando a forma abaixo:
𝐽(𝑤, 𝑏, ξ) = 1
2||𝐰||
2+ C ∑ ξi
𝑛
𝑖=1
(18)
Com as restrições: 𝑦𝑖(𝑤 ∙ 𝑥𝑖 + 𝑏) ≥ 1 − ξi, ξi ≥ 0, ∀i = 1, … , n
31
O termo de regularização C é um parâmetro que varia de acordo com o processo de
classificação tendo um peso na minimização dos erros do conjunto de treinamento. Com o
aumento do valor de C, é enfatizada a minimização do erro e do número de classificações
erradas, enquanto que com a diminuição do C, são permitidos mais erros com a maximização
das margens entre os grupos classificados (Figura 6) (Al-Anazi e Gates, 2010).
Figura 6. Exemplo de margens obtidas para diferentes valores de "C". Extraído de Awad e Khana (2015).
Para a equação 18, devem ser resolvidos problemas de otimização similares aos apresentados
para a SVM de margens rígidas. Utilizando novamente da função Lagrangiana, há:
Maximizar𝛼
∑ 𝛼𝑖
𝑛
𝑖=1
−1
2∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗(𝐱𝐢 ∙ 𝐱𝐣)
𝑛
𝑖,𝑗=1
(19)
Com as restrições: {0 ≤ 𝛼𝑖 ≤ 𝐶, ∀𝑖 = 1, … , 𝑛
∑ 𝛼𝑖𝑦𝑖𝑛𝑖=1 = 0
A variável ξi é determinada da seguinte maneira:
ξi = max {0,1 − 𝑦𝑖 ∑ 𝑦𝑗𝛼𝑗𝐱𝐢 ∙ 𝐱𝐣 + 𝑏
𝑛
𝑗=1
} (20)
Com a definição da variável ξi, efetua-se o novo cálculo para a determinação dos vetores de
suporte na SVM de margens suaves,
𝛼𝑖 = (𝑦𝑖(𝐰 ∙ 𝐱𝐣 + 𝑏) − 1 + ξi) = 0 (21)
(𝐶 − αi)ξi = 0 (22)
A definição dos vetores de suporte segue o mesmo padrão das SVM de margens rígidas. Os
dados para os quais 𝛼𝑖 > 0 serão chamados de vetores de suporte. A maior diferença para a
32
SVM de margens rígidas reside no fato de que agora, com o uso da variável ξi, podem ser
definidas diferentes posições para os vetores de suporte.
Para 𝛼𝑖 < 𝐶 e ξi = 0, os pontos estão posicionados sobre as margens e recebem a
denominação de vetores de suporte livres. Para a situação em que 𝛼𝑖 = 𝐶, ocorrem três
situações diversas: ξi > 1 que indica pontos erroneamente classificados; 0 < ξi ≤ 1 que
representa pontos corretamente classificados porém situados entre as margens separadoras;
ξi = 0 que indica os pontos sobre as margens separadoras (Figura 7).
A equação de classificação g(x) será a mesma que foi demonstrada para o caso da SVM de
margens rígidas.
Figura 7. Neste exemplo de SVM de Margens Suaves, os elementos em branco estão corretamente classificados, os
elementos em cinza indicam os vetores de suporte correto e os elementos com bordas são vetores de suporte
erroneamente classificados. Extraído de Lorena e Carvalho, 2007.
SVM- Não linear
Em diversas situações os dados que se deseja classificar não podem ser discriminados a partir
de um hiperplano linear. Para classificações com dados não lineares, a adoção da equação de
kernel pode ser utilizada.
O kernel tem a capacidade de transformar o espaço dimensional de entrada em um novo
espaço dimensional, no qual a amostra passa a ser linearmente separável. No novo espaço
amostral gerado pelo kernel, um hiperplano linear pode então ser utilizado, ao invés de se
executar um cálculo de alta ordem para se classificar os dados no espaço amostral de entrada
(Figura 8).
33
Figura 8. No gráfico a esquerda não é possível separar as duas classes com um hiperplano, enquanto que após a
transformação do espaço dimensional pelo kernel, as classes podem ser divididas.
De maneira geral, um kernel é uma função que após receber os pontos (xi,xj) do espaço
amostral de entrada, efetua o produto escalar dos dados em um novo espaço amostral,
𝐾(𝑥𝑖, 𝑥𝑗) = 𝜑(𝑥𝑖) ∙ 𝜑(𝑥𝑗) (23)
Na prática, faz se a utilização da função Kernel sem o conhecimento do espaço dimensional
(φ) no qual os dados estão inseridos.
As equações de kernel mais utilizadas são apresentadas na Tabela 1:
Tabela 1. Exemplos de equações de kernel. Modificado de Awad e Khana (2015).
Para o uso da equação de Kernel, inicialmente os dados serão mapeados em uma dimensão
utilizando φ (Equação 24), então aplica-se sobre o resultado obtido a SVM de margens
suaves, devido a sua maleabilidade quanto a presença de dados entre as margens de máxima
separação.
φ(x) = φ(x1, x2) = (x12, √2𝑥1𝑥2, 𝑥22) (24)
34
Como apresentado nas etapas anteriores, deve-se resolver o problema de otimização,
Maximizar𝛼
∑ 𝛼𝑖
𝑛
𝑖=1
−1
2∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗(φ(xi) ∙ φ(xj))
𝑛
𝑖,𝑗=1
(25)
Seguindo as restrições impostas para a SVM de margens suaves, é possível então definir um
classificador,
𝑔(𝑥) = 𝑠𝑔𝑛(𝑓(𝑥)) = 𝑠𝑔𝑛 ( ∑ 𝛼𝑖𝑦𝑖 (φ(xi) ∙ φ(xj) + 𝑏
𝑥𝑖 ∈ 𝑆𝑉
) (26)
Enquanto que b pode ser definido por:
𝑏 =1
𝑛𝑠𝑣: 𝛼 < 𝐶∑ (
1
𝑦𝑗− ∑ (φ(xi) ∙ φ(xj)
𝑥𝑖 ∈ 𝑆𝑉
)
𝑥𝑗 ∈ 𝑆𝑉∶ 𝛼𝑗<𝑐
(27)
Características a respeito da amostra também devem ser levadas em conta na escolha da
equação do kernel. O kernel linear apresenta melhores resultados para conjuntos com dados
mais esparsos. A função Polinomial é mais utilizada em processamento de imagens. A função
gaussiana e laplaciana tem aplicações mais generalizadas, sendo aplicadas quando há pouco
conhecimento prévio sobre o dado (Awad e Khana, 2015).
SVM-Multiclasses
A discussão prévia a respeito do SVM como técnica de classificação de amostras, foi
referente a dados binário, ou seja, compostos apenas por duas classes. Autores como Weston e
Watkins (1999) e Platt (2000) começaram as pesquisas para o desenvolvimento da
classificação multiclasses.
De acordo com Awad e Khana (2015), uma das estratégias adotadas para a resolução do
problema da classificação binária do SVM foi à adoção do One-Against-All (OAA). A
estratégia para a construção da classificação multiclasses nesse caso, parte do princípio de se
obter n classificadores binários, no qual n é o número de classes. Assim, cada classificador
separa uma classe de outra, reduzindo para uma situação de classificação binária.
35
Outra estratégia apontada para a resolução de casos multiclasses, é conhecida como
One-Against-One (OAO). Nessa abordagem, é construído uma combinação de 𝑛(𝑛 − 1)/2
binários, sendo que cada binário é utilizado para discriminar duas classes de todas c classes
carregadas (Al-Anazi e Gates, 2010).
Nessa pesquisa foi adotada a abordagem OAA, que está programada na biblioteca do SVM
(LIBSVM) utilizada no Matlab para executar o trabalho de classificação.
K-Nearest Neighbor (KNN)
Este método é amplamente conhecido e utilizado em softwares comerciais na caracterização
de reservatórios (i.e. Petrel®- Schlumberger). No KNN, o algoritmo assume que todos os
pontos pertencem a um mesmo espaço dimensional n. Os vizinhos mais próximos ao ponto
podem ser definidos por uma distância euclidiana ((28)) ou por outras fórmulas de distância
(Tartakovsky et al., 2007).
Nesta técnica, a função do KNN ((29)) permite a aprendizagem de valores contínuos ou
discretos. A função para valores discretos f(xq) irá estimar o valor mais comum para f entre k
pontos mais próximos do ponto de interesse xq. No caso de k=1, será o valor encontrado pela
equação F(xq), enquanto que para valores k>1, a função fornecerá o valor mais comum
encontrado entres os pontos carregados no treinamento do algoritmo (Mitchel, 1997).
𝑑(𝑥𝑖, 𝑥𝑗) = √∑ (𝑎𝑟(𝑥𝑖) − 𝑎𝑟(𝑥𝑗))²𝑛𝑟=1 (28)
𝑓(𝑥𝑞) ← 𝑎𝑟𝑔𝑚𝑎𝑥 ∑ 𝛿(𝑣, 𝑓(𝑥𝑖))
𝑘
𝑖=1
(29)
As etapas para a utilização do KNN podem ser simplificadas nos seguintes passos:
(1) Determinação da distância entre o ponto de interesse e os vizinhos conhecidos;
(2) Definição do número de vizinhos (k) que devem ser levados em consideração no
processo;
36
(3) Classificação dos dados vizinhos, para que o algoritmo rotule o ponto
desconhecido com base nas informações fornecidas.
Definir corretamente os valores de k vizinhos mais próximos é vital para o desempenho do
algoritmo durante o processo de aprendizagem. Os valores escolhidos devem levar em
consideração que com um k muito pequeno a classificação fica sensível a dados estranhos ou
ruídos no pacote de informação carregados. Para valores elevados de k, há o risco de pontos
sem relação com o interesse sejam inclusos (Figura 9).
Figura 9. Exemplo de separação dos dados de acordo com a vizinhança (k=5) escolhidos. Extraído de Mitchel
(1997)
Materiais e Métodos
A presente pesquisa foi realizada utilizando seis poços exploratórios e suas respectivas
perfilagens geofísicas, dados de laboratório e amostra de sondagem referente ao campo de
Peregrino, localizado na Bacia de Campos. As leituras de poço são: Raios Gama (GR),
Densidade (RHOB), Nêutrons (NPHI), Resistividade (ILD) e Sônico (DT). Dados
laboratoriais também foram disponibilizados para a utilização, sendo estes referentes à
porosidade, permeabilidade, e distribuição de granulometria.
O testemunho de sondagem foi avaliado por meio de fotografias e descrição digitalizada,
foram disponibilizados os dados referentes a quatro poços exploratórios. Para outros dois
poços, as informações litológicas foram incluídas com base em fotos de lâminas petrográficas
com suas respectivas descrições digitalizadas.
Os poços têm comprimento variável, e as seções estudadas mudam consideravelmente. A
Tabela 2 mostra de maneira resumida a disponibilidade dos dados nos poços utilizados.
37
Tabela 2. Resumo dos dados disponíveis de acordo com o poço.
O trabalho proposto foi dividido em quatro etapas principais. A primeira etapa do trabalho
consistiu no levantamento bibliográfico sobre o tema de classificação e predição de
eletrofácies e as principais técnicas e metodologias adotadas atualmente. O levantamento
bibliográfico a respeito da bacia de Campos e os depósitos turbidíticos da Formação
Carapebus foram atualizados.
A segunda etapa compreendeu as interpretações litológicas e petrofísicas dos poços utilizados.
Inicialmente foi realizado um controle de qualidade dos dados fornecidos. Em diversas seções
ao longo dos poços muitas amostras de testemunhos não puderam ser recuperadas, dessa
forma, a interpretação geofísica permitiu a continuidade dos dados ao longo de toda a seção.
A área de interesse para a aplicação do algoritmo abrange a seção do reservatório, porção com
a maior quantidade de dados disponíveis para o desenvolvimento da análise proposta. Assim
sendo, foram determinados os limites, superior e inferior do reservatório, e uma superfície de
máxima inundação que marca a sub-compartimentação do reservatório em superior e inferior.
Após a determinação da zona do reservatório, a porosidade foi calculada com base na curva
de densidade - RHOB.
A definição da classificação de fácies baseou-se no agrupamento das litologias com base em
seu comportamento em relação à perfilagem e nos valores de porosidade encontrados.
Seguindo a propostas de trabalhos já publicados (e.g. Wohlberg, 2006; Guadagnini, 2006;
Tartakovsky, 2007; Al-Anazi e Gates, 2010; Torres, 2014) a classificação das eletrofácies foi
focada no reservatório, e as fácies foram definidas como Reservatório (R), Possível
Reservatório (PR) e Não Reservatório (NR).
A terceira etapa compreendeu o trabalho desenvolvido no MATLAB, no qual as fácies
interpretadas foram utilizadas no algoritmo de treinamento e predição de classes. No
MATLAB, os poços foram separados em dois grupos: (1) treinamento e (2) amostra. Seguiu
38
orientação proposta por Awad e Khana (2015), na qual se deve utilizar 2/3 dos dados para
treinamento e 1/3 como amostra de teste.
Do conjunto de seis poços disponíveis, foram escolhidos para servirem como dados do
conjunto de treinamento do algoritmo os poços 51, 53, 56 e 57. Para o grupo de amostra os
poços 54 e 55 foram selecionados para o pacote de teste (Figura 10).
Figura 10. Mapa de localização dos poços utilizados na tarefa de classificação.
O algoritmo de SVM depende da equação de Kernel para sua execução, sendo que cada
kernel, tem um grupo de variáveis próprias. Neste trabalho foram utilizadas duas funções de
kernel: linear e Radial Basis function (RBF). As variáveis dessas equações são as mesmas e
consistem em duas: a função custo (C) e o Gama (G). A taxa de sucesso atingido pelo
algoritmo na classificação das fácies é diretamente dependente dessas variáveis.
Para que o par (C, G) com melhor taxa de acerto fosse escolhido na fase de treinamento, foi
criado um grid de busca, que testou a combinação de todos os valores de C e G dentre os
limites de valores determinados pelo intérprete, até que o melhor acerto seja atingido.
A quarta etapa consistiu na validação dos resultados obtidos no treinamento através de
comparação gráfica entre pré e pós-classificação e uso da matriz de confusão, construídas a
partir dos poços de amostra que compõem do 1/3 restante dos dados do trabalho.
39
Outra abordagem para melhor distinção das litologias depende do gráfico MxN da formação
de interesse. Essa mesma configuração de gráfico também pode ser explorada na
determinação dos minerais que compõem a matriz rochosa. Os termos M e N são calculados a
partir dos valores medidos pelas curvas RHOB, NPHI e Sônico, além das constantes da
densidade, velocidade intervalar e a porosidade neutrônica do fluido contido na formação
(Asquith, 2004).
A matriz de confusão ou matriz de erros é uma ferramenta extremamente útil para a
comparação entre as fácies originais e as classificadas pelo algoritmo. Nessa ferramenta de
análise estatística, cada coluna representa o dado preditivo enquanto a linha apresenta o dado
original. Na diagonal principal da matriz estão presentes os números de dados que foram
corretamente preditos, enquanto que nas células restantes são mostrados os valores errados. A
Figura 11 mostra um esquema resumido do fluxo de trabalho empregado no desenvolvimento
do trabalho.
Figura 11. Fluxo de trabalho utilizado para a aplicação do SVM na classificação de fácies.
Resultados
Interpretação petrofísica
No trabalho executado, decidiu-se por utilizar uma classificação de fácies com foco no
reservatório de hidrocarbonetos. Com o agrupamento das litologias em fácies do tipo
Reservatório (R), Possível Reservatório (PR) e Não Reservatório (NR) focou-se em associar
litologias com comportamentos similares perante as perfilagens geofísicas. A Tabela 3
apresenta as litologias descritas nos poços testemunhados e sua classificação faciológica.
40
Tabela 3. Classificação das litologias descritas nos poços testemunhados em função do reservatório. Legenda: Reservatório
(R); Possível Reservatório (PR); Não Reservatório (NR).
A descrição dos poços determinou 14 diferentes litologias ao longo do reservatório. O
agrupamento permitiu a redução para apenas três classes tendo função parecida com a
regularização métrica do poço. A classificação utilizada diminui a resolução geológica do
poço, porém sem que ocorram perdas na caracterização do reservatório.
A interpretação litológica dos poços foi realizada com base na combinação das perfilagens
geofísicas do poço, descrições dos testemunhos e lâminas petrográficas. A Figura 12, mostra
uma seção do poço com os elementos que foram considerados na determinação litológica.
41
Figura 12. Nesta imagem são ilustrados em (a) a relação entre altos valores de raios gama com a presença de litologias
mais finas, apesar de não haver evidente acréscimo no teor de argilominerais, a matriz rochosa apresenta teor arcosiano.
Em (b) é descrita como areia fina micácea com presença de bioclastos carbonáticos e glauconita com óleo retido. A
descrição macroscópica (c) indica a ocorrência de areia fina laminada enquanto que em (d) ocorre areia maciça. Em (e) a
amostra é descrita como areia fina micácea com presença de bioclastos carbonáticos e grãos detríticos de argila. A linha
amarela representa o topo do reservatório; a linha roxa marca a porção intermediária do reservatório.
Com a análise dos poços interpretados, o início do processo de agrupamento das litologias nas
classes de interesse começou com a construção da curva de porosidade, elemento utilizado em
associação com as características texturais para a separação faciológica. A curva de
porosidade escolhida para este trabalho foi a Porosidade-RHOB, devido a sua compatibilidade
com os dados de porosidade fornecidos pelos plugues testados em laboratório (Figura 13) e
sua simplicidade no cálculo, uma vez que seus parâmetros de entrada são todos conhecidos.
42
Figura 13. Gráfico comparativo da porosidade-RHOB com a porosidade de laboratório, para o poço 51. A curva em
azul indica a porosidade proveniente do laboratório enquanto que a curva em vermelho representa a porosidade
calculada.
Seguindo com o agrupamento das litologias, a fácies NR (não reservatório) é composta pelas
litologias que compreendem frações sem qualidades de reservatório e seriam as classes 1,2, 3,
4, 6, 7, 13 e 14 (Tabela 3). Tais litologias no geral apresentam grãos em fração de argila em
sua matriz. A presença de elevados teores de argila está relacionada aos valores obtidos pela
leitura de raios gama, além de algumas especificidades que serão discutidas a seguir.
Nos poços 2, 3, 6, 13, em que foi identificada a presença de litologias ricas em carbonato, a
dolomita é descrito com granulometria fina ou na forma de cimento associado com grãos
siliciclásticos de silte a areia fina. Há ocorrência de arenito fino (6) cimentado por calcita com
granulometria variando de silte a areia fina. O intervalo de 2272-2275m do poço 54 (Figura
14) foi interpretado como arenito fino dolomítico com base na petrografia. A presença de
argila no intervalo é indicada pelos valores encontrados na curva de GR.
O siltito (classe 14), conglomerado (classe 4) e o arenito (classe 7) são classificados como não
reservatórios, pois apresentam elevados teores de argila em suas matrizes rochosas. A
ocorrência de níveis conglomeráticos também é localmente restrita aos poços 56 e 57, sendo
que tais depósitos estão relacionados a um ambiente deposicional de brecha com matriz
lamosa-carbonática.
43
Figura 14. Poço 54 com ocorrência de litologia cimentada por carbonatos (2267m). Da esquerda para a direita, o
perfil de GR não indica anomalias presentes, enquanto o perfil de DT apresenta um pico de aumento na velocidade e
os perfis de NPHI e RHOB também apresentam valores anômalos, indicados pelas setas, devido à presença de
cimentação carbonática. Fotomicrografia em (b) que esclarece alguns dos comportamentos inesperados para litologia
arenítica.
A fácies R (reservatório) compreende as litologias agrupadas com ótimas
características para o reservatório, essas são compostas pelas classes 5 e 12 (Tabela 3). Foram
levados em consideração os comportamentos das curvas de leitura geofísica somadas com a
curva de porosidade calculada a partir do RHOB.
As classes 5 e 12 são as mais recorrentes entre as litologias descritas. Apresentam
baixo teor de argila em seus poros, com valores acima de 30% de porosidade. De acordo com
a Figura 15, a seção de 2276-2279m foi interpretada como arenito médio (classe 12). Os
valores de GR são intermediários e a curva apresenta formato cilíndrico, levando a
interpretação de um aporte constante de areia. A curva do sônico (DT) não apresenta
expressivas variações nos valores de velocidade.
44
Figura 15. Identificação da litologia preferencial para a ocorrência de reservatório de hidrocarbonetos, exemplo do
poço 56. Em detalhe é mostrado o arenito com óleo retido.
A fácies PR é classificada como possível reservatório, pois apresentam características
mistas entre as fácies NR e R, sendo que o fator decisivo para a exploração do óleo presente é
dependente da tecnologia empregada na produção. As litologias classificadas são as classes 8,
9, 10 e 11 (Tabela 3).
Na Figura 16, o intervalo 2256-2259m apresenta a litologia 8, um arenito fino com
argila. Na imagem do testemunho é possível ver a retenção de óleo na litologia, porém a
presença de argila e carbonato na matriz impede a caracterização plena como reservatório
para essa litologia.
45
Figura 16. Poço 57 no qual foi caracterizada uma região com fácies Possível reservatório.
Fase de treinamento
Os resultados deste capítulo são referentes aos poços 51, 53, 56 e 57, que foram utilizados na
fase de treinamento do algoritmo e seguem a proposta de Rider (2002), Asquith (2004) e Ellis
e Singer (2008) para a determinação litológica através de técnicas petrofísicas.
As Figura 17 e Figura 18 trazem os dados para os poços 54 e 55 no quais é possível observar
que a nuvem de pontos está bastante aglomerada dificultando a separação das litologias pelo
seu comportamento frente às leituras NPHI, RHOB ou DT. A principal causa apontada para
isso é a leitura do NPHI que é influenciada por zonas com ocorrência de hidrocarbonetos,
sendo sua leitura de hidrogênios livres normalmente acima do esperado.
O predomínio dos cimentos calcários (calcita, dolomita) na matriz rochosa influi no
comportamento das curvas, levando à superestimação nos valores litológicos das areias
cimentadas. Apesar dessas anomalias, os gráficos mostram clara separação entre as litologias
e a possibilidade de agrupamento em fácies para a aplicação do SVM.
Para o poço 54, os gráficos de NPHI x RHOB e Sônico x RHOB são bons separadores de
areias com cimentação dolomítica e que não possuem características de reservatório. Porém,
estes gráficos não se demonstraram eficientes para indicar a distinção entre o arenito limpo do
reservatório do arenito com matriz argilosa. O gráfico de NPHI x Sônico apresenta uma
46
melhor distinção entre as litologias do poço 54, permitindo uma separação mais eficiente das
litologias com cimentação calcária ou matriz argilosa.
É possível observar no gráfico NPHI x RHOB abaixo, que litologias classificadas como
reservatório (R) estão agrupadas como a areia média (medium sand) e areia fina (fine sand),
enquanto que litologias identificadas como não reservatório (NR) formam um aglomerado de
pontos, como calcário (limestone), areia fina dolomítica (dolomitic fine sd) e siltito (siltstone).
a)
b)
47
c)
Figura 17. Gráficos utilizados para distinção das litologias descritas nos poços referentes ao Poço 54. Em (a) é
mostrado à relação NPHI x RHOB, em (b) RHOB x SÔNICO e em (c) SÔNICO x NPHI.
No poço 55 não há presença de litologias com cimentação calcária, a areia média apresenta
uma grande variabilidade nos valores de RHOB e NPHI, enquanto para o perfil Sônico (DT) o
comportamento da litologia permite uma separação das litologias nos grupos de velocidades.
a)
48
b)
c) Figura 18. Gráficos utilizados para distinção das litologias descritas nos poços referentes ao Poço 55. Em (a) é mostrado a
relação NPHI x RHOB, em (b) RHOB x SÔNICO e em (c) SÔNICO x NPHI.
A Figura 19 apresenta os gráficos MxN para os poços 54 e 55, e foi utilizada na distinção de
litologias com diferentes conteúdos na composição de sua matriz. Na porção inferior do
gráfico há presença de litologias com matriz predominantemente carbonática. Enquanto que
na porção intermediária há presença de matriz argilosa, a porção superior contém litologias
mais limpas, tais como areia fina e média, que compõem a fácies reservatório.
Quando aplicado para os dados do poço 54, o gráfico de MxN apresenta uma melhor
separação entre os grupos de litologias descritas no poço. Evidenciando dessa forma um
posicionamento das litologias mais ligadas a fácies Não reservatório na porção inferior do
gráfico.
49
No gráfico gerado para o poço 55 (Figura 19b) é indistinguível o agrupamento das litologias
em diferentes pacotes. É perceptível uma tendência à concentração de litologias relacionáveis
à fácies Reservatório na porção superior. Porém, dentre as litologias arenosas em ambos os
poços, não há um claro comportamento das amostras que leve a fácil separação das litologias
descritas.
a)
b)
Figura 19. Determinação litológica por meio do plote M x N. (a) Poço 54 e (b) Poço 55. No eixo X estão os valores de N no
eixo Y e valores de M. Os termos M e N são adimensionais.
Fase de classificação
Após a determinação das litologias e seu agrupamento em fácies classificadas como
Reservatório, Não Reservatório e Possível Reservatório, foram realizadas as etapas de
treinamento e predição de fácies através dos algoritmos KNN e SVM.
Com uma aplicação mais complexa, no caso do SVM, busca-se responder a 3 questões
durante o treinamento do algoritmo.
(1) Quais os poços quando combinados no pacote de treinamento fornecem os
melhores resultados classificação?
(2) Qual função Kernel consegue retornar a melhor taxa de acerto nas amostras?
(3) Quais os valores do par C (cost) e G (gamma) devem ser utilizados na entrada para
atingir os melhores resultados?
Como foi apresentado na seção dos métodos, o processo de desenvolvimento de uma
aplicação de aprendizagem de máquina é um processo iterativo, no qual, diversas repetições
serão executadas para que o melhor resultado seja atingido. Sendo assim, diversas rodadas de
50
classificação de fácies foram executadas e os melhores resultados encontrados são mostrados
nesta seção.
As questões (1) e (2) foram resolvidas conjuntamente, sendo que foram combinados
aleatoriamente os poços e foram testados para cada função kernel disponível. Logo,
encontrou-se que a combinação dos poços 51, 53, 56 e 57 para os dados de treinamento e os
poços 54 e 55 para os dados de amostra.
Para a resolução do problema apresentado em (3), optou-se pela criação de um grid de busca,
que testa diversas combinações aleatórias para as variáveis (C, G) respeitando os limites de
busca pré-estabelecidos pelo intérprete. No final do processo, o melhor resultado atingido pela
combinação dos poços, dos perfis, do kernel e das variáveis (C, G) foi salvo para a etapa
posterior. A taxa de acerto atingida pelo KNN foi de 70,8%, para o SVM-linear foi de 54% e
para o SVM-RBF os valores atingiram 89%.
Tabela 4. Matriz de confusão com os valores de erros e acertos por fácies são apresentados para o SVM com kernel Linear
(a) e RBF (b), para o algoritmo do KNN (c) e para o modo robusto do SVM-RBF (d). Em azul são mostradas as fácies
corretamente classificadas enquanto que em vermelho estão as fácies erradas.
Com intuito de testar a robustez do SVM, decidiu-se por uma classificação de fácies com
apenas um poço no grupo de treino (poço 57), enquanto que foram utilizados cinco poços no
grupo de amostra (poços 51, 53, 54, 55 e 56). Foi escolhido o Kernel do tipo RBF, que no
teste anterior já havia mostrado o melhor rendimento. Nessa aplicação foram estipulados os
valores de C: 1.22 e G: 1.63, enquanto a taxa de acerto obtida foi de 72,3% (Tabela 5).
Tabela 5. Valores encontrados para as variáveis de interesse para o kernel Linear e RBF com suas respectivas taxas de
acerto.
C G Taxa de acerto
linear 3.66 1 54%
RBF 4.49 4.71 89%
51
O multi-histograma foi gerado com a intenção de comparar a semelhança nas fácies preditas
com as originais (Figura 20) encontradas para os poços 54 e 55. Apesar da elevada taxa de
acerto, o multi-histograma mostra que as fácies R e PR tiveram suas frequências elevadas em
relação ao encontrado no original.
Figura 20. O histograma mostra comparativamente os resultados obtidos pelos métodos preditivos testados e os dados
carregados no grupo de amostra.
Entre as informações disponibilizadas pelas Figura 17 e Figura 18, estão os erros fornecidos
pelos métodos utilizados na classificação. O SVM- RBF gerou maior volume de erros na
classificação das fácies PR rotulando-as como fácies R. Enquanto que o SVM-Linear possui
um número elevado de erros na classificação das fácies PR como fácies R.
O KNN cometeu erros similares ao SVM na classificação das fácies R como fácies PR em
maior número e em menor número foram gerado erros de classificação de fácies PR como
fácies R. A Figura 21 mostra a comparação entre os dados oriundos da classificação feita pelo
intérprete versus a classificação do algoritmo de aprendizagem.
Na Figura 21a é mostrada a comparação entre as fácies R-poço versus fácies R do SVM,
sendo que a nuvem de pontos para a fácies R do SVM está mais compacta que os pontos
originais. Essa maior quantidade de pontos também é vista no multi-histograma fornecido, no
qual os dados da fácies R do algoritmo possuem maior ocorrência que as fácies R
originalmente descritas. É possível ver que a há uma maior dispersão dos dados na Figura 21b
quando comparado com a Figura 21d. Isso reafirma o ilustrado na Tabela 4 quanto aos erros
encontrados.
52
a)
b)
c)
d)
Figura 21. Gráfico de M x N para a determinação litológica. Os gráficos mostram as comparações entre os dados dos Poços
(amostra) e os classificados pelo SVM. Em (a) e (b) estão evidenciados os resultados obtidos a partir do SVM. Em (c) e (d)
são plotados os resultados obtidos a partir do KNN. No eixo X estão os valores de N no eixo Y e valores de M. Os termos M
e N são adimensionais.
Discussão
O cálculo da curva de porosidade-RHOB foi executado com vistas na classificação do
reservatório no algoritmo SVM. Como os dados de entrada são oriundos de aquisição
geofísica, a curva de porosidade, por ser um parâmetro petrofísico, descreve melhor as
características litológicas e permite que o intérprete obtenha uma classificação de fácies com
melhor qualidade.
Após o cálculo da curva de porosidade, foram realizadas as interpretações de todas as curvas
com o foco na classificação de fácies. A primeira dificuldade a ser contornada, de maneira
geral no campo, reside no fato que os arenitos que compõem o reservatório são arcosianos.
Depósitos arcosianos influenciam na aquisição da curva de raios gama (GR), devido a maior
presença de elementos radioativos, como os feldspatos potássicos e as micas quando
53
comparado com arenitos limpos, levando os valores de leitura do GR a ficarem relativamente
elevados (Doventon, 1994).
Durante a execução da pesquisa, houve a tentativa de desenvolver a aplicação do algoritmo
em fácies clássicas de turbiditos (e.g. Mutti et al., 1999; Mayall et al., 2006) para o uso em
fase de exploração. Os resultados alcançados não foram satisfatórios. Acredita-se que a razão
esteja ligada aos dados de entrada, como as curvas de perfilagem geofísica, que são limitadas
na capacidade de descreverem as características típicas presentes em um depósito
turbidíticos, tanto na litologia quanto em estruturas sedimentares.
É possível também, que a grande variedade de fácies presentes em depósitos deste tipo, esteja
acima da capacidade computacional do algoritmo. Nesse sentido, Awad e Khana (2015) citam
entre as limitações, a dificuldade em se determinar os parâmetros necessários e a maior
complexidade da interpretação dos resultados obtidos.
A classificação usando os rótulos em Reservatório (R), Não Reservatório (NR) e Possível
Reservatório (PR), buscou atender uma maneira de agrupar as litologias descritas nos poços
relacionadas com as características obtidas pelas leituras geofísicas.
Não foram observadas maiores dificuldade nesta etapa, respeitando os indicadores de
reservatórios e não reservatórios, como a relação entre as curvas de NPHI e RHOB, o
comportamento da curva de resistividade, quando em zonas de hidrocarbonetos.
O uso da classificação em Possível Reservatório (PR) tem o intuito de isolar em grupo,
litologias que tiveram um comportamento mais anômalo durante a interpretação, e quando
plotados nos gráficos aparecem associadas tanto às zonas de reservatório quanto a seção Não
Reservatório.
Os resultados de maneira geral demonstram que o algoritmo do SVM superou o KNN em uma
comparação direta da taxa de acerto. A superioridade na classificação do SVM era esperada
devido à forma de operação da técnica. O uso da equação de kernel permite que a SVM
classifique padrões de dados em espaços dimensionais mais complexos, enquanto o KNN atua
apenas na dimensão amostral na qual a amostra esta associada.
A Figura 21 mostra a relação entre os dados obtidos pelo SVM e pelo KNN na predição de
fácies em comparação ao dado original. É possível ver que os resultados se sobrepõem
54
fortemente, mostrando uma boa relação entre o classificado e o original, com exceção para a
fácies de Não Reservatório, que foi suprimida por ambos os algoritmos.
Quando analisamos o histograma das fácies (Figura 20), podemos ver que ambas as técnicas
geraram mais fácies reservatório que as disponíveis nos dados de controle. Em consequência
do excesso de fácies reservatório, há diminuição na frequência das fácies Não-Reservatório.
Fato que está fora do esperado para o resultado, a possível causa para tal anomalia, pode estar
associado a que todos os dados utilizados estão todos compreendidos na seção reservatório do
campo. Para melhorar a resolução do algoritmo e possivelmente ter uma resposta mais
próxima da realidade, em termo de distribuição de fácies, é recomendável a inclusão de mais
dados externos a zona do reservatório.
Essa peculiaridade da SVM lhe atribui à capacidade de atuar com maior precisão em pacotes
de dados altamente complexos e também, como ocorre no caso da classificação em modo
robusto, em situações em que não há abundância de dados na fase de treinamento.
Durante o desenvolvimento da fase de treinamento, foram tomados cuidados para se evitar o
overfitting. Valores de erros muito baixos, inicialmente podem induzir o intérprete a acreditar
no sucesso da classificação. Para evitarmos tal problema, foi proposto a determinação das
variáveis (C,G) do SVM através do uso de um grid de busca, como indicado na metodologia
do trabalho.
Quando utilizado o SVM-RBF o resultado pode ser considerado excelente, com taxa de acerto
de 89% e com o KNN apresentando os melhores resultados com taxa de acerto de 70,8%. Na
classificação com apenas um poço no pacote de treinamento, o modo robusto, a SVM foi
capaz de atingir resultado de 72% de acerto.
A decisão por testar o aplicativo no modo “robusto” visa aferir a capacidade do SVM em
atingir bons valores de acerto na classificação com baixa disponibilidade de dados durante o
treinamento. Este fato apontado por Lorena (2007) descreve como vantagens no uso do SVM
a robustez perante dados de alta dimensão. Além de permitir a adição de funções de kernel
perante conjunto de dados não lineares, pois isto permite a criação de hiperplanos em espaços
de alta dimensão.
Quando comparadas as duas funções de kernel utilizadas, Linear e RBF, a diferença de
resultados é bastante elevada. Al-Anazi e Gates (2010) obtiveram melhores resultados para o
kernel-RBF no estudo de classificação litológica. Na classificação linear, o SVM não gera um
55
novo espaço amostral, os resultados inferiores obtidos com essa análise, levam a crer que os
dados utilizados não obedecem a prerrogativas para uma classificação correta no espaço
amostral linear. Com o kernel RBF, os dados são analisados em uma dimensão mais propicia
a tarefa de categorização. A função trabalha de forma a mapear a distribuição dos dados em
um espaço amostral não linear, permitindo assim estabelecer melhores relações entre as
classes e seus atributos.
Conclusão
O objetivo principal deste trabalho foi de testar a capacidade do algoritmo da Support Vector
Machine na tarefa de classificação de fácies em um campo de hidrocarbonetos brasileiro.
Diversos trabalhos são publicados com o uso da SVM em muitos reservatórios no mundo
inteiro, mostrando os ganhos que o avanço das ferramentas de aprendizagem de máquina pode
trazer para a modelagem de dados na geologia. Os resultados obtidos são considerados
satisfatórios, como esperado a SVM se sobrepõe ao KNN no processo de classificação de
fácies, e apesar de sua operação ainda ser consideravelmente mais complexa, é uma técnica
que deve ser adotada para a melhor caracterização de fácies em modelagens futuras.
56
4. Considerações Finais
No texto aqui apresentado foi utilizado um algoritmo de classificação supervisionado para a
tarefa de caracterização de fácies. A pesquisa está focada na classificação dos dados extraídos
a partir dos poços perfilados. Os algoritmos de aprendizagem de máquina evoluem
constantemente e com o advento das ciências dos dados ficam em aberto algumas questões:
- O artigo deixa um vazio no conhecimento sobre o impacto de tal método na fase de
modelagem tridimensional do corpo geológico. Ainda não há ainda trabalhos publicados que
utilizam o SVM na correlação lateral dos dados de poço, de maneira similar à Geoestatística.
- A biblioteca do SVM utilizada contém algumas fórmulas de Kernel pré-carregadas para o
teste. O RBF que foi utilizado no trabalho, está entre elas, e de acordo com a literatura é o
melhor Kernel disponível, porém com um maior conhecimento em programação científica
seria possível explorar novas equações no Kernel do algoritmo.
- O SVM possui uma ferramenta que permite a estimativa de valores contínuos, uma fronteira
a se explorar para futuros trabalhos é a estimativa de valores petrofísicos, como porosidade,
permeabilidade, volume de argila entre outros.
- Este trabalho foca na classificação de fácies seguindo a classificação em Reservatório ou
Não-Reservatório. E no caso da fase de exploração, onde são gerados os dados primários, a
classificação faciológica usualmente é focada em descrever o sistema deposicional. Porém
não há trabalhos na literatura que apliquem o SVM na fase exploratória. Pode-se indicar
futuramente uma maneira de utilizar a SVM durante a exploração, momento este que possui
poucos dados disponíveis, elevados custos e riscos associados.
57
Bibliografia
Al-Anazi, A., and Gates, I. D. 2010.On the Capability of Support Vector Machines to Classify
Lithology from Well Logs. Natural Resources Research, Vol. 19, No. 2.
Asquith, G., Krygowski, D. 2004. Basic Well Log Analysis. 2nd. AAPG Methods in
Exploration Series 16. 229pp.
Awad,M., Khanna, R. 2015. Efficient Learning Machines: Theories, Concepts, and
Applications for Engineers and System Designers. ApresOpen. 248 pp
Chang, C., Lin, C., 2011. LIBSVM: a library for support vector machines. ACM Transactions
on Intelligent Systems and Technology vol.2 (27), pp.1–27. Software available from:
⟨http://www.csie.ntu.edu.tw/_cjlin/libsvm⟩.
Doveton, J. H.1994.Geologic Log Analysis Using Computer Methods: Computer Application
in Geology. American Association of Petroleum Geologists, Tulsa.
Guadagnini, A., Wohlberg ,B., Tartakovsky, D.M, Simoni,M. 2006. Support Vector Machines
for Delineation of Geologic Facies from Poorly Differentiated Data. XVI International
Conference on Computational Methods in Water Resources (CMWR-XVI).
Guardado, L.R., Gamboa, L.A.P. Luchesi, C.F. 1989. Petroleum geology of the Campos
Basin, a model for a producing Atlantic-type basin. In: Edwards, J. D., Santogrossi,
P.A. (eds.). Divergent/Passive Margin Basins. Am. Assoc. Pet. Geol. Mem., 48:3-7.
Herbrich, R. 2001. Learning Kernel Classifiers: Theory and Algorithms. MIT Press.
Lorena, A.C., Carvalho, A.C.P.L.F.2007. Uma Introdução às Support Vector Machines. RITA
, Volume XIV, Número 2. 25pp.
Milani, E.J., Thomaz Filho, A. 2000. Sedimentary basins of South America. In: Cordani,
U.G., Milani, E.J., Thomaz Filho, A., Campos,D.A. (eds.). Tectonic evolution of
South America, 31 International Geological Congress, 31, Rio de Janeiro, 389-449.
Mitchell. T.M. 1997. Machine Learning. McGraw-Hill Science. 432 pp.
Mohriak, W.U., 2003. Bacias Sedimentares da Margem Continental Brasileira. Geologia,
Tectônica e Recursos Minerais do Brasil. LA. Bizzi, C. 56. Schobbenhaus, R.M.
Vidotti e J. H. Gonçalves (Eds.) CPRM, Brasilia, 2003. Capitulo 3, p. 87-165.
Platt, John C., Nello Cristianini, and John Shawe-Taylor. 2000. Large Margin DAGs for
Multiclass Classification. In Advances in Neural Information Processing Systems 12
(NIPS ‘99), edited S. A. Solla, T. K. Leen, and K.-R. Müller, 547–553. Cambridge,
MA: Massachusetts Institute of Technology Press.
Raider, M. 2002. The geological interpretation of well logs. 2nd ed.Whittles Publishing.
58
Rangel, H. D.; Martins, F. A.; Esteves, F. R.; Feijó, F.J. 1994. Bacia de Campos. Boletim de
Geociências da Petrobras, Rio de Janeiro, v. 8, n. 1, p. 203-217, jan./mar.
Reading, H. G.1978. Sedimentary environments and facies: Elsevier, New York, 557 p.Serra
e abbott 1980: Serra, O. and Abbott, H.T. 1980. The Contribution of Logging Data to
Sedimentology and Stratigraphy. SPE-9270-PA.
Schaller, H. 1973. Estratigrafia da Bacia de Campos. In: CONGRESSO BRASILEIRO DE
GEOLOGIA, 27. Aracaju. Anais. São Paulo: Sociedade Brasileira de Geologia, 1973.
v. 3, p. 247-258.
Soares, J.A. 2005. Um fluxo de trabalho para modelagem de eletrofácies com entrelaçamento
de técnicas de classificação supervisionada e não-supervisionada. 9th International
Congress of the Brazilian Geophysical Society. Salvador, Brazil, 11-14 September.
Stinco, L.P. 2006. Core and log data integration the key for determining electrofacies.
SPWLA 47th Annual Logging Symposium, June 4-7.
Tartakovsky, D.M., Wohlberg ,B., Guadagnini, A. 2007. Nearest-neighbor classification for
facies delineation. Water Resources Research, Vol. 43.
Torres, A., Reverón, J. 2014. Integration of rock physics, seismic inversion, and support
vector machines for reservoir characterization in the Orinoco Oil Belt, Venezuela. The
Leading Edge (Special Edition: Latin America). p 774-782.
Vapnik, V.N., 1995. The Nature of Statistical Learning Theory. Springer-Verlag, New York,
NY, USA p.188.
Wang, G., Carr, T.R., Ju, Y., Li, C. 2014. Identifying organic-rich Marcellus Shale lithofacies
by support vector machine classifier in the Appalachian basin. Computers &
Geosciences. Vol. 64, pp 52–60.
Weston, J., and C. Watkins.1999. Support Vector Machines for Multi-Class Pattern
Recognition. In ESANN 1999: Proceedings of the 7th European Symposium on
Artificial Neural Networks, Bruges, Belgium, 21–23 April 1999, 219–224.
Winter, W. R.; Jahnert, R. J.; França, A. B. 2007. Bacia de Campos. Boletim de Geociências
da Petrobras, Rio de Janeiro, v. 15, p. 511-529.
Wohlberg ,B., Tartakovsky, D.M., Guadagnini, A. 2006. Subsurface Characterization with
Support Vector Machines. Ieee Transactions on Geoscience and Remote Sensing, Vol.
44, No. 1.
Wong, K.W., Ong, Y.S., Gedeon, T.D., Fung, C.C. 2005. Reservoir Characterization Using
Support Vector Machines. International Conference on Computational Intelligence for
Modelling, Control and Automation, and International Conference on Intelligent
Agents, Web Technologies and Internet Commerce. IEEE.
59
Zhao, T., Jayaram, V., Roy, A., Marfurt, K.J. 2015. A comparison of classification techniques
for seismic facies recognition. Interpretation: Special section: Pattern recognition and
machine learning. Society of Exploration Geophysicists and American Association of
Petroleum Geologists.