(PPTX) Regex - DOCUMENT.ONL

Regexa.k.a. RegExp

Verifica se número é primo

^1?$|^(11+?)\1+$

Verifica se número é primo

Isso não é uma expressão regular

^1?$|^(11+?)\1+$

Verifica se número é primo

Isso não é uma expressão regular(mas é aceito por quase todas bibliotecas

regex)

^1?$|^(11+?)\1+$

Verifica se número é primo

Isso não é uma expressão regular(mas é aceito por quase todas bibliotecas

regex)É difícil de entender

^1?$|^(11+?)\1+$

Verifica se número é primo

Isso não é uma expressão regular(mas é aceito por quase todas bibliotecas

regex)É difícil de entenderÉ fácil de errar

^1?$|^(11+?)\1+$

Verifica se número é primo

Isso não é uma expressão regular(mas é aceito por quase todas bibliotecas

regex)É difícil de entenderÉ fácil de errarÉ extremamente compacta

^1?$|^(11+?)\1+$

Verifica se número é primo

Isso não é uma expressão regular(mas é aceito por quase todas bibliotecas

regex)É difícil de entenderÉ fácil de errarÉ extremamente compactaNa verdade, checa se número não é primo

^1?$|^(11+?)\1+$

HistóricoConceito matemático introduzido na década de

50SNOBOL implementou pattern matching, mas

não expressões regularesKen Thompson introduzir expressões regulares

no editor QED, depois ed (Unix), e finalmente grep (abreviação do comando g/re/p do ed)

Padronizado pelo POSIXRepadronizado pelo Perl e Tcl (baseado em

biblioteca de Henry Spencer)Biblioteca PCRE (Philip Hazel)

Para que servem Regex?Verificar se um determinado padrão ocorre em

um textoVerificar se um determinado padrão não ocorre

em um textoLocalizar as ocorrências de um padrãoObter as ocorrências de um padrãoObter partes das ocorrências de um padrãoSubstituir ocorrências de um padrão por outro

texto, possivelmente usando partes da ocorrênciaDividir texto de acordo com um padrão

ExemplosAcha linhas com configurações:

grep "^ *[^# ]" php.iniAcha linhas que não estejam em branco:

grep –v "^$" .profile Índice de todas palavras em um texto:

[w.start() for w in re.finditer(r'\b\w', text)]Todas palavras de um texto:

@words = $text =~ /\w+/Dia, mês e ano de uma data:

($d, $m, $a) = text =~ /(\d\d)/(\d\d)/(\d{4})/Remove espaços do fim da linha:

sed -p'' -e 's/ *$//‘Divide linha em palavras e símbolos

text split """\b\s*|\s*\b"""

Expressões RegularesDescrevem Linguagens RegularesMesmo poder expressivo de Gramáticas

RegularesMesmas linguagens aceitas por Autômatos

Finitos DeterminísticosLivres de ContextoExemplo de linguagem não regular:

Número de b depende do número de a: anbn

Autômatos Finitos Determinísticos

0 1

\n

[^\n]

\n

[^\n]

Texto termina em \n?

Regex:.*\n$

Dois switches e um loop// Texto termina em \n?int state = 0;while(ch = getc()) { switch(state) { case 0: switch(ch) { case '\n': state = 1; break; default : break; } case 1: switch(ch) { case '\n': break; default : state = 0; break; } }}return state == 1;

Estrutura de uma RegexComposta de:

Um caracter (literal)Ou nada (string vazia)Ou uma composição de uma ou duas outras

regex

Operações de ComposiçãoDa maior precedência para a menor:

Repetição (kleene star): r*Concatenação: r1 r2

Alternativa: r1 | r2

Todas expressões regulares podem ser compostas a partir desses elementos

Muitas regex não podem ser compostas só com esses elementos

Tipos de RegexPOSIX Basic Regex (grep)POSIX Extended Regex (grep –E)Preg (Perl regex)PCRE (Perl Compatible(*) Regular

Expression)(*) Só que não

Etc... (cada biblioteca tem suas particularidades)

Regex Compilado vs JITCompilar um regex transforma a string

representando o regex em uma estrutura de dados otimizada para seu usoDisponível com Java, Perl, Python, Ruby

Regex Just In Time recompilam a expressão todas as vezes, para diminuir a cerimônia de seu usoDisponível com Java(*), Perl, PHP, Python, Ruby

(*) Somente para alguns usos

Outras operações de ComposiçãoQualquer caracter: .Qualquer um de um conjunto: [r1r2-r3]

Qualquer um não em um conjunto: [^r1r2]Classes de caracteres: [[:alpha:]], \w,Negação de classes: [^[:alpha:]], \WClasses POSIX: \p{Upper}, \P{InGreek}Zero ou um: r?Um ou mais: r+Entre n e m repetições: r{n, m}

Classes úteis[:alnum:]\w – inclui sublinhado (não palavras como \W)[:alpha:][:blank:][:cntrl:][:digit] ou \d (não dígito como \D)[:graph:][:lower:][:print:][:punct:][:space:] ou \s (não espaço como \S)[:upper:][:xdigit:]

GreedinessAs expressões r* e r+ retornam a maior

quantidade possível de caracteres que satisfaçam a expressão

Elas são greedy – gananciosasAlgumas bibliotecas suportam relutância:

r*? e r+?Elas retornam a menor quantidade

possível de caracteres que satisfaçam a expressão

Em alguns casos, a performance das repetições relutantes é muito superior

Relembrando PrecedênciaLembrando a precedência: repetição,

concatenação e alternativaTextos que satisfazem a expressão ab*|cd:

aababbcd

Os textos abab e acd não satisfazem a expressão

AgrupamentoPOSIX Basic Regular Expression: $ e $Todo o resto: ( e )Grupos também capturam o conteúdo, e

podem ser extraídos separadamente ou usados na substituição

Sem captura(*): (?:r)(*) as partes de uma ocorrência

correspondentes a expressões dentro de parênteses são retornadas como grupos ou subgrupos

ContextoEu falei que expressões regulares são linguagens

sem contextoMas esses “contextos” são válidos, pois podem ser

representados como estadosÂncoras:

Início do texto ou de uma linha: ^Fim do texto ou de uma linha: $

Borda de palavras: \b ou \< e \> (POSIX BRE)Look-ahead: (?=r)Look-behind: (?<=r)Negações: (?!r) e (?<!r)

Contexto de verdadeNão suportados por expressões regularesSuportados por quase todas bibliotecas regexPodem levar a tempos exponenciaisBack references: \n (para n de 1 a 9)

Alterações de ComportamentoFormato:

Ativa/Desativa: (?idmsux-idmsux)Somente para o subgrupo: (?idmsux-idmsux:r)

Flags:Case insensitive: iUnix new lines: dMultiline: m“.” pega new lines: sUnicode-aware: uComentários: x

Escaping (citando caracteres)PCRE:

\ antes de símbolos cita o símbolo\ antes de letras tem tem significado especial

POSIX Basic RE: uma zona – consulte o manual

Citando um grupo de caracters:\Qgrupo de caracteres\E