7
Sobre Mim Bacharel em Ciência da Computação Mestrado/Doutorado Cerca de 20 anos de experiência de mercado. Java SE/EE Web (PHP/ASP.NET/Ruby) Cloud Primeiro projeto com Redes Neurais em 2012 2013: Zunnit Technologies Desafio inicial: performance e confiabilidade. Desafios de Ciência de Dados: - Sistemas de Recomendação - Aprendizado de Máquina corporativo. 2016: Zunnit -> Kunumi Estruturação da equipe técnica Dezenas de projetos utilizando Aprendizado de Máquina em clientes corporativos. Alguns projetos acadêmicos e "cultural landmarks" RZO e Sabotage - NEURAL (Audio Oficial) Part. Negra Li e Familia Sabotage - Prod. DJCIA Engenharia de Software Motivação "Software is eating the world" Criar e manter sistemas de software complexos que geram valor. Foco Estruturação Gerenciamento da Complexidade Colaboração Agilidade Qualidade Para o Cientista de Dados Academia: Pesquise, Publique, Próximo. Resultado: nenhum incentivo em relação à qualidade de código Exemplo karpathy/char-rnn Endereçando deficiências Estruturação de Código Testes Unitários / Funcionais Metodologias Ágeis Versionamento de Código Algoritmos e Estruturas de Dados (além de Ciência de Dados) Trabalho em Equipe Ciência de Dados Motivação Tomar decisões embasadas em dados Aprender soluções a partir de dados Foco Experimentação Desenvolvimento e Adaptação de algoritmos Encontrar Explicações Apresentação e Argumentação "Machine Learning is eating software" Para o Engenheiro de Software Ciência de Dados começa com "Ciência" Mais do que fazer perguntas, a Ciência consiste em aplicar o Método Científico para encontrar respostas. Vieses Cognitivos Viés de Confirmação "Tendência do observador de procurar ou interpretar informações de forma que estas confirmem pré-concepções próprias." Ancoragem " Tendência a confiar demais, ou 'ancorar-se', em uma referência do passado ou em uma parte da informação na hora de tomar decisões." Viés de disponibilidade "Tendência no qual as pessoas predizem a frequência de um evento, baseando-se no quão fácil conseguem lembrar de um exemplo." Muitos outros List of cognitive biases - Wikipedia O grande desafio: Estatística e Probabilidades Probability Rules Bayes Theorem The Monty Hall Problem - Explained Moral: estatística é contra-intuitiva!!! Jake Vanderplas - Statistics for Hackers - PyCon 2016.mp4 Seven Essential Machine Learning Equations: A Cribsheet (Really, the Précis) Algoritmos específicos para Ciência de Dados Lembre-se: não reinvente a roda!!!! Tópicos Algoritmos Supervisionados Linear Regression KNN Decision Trees Gradient Boosted Trees Neural Networks Métricas de avaliação Accuracy metric Precision / Recall Area under the ROC curve Algoritmos não-supervisionados (Clustering) K-Means DBScan Expectation Maximization Cursos Machine Learning | Coursera Deep Learning Specialization - deeplearning.ai Apenas ler sobre estes algoritmos não vai te dar a intuição sobre como utiliza-los. Você precisa de prática. Exercícios práticos dos cursos online Kaggle (mas não entre no fetiche das métricas) Ética! Aprendizado de Máquina pode amplificar vieses sociais (ou criar novos vieses indesejaveis) É possível ainda violar a privacidade de indivíduos, seja de forma proposital ou de forma acidental (vazamento) Áreas de estudo Anonimização Fairness Social Biases Keynote - Some Healthy Principles About Ethics & Bias In AI | Rachel Thomas @ PyBay2018 De Engenheiro de Software a Cientista de Dados (e vice-versa) http://bit.ly/2H8WPmz

De Engenheiro de Software a Cientista de Dados (e - …...1.4.4.1. Aprendizado de Máquina pode amplificar vieses sociais (ou criar novos vieses indesejaveis) 1.4.4.2. É possível

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

SobreMim

BacharelemCiênciadaComputação

Mestrado/Doutorado

Cercade20anosdeexperiênciademercado.

JavaSE/EE

Web(PHP/ASP.NET/Ruby)

Cloud

PrimeiroprojetocomRedesNeuraisem2012

2013:ZunnitTechnologies

Desafioinicial:performanceeconfiabilidade.

DesafiosdeCiênciadeDados:-SistemasdeRecomendação-AprendizadodeMáquinacorporativo.

2016:Zunnit->Kunumi

Estruturaçãodaequipetécnica

DezenasdeprojetosutilizandoAprendizadodeMáquinaemclientescorporativos.

Algunsprojetosacadêmicose"culturallandmarks"

RZOeSabotage-NEURAL(AudioOficial)Part.NegraLieFamiliaSabotage-Prod.DJCIA

EngenhariadeSoftware

Motivação

"Softwareiseatingtheworld"

Criaremantersistemasdesoftwarecomplexosquegeramvalor.

Foco

Estruturação

GerenciamentodaComplexidade

Colaboração

Agilidade

Qualidade

ParaoCientistadeDados

Academia:Pesquise,Publique,Próximo.Resultado:nenhumincentivoemrelaçãoàqualidadedecódigo

Exemplokarpathy/char-rnn

Endereçandodeficiências

EstruturaçãodeCódigo

TestesUnitários/Funcionais

MetodologiasÁgeis

VersionamentodeCódigo

AlgoritmoseEstruturasdeDados(alémdeCiênciadeDados)

TrabalhoemEquipe

CiênciadeDados

MotivaçãoTomardecisõesembasadasemdados

Aprendersoluçõesapartirdedados

Foco

Experimentação

DesenvolvimentoeAdaptaçãodealgoritmos

EncontrarExplicações

ApresentaçãoeArgumentação

"MachineLearningiseatingsoftware"

ParaoEngenheirodeSoftware

CiênciadeDadoscomeçacom"Ciência"

Maisdoquefazerperguntas,aCiênciaconsisteemaplicaroMétodoCientíficoparaencontrarrespostas.

ViesesCognitivos

ViésdeConfirmação"Tendênciadoobservadordeprocurarouinterpretarinformaçõesdeformaqueestasconfirmempré-concepçõespróprias."

Ancoragem"Tendênciaaconfiardemais,ou'ancorar-se',emumareferênciadopassadoouemumapartedainformaçãonahoradetomardecisões."

Viésdedisponibilidade"Tendêncianoqualaspessoaspredizemafrequênciadeumevento,baseando-senoquãofácilconseguemlembrardeumexemplo."

Muitosoutros Listofcognitivebiases-Wikipedia

Ograndedesafio:EstatísticaeProbabilidades

ProbabilityRules

BayesTheorem

TheMontyHallProblem-Explained

Moral:estatísticaécontra-intuitiva!!!

JakeVanderplas-StatisticsforHackers-PyCon2016.mp4

SevenEssentialMachineLearningEquations:ACribsheet(Really,thePrécis)

AlgoritmosespecíficosparaCiênciadeDados

Lembre-se:nãoreinventearoda!!!!

Tópicos

AlgoritmosSupervisionados

LinearRegression

KNN

DecisionTrees

GradientBoostedTrees

NeuralNetworks

Métricasdeavaliação

Accuracymetric

Precision/Recall

AreaundertheROCcurve

Algoritmosnão-supervisionados(Clustering)

K-Means

DBScan

ExpectationMaximization

CursosMachineLearning|Coursera

DeepLearningSpecialization-deeplearning.ai

Apenaslersobreestesalgoritmosnãovaitedaraintuiçãosobrecomoutiliza-los.Vocêprecisadeprática.

Exercíciospráticosdoscursosonline

Kaggle(masnãoentrenofetichedasmétricas)

Ética!

AprendizadodeMáquinapodeamplificarviesessociais(oucriarnovosviesesindesejaveis)

Épossívelaindaviolaraprivacidadedeindivíduos,sejadeformapropositaloudeformaacidental(vazamento)

Áreasdeestudo

Anonimização

Fairness

SocialBiases

Keynote-SomeHealthyPrinciplesAboutEthics&BiasInAI|RachelThomas@PyBay2018

DeEngenheirodeSoftwareaCientistadeDados(e

vice-versa)http://bit.ly/2H8WPmz

DeEngenheirodeSoftwareaCientistadeDados(evice-versa)http://bit.ly/2H8WPmz1.CiênciadeDados

1.1.Motivação

1.1.1.Tomardecisõesembasadasemdados

1.1.2.Aprendersoluçõesapartirdedados1.2.Foco

1.2.1.Experimentação

1.2.2.DesenvolvimentoeAdaptaçãodealgoritmos

1.2.3.EncontrarExplicações

1.2.4.ApresentaçãoeArgumentação1.3."MachineLearningiseatingsoftware"1.4.ParaoEngenheirodeSoftware

1.4.1.CiênciadeDadoscomeçacom"Ciência"

1.4.1.1.Maisdoquefazerperguntas,aCiênciaconsisteemaplicaroMétodoCientíficoparaencontrarrespostas.

1.4.1.2.ViesesCognitivos

1.4.1.2.1.ViésdeConfirmação

1.4.1.2.1.1."Tendênciadoobservadordeprocurarouinterpretarinformaçõesdeformaqueestasconfirmempré-concepçõespróprias."

1.4.1.2.2.Ancoragem

1.4.1.2.2.1."Tendênciaaconfiardemais,ou'ancorar-se',emumareferênciadopassadoouemumapartedainformaçãonahoradetomardecisões."

1.4.1.2.3.Viésdedisponibilidade

1.4.1.2.3.1."Tendêncianoqualaspessoaspredizemafrequênciadeumevento,baseando-senoquãofácilconseguemlembrardeumexemplo."

1.4.1.2.4.Muitosoutros

1.4.1.2.4.1.Listofcognitivebiases-Wikipedia

Link:https://en.wikipedia.org/wiki/List_of_cognitive_biases

1.4.2.Ograndedesafio:EstatísticaeProbabilidades

1.4.2.1.ProbabilityRules

1.4.2.2.BayesTheorem

1.4.2.3.TheMontyHallProblem-Explained

Link:https://www.youtube.com/watch?v=9vRUxbzJZ9Y

Video:http://www.youtube.com/embed/9vRUxbzJZ9Y?start=0

1.4.2.4.Moral:estatísticaécontra-intuitiva!!!

1.4.2.5.JakeVanderplas-StatisticsforHackers-PyCon2016.mp4

Link:https://www.youtube.com/watch?v=Iq9DzN6mvYA&feature=youtu.be

Video:http://www.youtube.com/embed/Iq9DzN6mvYA?start=0

1.4.2.6.SevenEssentialMachineLearningEquations:ACribsheet(Really,thePrécis)

Link:https://www.aliannajmaren.com/2017/09/09/seven-essential-machine-learning-equations-a-cribsheet/

1.4.3.AlgoritmosespecíficosparaCiênciadeDados

1.4.3.1.Lembre-se:nãoreinventearoda!!!!

1.4.3.2.Tópicos

1.4.3.2.1.AlgoritmosSupervisionados

1.4.3.2.1.1.LinearRegression

1.4.3.2.1.2.KNN

1.4.3.2.1.3.DecisionTrees

1.4.3.2.1.4.GradientBoostedTrees

1.4.3.2.1.5.NeuralNetworks

1.4.3.2.2.Métricasdeavaliação

1.4.3.2.2.1.Accuracymetric

1.4.3.2.2.2.Precision/Recall

1.4.3.2.2.3.AreaundertheROCcurve

1.4.3.2.3.Algoritmosnão-supervisionados(Clustering)

1.4.3.2.3.1.K-Means

1.4.3.2.3.2.DBScan

1.4.3.2.3.3.ExpectationMaximization

1.4.3.3.Cursos

1.4.3.3.1.MachineLearning|Coursera

Link:https://www.coursera.org/learn/machine-learning

1.4.3.3.2.DeepLearningSpecialization-deeplearning.ai

Link:https://www.deeplearning.ai/deep-learning-specialization/

1.4.3.4.Apenaslersobreestesalgoritmosnãovaitedaraintuiçãosobrecomoutiliza-los.Vocêprecisadeprática.

1.4.3.4.1.Exercíciospráticosdoscursosonline

1.4.3.4.2.Kaggle(masnãoentrenofetichedasmétricas)

1.4.4.Ética!

1.4.4.1.AprendizadodeMáquinapodeamplificarviesessociais(oucriarnovosviesesindesejaveis)

1.4.4.2.Épossívelaindaviolaraprivacidadedeindivíduos,sejadeformapropositaloudeformaacidental(vazamento)

1.4.4.3.Áreasdeestudo

1.4.4.3.1.Anonimização

1.4.4.3.2.Fairness

1.4.4.3.3.SocialBiases

1.4.4.4.Keynote-SomeHealthyPrinciplesAboutEthics&BiasInAI|RachelThomas@PyBay2018

Link:https://www.youtube.com/watch?v=WC1kPtG8Iz8

Video:http://www.youtube.com/embed/WC1kPtG8Iz8?start=0

2.EngenhariadeSoftware2.1.Motivação

2.1.1."Softwareiseatingtheworld"

2.1.2.Criaremantersistemasdesoftwarecomplexosquegeramvalor.

2.2.Foco

2.2.1.Estruturação

2.2.2.GerenciamentodaComplexidade

2.2.3.Colaboração

2.2.4.Agilidade

2.2.5.Qualidade2.3.ParaoCientistadeDados

2.3.1.Academia:Pesquise,Publique,Próximo.

2.3.1.1.Resultado:nenhumincentivoemrelaçãoàqualidadedecódigo

2.3.1.2.Exemplo

2.3.1.2.1.karpathy/char-rnn

Link:https://github.com/karpathy/char-rnn/blob/master/train.lua

2.3.2.Endereçandodeficiências

2.3.2.1.EstruturaçãodeCódigo

2.3.2.2.TestesUnitários/Funcionais

2.3.2.3.MetodologiasÁgeis

2.3.2.4.VersionamentodeCódigo

2.3.2.5.AlgoritmoseEstruturasdeDados(alémdeCiênciadeDados)

2.3.2.6.TrabalhoemEquipe

3.SobreMim3.1.BacharelemCiênciadaComputação3.2.Mestrado/Doutorado3.3.Cercade20anosdeexperiênciademercado.

3.3.1.JavaSE/EE

3.3.2.Web(PHP/ASP.NET/Ruby)

3.3.3.Cloud3.4.PrimeiroprojetocomRedesNeuraisem20123.5.2013:ZunnitTechnologies

3.5.1.Desafioinicial:performanceeconfiabilidade.

3.5.2.DesafiosdeCiênciadeDados:-SistemasdeRecomendação-AprendizadodeMáquinacorporativo.

3.6.2016:Zunnit->Kunumi

3.6.1.Estruturaçãodaequipetécnica

3.6.2.DezenasdeprojetosutilizandoAprendizadodeMáquinaem

clientescorporativos.

3.6.3.Algunsprojetosacadêmicose"culturallandmarks"

3.6.3.1.RZOeSabotage-NEURAL(AudioOficial)Part.NegraLieFamiliaSabotage-Prod.DJCIA

Link:https://www.youtube.com/watch?v=edhZKOO2Dhg&feature=youtu.be&t=71

Video:http://www.youtube.com/embed/edhZKOO2Dhg?start=71