Nosso cenário mundial atual é caracterizado pela criação e crescimento de inúmeras bases de dados em velocidade exponencial. Para processar e obter informação útil a partir destes dados, é necessário automatizar diversas tarefas de coleta, processamento e análise de dados. A vasta área de Data Science (ou Ciência de Dados) refere-se a um conjunto de métodos com o objetivo apoiar decisões de negócio, a partir da coleta de dados de várias fontes para fins de análise, de forma sistematizada.
Neste livro, Tatiana Escovedo e Adriano Koshiyama focam no processo e nas técnicas relacionadas aos algoritmos preditivos mais comumente utilizados, mas mostrando também a importância da etapa de preparação dos dados brutos, limpeza e análise. Você vai aprender como utilizar Data Science para resolver problemas e agregar valor ao negócio, aprendendo com os dados. O trajeto inicia com uma introdução a conceitos de Estatística e Álgebra Linear, passando para o tema Pré-processamento de dados, uma etapa importantíssima para o entendimento do problema e preparação dos dados para a aplicação dos algoritmos de Machine Learning, chegando aos modelos de Classificação, Regressão, Associação e Agrupamento. Todos os conceitos teóricos apresentados serão complementados com exemplos práticos na linguagem R.
Tabella dei contenuti
1 Introdução a Data Science
1.1 Banco de dados ou bando de dados?
1.2 Aplicações de Data Science
1.3 Dados x informação x conhecimento
1.4 Esquema básico de um projeto de Data Science
2 Introdução a R
2.1 Comandos básicos
2.2 Criando estruturas de dados dentro do R
2.3 Trabalhando com data frames
3 Conceitos básicos de estatística e álgebra linear
3.1 A matemática do Data Science
3.2 Conceitos básicos de Estatística
3.3 Conceitos básicos de Álgebra Linear
4 Pré-processamento de dados
4.1 Importação de dados
4.2 Análise exploratória
4.3 Preparação e limpeza
5 Modelos de Classificação
5.1 Problemas de Classificação
5.2 Algoritmos
6 Práticas de Classificação
6.1 Árvores de Classificação
6.2 KNN
6.3 Naïve Bayes (Bayes Ingênuo)
6.4 Support Vector Machine (SVM)
7 Modelos de Regressão
7.1 Problemas de Regressão
7.2 Algoritmos
8 Práticas de Regressão
8.1 Regressão Linear, Árvore de Regressão e KNN para Regressão
8.2 Regressão Logística
9 Modelos de Associação e Agrupamento
9.1 Problemas de Associação
9.2 Problemas de Agrupamento
10 Práticas de Associação e Agrupamento
10.1 Apriori
10.2 K-means
11 Conclusão
11.1 Sugestão de template básico para projeto de Ciência de Dados
11.2 Exemplo de um projeto completo usando o template
11.3 E agora?
Circa l’autore
Tatiana Escovedo é Cientista de Dados, Engenheira de Software e Agilista apaixonada por ensinar e aprender. Doutora em Inteligência Artifical, Mestre em Engenharia de Software, Bacharel em Informática, Professora da PUC-Rio e Analista de Sistemas da Petrobras. Nas horas vagas, é bailarina e pensa em maneiras de mudar o mundo.
Adriano Koshiyama é Doutorando em Ciência da Computação desde 2016 pela University College London. Passou por diversas empresas (Sieve/B2W Digital, Goldman Sachs International etc.) sempre trabalhando como Engenheiro de Machine Learning. Seus principais tópicos de pesquisa estão relacionados a Ciência de Dados, machine learning, métodos estatísticos, otimização e finanças.