INTRODUÇÃOAlexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
Ciência da Computação
!!
Matemática e Estatística
!!
!!!
Domínio de Aplicação
Ciência dos
Dados
Finanças
EconomiaEngenharia
Direito
Medicina
Ciências Sociais
Ciências
O QUE É CIÊNCIA DOS DADOS?
Coletar, transformar e
armazenar dados
Mágica 01: gerar
informação
Mágica 02: apresentar a informação
Mágica 03: gerar
conhecimento
Alto BaixoMassageamento de Números (máquina)
AltoBaixoIntrepretação (humano)
O QUE É CIÊNCIA DOS DADOS?
Coletar, transformar e
armazenar dados
Mágica 01: gerar
informação
Mágica 02: apresentar a informação
Mágica 03: gerar
conhecimento
Computação Comunicação / Visualização
Matemática / Estatística
Conhecimento sobre o domínio
CIÊNCIA DA COMPUTAÇÃO VS CIÊNCIA DOS DADOS
Ciência da Computação
Entrada X
Função FSaída Y = F(X)
Ciência dos DadosEntrada X
Saída YModelar f tal que
Y = f(X) + ɛ
–Vasant Dhar
“Ciência dos Dados é a ciência que estuda formas de extrair conhecimento generalizável a partir de dados.”
Leitura recomendada: !Data Science and Prediction, Communications of the ACM, Vol. 56 No. 12, Pages 64-73
–Autor desconhecido
“Qualquer área que se auto-denomina Ciência não pode ser Ciência.”
Leitura recomendada: !Is computer science science?, Communications of the ACM Vol. 48 No. 4, Pages 27-31 Where is the Science in Computer Science?, Communications of the ACM, Vol. 55 No. 10, Page 5 The Science in Computer Science, Communications of the ACM, Vol. 56 No. 5, Pages 35-38
CIÊNCIA É EXPLORAR E EXPLICAR O DESCONHECIDO!
• No caso da Ciência dos Dados, isso significa aprender a fazer as perguntas corretas e a extrair dos dados as respostas adequadas para tais perguntas.
O QUE VEREMOS NESTE CURSO
• Fundamentação teórica (Tipos de dados e como os dados são geralmente agrupados)
• Técnicas para coleta de dados (Formulários, projeto de experimentos e dados públicos)
• Técnicas para análise de dados (Sumarização estatística, correlação, regressão linear e agrupamento)
• Princípios de visualização de dados
O QUE NÃO VEREMOS NESTE CURSO
• Técnicas avançadas de aprendizagem de máquina
• Técnicas avançadas de análise e modelagem estatística
FORMA DE AVALIAÇÃO• Desenvolvimento de um projeto (grupos de até 2 alunos)
completo de análise e visualização de dados
• 3 etapas:
• Plano de pesquisa e planejamento de releases (35%)
• Entrega da 1a release (25%)
• Entrega da 2a release (40%)
TODOS OS PROJETOS DEVERÃO
• Oferecer uma interface web
• Realizar a coleta, limpeza e análise dos dados de forma (semi-)automática
• Exibir de forma interativa e geo-referenciada os resultados obtidos
• Considerar a evolução temporal dos resultados
FONTES DE DADOS
• Só poderão ser utilizadas fontes de dados listadas no site da disciplina
• Os alunos podem sugerir novas fontes de dados
REFERÊNCIAS• DATA + DESIGN: A simple introduction to preparing
and visualizing information. Trina Chiasson et al, 2014.
• Core Concepts in Data Analysis: Summarization, Correlation and Visualization. Boris Mirkin, 2011
• The Art of Computer Systems Performance Analysis: Techniques for Experimental Design, Measurement, Simulation, and Modeling. R. Jain, 1991.
Top Related