UC info
Data Mining I
Código: | CC4018 | Sigla: | CC4018 | Nível: | 400 |
Áreas Científicas | |
---|---|
Classificação | Área Científica |
OFICIAL | Ciência de Computadores |
Ocorrência: 2024/2025 - 1S
Ativa? | Sim |
Unidade Responsável: | Departamento de Ciência de Computadores |
Curso/CE Responsável: | Mestrado em Ciência de Computadores |
Ciclos de Estudo/Cursos
Sigla | Nº de Estudantes | Plano de Estudos | Anos Curriculares | Créditos UCN | Créditos ECTS | Horas de Contacto | Horas Totais |
---|---|---|---|---|---|---|---|
M:CC | 16 | PE a partir do ano letivo de 2014 | 1 | - | 6 | 42 | 162 |
M:ERSI | 4 | Plano Oficial a partir de 2021_M:ERSI | 1 | - | 6 | 42 | 162 |
Docência - Responsabilidades
Docente | Responsabilidade |
---|---|
Inês de Castro Dutra | Regente |
Docência - Horas
Teorico-Prática: | 3,23 |
Tipo | Docente | Turmas | Horas |
---|---|---|---|
Teorico-Prática | Totais | 1 | 3,231 |
Inês de Castro Dutra | 3,231 |
Língua de trabalho
Português - Suitable for English-speaking studentsObjetivos
Esta disciplina tem como objetivos principais fazer uma introdução às principais metodologias de data science, e também fornecer conhecimentos sobre programação e sistemas utilizados para o processamento e a análise de dados, tais como a linguagem Python.
Resultados de aprendizagem e competências
Pretende-se que os(as) alunos(as):
1. adquiram competências teóricas sobre metodologias de data science,
2. adquiram competências de desenvolvimento de software para tarefas de data science,
3. adquiram competências sobre a aplicação de metodologias de data science a problemas concretos.
Modo de trabalho
PresencialPrograma
1. Introdução à Ciência de Dados
• A metodologia CRISP-DM
• Dados, modelos e padrões
• Tarefas de data mining
2. Técnicas de Pré-processamento de dados
• Importação de dados
• Limpeza de dados
• Transformação e criação de novas variáveis
• Redução de dimensionalidade
3. Exploração e visualização de dados
• Sumariação de dados
• Visualização de dados
4. Modelos descritivos
• Métodos de agrupamento: métodos de partições, métodos hierárquicos
• Métodos de associação: regras
5. Modelos de previsão
• Problemas de classificação e regressão
• Métricas de avaliação
• Modelos matemáticos: regressão linear, Naive Bayes, k vizinhos mais próximos
• Árvores de decisão: árvores de classificação, árvores de regressão, métodos de pruning
• Redes neuronais e deep learning
• Máquinas de suporte vectorial
• Ensembles: Bagging, Random Forests, Boosting, AdaBoost, Xgboost
6. Metodologias de avaliação / comparação de modelos
• Medidas de avaliação
• Métodos de obtenção de estimativas
• Métodos de comparação / testes de significância
Bibliografia Obrigatória
Pang-Ning Tan; Introduction to data mining. ISBN: 9780321420527Charu C. Aggarwal; Data mining. ISBN: 978-3-319-14142-8
Jiawei Han; Data mining. ISBN: 978-0-12-381479-1
Bibliografia Complementar
Peter Flach; Machine learning. ISBN: 978-1-107-42222-3Andriy Burkov; The Hundred-Page Machine Learning Book, 2019. ISBN: 978-1999579500
Torgo Luís; Data mining with R. ISBN: 978-1-4398-1018-7
Métodos de ensino e atividades de aprendizagem
Nas aulas é usado o método expositivo, sendo apresentada uma visão organizada dos temas do programa, bem como exemplos práticos de aplicação dos mesmos.
Palavras Chave
Ciências Tecnológicas > Tecnologia > Tecnologia da informaçãoCiências Físicas > Ciência de computadores > Ferramentas de modelação
Ciências Físicas > Ciência de computadores > Informática > Informática aplicada
Ciências Tecnológicas > Tecnologia > Tecnologia de computadores > Tecnologia de software
Tipo de avaliação
Avaliação distribuída com exame finalComponentes de Avaliação
Designação | Peso (%) |
---|---|
Trabalho prático ou de projeto | 20,00 |
Exame | 70,00 |
Apresentação/discussão de um trabalho científico | 10,00 |
Total: | 100,00 |
Componentes de Ocupação
Designação | Tempo (Horas) |
---|---|
Elaboração de projeto | 35,00 |
Estudo autónomo | 84,00 |
Apresentação/discussão de um trabalho científico | 1,00 |
Frequência das aulas | 42,00 |
Total: | 162,00 |
Obtenção de frequência
Fórmula de cálculo da classificação final
A avaliação da disciplina é distribuída, composta por dois testes durante o semestre, um exame final e um trabalho prático no final do semestre.
O cálculo da classificação final é feito pela média pesada das notas práticas e teóricas através da fórmula:
NF = 0.7 * max((T1+T2),Ex) + 0.2 * TP + 0.1 * AP
onde:
T1 é a nota do Teste 1,
T2 é a nota do Teste 2,
Ex é a nota do Exame Final,
TP é a nota do Trabalho Prático e
AP é a nota da apresentação.
Não obterão aprovação, os alunos que não obtiverem um mínimo de 30% em cada componente, isto é, 6 valores em 20.
As notas dos testes + trabalho podem contar para obter aprovação. Neste caso, o exame final (época normal ou de recurso) poderá ser usado para mehoria da nota. Quem não obtiver nota positiva somente com os testes e trabalho, terá a oportunidade de conseguir aprovação numa das duas épocas de exame.
Provas e trabalhos especiais
Os testes terão lugar, a meio do semestre, e no final do semestre, durante as aulas.
O trabalho prático será anunciado no início do semestre e deverá ser entregue no final do mesmo.
Avaliação especial (TE, DA, ...)
A avaliação da época especial será feita nos mesmos moldes da avaliação contínua, com exame final. O estudante fará o exame valendo 70%. Poderá ou não apresentar um trabalho se quiser completar os restantes 30%. O trabalho deverá ser entregue e apresentado no período do calendário estipulado para a época especial.Melhoria de classificação
A avaliação do trabalhos prático não é passível de melhoria.
O estudante pode melhorar a nota teórica submetendo-se a uma das épocas de exame (normal ou recurso).
Observações
Todo o material disponibilizado (slides, livros recomendados, etc.) é na língua Inglesa e no caso de existirem estudantes estrangeiros, as próprias aulas serão em Inglês.O material da disciplina será disponibilizado na página correspondente no Moodle.