Anar a: Buscar
FIB > Els estudis > Pàgines de les assignatures > Departament EIO > MD Castellano | English
PEI
MD
MIOPD
MIOAS
EST
SIM



Mineria de Dades ( MD )

Crèdits: Departament: Tipus: Requisits:
7.5 EIO
  • Optativa per l'EI
  • EST - Pre-requisit per l' EI
    M1 - Pre-requisit per l' EI
    M2 - Pre-requisit per l' EI
    PRAP - Pre-requisit per l' EI

    Professors

    Responsable:  Tomas Aluja Banet (alujaeio.upc.edu).
    Altres:(Informació no introduïda)

    Objectius Generals

    La filosofia de la Mineria de Dades és la conversió de dades en coneixement per a la presa de decisions. La Mineria de Dades constitueix la fase central del procés d¿extracció de coneixement de les bases de dades KDD (Knowledge Discovery in Databases), en aquest sentit la Mineria de Dades és un punt d¿encontre de diferents disciplines: l¿estadística, ¿machine learning¿, tècniques de bases de dades, sistemes per a la presa de decisions, que juntes, permeten afrontar problemes actuals de les organitzacions pel que fa al tractament de la informació
    L¿assignatura es divideix en tres parts, centrades en els temes de l¿associació, la classificació i la predicció, els quals configuren la gran majoria de problemes que tracta la Mineria de Dades. Com objectiu paral¿lel està la utilització d¿un entorn de programació lliure per la resolució dels problemes de mineria de dades, així com conèixer entorns professionals de Mineria de Dades

    Objectius Específics

    Coneixements

    1. La descripció estadística automàtica de bases de dades.
    2. Eines de reducció de la dimensionalitat i visualització multivariant.
    3. La generació de regles d¿associació.
    4. Eines per a la definició de ¿clusters¿.
    5. La generació de models estadístics de predicció.
    6. La generació de regles de classificació.
    7. El funcionament del perceptró multicapa.
    8. Utilització de l¿entorn R de programació lliure per Mineria de Dades.

    Habilitats

    1. Identificar problemes de Mineria de Dades en l¿entorn professional.
    2. Identificar les tècniques estadístiques i/o de intel¿ligència artificial més apropiades al problema a resoldre.
    3. Implementar algorismes senzills d¿aprenentatge.
    4. Utilitzar sistemes de Mineria de Dades per a la resolució de problemes reals.
    5. Avaluació de la qualitat del resultats obtinguts.
    6. Construir un sistema de Mineria de Dades, per integració de diferents eines d¿aprenentatge, enfocat a la presa de decisions.
    7. Conèixer els sistemes professionals més utilitzats de Mineria de Dades.

    Competències

    1. Treball en equip.
    2. Capacitat de resolució de problemes quantitatius en l¿entorn informàtic.
    3. Redacció d¿informes i defensa oral dels mateixos.
    4. Capacitat crítica de les eines i resultats utilitzats en mineria de dades.

    Continguts

    Hores estimades de:

    T P L Alt L Ext. Est A Ext.
    Teoria Problemes Laboratori Altres activitats Laboratori extern Estudi Altres hores fora d'horari fixat

    1. INTRODUCCIÓ A LA MINERIA DE DADES
      T     P     L    Alt  L Ext  Est  A Ext Total
     1,0   0   0   0   0   0   0   1,0 
    1. El procés d¿aprendre de les dades.
    2. Els problemes de la mineria de dades.
    3. Les tècniques de mineria de dades.
    4. Les dades. Tipus de dades. Preprocés

    2. DESCRIPCIÓ ESTADÍSTICA AUTOMÀTICA DE BASES DE DADES
      T     P     L    Alt  L Ext  Est  A Ext Total
     3,0   0   2,0   0   1,0   3,0   0   9,0 
    1. Concepte de prova de hipòtesis.
    2. Descripció d'una variable continua.
    3. Descripció d'una variable categòrica.
    • Laboratori:
      Realització de la pràctica 1.1. Descripció automàtica d'una Base de Dades
    • Activitats de laboratori addicionals:
      Realització de la pràctica 1.1. Descripció automàtica d'una Base de Dades

    3. VISUALITZACIÓ MULTIVARIANT DE LES DADES
      T     P     L    Alt  L Ext  Est  A Ext Total
     4,0   0   2,0   0   1,0   4,0   0   11,0 
    1. Anàlisi de Components Principals.
    2. Anàlisi de Correspondències Múltiples.
    3. Projecció de informació suplementària.
    • Laboratori:
      Pràctica 1.2. Visualització multivariant
    • Activitats de laboratori addicionals:
      Pràctica 1.2. Visualització multivariant

    4. GENERACIÓ DE REGLES D'ASSOCIACIÓ
      T     P     L    Alt  L Ext  Est  A Ext Total
     3,0   0   2,0   0   1,0   3,0   0   9,0 
    1. "Market basket analysis".
    2. Algoritmes de generació de regles.
    3. Exemple de regles d'associació.
    • Laboratori:
      Pràctica 1.3. Generació de regles d'associació.
    • Activitats de laboratori addicionals:
      Pràctica 2.1. Generació de regles d'associació.

    5. ALGORISMES GENÈTICS
      T     P     L    Alt  L Ext  Est  A Ext Total
     3,0   0   0   0   0   3,0   0   6,0 
    1. Algorismes genètics
    2. Aplicació dels algorismes genètics

    6. TÈCNIQUES DE CLUSTERING
      T     P     L    Alt  L Ext  Est  A Ext Total
     4,0   0   2,0   0   2,0   4,0   0   12,0 
    1. Mètodes de partició directa: Algoritme de "k-means".
    2. Algoritme k-means accelerat.
    3. Mètodes ascendents.
    4. Mètodes mixtes.
    5. Algorisme EM.
    6. Exemple de classificació.
    • Laboratori:
      Pràctica 2.2. Programació d'un algorisme de clustering
    • Activitats de laboratori addicionals:
      Pràctica 2.2. Programació d'un algorisme de clustering

    7. MODELS DE PREDICCIÓ DE VARIABLES CONTINUES
      T     P     L    Alt  L Ext  Est  A Ext Total
     4,0   0   2,0   0   1,0   4,0   0   11,0 
    1. Regressió lineal.
    2. Models aditius.
    3. Avaluació de la qualitat dels resultats.
    4. Regressió sobre components incorrelacionades.

    8. MODELS LINEALS GENERALITZATS
      T     P     L    Alt  L Ext  Est  A Ext Total
     2,0   0   2,0   0   1,0   2,0   0   7,0 
    1. Formulació dels MLG.
    2. Regressió logística.
    3. Exemple de regressió logística
    • Laboratori:
      Pràctica 3. Model de predicció per regressió logística.
    • Activitats de laboratori addicionals:
      Pràctica 3. Model de predicció per regressió logística.

    9. MÈTODES DE DISCRIMINACIÓ PARAMÈTRICS
      T     P     L    Alt  L Ext  Est  A Ext Total
     3,0   0   2,0   0   1,0   3,0   0   9,0 
    1. Discriminació lineal i quadràtica.
    2. Naive Bayes.
    3. Exemple de discriminació paramètrica.
    • Laboratori:
      Practica 3. Model de predicció per discriminació lineal.
    • Activitats de laboratori addicionals:
      Practica 3. Model de predicció per discriminació lineal.

    10. DISCRIMINACIÓ NO PARAMÈTRICA
      T     P     L    Alt  L Ext  Est  A Ext Total
     3,0   0   2,0   0   1,0   3,0   0   9,0 
    1. Discriminació local KNN.
    3. Exemple de discriminació local.
    • Laboratori:
      Pràctica 3. Models de predicció per KNN.
    • Activitats de laboratori addicionals:
      Pràctica 3. Models de predicció per KNN.

    11. ARBRES DE DECISIÓ
      T     P     L    Alt  L Ext  Est  A Ext Total
     3,0   0   2,0   0   2,0   3,0   0   10,0 
    1. CART.
    2. Altres arbres de decisió.
    3. Exemple d¿arbre de decisió.
    • Laboratori:
      Pràctica 3. Model de predicció amb arbres.
    • Activitats de laboratori addicionals:
      Pràctica 3. Model de predicció amb arbres.

    12. XARXES NEURONALS
      T     P     L    Alt  L Ext  Est  A Ext Total
     5,0   0   4,0   0   3,0   5,0   0   17,0 
    1. Formulació de les xarxes neuronals.
    2. Perceptró mono i multicapa.
    3. Exemple de xarxa neuronal.
    4. mapes de Kohonen
    • Laboratori:
      Pràctica 3. Model de predicció per xarxa neuronal.
    • Activitats de laboratori addicionals:
      Pràctica 3. Model de predicció per xarxa neuronal.

    13. MÈTODES FLEXIBLES DE DISCRIMINACIÓ
      T     P     L    Alt  L Ext  Est  A Ext Total
     3,0   0   0   0   0   3,0   0   6,0 
    1. Màquines de vectors suport.

    14. COMBINACIÓ DE MODELS I APLICACIONS
      T     P     L    Alt  L Ext  Est  A Ext Total
     1,0   0   0   0   0   1,0   0   2,0 
    1. Bagging i boosting.
    2. Web mining i text mining.

    15. UTILITZACIÓ D'UN SISTEMA INTEGRAT DE MINERIA DE DADES.
      T     P     L    Alt  L Ext  Est  A Ext Total
     0   0   2,0   0   0   0   0   2,0 
    1. R
    2. Weka
    • Laboratori:
      1. Introducció a R
      2. Introducció a Weka
    • Activitats de laboratori addicionals:
      L'aprenentatge de R es farà durant el curs, al llarg de les diferents sessions de laboratori

    16. SISTEMES PROFESSIONALS DE MINERIA DE DADES
      T     P     L    Alt  L Ext  Est  A Ext Total
     0   0   4,0   0   0   0   0   4,0 
    1. Spad
    2. Clementine
    3. Enterprise Miner
    • Laboratori:
      Presentació de SPAD, Clementine i Enterprise Miner.

    17. PRESENTACIÓ DE RESULTATS
      T     P     L    Alt  L Ext  Est  A Ext Total
     0   0   0   0   10,0   0   0   10,0 
    • Activitats de laboratori addicionals:
      Preparació de la presentació de la pràctica 3.


    - Total per tipus
      T     P     L    Alt  L Ext  Est  A Ext Total
     42,0   0   28,0   0   24,0   41,0   0   135,0 
    - Hores addicionals dedicades a l'avaluació:
    10,0
    - Total hores de treball per l'estudiant
    145,0

    Metodologia docent

    L¿aprenentatge es farà seguint la metodologia dels casos, a partir de l¿anàlisi de conjunts de dades complexes provinents de problemes reals. A partir d¿aquests problemes es desenvoluparan els coneixements científics necessaris en classe de teoria i la seva aplicació en les classe de laboratori, de tal manera que la programació i/o integració de funcions de mineria de dades reforçarà l¿assimilació dels diferents conceptes explicats. Per això, s¿utilitzarà el sistema R.
    R es un sistema obert de programació, de distribució lliure, per bé que també es podrà utilitzar el software disponible a la FIB: WEKA, Minitab, Saad, Excel, Matlab, ... Atesa la utilitat finalista de l¿assignatura, també es farà èmfasi en la utilització de sistemes professionals de mineria de dades, tals com SPAD, Clementine i Enterprise Miner.
    Pel que fa al desenvolupament de les classes teòriques, es farà seguint els documents pdf dipositats al Racó de l¿assignatura.

    Mètode d'avaluació

    L'avaluació de l'assignatura es realitzarà a partir de la nota obtinguda en les tres pràctiques realitzades durant el curs. La primera es basa en la resolució d¿un problema de preproces i d¿associació en una base de dades. Aquesta primera pràctica suposa la realització de dos subpràctiques, primer la descripció estadística automàtica d'una Base de Dades, i segón la visualització multivariant i també, per altra banda, la immersió en el sistema R.
    La segona pràctica comporta també 2 subpràctiques, la generació de regles d'associació i la definició i interpretaciód'una tipologia.
    La tercera pràctica és lliure sobre un problema de predicció, escollit per l¿alumne entre diferents alternatives. Aquesta última pràctica incorpora els elements de les anteriors i té com a finalitat la resolució d'un problema de predicció mitjançant diferents models i la seva comparació. Aquesta pràctica haurà de ser defensada públicament i l'estudiant haurà de respondre a més, les preguntes teòriques sobre els models i mètodes de l'assignatura, configurant així un examen final oral.
    Las pràctiques es ponderaran amb un 15%, 15% i 70% respectivament. Cada pràctica comportarà la redacció del corresponen informe i podràn ser efectuades conjuntament fins un màxim de dos alumnes.

    Bibliografía bàsica

    • Aluja T., Morineau A. Aprender de los datos: El Análisis de Componentes Principales, EUB, 1999.
    • Hand D.J. Construction and Assessment of Classification Rules. , John Wiley, 1997.
    • Hastie T., Tibshirani R., Friedman J. The elements of statistical learning. Data mining, inference and prediction. , Springer, 2001.
    • Hernández Orallo J., Ramírez Quintana M.J., Ferri Ramírez C Introducción a la Minería de Datos, Prentice Hall, 2004.
    • Witten I.H., Frank E Data Mining, . Morgan Kaufman Publishers, 2000.

    Bibliografía complementària

    • Berry M.J.A., Linoff G Data Mining Techniques, for marketing, sales and costumer support, John Wiley, 1997.
    • Hand D., Mannila H., Smyth P. Principles of Data Mining, The MIT Press, 2001.
    • Lebart, L. Morineau, A., Piron M Statistique exploratoire multidimensionelle, Dunod, 1995.
    • Peña, D. Regresión y Diseño de Experimentos, Alianza Editorial, 2002.
    • Ripley B.D. Pattern Recognition and Neural Networks. , Cambridge University Press, 1995.
    • Bishop C. M. Neural Networks for Pattern Recognition, Clarendon Press. Oxford, 1995.
    • Breiman, L., Friedman, J.H., Olshen, R.A., Stone, C.J. Classification and Regression Trees. , Wadsworth, 1984.
    • Cyos, K., Pedyioz, W. I Swiniaski, R. Data Mining. Methods for Knowledge Discovery, Kluwer, 1998.

    Enllaços web

    1. Obrir nova finestra http://www.cran.es.r-project.org
      Es la pàgina per baixar-se i informar-se sobre el sistema R.


    2. Obrir nova finestra http://www.kdnuggets.com/
      Informació general sobre software, cursos, actualitat de la mineria de dades als Estats Units.


    3. Obrir nova finestra http://www.cs.waikako.ac.nz
      Es la pàgina per baixar-se i informar-se sobre el sistema Weka.


    Capacitats prèvies

    L'assignatura es autocontinguda, però es bo que l'estudiant hagi adquirit una sèrie de conceptes, en particular els següents
    -  Concepte de mitjana, matriu de covariancies i correlacions.
    -  Concepte de prova de hipòtesis.
    -  Descomposició en valors singulars d'una matriu
    -  Programació d'algorismes.
    -  Regressió lineal múltiple

    Les assignatures que haurien de ser prerequisit són Estadística, Programació i Matemàtiques.



    versió per imprimir