UNIVERSIDAD DE PUERTO RICO

RECINTO UNIVERSITARIO DE MAYAGUEZ

DEPARTAMENTO DE MATEMATICAS

COMP 6839:Teoria de Probabilidades y Estadistica para Data Mining

 

1.      Información General

Número de créditos: 3

Instructor: Dr. Edgar Acuña

Oficina: M314

Extensión: 3287

Horas de Oficina: M,W y J de 8 a 10.00am

E-mail: edgar@math.uprm.edu , edgar@cs.uprm.edu , eacunaf@yahoo.com , eacuna@uprm.edu

Ayudante: Roxana Aparicio

2. Descripción: En este curso se cubriran algunos temas de probabilidades y estadistica que son necesarios para decubrimiento de conocimiento en grandes bases de datos.  El curso hace mas énfasis en teoría sin embargo también se requerirá la programación  de algunos algoritmos. Los lenguajes a ser considerados serán: R/Matlab/c++/Weka.

3. Pre-requisito: Algún conocimiento de Probabilidades, Estadística y de programacion.

4. Fechas límites para trabajos y asignaciones:

Hay que entregar los trabajos una semana después de ser asignados y los proyectos en la fecha señalada para recibir crédito completo.

 5. Política Universitaria:

5a. Asistencia a clases: La asistencia a clases es compulsoria. La Universidad de Puerto Rico, Recinto de Mayagüez se reserva el derecho de tratar en cualquier momento con casos individuales de falta de asistencia. Se espera que los profesores tomen nota de la asistencia de sus estudiantes. La ausencia frecuentes puede afectar la calificación final e incluso puede resultar en la pérdida total de créditos. Es responsabilidad del estudiante el hacer arreglos para reponer trabajos atrasados por razón de alguna ausencia legítima a clases. (Boletín Informativo de Estudios Subgraduados, página 39, 1995-96)

5b. Ausencia a Exámenes: Se requiere que los estudiantes asistan a todos sus exámenes. Si un estudiante está ausente de un examen por razón justificada aceptable al profesor, entonces se le dará un examen especial de reposición. De lo contrario, el estudiante recibirá una calificación de cero o "F" en el examen que no tomó. (Boletín Informativo de Estudios Subgraduados, página 39, 1995-96)

5c. Exámenes finales: Se tienen que dar exámenes finales escritos en todos los cursos a menos que, en opinión del Decano, la naturaleza del curso lo haga impráctico. Los exámenes finales que estén señalados a darse por acuerdos tienen que darse durante el período de exámenes finales según aparezca en el Calendario Académico incluyendo sábados. (Boletín Informativo de Estudios Subgraduados, página 39, 1995-96)

5d. Bajas parciales: Un estudiante se puede dar de baja de cualquier curso individual en cualquier momento durante el semestre pero antes de la fecha final de bajas establecida en el Calendario Académico de la Universidad. (Boletín Informativo de Estudios Subgraduados, página 39, 1995-96) 

5e. Bajas Totales: Un estudiante se puede dar de baja total de la Universidad de Puerto Rico, Recinto de Mayagüez en cualquier momento hasta el último día de clases. (Boletín Informativo de Estudios Subgraduados, página 39, 1995-96)

5f. Impedimentos: Todo acomodo razonable de acuerdo a la Ley de Americanos con Impedimentos (ADA) serán coordinados con el Decano de Estudiantes y de acuerdo a las necesidades particulares del estudiante.

5g. Etica: Cualquier fraude académico está sujeto a sanciones disciplinarias descritas en los artículos 14 y 16 del Reglamento General de Estudiantes, según revisado y contenido en la Certificación 018-1997-98 de la Junta de Síndicos. El profesor seguirá las normas establecidas en los artículos 1-5 del Reglamento.

6. Textos:

Este curso estará basado en la notas del profesor Andrew Moore,del Departamento de Ciencias de Computacion de Carnegie Mellon University.

7-Contenido del curso:

1-Nociones de probabilidades  (6 horas)

2-Estimacion de funcion de densidad (4 horas)

3-Revisión  de Estimación por máxima verosimilitud (3 horas)

4. Entropía y Ganancia de Información  (4 horas)

5-Clasificador Naive  Bayes (3 horas)

Examen Parcial (1.5 horas)

6-Clasificadores Bayesianos (5 horas)

7-Bayesian Networks (4 horas)

8-El algoritmo EM para mezclas Gaussianas y Bayesian networks(5 horas)

9-Arboles de Decisión (4.5 horas)

10-Support vector machines (5 horas)

 

 

8-Evaluación:

1-Un examen Parcial en clase(30%)

2-Cuatro tareas (40%)

3-Una presentación Oral y reporte escrito (30%).