El curso tiene una duración de 40 h, repartidos en 8 horas diarias durante 5 días. Está compuesto por 3 módulos teórico-prácticas.
1. Introducción a R, Rstudio y Bioconductor
- Obtención e instalación de R
- Uso de Bioconductor e Instalación de paquetes/librerías
- R como calculadora
- Conocer los tipos de objetos (vectores, matrices, data.frame, listas)
- Aprender a leer y escribir ficheros y objetos binarios
- Gráficos en R usando ggplot y ggplot2
- Obtención y edición de los bases de datos de trabajo: datos biológicos (cualitativos, cuantitativos) y datos ambientales (continuos, discretos, dependientes e independientes).
2. Diseño y análisis de ensayos transcriptómicos
- Transcriptómica: Flujo de trabajo de RNA-seq.
- Métodos de análisis de expresión diferencial para RNA-seq.
- Práctico en R/Bioconductor:
- Análisis estadístico de expresión diferencial a partir de datos de RNA-seq.
- PCA
- Clustering
- Heatmaps,
- Gráficos de genes diferencialmente expresados
3. Análisis estadístico de resultados post-expresión diferencial
- Análisis estadístico de enriquecimiento de vías y procesos biológicos.
- Bases de Datos Funcionales: BioMart, GeneOntology (GO), KEGG, String, DOSE, DAVID.
- Práctico en R/Bioconductor:
- Análisis de Enriquecimiento de Procesos Biológicos,Funciones Moleculares, Componentes Celulares (GO) y Vías biológicas (KEGG).
- Gráficos de enriquecimientos.
Programa detallado
Semana 1 |
Introducción a R, Rstudio y Bioconductor |
Uso de R básico |
Semana 2 |
Introducción a ggplot y ggplot2 |
Gráficos en R usando ggplot2 |
Semana 3 |
Base de datos biológica |
Introducción a la secuenciación de la próxima generación |
Semana 4 |
Breve introducción a los formatos de archivo |
Control de calidad y eliminación de artefactos |
Semana 5 |
Transcriptómica: Flujo de trabajo de RNA-seq. |
Alineación de un conjunto de datos de RNA-seq a un genoma de referencia |
Semana 6 |
Métodos de análisis de expresión diferencial para RNA-seq. |
Conteo de genes o exones |
Pre-procesando datos de RNA-seq |
Modelos Lineales |
Semana 7 |
Expresión diferencial de datos de RNA-seq |
Anotación y Visualización de resultados de RNA-seq |
Semana 8 |
Pruebas de conjuntos de genes para RNA-seq |
Análisis estadístico de enriquecimiento de vías y procesos biológicos |
Semana 9 |
Bases de Datos Funcionales: BioMart, GeneOntology (GO), KEGG, String, DOSE, DAVID. |
Análisis de Enriquecimiento de Procesos Biológicos,Funciones Moleculares, Componentes Celulares (GO) y Vías biológicas (KEGG). |
Semana 10 |
Gráficos de enriquecimientos. |
Explorando datos de expresión de genes usando Expression Atlas de Ensembl |
Introducción
Hoy en día, la genética se utiliza, al menos en cierta medida, en múltiples subdisciplinas dentro de las ciencias de la vida. Con el advenimiento de las tecnologías de secuenciación de ADN de próxima generación, nunca ha sido tan fácil sumergirse en el análisis genético, planteando una nueva dimensión a los estudios de la variación genética, estudiando particularmente los SNPs. Los estudios genéticos poblacionales hasta la fecha se han efectuado a partir de marcadores moleculares fragmentados y no aleatorios en los genomas, proporcionando una visión parcial y con frecuencia sesgada de los procesos poblacionales, caso contrario al panorama que ofrecen los SNPs de amplia distribución. Por lo tanto, con la abundancia de genomas de referencia bien anotados, hoy es posible obtener secuencias de calidad a partir de la secuenciación aleatoria, logrando analizar secuencias genómicas completas de individuos de una especie. El curso tiene como objeto proporcionar herramientas para analizar datos genéticos poblacionales en R, usando ejemplos relacionados con nuevas tecnologías Ómicas. Se espera que los estudiantes adquieran capacidades como:
- Desarrollar una comprensión básica de la genética evolutiva y poblacional
- Manejo del programa R-Rstudio, scripts de comandos, gráficos y análisis.
- Implementar y aplicar técnicas básicas para el análisis de datos NGS.
Metodología
El curso tiene una duración de 40 h, repartidos en 8 horas diarias durante 5 días. Está compuesto por 3 módulos teórico-prácticas.
Se llevará a cabo de forma teórico-práctico para que los estudiantes puedan en el futuro reproducir y adaptar los análisis vistos en clase a situaciones propias, mostrando un manejo de R al extrapolar sus conocimientos a diferentes tipos de análisis.
La Universidad otorgará un certificado de participación, a los estudiantes que cursen como mínimo el 85% de horas programadas.
- Introducción a Linux, R, Rstudio y Bioconductor
- Herramientas básicas de Linux para el análisis de datos de NGS
- Uso de R y Bioconductor e Instalación de paquetes/librerías
- Conceptos básicos de genética de poblaciones
- Introducción a datos NGS, preprocesamiento y formatos
- Conceptos básicos de genética de poblaciones.
- Estimación de frecuencias alélicas, llamado de variantes y llamado de genotipos. Teórica (1.5 horas)
- Práctico en Linux, R/Bioconductor (poppr v2.8.2, )
- Formato VCF
- Frecuencias alélicas, datos perdidos-Control de calidad
- Heterocigocidad y HWE
- Riqueza, diversidad e igualdad genotípica
- Desequilibrio de Ligamiento
- Inferencia de estructura de poblaciones
- Algoritmos de agrupamiento
- Práctico en Linux, R/Bioconductor (poppr v2.8.2)
- Distancia genética y clustering
- Minimum spanning networks (MSN)
- Análisis de varianza Molecular (AMOVA)
- Análisis Multivariantes: DAPC y ACP
- Inferencia filogenética y filogenómica
- Análisis de genotyping-by-sequencing (GBS) usando poppr v2.8.2
- Usando el paquete SNPRelate(R/Bioconductor) en datos de RAD-seq
Programa Detallado
Semana 1 |
Principios y uso de linux |
Semana 2 |
Genómica de poblaciones: Una visión general de los principales logros y objetivos actuales de la genómica de poblaciones |
Práctica de R: Uso de R básico y Bioconductor |
Semana 3 |
Fuerzas que dan forma a la diversidad genética: recombinación, mutación, selección, deriva: una visión general de los conceptos básicos de la genómica de poblaciones a la luz de los logros y descubrimientos recientes. |
Introducción a datos NGS, preprocesamiento y formatos |
Estimación de frecuencias alélicas, llamado de variantes y llamado de genotipos. |
Semana 4 |
Formato VCF y Control de calidad |
Heterocigocidad y HWE, Riqueza, diversidad e igualdad genotípica |
Desequilibrio de Ligamiento |
Semana 5 |
Algoritmos de agrupamiento – Variación genética para inferir la estructura de la población y asignar individuos a grupos ancestrales hipotéticos |
Distancia genética y clustering |
Minimum spanning networks (MSN) |
Semana 6 |
Análisis de componentes principales (ACP) |
Análisis discriminante (DAPC) |
Análisis de varianza Molecular (AMOVA) |
Semana 7 |
Uso del programa Structure por línea de comandos |
Structure Selector, nuevos criterios para escoger el mejor K |
Introducción a los análisis filogenéticos y los modelos evolutivos. Uso del programa Jmodeltest2 |
Semana 8 |
Análisis filogenéticos usando IQ-Tree o RAxML |
Visualización de árboles filogenéticos |
Semana 9 |
Análisis de genotyping-by-sequencing (GBS) |
Usando el paquete SNP relate en datos de RAD-seq |
Semana 10 |
Explorando sus propios datos |