TAO – Curso uso de R para estudios de transcriptómica y RNASeq

El curso tiene una duración de 40 h, repartidos en 8 horas diarias durante 5 días. Está compuesto por 3 módulos teórico-prácticas.

1. Introducción a R, Rstudio y Bioconductor

Obtención e instalación de R
Uso de Bioconductor e Instalación de paquetes/librerías
R como calculadora
Conocer los tipos de objetos (vectores, matrices, data.frame, listas)
Aprender a leer y escribir ficheros y objetos binarios
Gráficos en R usando ggplot y ggplot2
Obtención y edición de los bases de datos de trabajo: datos biológicos (cualitativos, cuantitativos) y datos ambientales (continuos, discretos, dependientes e independientes).

2. Diseño y análisis de ensayos transcriptómicos

Transcriptómica: Flujo de trabajo de RNA-seq.
Métodos de análisis de expresión diferencial para RNA-seq.
Práctico en R/Bioconductor:
Análisis estadístico de expresión diferencial a partir de datos de RNA-seq.
PCA
Clustering
Heatmaps,
Gráficos de genes diferencialmente expresados

3. Análisis estadístico de resultados post-expresión diferencial

Análisis estadístico de enriquecimiento de vías y procesos biológicos.
- Bases de Datos Funcionales: BioMart, GeneOntology (GO), KEGG, String, DOSE, DAVID.
Práctico en R/Bioconductor:
- Análisis de Enriquecimiento de Procesos Biológicos,Funciones Moleculares, Componentes Celulares (GO) y Vías biológicas (KEGG).
- Gráficos de enriquecimientos.

Programa detallado

Semana 1

Introducción a R, Rstudio y Bioconductor

Uso de R básico

Semana 2

Introducción a ggplot y ggplot2

Gráficos en R usando ggplot2

Semana 3

Base de datos biológica

Introducción a la secuenciación de la próxima generación

Semana 4

Breve introducción a los formatos de archivo

Control de calidad y eliminación de artefactos

Semana 5

Transcriptómica: Flujo de trabajo de RNA-seq.

Alineación de un conjunto de datos de RNA-seq a un genoma de referencia

Semana 6

Métodos de análisis de expresión diferencial para RNA-seq.

Conteo de genes o exones

Pre-procesando datos de RNA-seq

Modelos Lineales

Semana 7

Expresión diferencial de datos de RNA-seq

Anotación y Visualización de resultados de RNA-seq

Semana 8

Pruebas de conjuntos de genes para RNA-seq

Análisis estadístico de enriquecimiento de vías y procesos biológicos

Semana 9

Bases de Datos Funcionales: BioMart, GeneOntology (GO), KEGG, String, DOSE, DAVID.

Análisis de Enriquecimiento de Procesos Biológicos,Funciones Moleculares, Componentes Celulares (GO) y Vías biológicas (KEGG).

Semana 10

Gráficos de enriquecimientos.

Explorando datos de expresión de genes usando Expression Atlas de Ensembl

Introducción

Hoy en día, la genética se utiliza, al menos en cierta medida, en múltiples subdisciplinas dentro de las ciencias de la vida. Con el advenimiento de las tecnologías de secuenciación de ADN de próxima generación, nunca ha sido tan fácil sumergirse en el análisis genético, planteando una nueva dimensión a los estudios de la variación genética, estudiando particularmente los SNPs. Los estudios genéticos poblacionales hasta la fecha se han efectuado a partir de marcadores moleculares fragmentados y no aleatorios en los genomas, proporcionando una visión parcial y con frecuencia sesgada de los procesos poblacionales, caso contrario al panorama que ofrecen los SNPs de amplia distribución. Por lo tanto, con la abundancia de genomas de referencia bien anotados, hoy es posible obtener secuencias de calidad a partir de la secuenciación aleatoria, logrando analizar secuencias genómicas completas de individuos de una especie. El curso tiene como objeto proporcionar herramientas para analizar datos genéticos poblacionales en R, usando ejemplos relacionados con nuevas tecnologías Ómicas. Se espera que los estudiantes adquieran capacidades como:

Desarrollar una comprensión básica de la genética evolutiva y poblacional
Manejo del programa R-Rstudio, scripts de comandos, gráficos y análisis.
Implementar y aplicar técnicas básicas para el análisis de datos NGS.

Metodología

El curso tiene una duración de 40 h, repartidos en 8 horas diarias durante 5 días. Está compuesto por 3 módulos teórico-prácticas.

Se llevará a cabo de forma teórico-práctico para que los estudiantes puedan en el futuro reproducir y adaptar los análisis vistos en clase a situaciones propias, mostrando un manejo de R al extrapolar sus conocimientos a diferentes tipos de análisis.

La Universidad otorgará un certificado de participación, a los estudiantes que cursen como mínimo el 85% de horas programadas.

Introducción a Linux, R, Rstudio y Bioconductor

Herramientas básicas de Linux para el análisis de datos de NGS
Uso de R y Bioconductor e Instalación de paquetes/librerías

Conceptos básicos de genética de poblaciones

Introducción a datos NGS, preprocesamiento y formatos
Conceptos básicos de genética de poblaciones.
Estimación de frecuencias alélicas, llamado de variantes y llamado de genotipos. Teórica (1.5 horas)
Práctico en Linux, R/Bioconductor (poppr v2.8.2, )
- Formato VCF
- Frecuencias alélicas, datos perdidos-Control de calidad
- Heterocigocidad y HWE
- Riqueza, diversidad e igualdad genotípica
- Desequilibrio de Ligamiento

Inferencia de estructura de poblaciones
- Algoritmos de agrupamiento
- Práctico en Linux, R/Bioconductor (poppr v2.8.2)

Distancia genética y clustering
Minimum spanning networks (MSN)
Análisis de varianza Molecular (AMOVA)
Análisis Multivariantes: DAPC y ACP
Inferencia filogenética y filogenómica

Análisis de genotyping-by-sequencing (GBS) usando poppr v2.8.2
Usando el paquete SNPRelate(R/Bioconductor) en datos de RAD-seq

Programa Detallado

Semana 1

Principios y uso de linux

Semana 2

Genómica de poblaciones: Una visión general de los principales logros y objetivos actuales de la genómica de poblaciones

Práctica de R: Uso de R básico y Bioconductor

Semana 3

Fuerzas que dan forma a la diversidad genética: recombinación, mutación, selección, deriva: una visión general de los conceptos básicos de la genómica de poblaciones a la luz de los logros y descubrimientos recientes.

Introducción a datos NGS, preprocesamiento y formatos

Estimación de frecuencias alélicas, llamado de variantes y llamado de genotipos.

Semana 4

Formato VCF y Control de calidad

Heterocigocidad y HWE, Riqueza, diversidad e igualdad genotípica

Desequilibrio de Ligamiento

Semana 5

Algoritmos de agrupamiento – Variación genética para inferir la estructura de la población y asignar individuos a grupos ancestrales hipotéticos

Distancia genética y clustering

Minimum spanning networks (MSN)

Semana 6

Análisis de componentes principales (ACP)

Análisis discriminante (DAPC)

Análisis de varianza Molecular (AMOVA)

Semana 7

Uso del programa Structure por línea de comandos

Structure Selector, nuevos criterios para escoger el mejor K

Introducción a los análisis filogenéticos y los modelos evolutivos. Uso del programa Jmodeltest2

Semana 8

Análisis filogenéticos usando IQ-Tree o RAxML

Visualización de árboles filogenéticos

Semana 9

Análisis de genotyping-by-sequencing (GBS)

Usando el paquete SNP relate en datos de RAD-seq

Semana 10

Explorando sus propios datos

TAO – Curso uso de R para estudios de transcriptómica y RNASeq

Deja un comentario Cancelar respuesta