TAO – Curso uso de R para estudios de transcriptómica y RNASeq

El curso tiene una duración de 40 h, repartidos en 8 horas diarias durante 5 días. Está compuesto por 3 módulos teórico-prácticas.

1. Introducción a R, Rstudio y Bioconductor

  • Obtención e instalación de R
  • Uso de Bioconductor e Instalación de paquetes/librerías
  • R como calculadora
  • Conocer los tipos de objetos (vectores, matrices, data.frame, listas)
  • Aprender a leer y escribir ficheros y objetos binarios
  • Gráficos en R usando ggplot y ggplot2
  • Obtención y edición de los bases de datos de trabajo: datos biológicos (cualitativos, cuantitativos) y datos ambientales (continuos, discretos, dependientes e independientes).

2. Diseño y análisis de ensayos transcriptómicos

  • Transcriptómica: Flujo de trabajo de RNA-seq.
  • Métodos de análisis de expresión diferencial para RNA-seq.
  • Práctico en R/Bioconductor:
  • Análisis estadístico de expresión diferencial a partir de datos de RNA-seq.
  • PCA
  • Clustering
  • Heatmaps,
  • Gráficos de genes diferencialmente expresados

3. Análisis estadístico de resultados post-expresión diferencial

  • Análisis estadístico de enriquecimiento de vías y procesos biológicos.
    • Bases de Datos Funcionales: BioMart, GeneOntology (GO), KEGG, String, DOSE, DAVID.
  • Práctico en R/Bioconductor:
    • Análisis de Enriquecimiento de Procesos Biológicos,Funciones Moleculares, Componentes Celulares (GO) y Vías biológicas (KEGG).
    • Gráficos de enriquecimientos.

 

Programa detallado

 

Semana 1
Introducción a R, Rstudio y Bioconductor
Uso de R básico
Semana 2
Introducción a ggplot y ggplot2
Gráficos en R usando  ggplot2
Semana 3
Base de datos biológica
Introducción a la secuenciación de la próxima generación
Semana 4
Breve introducción a los formatos de archivo
Control de calidad y eliminación de artefactos
Semana 5
Transcriptómica: Flujo de trabajo de RNA-seq.
Alineación de un conjunto de datos de RNA-seq a un genoma de referencia
Semana 6
Métodos de análisis de expresión diferencial para RNA-seq.
Conteo de genes o exones
Pre-procesando datos de RNA-seq
Modelos Lineales
Semana 7
Expresión diferencial de datos de RNA-seq
Anotación y Visualización de resultados de RNA-seq
Semana 8
Pruebas de conjuntos de genes para RNA-seq
Análisis estadístico de enriquecimiento de vías y procesos biológicos
Semana 9
Bases de Datos Funcionales: BioMart, GeneOntology (GO), KEGG, String, DOSE, DAVID.
Análisis de Enriquecimiento de Procesos Biológicos,Funciones Moleculares, Componentes Celulares (GO) y Vías biológicas (KEGG).
Semana 10
Gráficos de enriquecimientos.
Explorando datos de expresión de genes usando Expression Atlas de Ensembl

 

 

Introducción

Hoy en día, la genética se utiliza, al menos en cierta medida, en múltiples subdisciplinas dentro de las ciencias de la vida. Con el advenimiento de las tecnologías de secuenciación de ADN de próxima generación, nunca ha sido tan fácil sumergirse en el análisis genético, planteando una nueva dimensión a los estudios de la variación genética, estudiando particularmente los SNPs. Los estudios genéticos poblacionales hasta la fecha se han efectuado a partir de marcadores moleculares fragmentados y no aleatorios en los genomas, proporcionando una visión parcial y con frecuencia sesgada de los procesos poblacionales, caso contrario al panorama que ofrecen los SNPs de amplia distribución. Por lo tanto, con la abundancia de genomas de referencia bien anotados, hoy es posible obtener secuencias de calidad a partir de la secuenciación aleatoria, logrando analizar secuencias genómicas completas de individuos de una especie. El curso tiene como objeto proporcionar herramientas para analizar datos genéticos poblacionales en R, usando ejemplos relacionados con nuevas tecnologías Ómicas. Se espera que los estudiantes adquieran capacidades como:

 

  • Desarrollar una comprensión básica de la genética evolutiva y poblacional
  • Manejo del programa R-Rstudio, scripts de comandos, gráficos y análisis.
  • Implementar y aplicar técnicas básicas para el análisis de datos NGS.

 

 

Metodología

El curso tiene una duración de 40 h, repartidos en 8 horas diarias durante 5 días. Está compuesto por 3 módulos teórico-prácticas.

Se llevará a cabo de forma teórico-práctico para que los estudiantes puedan en el futuro reproducir y adaptar los análisis vistos en clase a situaciones propias, mostrando un manejo de R al extrapolar sus conocimientos a diferentes tipos de análisis.

La Universidad otorgará un certificado de participación, a los estudiantes que cursen como mínimo el 85% de horas programadas.

 

  1. Introducción a Linux, R, Rstudio y Bioconductor
  • Herramientas básicas de Linux para el análisis de datos de NGS
  • Uso de R y Bioconductor e Instalación de paquetes/librerías
  1. Conceptos básicos de genética de poblaciones
  • Introducción a datos NGS, preprocesamiento y formatos
  • Conceptos básicos de genética de poblaciones.
  • Estimación de frecuencias alélicas, llamado de variantes y llamado de genotipos. Teórica (1.5 horas)
  • Práctico en Linux, R/Bioconductor (poppr v2.8.2, )
    • Formato VCF
    • Frecuencias alélicas, datos perdidos-Control de calidad
    • Heterocigocidad y HWE
    • Riqueza, diversidad e igualdad genotípica
    • Desequilibrio de Ligamiento
  1. Inferencia de estructura de poblaciones
    • Algoritmos de agrupamiento
    • Práctico en Linux, R/Bioconductor (poppr v2.8.2)
  • Distancia genética y clustering
  • Minimum spanning networks (MSN)
  • Análisis de varianza Molecular (AMOVA)
  • Análisis Multivariantes: DAPC y ACP
  • Inferencia filogenética y filogenómica
  1. Análisis de genotyping-by-sequencing (GBS) usando poppr v2.8.2
  2. Usando el paquete SNPRelate(R/Bioconductor) en datos de RAD-seq

 

Programa Detallado

 

Semana 1
Principios y uso de linux
Semana 2
Genómica de poblaciones: Una visión general de los principales logros y objetivos actuales de la genómica de poblaciones
Práctica de R: Uso de R básico y Bioconductor
Semana 3
Fuerzas que dan forma a la diversidad genética: recombinación, mutación, selección, deriva: una visión general de los conceptos básicos de la genómica de poblaciones a la luz de los logros y descubrimientos recientes.
Introducción a datos NGS, preprocesamiento y formatos
Estimación de frecuencias alélicas, llamado de variantes y llamado de genotipos.
Semana 4
Formato VCF y Control de calidad
Heterocigocidad y HWE, Riqueza, diversidad e igualdad genotípica
Desequilibrio de Ligamiento
Semana 5
Algoritmos de agrupamiento – Variación genética para inferir la estructura de la población y asignar individuos a grupos ancestrales hipotéticos
Distancia genética y clustering
Minimum spanning networks (MSN)
Semana 6
Análisis de componentes principales (ACP)
Análisis discriminante (DAPC)
Análisis de varianza Molecular (AMOVA)
Semana 7
Uso del programa Structure por línea de comandos
Structure Selector, nuevos criterios para escoger el mejor K
Introducción a los análisis filogenéticos y los modelos evolutivos. Uso del programa Jmodeltest2
Semana 8
Análisis filogenéticos usando IQ-Tree o RAxML
Visualización de árboles filogenéticos
Semana 9
Análisis de genotyping-by-sequencing (GBS)
Usando el paquete SNP relate en datos de RAD-seq
Semana 10
Explorando sus propios datos

 

Bookmark the permalink.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *