Données de séquençage

L’unité de base d’un jeu de données ChIP-seq est une lecture de séquençage. Un jeu de données complet comporte généralement plusieurs millions de lectures, stockées dans des fichiers BAM. Dans cet exercice, nous allons voir comment les lectures sont représentées en R, à partir de lectures issues d’une petite région du chromosome 20.

Les lectures ont déjà été chargées dans R pour vous. Elles sont stockées dans un objet GAlignments appelé reads. L’objet GAlignments est étroitement lié à GenomicRanges, que vous avez peut-être rencontré lors de cours d’introduction à Bioconductor. C’est une bonne occasion de vous rappeler comment interagir avec ce type d’objet.

Rappelez-vous que Bioconductor fournit des fonctions d’accès qui facilitent l’extraction des données. Par exemple, start() extrait les coordonnées de début de toutes les lectures.

Cet exercice fait partie du cours

ChIP-seq avec Bioconductor en R

Afficher le cours

Instructions

Affichez l’objet reads pour obtenir un résumé des données.
Récupérez la position de début de la première lecture.
Récupérez la position de fin de la dernière lecture.
Déterminez le nombre de lectures couvrant chaque position de la région sélectionnée, c’est-à-dire calculez la couverture des lectures avec la fonction du même nom.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print the 'reads' object to obtain a summary of the data
print(___)

# Get the *start* position of the first read
start_first <- ___(reads)[1]

# Get the *end* position of the last read
end_last <- ___(___)[length(___)]

# Compute the number of reads covering each position in the selected region
cvg <- ___

Modifier et exécuter le code