Objectif : à partir d'un
répertoire contenant des fichiers au
format GFF,
filtrer les données de ces fichiers en conservant
uniquement les séquences codantes (CDS) de
taille supérieure ou égale à 600pb mais inférieure ou égale à 1200pb.
Écrire les fichiers
GFF filtrés dans un
nouveau répertoire nommé
GFF_FILTERED.
Conseils :
- Bien regarder la structure des fichiers
- Procéder étape par étape
Bonus : créer un nouveau fichier tabulé (le séparateur de colonnes est une tabulation) qui résume le contenu des fichiers GFF avec 3 colonnes :
- le nom de chaque souche,
- le nombre de CDS totaux par fichier,
- le nombre de CDS filtrés par fichier.
---
# Données
**Extrait du fichier GFF**
```bash
BK006935.2 tpg CDS 65778 67520 . - 0
ID=cds28;Parent=rna28;Dbxref=SGD:S000000038,NCBI_GP:DAA06946.1;Name=DAA06946.1;
Note=G1 cyclin involved in cell cycle progression%3B activates Cdc28p kinase to
promote the G1 to S phase transition%3B plays a role in regulating transcription
of the other G1 cyclins%2C CLN1 and CLN2%3B regulated by phosphorylation and
proteolysis%3B acetly-CoA induces CLN3 transcription in response to nutrient
repletion to promote cell-cycle entry.;gbkey=CDS;gene=CLN3;product=cyclin CLN3;
protein_id=DAA06946.1
```
**Détail des 9 colonnes :**
- Colonne 1 : séquence de référence
- Colonne 2 : source
- Colonne 3 : type d'élément
- Colonne 4 : coordonnée génomique de début de l'élément
- Colonne 5 : coordonnée génomique de fin de l'élément
- Colonne 6 : score
- Colonne 7 : brin
- Colonne 8 : phase
- Colonne 9 : attributs
---
# Données
**Extrait du fichier GFF**
```bash
BK006935.2 tpg CDS 65778 67520 . - 0
ID=cds28;Parent=rna28;Dbxref=SGD:S000000038,NCBI_GP:DAA06946.1;Name=DAA06946.1;
Note=G1 cyclin involved in cell cycle progression%3B activates Cdc28p kinase to
promote the G1 to S phase transition%3B plays a role in regulating transcription
of the other G1 cyclins%2C CLN1 and CLN2%3B regulated by phosphorylation and
proteolysis%3B acetly-CoA induces CLN3 transcription in response to nutrient
repletion to promote cell-cycle entry.;gbkey=CDS;gene=CLN3;product=cyclin CLN3;
protein_id=DAA06946.1
```
**Détail des 9 colonnes :**
- Colonne 1 : séquence de référence
- Colonne 2 : source
- **Colonne 3 : type d'élément**
- **Colonne 4 : coordonnée génomique de début de l'élément**
- **Colonne 5 : coordonnée génomique de fin de l'élément**
- Colonne 6 : score
- Colonne 7 : brin
- Colonne 8 : phase
- Colonne 9 : attributs
---
# Quelques pistes
* Comment peut-on récupérer la liste des fichiers d'un répertoire ?
* Quels sont les champs d'intérêt ? Comment les récupérer ?
* De quelles informations a-t-on besoin pour générer la sortie ?
---
# Différentes étapes
* Récupérer la liste des fichiers présents dans le répertoire de travail
* Parcourir l'ensemble de ces fichiers
* Récupérer les informations d'intérêt dans chacun des fichiers
* Filtrer sur le type d'élément (CDS)
* Récupérer les coordonnées génomiques afin de calculer la longueur
* Vérifier la taille de la séquence
* Ecrire la sortie au format attendu