Objectif : à partir des chromosomes au format FASTA et de la description des annotations au format GFF, récupérer les séquences nucléotidiques des CDS (
S_cerevisiae_chromosomes.fna /
S_cerevisiae_annotations.gff)
Conseils :
- Bien regarder la structure des fichiers
- Procéder étape par étape
Bonus :
- Formater la sortie au format FASTA
- Proposer un histogramme horizontal avec en abscisse la taille des séquences du fichier FASTA et en ordonnée leurs noms
- Proposer un pie chart composé du nombre des différents types d'éléments présents dans le fichier GFF
- Développer un script prenant en argument les deux fichiers (FASTA et GFF)
---
# Données
**Extrait du fichier GFF**
```bash
BK006935.2 tpg CDS 65778 67520 . - 0
ID=cds28;Parent=rna28;Dbxref=SGD:S000000038,NCBI_GP:DAA06946.1;Name=DAA06946.1;
Note=G1 cyclin involved in cell cycle progression%3B activates Cdc28p kinase to
promote the G1 to S phase transition%3B plays a role in regulating transcription
of the other G1 cyclins%2C CLN1 and CLN2%3B regulated by phosphorylation and
proteolysis%3B acetly-CoA induces CLN3 transcription in response to nutrient
repletion to promote cell-cycle entry.;gbkey=CDS;gene=CLN3;product=cyclin CLN3;
protein_id=DAA06946.1
```
**Extrait du fichier multiFASTA**
```bash
>BK006935.2 TPA_inf: Saccharomyces cerevisiae S288c chromosome I, complete sequence
ccacaccacacccacacacccacacaccacaccacacaccacaccacacccacacacacacatCCTAACACTACCCTAACACAGCCCTAAT
CTAACCCTGGCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTCCACTCGTTACCCTGTCCCATTCAACCATACCA
CTCCGAACCACCATCCATCCCTCTACTTACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCACTGCCA
CTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATACTGTTCTTCTACCCACCATATTGAAACGCTAACAA
ATGATCGTAAATAACACACACGTGCTTACCCTACCACTTTATACCACCACCACATGCCATACTCACCCTCACTTGTATACT
GATTTTACGTACGCACACGGATGCTACAGTATATACCATCTCAAACTTACCCTACTCTCAGATTCCACTTCACTCCATGG
CCCATCTCTCACTGAATCAGTACCAAATGCACTCACATCATTATGCACGGCACTTGCCTCAGCGG
```
---
# Une ou deux pistes
* Comment peut-on croiser les données issues des deux fichiers ?
* Quels sont les champs d'intérêt ?
* De quelles informations a-t-on besoin pour générer la sortie ?
---
# Différentes étapes
* lien entre les deux fichiers via la séquence de référence
* filtrage sur le type d'élément (CDS)
* informations nécessaires : positions et orientation
* sortie : un nom de séquence + séquence