Title

class: center, middle
# Exercice complet

---
# Enoncé

<div align="justify">
Objectif : à partir des chromosomes au format FASTA et de la description des annotations au format GFF, récupérer les séquences nucléotidiques des CDS (S_cerevisiae_chromosomes.fna / S_cerevisiae_annotations.gff)
 
Conseils :

<ul><li>Bien regarder la structure des fichiers</li>
<li>Procéder étape par étape</li></ul>
Bonus :

<ul><li>Formater la sortie au format FASTA</li>
<li>Proposer un histogramme horizontal avec en abscisse la taille des séquences du fichier FASTA et en ordonnée leurs noms</li>
<li>Proposer un pie chart composé du nombre des différents types d'éléments présents dans le fichier GFF</li>
<li> Développer un script prenant en argument les deux fichiers (FASTA et GFF)</li></ul>
</div>

---
# Données

**Extrait du fichier GFF**

```bash
BK006935.2	tpg	CDS	65778	67520	.	-	0
ID=cds28;Parent=rna28;Dbxref=SGD:S000000038,NCBI_GP:DAA06946.1;Name=DAA06946.1;
Note=G1 cyclin involved in cell cycle progression%3B activates Cdc28p kinase to
promote the G1 to S phase transition%3B plays a role in regulating transcription
of the other G1 cyclins%2C CLN1 and CLN2%3B regulated by phosphorylation and 
proteolysis%3B acetly-CoA induces CLN3 transcription in response to nutrient
repletion to promote cell-cycle entry.;gbkey=CDS;gene=CLN3;product=cyclin CLN3;
protein_id=DAA06946.1
```

**Extrait du fichier multiFASTA**

```bash
>BK006935.2 TPA_inf: Saccharomyces cerevisiae S288c chromosome I, complete sequence
ccacaccacacccacacacccacacaccacaccacacaccacaccacacccacacacacacatCCTAACACTACCCTAACACAGCCCTAAT
CTAACCCTGGCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTCCACTCGTTACCCTGTCCCATTCAACCATACCA
CTCCGAACCACCATCCATCCCTCTACTTACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCACTGCCA
CTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATACTGTTCTTCTACCCACCATATTGAAACGCTAACAA
ATGATCGTAAATAACACACACGTGCTTACCCTACCACTTTATACCACCACCACATGCCATACTCACCCTCACTTGTATACT
GATTTTACGTACGCACACGGATGCTACAGTATATACCATCTCAAACTTACCCTACTCTCAGATTCCACTTCACTCCATGG
CCCATCTCTCACTGAATCAGTACCAAATGCACTCACATCATTATGCACGGCACTTGCCTCAGCGG
```

---
# Une ou deux pistes

* Comment peut-on croiser les données issues des deux fichiers ?

* Quels sont les champs d'intérêt ?

* De quelles informations a-t-on besoin pour générer la sortie ?

---
# Différentes étapes

* lien entre les deux fichiers via la séquence de référence

* filtrage sur le type d'élément (CDS)

* informations nécessaires : positions et orientation

* sortie : un nom de séquence + séquence