zoology
plit-genome

Repository

$ grep exon braker/braker.gtf > braker_exons.gtf
$ grep exon ../annot_merge/merged.gff3 > draft_exons.gtf
$ bedtools intersect -v -b draft_exons.gtf -a braker_exons.gtf > unique_exons.gtf
$ cat unique_exons.gtf | cut -f9 | cut -d" " -f 4 | sort -u > keep_candidates.txt
$ bedtools intersect -wa -b draft_exons.gtf -a braker_exons.gtf > shared_exons.gtf
$ cat shared_exons.gtf | cut -f9 | cut -f4 -d" " | sort -u > overlap.txt
$ grep -v -f overlap.txt keep_candidates.txt > keep_genes.txt
$ grep -f keep_genes.txt braker/braker.gtf > braker2_unique.gtf
$ sed -r 's/(g[[:digit:]])/r2_\1/g' braker2_unique.gtf > braker2_unique_renamed.gtf
$ module load conda
$ conda activate agat-1.4.0
$ agat_convert_sp_gxf2gxf.pl -g braker2_unique_renamed.gtf -o ./braker2_unique_renamed.gff3
$ cp braker2_unique_renamed.gff3 ../annot_merge/braker2_unique.gff3
$ cd ../annot_merge
$ grep -v -E -i "(intron)|(codon)" braker2_unique_renamed.gff3 > braker2_unique_renamed_nocodon_intron.gff3
$ cat isoseq.gff > merged.gff3
$ cat braker.gff >> merged.gff3
$ cat braker2_unique_renamed_nocodon_intron.gff3 >> merged.gff3
$ cat denovo_txomes/overlap_translated.gff3 >> merged.gff3
$ cat ../trnascan/trnascan.gff3 >> merged.gff3
$ module load genometools/
$ gt gff3 -tidy -retainids -o merged_sorted.gff3 -force merged.gff3
$ gt gff3_to_gtf -o merged_sorted.gtf merged_sorted.gff3
$ agat_sp_extract_sequences.pl -g merged_sorted.gff3 -f ../draft_softmasked.fasta -t exon --merge -o transcripts.fa
$ TransDecoder.LongOrfs -t transcripts.fa
$ TransDecoder.Predict -t transcripts.fa
$ conda deactivate
$ conda activate busco-5.7.1
$ busco -i transcripts.fa.transdecoder.pep -l metazoa -m protein -o metazoa -r -c 4 --offline --download_path ../../busco/busco_downloads/
---------------------------------------------------
|Results from dataset metazoa_odb10                |
---------------------------------------------------
|C:96.5%[S:40.7%,D:55.8%],F:1.5%,M:2.0%,n:954      |
|920    Complete BUSCOs (C)                        |
|388    Complete and single-copy BUSCOs (S)        |
|532    Complete and duplicated BUSCOs (D)         |
|14    Fragmented BUSCOs (F)                       |
|20    Missing BUSCOs (M)                          |
|954    Total BUSCO groups searched                |
---------------------------------------------------
$ busco -i transcripts.fa.transdecoder.pep -l arthropoda -m protein -o arthropoda -r -c 4 --offline --download_path ../../busco/busco_downloads/
---------------------------------------------------
|Results from dataset arthropoda_odb10             |
---------------------------------------------------
|C:95.8%[S:37.3%,D:58.5%],F:2.0%,M:2.2%,n:1013     |
|971    Complete BUSCOs (C)                        |
|378    Complete and single-copy BUSCOs (S)        |
|593    Complete and duplicated BUSCOs (D)         |
|20    Fragmented BUSCOs (F)                       |
|22    Missing BUSCOs (M)                          |
|1013    Total BUSCO groups searched               |
---------------------------------------------------