Notebook

In [1]:

%%bash
echo "TODAY'S DATE:"
date
echo "------------"
echo ""
#Display operating system info
lsb_release -a
echo ""
echo "------------"
echo "HOSTNAME: "; hostname 
echo ""
echo "------------"
echo "Computer Specs:"
echo ""
lscpu
echo ""
echo "------------"
echo ""
echo "Memory Specs"
echo ""
free -mh

TODAY'S DATE:
Wed Nov 28 12:01:27 PST 2018
------------

Distributor ID:	Ubuntu
Description:	Ubuntu 16.04.5 LTS
Release:	16.04
Codename:	xenial

------------
HOSTNAME: 
swoose

------------
Computer Specs:

Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                24
On-line CPU(s) list:   0-23
Thread(s) per core:    2
Core(s) per socket:    6
Socket(s):             2
NUMA node(s):          1
Vendor ID:             GenuineIntel
CPU family:            6
Model:                 44
Model name:            Intel(R) Xeon(R) CPU           X5670  @ 2.93GHz
Stepping:              2
CPU MHz:               2925.866
BogoMIPS:              5851.93
Virtualization:        VT-x
L1d cache:             32K
L1i cache:             32K
L2 cache:              256K
L3 cache:              12288K
NUMA node0 CPU(s):     0-23
Flags:                 fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm pcid dca sse4_1 sse4_2 popcnt aes lahf_lm epb kaiser tpr_shadow vnmi flexpriority ept vpid dtherm ida arat

------------

Memory Specs

              total        used        free      shared  buff/cache   available
Mem:            70G        3.0G         65G        112M        2.5G         67G
Swap:          4.7G          0B        4.7G

No LSB modules are available.

Make directories¶

In [2]:

%%bash
mkdir /home/sam/data/geoduck
mkdir /home/sam/data/geoduck/transcriptomes
mkdir /home/sam/data/geoduck/transcriptomes/transdecoder_fasta_splits

Transfer Transdecoder coding sequences FastA file¶

In [3]:

%%bash

cd /home/sam/data/geoduck/transcriptomes

# Uncomment following line to retrieve file using wget
# wget http://gannet.fish.washington.edu/Atumefaciens/20181121_geo_transdecoder/20180827_trinity_geoduck.fasta.transdecoder.cds
rsync gannet:/volume1/web/Atumefaciens/20181121_geo_transdecoder/20180827_trinity_geoduck.fasta.transdecoder.cds
ls -lh

-rw-r--r--    283,967,118 2018/11/23 15:42:16 20180827_trinity_geoduck.fasta.transdecoder.cds
total 4.0K
drwxrwxr-x 2 sam sam 4.0K Nov 28 12:04 transdecoder_fasta_splits

Split mulit-FastA file in to individual FastA files with PyFaidx¶

In [4]:

%%bash
cd /home/sam/data/geoduck/transcriptomes/

# Count sequences in FastA
echo "-------------------"
echo "NUMBER OF SEQUENCES IN ORIGINAL FASTA"
grep -c ">" 20180827_trinity_geoduck.fasta.transdecoder.cds
echo "-------------------"
echo ""
echo ""

cd /home/sam/data/geoduck/transcriptomes/transdecoder_fasta_splits/

# Split FastA
time \
/home/sam/software/bin/pyfaidx-0.5.5.2 \
--split-files \
../20180827_trinity_geoduck.fasta.transdecoder.cds

# Count number of individual FastA files
echo "-------------------"
echo "NUMBER OF INDIVIDUAL FASTA FILES"
ls -1 | wc -l
echo "-------------------"

-------------------
NUMBER OF SEQUENCES IN ORIGINAL FASTA
-------------------


-------------------
NUMBER OF INDIVIDUAL FASTA FILES
0
-------------------

grep: 20180827_trinity_geoduck.fasta.transdecoder.cds: No such file or directory
Traceback (most recent call last):
  File "/home/sam/software/bin/pyfaidx-0.5.5.2", line 9, in <module>
    load_entry_point('pyfaidx==0.5.5.2', 'console_scripts', 'faidx')()
  File "build/bdist.linux-x86_64/egg/pyfaidx/cli.py", line 197, in main
  File "build/bdist.linux-x86_64/egg/pyfaidx/cli.py", line 21, in write_sequence
  File "build/bdist.linux-x86_64/egg/pyfaidx/__init__.py", line 996, in __init__
  File "build/bdist.linux-x86_64/egg/pyfaidx/__init__.py", line 368, in __init__
pyfaidx.FastaNotFoundError: Cannot read FASTA file ../20180827_trinity_geoduck.fasta.transdecoder.cds

real	0m0.150s
user	0m0.104s
sys	0m0.020s

Whoops! Ran rsync command incorrectly. Duh!

Transfer Transdecoder coding sequences FastA file (again)¶

In [5]:

%%bash
cd /home/sam/data/geoduck/transcriptomes
rsync \
--archive \
gannet:/volume1/web/Atumefaciens/20181121_geo_transdecoder/20180827_trinity_geoduck.fasta.transdecoder.cds .

echo "-------------------"

ls -lh

-------------------
total 271M
-rw-r--r-- 1 sam users 271M Nov 23 15:42 20180827_trinity_geoduck.fasta.transdecoder.cds
drwxrwxr-x 2 sam sam   4.0K Nov 28 12:04 transdecoder_fasta_splits

Split mulit-FastA file in to individual FastA files with PyFaidx¶

In [6]:

%%bash
cd /home/sam/data/geoduck/transcriptomes/

# Count sequences in FastA
echo "-------------------"
echo "NUMBER OF SEQUENCES IN ORIGINAL FASTA"
grep -c ">" 20180827_trinity_geoduck.fasta.transdecoder.cds
echo "-------------------"
echo ""
echo ""

cd /home/sam/data/geoduck/transcriptomes/transdecoder_fasta_splits/

# Split FastA
time \
/home/sam/software/bin/pyfaidx-0.5.5.2 \
--split-files \
../20180827_trinity_geoduck.fasta.transdecoder.cds

# Count number of individual FastA files
echo "-------------------"
echo "NUMBER OF INDIVIDUAL FASTA FILES"
ls -1 | wc -l
echo "-------------------"

-------------------
NUMBER OF SEQUENCES IN ORIGINAL FASTA
210586
-------------------


-------------------
NUMBER OF INDIVIDUAL FASTA FILES
210586
-------------------

real	0m43.789s
user	0m36.340s
sys	0m6.656s

Find complete coding sequences that contain typical terms for vitellogenin¶

The code below does the following:¶

uses grep to search for vitellogenin terms and the word "complete"
translates commas to spaces to aid in parsing/formatting for sort command
sorts in reverse order, using the "version" flag to help sort strings that contain numbers and sorts on column 7 (i.e. the "score" column
awk prints a header line to provide column descriptions and then prints out desired columns
column -t formats output into nicely spaced columns
tee prints output to file and to screen

In [7]:

%%bash
cd /home/sam/data/geoduck/transcriptomes/
grep --ignore-case "Vitellogenin" 20180827_trinity_geoduck.fasta.transdecoder.cds \
| grep "complete" \
| tr "," " " \
| sort -Vr -k7 \
| awk 'BEGIN{print "transcript_ID", "transcript_type", "transcript_length", "strand", "score", "annotation"}; \
{print $1, $4, $5, $6, $7 , $8}' \
| column -t \
| tee 20181127_geoduck_Vitellogenin_cds_matches.txt

transcript_ID                   transcript_type  transcript_length  strand  score          annotation
>TRINITY_DN51983_c0_g1_i8.p1    type:complete    len:4828           (-)     score=1005.69  sp|Q9U943|APLP_LOCMI|27.089|3.28e-109
>TRINITY_DN51983_c0_g1_i4.p1    type:complete    len:4680           (-)     score=971.32   sp|Q9U943|APLP_LOCMI|27.089|2.82e-109
>TRINITY_DN3302_c0_g1_i4.p1     type:complete    len:4277           (+)     score=941.33   sp|Q9U943|APLP_LOCMI|29.133|9.20e-117
>TRINITY_DN3302_c0_g1_i8.p1     type:complete    len:4277           (+)     score=941.04   sp|Q9U943|APLP_LOCMI|29.133|1.08e-116
>TRINITY_DN3302_c0_g1_i1.p1     type:complete    len:4277           (+)     score=941.04   sp|Q9U943|APLP_LOCMI|29.133|1.08e-116
>TRINITY_DN1469_c0_g4_i1.p1     type:complete    len:6053           (-)     score=859.49   sp|Q2PZL6|FAT4_MOUSE|38.356|1.43e-08
>TRINITY_DN1469_c0_g3_i1.p1     type:complete    len:6053           (+)     score=859.49   sp|Q2PZL6|FAT4_MOUSE|38.356|1.43e-08
>TRINITY_DN20178_c0_g1_i3.p1    type:complete    len:2501           (-)     score=554.86   sp|P18948|VIT6_CAEEL|21.949|2.79e-40
>TRINITY_DN20178_c0_g1_i1.p1    type:complete    len:2501           (-)     score=554.86   sp|P18948|VIT6_CAEEL|21.949|2.79e-40
>TRINITY_DN15643_c1_g1_i3.p1    type:complete    len:2487           (-)     score=475.86   sp|E9Q414|APOB_MOUSE|20.790|2.08e-25
>TRINITY_DN15643_c1_g1_i4.p1    type:complete    len:2487           (-)     score=475.26   sp|E9Q414|APOB_MOUSE|20.790|2.08e-25
>TRINITY_DN15643_c1_g1_i2.p1    type:complete    len:2487           (-)     score=475.08   sp|E9Q414|APOB_MOUSE|20.790|2.02e-25
>TRINITY_DN108893_c0_g1_i2.p1   type:complete    len:1576           (-)     score=272.48   Vitellogenin_N|PF01347.21|4.2e-08
>TRINITY_DN108893_c0_g1_i7.p1   type:complete    len:1576           (-)     score=271.82   Vitellogenin_N|PF01347.21|4e-08
>TRINITY_DN6438_c0_g1_i13.p1    type:complete    len:887            (-)     score=178.80   sp|Q865F1|MTP_PIG|28.196|4.04e-112
>TRINITY_DN6438_c0_g1_i10.p1    type:complete    len:887            (-)     score=178.80   sp|Q865F1|MTP_PIG|28.196|4.04e-112
>TRINITY_DN6438_c0_g1_i9.p1     type:complete    len:887            (-)     score=178.80   sp|Q865F1|MTP_PIG|28.196|4.04e-112
>TRINITY_DN6438_c0_g1_i8.p1     type:complete    len:887            (-)     score=178.80   sp|Q865F1|MTP_PIG|28.196|4.04e-112
>TRINITY_DN6438_c0_g1_i5.p1     type:complete    len:887            (-)     score=178.80   sp|Q865F1|MTP_PIG|28.196|4.04e-112
>TRINITY_DN6438_c0_g1_i4.p1     type:complete    len:887            (-)     score=178.80   sp|Q865F1|MTP_PIG|28.196|4.04e-112
>TRINITY_DN108893_c0_g1_i10.p2  type:complete    len:541            (-)     score=83.27    Vitellogenin_N|PF01347.21|2e-07
>TRINITY_DN108893_c0_g1_i4.p2   type:complete    len:541            (-)     score=82.43    Vitellogenin_N|PF01347.21|2.3e-07
>TRINITY_DN461352_c0_g1_i1.p1   type:complete    len:169            (+)     score=36.69    sp|O94390|ATP7_SCHPO|26.923|3.10e-07

In [8]:

%%bash
cd /home/sam/data/geoduck/transcriptomes/
grep --ignore-case "Vtg" 20180827_trinity_geoduck.fasta.transdecoder.cds \
| grep "complete" \
| tr "," " " \
| sort -Vr -k7 \
| awk 'BEGIN{print "transcript_ID", "transcript_type", "transcript_length", "strand", "score", "annotation"}; \
{print $1, $4, $5, $6, $7 , $8}' \
| column -t \
| tee 20181127_geoduck_Vtg_cds_matches.txt

transcript_ID  transcript_type  transcript_length  strand  score  annotation

In [9]:

%%bash
cd /home/sam/data/geoduck/transcriptomes/
grep --ignore-case "Vg" 20180827_trinity_geoduck.fasta.transdecoder.cds \
| grep "complete" \
| tr "," " " \
| sort -Vr -k7 \
| awk 'BEGIN{print "transcript_ID", "transcript_type", "transcript_length", "strand", "score", "annotation"}; \
{print $1, $4, $5, $6, $7 , $8}' \
| column -t \
| tee 20181127_geoduck_Vg_cds_matches.txt

transcript_ID                   transcript_type  transcript_length  strand  score         annotation
>TRINITY_DN306895_c2_g2_i2.p1   type:complete    len:106            (-)     score=-21.67  zf-LITAF-like|PF10601.8|2.4e+03
>TRINITY_DN306895_c2_g2_i1.p1   type:complete    len:106            (-)     score=-21.67  zf-LITAF-like|PF10601.8|2.4e+03
>TRINITY_DN48461_c1_g1_i1.p1    type:complete    len:119            (-)     score=-4.86   VGCC_alpha2|PF08473.10|0.02
>TRINITY_DN42237_c0_g1_i8.p3    type:complete    len:153            (+)     score=-3.34   VGCC_beta4Aa_N|PF12052.7|1
>TRINITY_DN100845_c0_g2_i1.p1   type:complete    len:180            (+)     score=-3.08   sp|Q6VGS5|DAPLE_MOUSE|27.350|5.18e-09
>TRINITY_DN29517_c1_g1_i2.p1    type:complete    len:2177           (-)     score=515.83  sp|Q0VGT4|ZGRF1_MOUSE|46.659|0.0
>TRINITY_DN29517_c1_g1_i5.p1    type:complete    len:2188           (-)     score=515.51  sp|Q0VGT4|ZGRF1_MOUSE|46.659|0.0
>TRINITY_DN29517_c1_g1_i8.p1    type:complete    len:2187           (-)     score=514.52  sp|Q0VGT4|ZGRF1_MOUSE|46.476|0.0
>TRINITY_DN27045_c0_g1_i6.p1    type:complete    len:1760           (+)     score=449.51  sp|Q4VGL6|RC3H1_MOUSE|70.386|0.0
>TRINITY_DN27045_c0_g1_i5.p2    type:complete    len:1740           (+)     score=442.48  sp|Q4VGL6|RC3H1_MOUSE|70.386|0.0
>TRINITY_DN27045_c0_g1_i2.p1    type:complete    len:1740           (+)     score=442.48  sp|Q4VGL6|RC3H1_MOUSE|70.386|0.0
>TRINITY_DN27045_c0_g1_i6.p2    type:complete    len:1741           (-)     score=439.59  sp|Q4VGL6|RC3H1_MOUSE|70.386|0.0
>TRINITY_DN27045_c0_g1_i5.p1    type:complete    len:1741           (-)     score=439.59  sp|Q4VGL6|RC3H1_MOUSE|70.386|0.0
>TRINITY_DN27045_c0_g1_i2.p2    type:complete    len:1721           (-)     score=432.56  sp|Q4VGL6|RC3H1_MOUSE|70.386|0.0
>TRINITY_DN29517_c1_g1_i9.p1    type:complete    len:1782           (-)     score=414.11  sp|Q0VGT4|ZGRF1_MOUSE|46.659|0.0
>TRINITY_DN10176_c6_g1_i5.p1    type:complete    len:1894           (-)     score=385.96  sp|Q9VGG5|CAD87_DROME|29.038|1.08e-141
>TRINITY_DN10176_c6_g1_i4.p1    type:complete    len:1890           (-)     score=382.65  sp|Q9VGG5|CAD87_DROME|29.106|3.43e-142
>TRINITY_DN28397_c0_g1_i16.p1   type:complete    len:1204           (-)     score=343.96  sp|Q9BVG8|KIFC3_HUMAN|49.348|2.39e-169
>TRINITY_DN28397_c0_g1_i12.p1   type:complete    len:1204           (-)     score=343.96  sp|Q9BVG8|KIFC3_HUMAN|49.348|2.39e-169
>TRINITY_DN28397_c0_g1_i8.p1    type:complete    len:1197           (-)     score=341.08  sp|Q9BVG8|KIFC3_HUMAN|47.943|8.46e-170
>TRINITY_DN28397_c0_g1_i3.p1    type:complete    len:1197           (-)     score=341.08  sp|Q9BVG8|KIFC3_HUMAN|47.943|8.46e-170
>TRINITY_DN28397_c0_g1_i19.p1   type:complete    len:1149           (-)     score=322.22  sp|Q9BVG8|KIFC3_HUMAN|50.398|8.22e-167
>TRINITY_DN28397_c0_g1_i6.p1    type:complete    len:1149           (-)     score=322.22  sp|Q9BVG8|KIFC3_HUMAN|50.398|8.22e-167
>TRINITY_DN21793_c0_g1_i13.p1   type:complete    len:1456           (-)     score=265.28  sp|P35969|VGFR1_MOUSE|32.039|3.86e-164
>TRINITY_DN21793_c0_g1_i12.p1   type:complete    len:1456           (-)     score=265.28  sp|P35969|VGFR1_MOUSE|32.039|3.86e-164
>TRINITY_DN29517_c1_g1_i3.p1    type:complete    len:925            (-)     score=222.35  sp|Q0VGT4|ZGRF1_MOUSE|47.563|0.0
>TRINITY_DN29517_c1_g1_i10.p1   type:complete    len:925            (-)     score=220.07  sp|Q0VGT4|ZGRF1_MOUSE|47.563|0.0
>TRINITY_DN2197_c0_g1_i9.p1     type:complete    len:736            (-)     score=204.95  sp|F1R4Y7|CEP83_DANRE|36.143|6.98e-122
>TRINITY_DN2197_c0_g1_i6.p1     type:complete    len:738            (-)     score=204.33  sp|F1R4Y7|CEP83_DANRE|36.286|7.50e-123
>TRINITY_DN2197_c0_g1_i4.p1     type:complete    len:738            (-)     score=204.33  sp|F1R4Y7|CEP83_DANRE|36.286|7.50e-123
>TRINITY_DN2197_c0_g1_i1.p1     type:complete    len:738            (-)     score=204.33  sp|F1R4Y7|CEP83_DANRE|36.286|7.50e-123
>TRINITY_DN21793_c0_g1_i10.p1   type:complete    len:1155           (-)     score=200.21  sp|P17948|VGFR1_HUMAN|34.033|2.20e-151
>TRINITY_DN21793_c0_g1_i5.p1    type:complete    len:1155           (-)     score=200.21  sp|P17948|VGFR1_HUMAN|34.033|2.20e-151
>TRINITY_DN64188_c0_g1_i2.p1    type:complete    len:1644           (-)     score=194.69  sp|Q8C5K5|CX038_MOUSE|25.514|2.59e-10
>TRINITY_DN64188_c0_g1_i4.p1    type:complete    len:1644           (-)     score=194.04  sp|Q8C5K5|CX038_MOUSE|25.514|2.55e-10
>TRINITY_DN16250_c0_g1_i7.p1    type:complete    len:849            (-)     score=186.97  sp|Q3UVG3|F91A1_MOUSE|55.454|0.0
>TRINITY_DN36889_c0_g1_i2.p1    type:complete    len:1380           (+)     score=182.20  sp|Q8IVG5|SAM9L_HUMAN|22.931|1.51e-09
>TRINITY_DN2363_c3_g1_i10.p1    type:complete    len:820            (+)     score=178.17  sp|Q0VGE8|ZN816_HUMAN|28.452|1.83e-14
>TRINITY_DN2363_c3_g1_i8.p1     type:complete    len:820            (+)     score=178.17  sp|Q0VGE8|ZN816_HUMAN|28.452|1.83e-14
>TRINITY_DN16250_c0_g1_i11.p1   type:complete    len:774            (-)     score=166.94  sp|Q3UVG3|F91A1_MOUSE|54.271|0.0
>TRINITY_DN8048_c1_g1_i10.p1    type:complete    len:946            (+)     score=160.87  sp|Q5JVG2|ZN484_HUMAN|34.375|2.49e-35
>TRINITY_DN8048_c1_g1_i7.p1     type:complete    len:946            (+)     score=160.87  sp|Q5JVG2|ZN484_HUMAN|34.375|2.49e-35
>TRINITY_DN8048_c1_g1_i5.p1     type:complete    len:946            (+)     score=160.87  sp|Q5JVG2|ZN484_HUMAN|34.375|2.49e-35
>TRINITY_DN8048_c1_g1_i4.p1     type:complete    len:946            (+)     score=158.93  sp|Q5JVG2|ZN484_HUMAN|33.984|3.50e-34
>TRINITY_DN4220_c1_g1_i4.p1     type:complete    len:1377           (-)     score=156.18  sp|Q8IVG5|SAM9L_HUMAN|26.226|2.38e-19
>TRINITY_DN4220_c1_g1_i2.p1     type:complete    len:1377           (-)     score=156.18  sp|Q8IVG5|SAM9L_HUMAN|26.226|2.38e-19
>TRINITY_DN24751_c0_g1_i4.p1    type:complete    len:1313           (+)     score=154.36  sp|Q8IVG5|SAM9L_HUMAN|24.645|2.24e-15
>TRINITY_DN24751_c0_g1_i9.p1    type:complete    len:1313           (+)     score=153.65  sp|Q8IVG5|SAM9L_HUMAN|24.645|2.46e-15
>TRINITY_DN24751_c0_g1_i8.p1    type:complete    len:1313           (+)     score=153.65  sp|Q8IVG5|SAM9L_HUMAN|24.645|2.46e-15
>TRINITY_DN24751_c0_g1_i2.p1    type:complete    len:1313           (+)     score=153.65  sp|Q8IVG5|SAM9L_HUMAN|24.645|2.46e-15
>TRINITY_DN16582_c0_g1_i5.p1    type:complete    len:1249           (-)     score=146.06  sp|Q8IVG5|SAM9L_HUMAN|24.525|7.25e-10
>TRINITY_DN16582_c0_g1_i3.p1    type:complete    len:1249           (-)     score=146.06  sp|Q8IVG5|SAM9L_HUMAN|24.525|7.25e-10
>TRINITY_DN16582_c0_g1_i2.p1    type:complete    len:1249           (-)     score=143.25  sp|Q8IVG5|SAM9L_HUMAN|24.525|8.09e-10
>TRINITY_DN16582_c0_g1_i4.p1    type:complete    len:1249           (-)     score=140.58  sp|Q8IVG5|SAM9L_HUMAN|24.178|7.75e-10
>TRINITY_DN27885_c0_g1_i1.p1    type:complete    len:446            (+)     score=138.91  sp|Q86VG3|CK074_HUMAN|35.652|1.19e-07
>TRINITY_DN17404_c0_g1_i7.p1    type:complete    len:917            (-)     score=134.65  sp|Q0VGW6|S12A9_XENLA|47.552|0.0
>TRINITY_DN17404_c0_g1_i6.p1    type:complete    len:917            (-)     score=134.65  sp|Q0VGW6|S12A9_XENLA|47.552|0.0
>TRINITY_DN3518_c0_g1_i10.p1    type:complete    len:662            (+)     score=127.58  sp|Q6PHS9|CA2D2_MOUSE|29.799|2.84e-76
>TRINITY_DN3518_c0_g1_i5.p1     type:complete    len:630            (+)     score=125.39  sp|Q6PHS9|CA2D2_MOUSE|30.618|6.96e-80
>TRINITY_DN14465_c0_g2_i2.p1    type:complete    len:630            (-)     score=125.24  sp|Q0VGK3|GLCTK_RAT|42.054|1.43e-125
>TRINITY_DN14465_c0_g2_i1.p1    type:complete    len:630            (-)     score=125.24  sp|Q0VGK3|GLCTK_RAT|42.054|1.43e-125
>TRINITY_DN3588_c1_g1_i3.p1     type:complete    len:611            (+)     score=123.14  sp|Q9HGN1|GCN2_SCHPO|31.720|7.99e-40
>TRINITY_DN3588_c1_g1_i6.p1     type:complete    len:611            (+)     score=122.20  sp|Q9HGN1|GCN2_SCHPO|31.720|7.49e-40
>TRINITY_DN3588_c1_g1_i7.p1     type:complete    len:611            (+)     score=122.11  sp|Q9HGN1|GCN2_SCHPO|31.720|7.49e-40
>TRINITY_DN3588_c1_g1_i2.p1     type:complete    len:594            (+)     score=117.20  sp|Q9HGN1|GCN2_SCHPO|31.720|4.68e-40
>TRINITY_DN5529_c0_g1_i9.p1     type:complete    len:482            (-)     score=117.11  sp|Q80V24|VGLL4_MOUSE|31.841|2.07e-11
>TRINITY_DN5529_c0_g1_i4.p1     type:complete    len:482            (-)     score=117.11  sp|Q80V24|VGLL4_MOUSE|31.841|2.07e-11
>TRINITY_DN3588_c1_g1_i8.p1     type:complete    len:594            (+)     score=116.25  sp|Q9HGN1|GCN2_SCHPO|31.720|5.47e-40
>TRINITY_DN3588_c1_g1_i4.p1     type:complete    len:594            (+)     score=116.17  sp|Q9HGN1|GCN2_SCHPO|31.720|5.47e-40
>TRINITY_DN17404_c0_g1_i1.p1    type:complete    len:820            (-)     score=115.98  sp|Q0VGW6|S12A9_XENLA|48.010|0.0
>TRINITY_DN29773_c0_g1_i6.p1    type:complete    len:533            (+)     score=115.30  sp|Q9VGZ5|CWO_DROME|39.336|1.74e-29
>TRINITY_DN5529_c0_g1_i8.p1     type:complete    len:418            (-)     score=111.04  sp|Q80V24|VGLL4_MOUSE|32.124|9.29e-12
>TRINITY_DN5529_c0_g1_i6.p1     type:complete    len:418            (-)     score=111.04  sp|Q80V24|VGLL4_MOUSE|32.124|9.29e-12
>TRINITY_DN47836_c0_g1_i18.p1   type:complete    len:573            (-)     score=106.21  sp|Q9MZL5|CACB2_BOVIN|64.516|2.92e-177
>TRINITY_DN47836_c0_g1_i17.p1   type:complete    len:573            (-)     score=106.21  sp|Q9MZL5|CACB2_BOVIN|64.516|2.92e-177
>TRINITY_DN47836_c0_g1_i9.p1    type:complete    len:573            (-)     score=106.21  sp|Q9MZL5|CACB2_BOVIN|64.516|2.92e-177
>TRINITY_DN47836_c0_g1_i4.p1    type:complete    len:573            (-)     score=106.21  sp|Q9MZL5|CACB2_BOVIN|64.516|2.92e-177
>TRINITY_DN47836_c0_g1_i3.p1    type:complete    len:573            (-)     score=106.21  sp|Q9MZL5|CACB2_BOVIN|64.516|2.92e-177
>TRINITY_DN47836_c0_g1_i1.p1    type:complete    len:573            (-)     score=106.21  sp|Q9MZL5|CACB2_BOVIN|64.516|2.92e-177
>TRINITY_DN47836_c0_g1_i20.p1   type:complete    len:575            (-)     score=101.92  sp|P54288|CACB2_RABIT|60.811|4.45e-180
>TRINITY_DN47836_c0_g1_i13.p1   type:complete    len:575            (-)     score=101.92  sp|P54288|CACB2_RABIT|60.811|4.45e-180
>TRINITY_DN47836_c0_g1_i10.p1   type:complete    len:575            (-)     score=101.92  sp|P54288|CACB2_RABIT|60.811|4.45e-180
>TRINITY_DN47836_c0_g1_i19.p1   type:complete    len:550            (-)     score=95.91   sp|P54288|CACB2_RABIT|63.221|4.48e-179
>TRINITY_DN47836_c0_g1_i11.p1   type:complete    len:550            (-)     score=95.91   sp|P54288|CACB2_RABIT|63.221|4.48e-179
>TRINITY_DN47836_c0_g1_i6.p1    type:complete    len:550            (-)     score=95.91   sp|P54288|CACB2_RABIT|63.221|4.48e-179
>TRINITY_DN2363_c3_g1_i9.p1     type:complete    len:524            (+)     score=93.90   sp|Q0VGE8|ZN816_HUMAN|28.452|8.96e-15
>TRINITY_DN997_c0_g1_i8.p1      type:complete    len:573            (+)     score=87.07   sp|A2AVA0|SVEP1_MOUSE|23.906|2.67e-08
>TRINITY_DN138924_c0_g3_i5.p1   type:complete    len:503            (+)     score=85.59   sp|Q9JI12|VGLU2_RAT|42.085|2.89e-139
>TRINITY_DN2443_c0_g1_i2.p1     type:complete    len:452            (+)     score=85.33   MIEAP|PF16026.4|1.4e-22
>TRINITY_DN135629_c0_g1_i5.p1   type:complete    len:619            (+)     score=76.12   sp|Q1L8X9|VGLU3_DANRE|33.948|1.25e-107
>TRINITY_DN135629_c0_g1_i3.p1   type:complete    len:619            (+)     score=76.12   sp|Q1L8X9|VGLU3_DANRE|33.948|1.25e-107
>TRINITY_DN111_c0_g1_i13.p1     type:complete    len:373            (+)     score=74.54   sp|Q9WVG9|MS3L1_MOUSE|42.574|1.03e-14
>TRINITY_DN111_c0_g1_i10.p1     type:complete    len:373            (+)     score=74.54   sp|Q9WVG9|MS3L1_MOUSE|42.574|1.03e-14
>TRINITY_DN3518_c0_g1_i3.p1     type:complete    len:375            (+)     score=74.03   sp|Q6PHS9|CA2D2_MOUSE|30.914|3.29e-42
>TRINITY_DN2014_c3_g1_i9.p2     type:complete    len:316            (+)     score=68.65   sp|P27980|POL_SIVVG|28.125|1.36e-09
>TRINITY_DN294228_c0_g1_i4.p2   type:complete    len:184            (+)     score=68.13   EPTP|PF03736.16|1.2e+02
>TRINITY_DN36853_c0_g1_i13.p1   type:complete    len:384            (-)     score=66.64   sp|Q6X0I2|VGR_SOLIN|32.168|4.25e-14
>TRINITY_DN36853_c0_g1_i12.p1   type:complete    len:384            (-)     score=66.64   sp|Q6X0I2|VGR_SOLIN|32.168|4.25e-14
>TRINITY_DN36853_c0_g1_i5.p1    type:complete    len:384            (-)     score=66.64   sp|Q6X0I2|VGR_SOLIN|32.168|4.25e-14
>TRINITY_DN6486_c1_g1_i1.p1     type:complete    len:762            (+)     score=66.21   sp|P52583|VGFR2_COTJA|30.556|1.49e-08
>TRINITY_DN6486_c1_g1_i2.p1     type:complete    len:762            (+)     score=65.92   sp|P52583|VGFR2_COTJA|30.556|1.49e-08
>TRINITY_DN75615_c0_g1_i17.p1   type:complete    len:457            (+)     score=65.36   sp|Q8CFG5|CA2D3_RAT|25.225|2.56e-28
>TRINITY_DN36853_c0_g1_i3.p1    type:complete    len:384            (-)     score=64.58   sp|Q6X0I2|VGR_SOLIN|32.168|4.25e-14
>TRINITY_DN75615_c0_g1_i18.p1   type:complete    len:433            (+)     score=62.01   sp|Q8CFG5|CA2D3_RAT|25.765|4.15e-26
>TRINITY_DN75615_c0_g1_i14.p1   type:complete    len:433            (+)     score=62.01   sp|Q8CFG5|CA2D3_RAT|25.765|4.15e-26
>TRINITY_DN75615_c0_g1_i10.p1   type:complete    len:433            (+)     score=62.01   sp|Q8CFG5|CA2D3_RAT|25.765|4.15e-26
>TRINITY_DN75615_c0_g1_i3.p1    type:complete    len:433            (+)     score=62.01   sp|Q8CFG5|CA2D3_RAT|25.765|4.15e-26
>TRINITY_DN75615_c0_g1_i1.p1    type:complete    len:433            (+)     score=62.01   sp|Q8CFG5|CA2D3_RAT|25.765|4.15e-26
>TRINITY_DN11016_c1_g3_i3.p1    type:complete    len:327            (+)     score=61.77   sp|Q5FVG6|PRR5_RAT|42.781|1.08e-43
>TRINITY_DN143974_c2_g1_i1.p1   type:complete    len:531            (+)     score=60.92   sp|A4FV52|VGLU1_BOVIN|34.524|2.27e-92
>TRINITY_DN14092_c0_g1_i23.p2   type:complete    len:156            (-)     score=46.70   LZ_Tnp_IS66|PF13007.6|0.024
>TRINITY_DN14092_c0_g1_i12.p2   type:complete    len:156            (-)     score=46.70   LZ_Tnp_IS66|PF13007.6|0.024
>TRINITY_DN14092_c0_g1_i6.p2    type:complete    len:156            (-)     score=46.70   LZ_Tnp_IS66|PF13007.6|0.024
>TRINITY_DN138924_c0_g2_i1.p1   type:complete    len:293            (-)     score=46.58   sp|Q9JI12|VGLU2_RAT|42.667|2.30e-78
>TRINITY_DN209_c1_g1_i1.p1      type:complete    len:293            (+)     score=44.73   sp|Q9BXJ4|C1QT3_HUMAN|30.405|2.78e-12
>TRINITY_DN41639_c0_g2_i6.p1    type:complete    len:742            (-)     score=44.50   sp|Q9UT27|PVG1_SCHPO|35.535|4.17e-38
>TRINITY_DN23922_c0_g1_i13.p2   type:complete    len:638            (-)     score=40.62   sp|Q0VGY8|TANC1_MOUSE|24.176|1.18e-09
>TRINITY_DN23922_c0_g1_i12.p2   type:complete    len:638            (-)     score=40.62   sp|Q0VGY8|TANC1_MOUSE|24.176|1.18e-09
>TRINITY_DN23922_c0_g1_i8.p2    type:complete    len:638            (-)     score=40.62   sp|Q0VGY8|TANC1_MOUSE|24.176|1.18e-09
>TRINITY_DN23922_c0_g1_i6.p2    type:complete    len:638            (-)     score=40.62   sp|Q0VGY8|TANC1_MOUSE|24.176|1.18e-09
>TRINITY_DN23922_c0_g1_i5.p2    type:complete    len:638            (-)     score=40.62   sp|Q0VGY8|TANC1_MOUSE|24.176|1.18e-09
>TRINITY_DN23922_c0_g1_i2.p2    type:complete    len:638            (-)     score=40.62   sp|Q0VGY8|TANC1_MOUSE|24.176|1.18e-09
>TRINITY_DN138924_c0_g3_i1.p1   type:complete    len:221            (+)     score=36.00   sp|A6QLI1|VGLU2_BOVIN|47.087|9.73e-63
>TRINITY_DN41639_c0_g2_i1.p1    type:complete    len:744            (-)     score=34.17   sp|Q9UT27|PVG1_SCHPO|32.416|3.02e-33
>TRINITY_DN27205_c0_g1_i1.p1    type:complete    len:135            (+)     score=33.57   sp|P35917|VGFR3_MOUSE|100.000|3.46e-20
>TRINITY_DN120833_c0_g1_i2.p1   type:complete    len:296            (-)     score=31.98   sp|Q8BGW8|VGLL2_MOUSE|46.739|8.45e-17
>TRINITY_DN41639_c0_g2_i4.p1    type:complete    len:744            (-)     score=29.44   sp|Q9UT27|PVG1_SCHPO|32.416|1.35e-33
>TRINITY_DN120833_c0_g1_i1.p1   type:complete    len:272            (-)     score=28.17   sp|Q8BGW8|VGLL2_MOUSE|46.739|5.13e-17
>TRINITY_DN232640_c0_g1_i3.p2   type:complete    len:136            (-)     score=27.74   sp|Q9NVG8|TBC13_HUMAN|60.150|2.22e-50
>TRINITY_DN5529_c0_g1_i2.p1     type:complete    len:108            (-)     score=27.66   sp|Q80V24|VGLL4_MOUSE|50.877|4.78e-09
>TRINITY_DN5529_c0_g1_i1.p1     type:complete    len:108            (-)     score=27.66   sp|Q80V24|VGLL4_MOUSE|50.877|4.78e-09
>TRINITY_DN42213_c0_g1_i3.p1    type:complete    len:228            (+)     score=26.44   DivIC|PF04977.14|0.00019
>TRINITY_DN138924_c0_g3_i1.p2   type:complete    len:125            (+)     score=21.32   sp|Q9JI12|VGLU2_RAT|44.800|9.00e-27
>TRINITY_DN41639_c0_g2_i5.p1    type:complete    len:429            (-)     score=18.80   sp|Q9UT27|PVG1_SCHPO|32.416|2.12e-34
>TRINITY_DN41639_c0_g2_i3.p1    type:complete    len:429            (-)     score=18.80   sp|Q9UT27|PVG1_SCHPO|32.416|2.12e-34
>TRINITY_DN120833_c0_g1_i3.p1   type:complete    len:184            (-)     score=17.34   sp|Q8BGW8|VGLL2_MOUSE|50.000|4.61e-10
>TRINITY_DN5608_c0_g2_i7.p1     type:complete    len:249            (-)     score=16.95   sp|Q9SVG0|AVT3C_ARATH|27.143|2.88e-17
>TRINITY_DN374945_c0_g1_i2.p1   type:complete    len:200            (-)     score=16.68   sp|A4FV52|VGLU1_BOVIN|60.479|1.69e-67
>TRINITY_DN374945_c0_g1_i5.p1   type:complete    len:274            (-)     score=15.76   sp|Q05B21|VGLU1_XENTR|55.187|2.20e-89
>TRINITY_DN100416_c0_g1_i8.p1   type:complete    len:120            (-)     score=13.59   sp|Q1L8X9|VGLU3_DANRE|34.426|9.89e-16
>TRINITY_DN100416_c0_g1_i6.p1   type:complete    len:120            (-)     score=13.59   sp|Q1L8X9|VGLU3_DANRE|34.426|9.89e-16
>TRINITY_DN100416_c0_g1_i5.p1   type:complete    len:120            (-)     score=13.59   sp|Q1L8X9|VGLU3_DANRE|34.426|9.89e-16
>TRINITY_DN100416_c0_g1_i3.p1   type:complete    len:120            (-)     score=13.59   sp|Q1L8X9|VGLU3_DANRE|34.426|9.89e-16
>TRINITY_DN5608_c0_g2_i1.p1     type:complete    len:135            (-)     score=13.37   sp|Q9SVG0|AVT3C_ARATH|30.097|9.81e-08
>TRINITY_DN356433_c0_g1_i1.p1   type:complete    len:122            (+)     score=11.24   sp|Q6INC8|VGLU1_XENLA|54.701|7.48e-38
>TRINITY_DN133015_c0_g1_i11.p1  type:complete    len:171            (+)     score=9.55    sp|Q00130|VG50_ICHVA|35.714|1.49e-07
>TRINITY_DN30354_c0_g2_i1.p1    type:complete    len:125            (+)     score=7.76    SpoVG|PF04026.11|10
>TRINITY_DN133015_c0_g1_i10.p1  type:complete    len:111            (+)     score=4.68    sp|Q00130|VG50_ICHVA|36.170|3.85e-06
>TRINITY_DN374945_c0_g1_i1.p1   type:complete    len:170            (-)     score=0.22    sp|Q5W8I8|VGL2A_DANRE|53.691|6.74e-49

Looks like the only search that produced viable results is the "vitellogenin". Will use the top scoring (i.e. best e-value) match for primer design.

Create directories¶

In [10]:

%%bash
mkdir /home/sam/analyses
mkdir /home/sam/analyses/20181129_geoduck_vtg_primers

Run Primer3 to design primers¶

Quick explanation:¶

Primer3 requires a specially formatted input file. The file must be formatted like this:

SEQUENCE_ID=${seq_id}
SEQUENCE_TEMPLATE=${sequence}
PRIMER_TASK=generic
PRIMER_PICK_LEFT_PRIMER=3
PRIMER_PICK_RIGHT_PRIMER=3
PRIMER_OPT_SIZE=18
PRIMER_MIN_SIZE=15
PRIMER_MAX_SIZE=21
PRIMER_MAX_NS_ACCEPTED=1
PRIMER_PRODUCT_SIZE_RANGE=75-150
P3_FILE_FLAG=1
PRIMER_EXPLAIN_FLAG=1
=

Values after the "=" on each line can be changed to whatever values the user decides. The ${sequence} must be a nucletoide sequence on a single line, with no line breaks.

The code below uses a heredoc to write this information to a file. Everything between the following two lines gets printed (via cat) as shown and then redirected to the indicated file (20181129_primer3_params.txt):

cat << EOF > /home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_params.txt
EOF

Primer3 is run with the --format_output to make a nice, human-readable output format.

In [11]:

%%bash
cd /home/sam/analyses/20181129_geoduck_vtg_primers

# Store sequence only from desired FastA.
# Print all lines after the first line and then delete newlines
# Creates a sequence that exists on a single line, which is necessary for Primer3
sequence=$(tail -n +2 /home/sam/data/geoduck/transcriptomes/transdecoder_fasta_splits/TRINITY_DN51983_c0_g1_i8.p1.cds | tr -d '\n')

# Store file name of targeted FastA file.
seq_id=$(echo "$(head -n 1 /home/sam/data/geoduck/transcriptomes/transdecoder_fasta_splits/TRINITY_DN51983_c0_g1_i8.p1.cds | tr -d '>').cds")

# Use heredoc to create Primer3 parameters file
cat << EOF > /home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_params.txt
SEQUENCE_ID=${seq_id}
SEQUENCE_TEMPLATE=${sequence}
PRIMER_TASK=generic
PRIMER_PICK_LEFT_PRIMER=3
PRIMER_PICK_RIGHT_PRIMER=3
PRIMER_OPT_SIZE=18
PRIMER_MIN_SIZE=15
PRIMER_MAX_SIZE=21
PRIMER_MAX_NS_ACCEPTED=1
PRIMER_PRODUCT_SIZE_RANGE=75-150
P3_FILE_FLAG=1
PRIMER_EXPLAIN_FLAG=1
=
EOF

# Run Primer3
/home/sam/software/primer3-2.4.0/src/primer3_core \
--format_output \
--output=/home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_primers.txt \
/home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_params.txt

In [12]:

%%bash
cat /home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_primers.txt

PRIMER_ERROR=thermodynamic approach chosen, but path to thermodynamic parameters not specified
=

In [13]:

%%bash
cd /home/sam/analyses/20181129_geoduck_vtg_primers

# Store sequence only from desired FastA.
# Print all lines after the first line and then delete newlines
sequence=$(tail -n +2 /home/sam/data/geoduck/transcriptomes/transdecoder_fasta_splits/TRINITY_DN51983_c0_g1_i8.p1.cds | tr -d '\n')

# 
seq_id=$(echo "$(head -n 1 /home/sam/data/geoduck/transcriptomes/transdecoder_fasta_splits/TRINITY_DN51983_c0_g1_i8.p1.cds | tr -d '>').cds")

# Use heredoc to create Primer3 parameters file
cat << EOF > /home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_params.txt
SEQUENCE_ID=${seq_id}
SEQUENCE_TEMPLATE=${sequence}
PRIMER_TASK=generic
PRIMER_PICK_LEFT_PRIMER=3
PRIMER_PICK_RIGHT_PRIMER=3
PRIMER_OPT_SIZE=18
PRIMER_MIN_SIZE=15
PRIMER_MAX_SIZE=21
PRIMER_MAX_NS_ACCEPTED=1
PRIMER_PRODUCT_SIZE_RANGE=75-150
P3_FILE_FLAG=1
PRIMER_EXPLAIN_FLAG=1
PRIMER_THERMODYNAMIC_PARAMETERS_PATH=/home/sam/software/primer3-2.4.0/src/primer3_config/
=
EOF

# Run Primer3
/home/sam/software/primer3-2.4.0/src/primer3_core \
--format_output \
--output=/home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_primers.txt \
/home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_params.txt

In [14]:

%%bash
cat /home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_primers.txt

PRIMER PICKING RESULTS FOR TRINITY_DN51983_c0_g1_i8.p1.cds

No mispriming library specified
Using 0-based sequence positions
OLIGO            start  len      tm     gc%  any_th  3'_th hairpin seq
LEFT PRIMER       1347   18   59.89   55.56    9.11   0.13   42.06 TTACGCCACGGCAACTGT
RIGHT PRIMER      1471   18   60.05   61.11   10.11   0.00    0.00 CGCAGTGCCAACAAGCTG
SEQUENCE SIZE: 14484
INCLUDED REGION SIZE: 14484

PRODUCT SIZE: 125, PAIR ANY_TH COMPL: 10.66, PAIR 3'_TH COMPL: 0.00

    0 ATGGAGCGATTGGTTTTAGCGCTAATCGTTTTGGCGGTCTGTGTCCACGCAGGTCCGATA
                                                                  

   60 CAGAAAATCTCAGTTGATACCTGTGCAAGAACTTGTACAGGCAACAGCAAGTTTAATTAT
                                                                  

  120 GTTGCTGGTAAGACTTACCAGTACAAGTATGATGCCGACATCAAGACTGGGGTCCAGGGA
                                                                  

  180 GCATCAGAAGATAATGCGAAAATACACATGTCGGCAACAGTCGAGATGGAGGTCATATCA
                                                                  

  240 AAGTGTGACCTTGTCATGCGGCTGAATGATGTCACATTGACAGAATATGACCCCATTGAC
                                                                  

  300 TTGATAATGAAGGAAACGTCATCTGAATTCCGCAGTGGTCTTGAGAAGGCTCCCATCCGA
                                                                  

  360 ATCTCTTTCCAAGATGGAAACATAGAGGAACTTTGTCTGAAACGAGAGGAGCCAAATTGG
                                                                  

  420 GTGCTGAATGCCAAACGTGGAATCCTGTCAATGTTCCAGAACAACATGGACGATTTCTCA
                                                                  

  480 ACCAATAAAACAGTGTCTGAGACTGATGTGTCTGGTGTGTGTGATACAGAGTACCACGTG
                                                                  

  540 AGTAAATCTGGCTGGTACAAGACCACAGTCAGCAAGTCTAAGAATCTCCTAGGTTGTACT
                                                                  

  600 GACAGGACCGGGTACAACACTGCCGTCCAGGGAGTGCCATATACCGCAGCTTCTGGCATC
                                                                  

  660 CAGTCACTGCCAGTTGTGAAGAGCAACCATAACTGTGAACATGAGATTGACATTAAGTCG
                                                                  

  720 CACATTCTCCATTCGGCAACTTGTAATGAACAGCACATGTTCCTGCCATTCTCACGCTCA
                                                                  

  780 GACAGTGGAGCTGTAACATACAACACTCAGACTCTCAAGTTCGTGAAAGTAACAACTGGA
                                                                  

  840 ATCAAGTCACCATTTGATACCAGTACTCGCAAATCAATGAAATTCGATCACATCAATGAT
                                                                  

  900 GCAGGCAGAGAAGCAAAATCGAGGAAAGATATTACACGTAAGCTTATTGAAATCTGTGAG
                                                                  

  960 AAGACGAAGTCTGGTGTTCGCCCTGAAACCCCACGTCTGTTCACAGACCTCGTGTTTATG
                                                                  

 1020 ATGAAGACTGTTGATTCTGACACTCTAGCAGACACGTACAAACTGCTCCAAGAAGGTGCC
                                                                  

 1080 ATCTGCACTGACAATAAAGAAAGAACCAGGAAGTTTTTCCTTGATGCCTTACCGATTGCT
                                                                  

 1140 GGTTCCAGTTCCTCACTGCACTTGATGACCCAACTCTTGACCACAAAGGCTGTGACTGGA
                                                                  

 1200 ATTGAGGCAGACATGTGGCTGTCGGCCATCTCTTTTCTCAAGAACCCAACTAAAGACATG
                                                                  

 1260 CTGAAGGAAGTCAAGCCTTTGATCAACATGAAGGACACAACTGACAAGGCCCTGCTTTCT
                                                                  

 1320 GTCGGTACCCTGATCCACAGTTATTGTTTACGCCACGGCAACTGTGAACGTGATGACATG
                                 >>>>>>>>>>>>>>>>>>               

 1380 GTGAAGGCTGTCATCTCCGCAATGCAGAACAAGATCGCTAAAGGATGCAAGATCAAGCCA
                                                                  

 1440 GACAACTTCAAAACCAGCTTGTTGGCACTGCGAGGCATCGGCAATGCCGGATATGCCGTA
                    <<<<<<<<<<<<<<<<<<                            

 1500 TCAGCAATCCCCACCCTGGAGATTTGTGTGAAGATCACCTCGAACCCCATCGAAATTCGT
                                                                  

 1560 CTGTCCGCTATTGAGGCTTTCAGGAGGATGCCATGTGATGCAAGCAGAAAAGCTTTGGTA
                                                                  

 1620 AAGACATTCTTACAGAAGGAGGAAGATTCCGAAGTGAGGATCGCAGCATACAGGGTCTTG
                                                                  

 1680 ATGGAATGTCCATCACCTCAGTTCCTCAGCCTAGTCCGCTCCACGTTAGAGAGTGAGGAA
                                                                  

 1740 ATCAATCAAGTTGGGTCTTACATCTGGTCGCATCTTACAAACCTGATGGAGACATCTGAC
                                                                  

 1800 AGACATAAGCAGGACATCAGAGCAATCCTTGAGGATGAAACATTTAAGAAGGAATTTGAC
                                                                  

 1860 CTTGACAAAAGGAAGTTCTCACGTAACTACGAAGGTTCCATGTTTATTGAGAAACTCAAT
                                                                  

 1920 GCCGGCGCGAAAGTTGAAGGTGATCTTGTCTGGTCATCAAGATCTTTTGTTCCAAGATCG
                                                                  

 1980 GCCATGATGAATTTCACTGTTGATCTTTTTGGACATTCTATAAATCTTCTGGAATTCGGT
                                                                  

 2040 GGTCGAGCTGAAGGAATAGAATACTTCTTGGAATCATTCTTTGGACCCAATGGCTACTTC
                                                                  

 2100 AGTGGACAGGACACAAAGGGTGGAAATGATATGTTGGCCAATGGAATCAAACAGGAGAAA
                                                                  

 2160 ATGAAGAAGATTGATAACAGGTACGGCAGCAAGATGGACGAGCTCCGTGGCTCTATGTAC
                                                                  

 2220 ATGAGGGTGTTTGGCAATGAATTGCGTTACAAGAGCTTCCAGGGAGTGGAGGATCTGATG
                                                                  

 2280 TCTGGTCCTAACTTCAACCTGTTCGATATGCTGATACAGCTGGCCAAGGACAACGATTAT
                                                                  

 2340 ACTTTCAGCCATTCTACTATGTTCCTGGACACCAGCATCATTATCCCAACTGGAGCAGGT
                                                                  

 2400 TTCCCAATGAATCTAACAGTCAACGGAACTGCAACAATTGATCTGAGAATGAAGGGAAAG
                                                                  

 2460 ATGGATCTTAGGTCCCCGCCAGCTGTCAACATAGCAGGACTTGTACAACCAAGTGCGGCT
                                                                  

 2520 ATCGACATATCATCAATGATGAGCGTGGATGCATTTGTAACCAAGTCCGGAATTAAGATG
                                                                  

 2580 GTGTCCACCCTACACTCCAGTACAGCTGTCCAGGGCAAGTTCCAGGTGAACGAGGCTGGT
                                                                  

 2640 GTGATAAGCGCAGAATACGAGATGCCACAACCCAAGATGGAGATCATTGATGTCAAGTCA
                                                                  

 2700 TCATTCTTCACTGTTCATCGAGACATGGAGAAGGAACAAAAAATGATTGCTGATAACATT
                                                                  

 2760 CATACAAAGAAATTCTGCTCCCCAGAGAAACTTGTCACCATCACAGGACTTGAACTATGC
                                                                  

 2820 GCAGAGGTTACATACCCGAATGCATCTCTGAAATCAGATGCCCCATACTTCCCCCTTACA
                                                                  

 2880 GGCCCAGTCACTGCTGGTGTCTATCTCTACAACAGAGATACCCACAAGAAATACAAGATG
                                                                  

 2940 GAGGCCAGATCCACACATAACAAGGCAAGCAACATCCTGCATTTTACCTTTGACACACCA
                                                                  

 3000 GAATCTCGCATCGACAGACATATTGTCCTAGATCTCAACCTCAACAAACGAGCAACAACC
                                                                  

 3060 ATTGATATGACTTTGAACTCTCCATGGAAGAAGGCAAATCTGCAAGGTGCTATTACAAAT
                                                                  

 3120 GACAAAGGTATCATGGGTATTAACAGCAAGATGTCGGTGGATGGCAAATCTGGTTTCTCG
                                                                  

 3180 GTCAACTCCAAGTTTGTGAAATCCCGTGTCGGTAACAGCATCAAGTATGTTCCTTCTCTG
                                                                  

 3240 GAAATCAGTATACCGCAGATGAAGCCCGTGAGCATCCGAGGCATGTTGATGCATAATGGT
                                                                  

 3300 TACCGGCAGCTGGATTTGGAATATGACATGTCCGGACTGACTGCCGCACCAGTCTCCGCT
                                                                  

 3360 CAGTTGACCATTAACAACAAACCGGCCCTAAAAGGCGTACGAGGAAGTTTGTCTTTGCAA
                                                                  

 3420 AAGGACAAGGCCTACTCATTTGACACAAGGGTCATGATTTCATCTGACAACAACAAGATT
                                                                  

 3480 GGATATAAGCCATTTGTCTCCCTCCGTTCTCCAACAGGGGAGGTCCTTGCATTTGGCGGA
                                                                  

 3540 TCTGCTAATATTATCTTCAACAAGAAGGTTGTTGTAGACCTTGTCCTTGATAAGGCTTTT
                                                                  

 3600 GCCAAAGCAGTAACACTCAAAGGTTTCGTAACCAAGACAACGAAGAACCGAGGTCGTGTT
                                                                  

 3660 ATATACAACACTAAGATGACTTATACATCCAGTCCAGTGGATCTTCTGCTGAAAGCCAAG
                                                                  

 3720 ATAGACAACAGAAACTCTCGTGCAGTTGCGACAGTTGTAGACTTCACCTACGTCATTCGC
                                                                  

 3780 AAAATTGCCCGTAACAACATCAAACTTGTGTCAAAGGTCACGAACCTCAGCAGTAAATAC
                                                                  

 3840 CTTACCAAGGCCAAAGCTTCAGCGAATGTACTAGTAAAAAGGAATCCTGAGTTGAACTTG
                                                                  

 3900 AAATTTATGGGTAATCTAGAGCACAACAAGAAACACTCCGAGTTTGACGTCGATGTTCGC
                                                                  

 3960 TATGGTCGTGACTTCAAAGATGAAAGCAAACATATCGACATGAGTTTTGAGATGAATAGA
                                                                  

 4020 AAGTTCAAGGACATTACGGCAGCATCTGCCAATCTCCAGACAAGATTAACATTCCCTGGA
                                                                  

 4080 CAGGGTCTTAATATAATCGTAAAGGGTAATCACAAACACAGCAGTAAGGAACTTGATTCC
                                                                  

 4140 AACATCTTCCTGCGTCTTGGTAAAGGACAACCTATTGAGAGCAGTTTGCTCATACAGGAC
                                                                  

 4200 AAAACAGAACAATTGGTGAAGGTCGTCAGTGAATACAAGCTTAGTTATCCAGGCAGGGAA
                                                                  

 4260 GTCATCTTCAATCATACATTAGCACAGACAGATAAAACCACTTTTGTTAGTTCCTTCAAA
                                                                  

 4320 TCTCAACTGGAGAAAAATGGAAAGAATACCATTATTACAACACTGAAAACTTACCCTGAC
                                                                  

 4380 AAGGAAAGGGTTTCCATCTCATCAGATTTGAAACTAAGCAAACAAACACCAGTCCATTTG
                                                                  

 4440 CAAGGAGACTTTGATTTCAATCCAGCAGACTTTATCACCAGTATGTCATATGAGAAAGAT
                                                                  

 4500 TTAAAAAAATATTCTGGATCATTGACATCTCTGACCAAGGGAACTGAGTCATCAAGCTTA
                                                                  

 4560 ACAATTGATTTGCAACACCCAGAAAGACGCATTGTCATGGACCTTAGTGGCAAGAGCATG
                                                                  

 4620 ATGAAGAAATACCAGGTTGAGGCAGATTTAAAGTGGAATGCAGGCAGAAATGATTCTGAA
                                                                  

 4680 AATGTGCATATATCATCTTGGATTGAGCCACCGACAGAAGAAAAATTGAATGGCTCCATA
                                                                  

 4740 ACCATCACTTATCCGACAAGAACACTCACTTTGAACGCCCATCAATTACTATCAGACAAA
                                                                  

 4800 TATAACATGCATGCTGATTTTACATGGGAAACTGACAAGAAAGTTACTATGGATACAATC
                                                                  

 4860 GTCTTATACAAAAACAACATGATGATAAACACCTTAAAGTTGACCTCTCCATTTAGTAAG
                                                                  

 4920 ATGCGTAGACTTGACCTAGCTGTAAACCATAAAGATGACCACGAAGAATATGCAACTAAC
                                                                  

 4980 GTTGAGGTCAAGTGGAACAAAGGTGAATCTGTAACTTCTGAGCTCATACTTAAAAAGCCC
                                                                  

 5040 GCCAGTCTTAAAACCGTTGTTGGTAGTGTCTTCATGAAAACAAGCTTCAAGGTTCTGAAG
                                                                  

 5100 AAGATAAGATTAGACGTAAATCATAAATTAAGTGACTCCCTGGCTTCGTCTGTGAAATTT
                                                                  

 5160 GCATGGAACAGGCAACTCATTAATGTAGATGTAAACCTGAAAAACACAACCAAAGGTAAG
                                                                  

 5220 AAGATGGGATTTAATGGAAATGTTGATGTTAAGACCTCCTTTGCCTACTTGAAGAAGGGA
                                                                  

 5280 CAACTTAAAATCTCCCATGATAACAATGGTAAGACATTCAACACTTTGACGACTTTGATG
                                                                  

 5340 AAGAACAAGAAAACATACAAAATCGACAGTAAGATAACTCACATCCCCACAGCTAATAAA
                                                                  

 5400 TATGAAAACACTGGAGCTATTTCTATTTCTGCACCTACTGGAAAGTCTGATATAGTATGG
                                                                  

 5460 AGTCATATGCACACTTCAGAAAAAGTCACGTCCATGTTCGCTTCATCACAGGGAAAGAAG
                                                                  

 5520 GGTGATAAGAATATAACAGTGAGACTAAATGGAGAATTTAAAGACCTATATGCTGCCAGT
                                                                  

 5580 CTTAGCATTCAAACACCATATAAGTCTGCTCGTGATGCCTTGCTGGAGGTTAGTATGAAG
                                                                  

 5640 CATGATGGGTATGTTATGGTTGACAGCAAGGCTAACGTAAATGTAAATGGTGCGAAAGTT
                                                                  

 5700 GCTGCTGCTACCATTAGCTACAACTTGCGGAGCCCTGCTACCATTACTACACTTAATATT
                                                                  

 5760 CCTGCCCTTGATATCAACTGCAGGATTCAAGGTAATGCAACATCAGAGAAAAACTCAGAA
                                                                  

 5820 ACTGTTATAATGGAGGTTGTTCTTACACCAGAAATTAGTATGGCCCTCTCAGCATCACAG
                                                                  

 5880 AAATTTTTTGATGTCACTGGTAACCCTGATGCTTTTGCCCAGTCTCTCATTTCATGGAAA
                                                                  

 5940 TCTTCCTTCCCAGGATATGAGCATGCCAAATTCGTTTACGAAATTAGTGATAACAAAGAC
                                                                  

 6000 GAGTCCAGTGTTACAACACATACAAAACTTGAGTATAGCCAGGGTAAAGTCATAGAAGTT
                                                                  

 6060 AAATCTGAATTAGATAAAAACAGTTACTATTCATCACTGGCTACACCTTATGAATCGTTG
                                                                  

 6120 CCATTTATGGAAGGAAAAATCAGTTTCGTTGGCAAACCAGAATCTTTCAGAAGCTCTGCA
                                                                  

 6180 TTTATCAAGATACTACCTGTATTGGAGAAAACGTCTGCATCTGTATCATGGAGCACCCTT
                                                                  

 6240 GATGGATTGAAAACTGAACTGAGAGTGGATACACCATCTACCCAGTATCCTTATATTCAG
                                                                  

 6300 GTTAACTTGGAGGCAAAGAAAACGGAAAACGGAAAAACAACCGGTGATCTTGTAGTTGAA
                                                                  

 6360 TATCTTCCCAGAGAAACTGTCCGAGTGGAGGTGATGAGCGATATTAGTGATATTGTCAAC
                                                                  

 6420 CTCTCTGCAAAGGTGACATCACCATTTGTAATGATTGATCTATACCACAGTGGAAACCTA
                                                                  

 6480 CAATCATTTAAATCCAGTGCAGAGATTGAGGGGACACCTGGCAAGAAATATGGTCTCATT
                                                                  

 6540 GTAGGCTATACAAATGGTACAACGATTGAAGGCTATGCAACTATATCTGTGCCAGGAAGA
                                                                  

 6600 AGAGACATAAATGCAGTCTTCTCACACCAAGGATCTGCAATGAACTTTATCACTCATGCA
                                                                  

 6660 GAAATAACACACAACAGAATGAACCAATTCACCTCTGACTTTAAATTTGCAGCAGGCAAC
                                                                  

 6720 TCAATAACTGTGTCTGCATCCACTTCACTTAGGTCTTTGCTCCTCATATCAGAAGACAAA
                                                                  

 6780 TATAGAGCAGCTTTTACTACGAAGGTCATCCCATTGAAAAAGATGTCTGCTCATGGAGAA
                                                                  

 6840 TTTGTGACAACAACCATAGGAAAGTCTGAAGCAGATGTGTCTTTTGACCTGACTAAAGAT
                                                                  

 6900 ATTGAGGGTAGTCTTACTGTTAAATCACCTTTGATTAAAAACATTGAAGCTTCTTTTAAT
                                                                  

 6960 CATCATCAGAGTGAAAAATATATAAACAGTAGAGCAGAAATCGTCCATGACGGTAAAAAA
                                                                  

 7020 AATATTGATGTGCAGGCCTCTCTAAATGTTGATGAAGATTCTGTTGTTGGTGAAATAGGT
                                                                  

 7080 ATCAAATCCCCATTGTCTGATGATATCCAGGTCCTGTCTAGGTTTGATGGTGGTAAAGAC
                                                                  

 7140 AACTTTGTTGTTCATTTTGAAGGCTCTGTCGGTGTTAACAAATCTGAAATTGATTTATCC
                                                                  

 7200 CACAAATGGGTTGAGAGAAACAGCCAGCAGACGATAAGTGTGAGATCGACAGGGATGAAG
                                                                  

 7260 GACGTGACAGCAGAGATAAGTAACACCGGTGATTACTATAACTTAAGATCATATGCTGAG
                                                                  

 7320 TTAAATCATGGACTTGAAAAACATAGAATTGATTCTACATTTAAACATCTGATAGGCAAC
                                                                  

 7380 ACTGAAGGAAGTATTTCCATATCTTCTCCCCTGGGTGATCCACTATCCACAAACTTCTTT
                                                                  

 7440 GTAAAGGTCACTGAGGCAAATTTAGAGTCAAATGTTGAACTGAACATAGGCTCAGACAAG
                                                                  

 7500 AGTGAAGTTCATGTTTCTGTTGGTTCAAAACCAAATCTGGAAGGAAGCATTCGTGTCAAT
                                                                  

 7560 TCACCTTACGTCACTGATGTCTCAGCTGGATTTGATCACACTGGAGAGTTTCCAAATATT
                                                                  

 7620 GTTTCTCACGCACAAGTGAACATAGCCAATAAAGACATTGTTGATGTTAAGTTGATGTCA
                                                                  

 7680 CAATCCACAGAGAGGGGAATAGCTGGATCATTTGCACTGCAGACACCATTGAAAAACTAT
                                                                  

 7740 TCAAGTATTGAGACATCTTTCTTCCACCAAGGCATGTCTAACAATTTCAGAAGTCATGGA
                                                                  

 7800 GATTTTGCCATTAATTCTGATAAGTCTGAAATTAATCTTTTCTACAGTTCAATGTACAAG
                                                                  

 7860 TATGAGGGTATGGTCTCCATCAAATCTCATCTCATTGATGACCTTAAGATTGGCTTTGAA
                                                                  

 7920 CATGATGGAACAAAAACTAACTTTGACTCTCATGGGGAAATCAGTGTTGGATTTGAGAAA
                                                                  

 7980 TATGAACTCGATGTTAATGCAAATGTAGATTCAGATGTCATATTGAGCATGATTGTAAAA
                                                                  

 8040 TCTCCCAGAAATGAAGATATCATTGCTAGGTTTTCACACTCGGGTAATTTCTCAGATTTT
                                                                  

 8100 AGATGCCATGCAGAACTAATGCATGATAAAGACAGCAAATGGGAGGGAGATGTCAGTTTT
                                                                  

 8160 TCTGCTGGTGATGAAATAAGAGGAGAGATTGTTTTCAAACCATGTCATCATCTTCACAAA
                                                                  

 8220 GTTTTCATTTTCGATTCTAATATCAAGTTTGAATTCAGTAAATACCATGCTGAAATAAAT
                                                                  

 8280 GGAGATTTACCATTTTTAGGAGAAGTACTTCTGAATTTCAAACGCACAGGAGAACTAAAT
                                                                  

 8340 GACTTTAACATACATGCAGATGCTAGTTTCAGAAATAAGAAATCAGATGCAGATGTCACT
                                                                  

 8400 TTCCAGCTTGCAAAGAAATTACTCTCTTCATCTGTAAACCTTAGATTTCCACATATGGAA
                                                                  

 8460 GATGTGTCTTTTAGTTTCAATCACAATGGAGGTTTGAAAAACTTCAACACAAAAACTGAA
                                                                  

 8520 ATGACAATTGGACAGAATAGAACCCAAGGAGCTGTAAGGGTGAGAATCACTGGTTCATCC
                                                                  

 8580 ATTTATTCAAACTTAGCAATTCAATCCCATTACATGGACAGGATAAATGTTAACTTCAAC
                                                                  

 8640 CACAATGGACAATTTGGAGATTTCACCACCAGTGGAGATGTCACTATTGGCAACATGAAA
                                                                  

 8700 AATGAAGCAGACATGGCATTCCACCTTTCTGGCAAAGTTATGTCATCATCAGCCAGTGTC
                                                                  

 8760 AAATCGCCTTTAATGGATAGTGTCAGCATAGACTTTAACCACAATGGAGCACCAACAGAC
                                                                  

 8820 TTTACTACCAAAGCTTCTGTGACCATAGGTGATAAAAAAAATGAAGGAGACATTACATTC
                                                                  

 8880 CAGATTACAGAAAAGGCTGTCATCTCTTCACTTAATATCAAATCACCATACATGGACAAC
                                                                  

 8940 ATCAATGCTAATTTCAATCACGAAGGATTTGCTACGAAATTCACTACCAAGGCTGATGTA
                                                                  

 9000 ACAATTGGTGTTGAAAAAAGTGAAGGTGATGTTTCATTCCAGTGGTCCAACACTTCTACG
                                                                  

 9060 ACAATCTCTGGGAACCTGAAATCGCCATCAATGGAAGATATTACTTTTAACCAGTACACC
                                                                  

 9120 TTATCTATGCCAACAAAGTATACGTATCATCAGGATTACTCGGTTGGTGATGCAAAAACT
                                                                  

 9180 GAAACTGATATGATGCTGGACTACACCAACCTGAAGGCCACCTTTGCTTTGACTTCGCCA
                                                                  

 9240 AAAACTTCCCTAAATTTTGACCACTCTGGTGATATTAAGAATTTCATCTCCGCATTGGAC
                                                                  

 9300 CTAACAACTGAAATGGGAAGATATTCTTCTGAAGCAAAATTCACACTGAATGATAATGTA
                                                                  

 9360 GAAGCAAGCTTCAAACTCACTTCCCCTGTTGAAGGAATGGAGTCAATTTCAGCACTTTAT
                                                                  

 9420 ACCCACAATGGCAAACCATCCAACTTCAGATGCCATGGGGAGTTATCTCTTCCAAATAAA
                                                                  

 9480 GCTAATGTTGCTGATTTAATTATCAATGTTGAGCAACTAACAAATATGAAAGGAAGTCTT
                                                                  

 9540 CAAATTAAATCTGAAATCATTCCAGACTTCACAGCGAAATTCTCCAACATACTCACAGAA
                                                                  

 9600 ACATCTCTGCAGTCAATGTCTGAGATCAGTGTTGATGATGAAGTACTCTATGGTATAGCT
                                                                  

 9660 GTCTCTTTCACCAACAATTCATTCCTTAAAGCTGAACTGGAAGTGAAAACACCAGTAACA
                                                                  

 9720 GAATATCGTGTTATTAGGCTGTCAGGAATTAATCAAATGGACAAAGACCAGGTAAAAGCA
                                                                  

 9780 TCTGCAGAGCTTCTTATTGGAAGTGATAGCAGTGTAATGGAACTTTCATTTTCTTCTAAA
                                                                  

 9840 CCAAATGTTGCGGGCGTTTTCGAACTCAGATCTGTATACCTACCTCATCTTAAGGCTACC
                                                                  

 9900 CTAGATGCTACTGGAACACCAACTAATTTTAGAGGAAACTCAGAACTTATTTTTGATGGT
                                                                  

 9960 GAAAAGAAAGGAAGTGTTGATGCTTCTTTCAATATGGAAGGTATATTAGATGCAAATCTC
                                                                  

10020 AAGATGGAACTGCCCCTGGAAAATTACACAAGGATAAATGGAGACATCTCAATTAGGAGC
                                                                  

10080 AGTAGTGACTTACTTGACATAAAATCTGCACTGAGTATTGAAGATAGAGAGTTAGTTGAC
                                                                  

10140 GGCAGTGTTCGAATTACAAACCAAAATCAGCTCTCAGGAGAAATATCTCTGAAATCTATT
                                                                  

10200 TACATTAACCCTTTGACTGTGAGCTTTGATTTATCTGGGGATCTTAAAGACTTCAGTACA
                                                                  

10260 ACAGCCGACATAAGCTACAATAATGAGAAACTGGCTGCAAGTAGTATGAAATTCAATTTC
                                                                  

10320 AACCCAACTCCTTTGAAAACATCTGGGTTTGCATCGTTCAACAAGATGTCTTTTGCATAC
                                                                  

10380 AGCTTAGATAATGCCCCAAAAGATTTTAAATCCCATGCAGAGGTAAAAGTAGAAGAAAAG
                                                                  

10440 ATGTGGTCTCTTGATGCAACCTGCACTAGAAAGCAAGACATTGATGCTTCATTTAAGGTC
                                                                  

10500 ATTATTCCAGAGATTGATCCAATTTCTGGAAAATTGTCTCATAGCCAGAGACAGTTCAGA
                                                                  

10560 TGTGCATCTCATGTCGAGCTTAAAACAGATTCCTCAACAAAATACCAGTATGACATGCTT
                                                                  

10620 CTCAAGTGGAGACGTGCCTTGGAAGGAACTTTCAGTGTCAAAACACCCATCAAAGGAATG
                                                                  

10680 GAAATTACAAAAGTTGTCCTCAATCATGATGGCACTTTCCCAAACATCAAATCTTCAGCT
                                                                  

10740 GAAGTCAATTTCAACAAGACAGACATTTCAGCCGCTGTCAGTCTGATGCATGGTGATTTA
                                                                  

10800 ACCAAAGGAGATGTTTCCATTAAAACTCCATTTGAAGGATTGGAAGATGTCAGTGTAACA
                                                                  

10860 TTCTATTCTGAAGGTGATATTGAAAAATTCCAAGCAGGTGGAAAGGTTTTGTATGCTCCA
                                                                  

10920 GGAAAAGATATTGAGGCAGGAGTGGAACATAGTTTGTCTGACAATAAGCTGCAGTCCCGC
                                                                  

10980 ATCCATTTTATGTCACCCTTCACCGATGAAATCGTTGTCAGTGCTAACCATACTGGGGTT
                                                                  

11040 CCTATGAATTTTGTGTCAAGTTATGAATTAGCCATGGGTTCAGATAATAGAATCAAATCT
                                                                  

11100 GAGACATCTTTGAAAACTGGATTCCAGTATGTTCAATTCAAATCTTCTGTCACTACAACA
                                                                  

11160 ATGAGTGGGGAAACATTTGTACAAAAGGTTGAGCTAAAGCATGATGGCGCTATAGAGAAG
                                                                  

11220 TTCAAAACAGAGGCAATGGTACAAGCAATGGAGAAATTAGTAAGAGTTGATACATCCTTC
                                                                  

11280 CAGCTTGAACCAGTCATTGAAGGATCAGCCTCAATCATTACACCATTCTTTGAAAAGTCA
                                                                  

11340 GAGGAAATAAAGGTAATCTTTTCACATAGTGGTAGTACTAGTGGATTCCTCTCAACTGGA
                                                                  

11400 GAGTTACAGTATTCTCCAAAGAAAAAGATAAGTGGAAAAATTGATTTCCTCAATAATGGT
                                                                  

11460 TGGAGGAGGAGAGTTGCAACTGTCGAAGTAAGAACGCCATTTAAGGGCATGGAGGTGAAC
                                                                  

11520 AAGGTTACCTACCAGCATACAGGCAACTCGGACAGCTTTGATTGTGATGCAGATATTTTT
                                                                  

11580 GTTGCTTCCCAGCCACTCAGCGCTACTTTCAAAGGATCTAAAGCACCTTTAAGCATGGAT
                                                                  

11640 CTGAACATCAAAACACCATTTGAAGGATATGAGAGTTTTGGACTTAACGGGAACTTCCTA
                                                                  

11700 AACAACACAATGGGCAGATATAGCGGCAGAATGGAAGCCTCATGGCACCCAAATCAGGCA
                                                                  

11760 GTCATTTTTGAAAGTTCATTTGCTGCATTGAGAAATAAAATTGAAGGAAGTGCCTCACTA
                                                                  

11820 ACAACTCCATTTGTCATGCTCCAACGGTCCTCAATTGAATTCTCACACCAGGAGCTCTCT
                                                                  

11880 CAAAAATTCATTGAAAATCTAAAAGCAACTTTCAATGGAAGTAGAATTGTGGATGTTGAG
                                                                  

11940 GTTGATCACAGCCTGATGAATGAACGCAAACATGCCATTATTACAATGCGTGCTCCACGC
                                                                  

12000 TCCATGAAATTTGACATGAGTGGTGATTTCACTCTGGAAAGTTCAGCAGTTGATGCATCT
                                                                  

12060 GCCAACTGGAACACTGAAGATAGTAAAAGTAATCTGAAACTTGAGGGAGTTTATGACATA
                                                                  

12120 AGAACAGACAAGAGAATGAACTTCAAACTGACCCGACCTGGACAGGTGATTTCCTATTCC
                                                                  

12180 GGATTATTGGACAGAAGACACAGTAAATCTGACCTTGTCTGGGGTATAGGATCAACACAA
                                                                  

12240 AAAGCAGGCTATGAAGTCGCAATCAATGATTATGACTCCAGACTGAAACTTATACTTCCA
                                                                  

12300 ACACGAAGCCTAGAGCTAACCGGGTCCCATCGATCAAAGGTCACAGAAGGGTCATTTCTA
                                                                  

12360 TGGGATGCTGATGTGGATGAAACAAAGAAGGTTGGCTTCCGTTCTGTGATAGTGCCATCA
                                                                  

12420 GATGATGCTATTAAGGCCGATGTTACATTCCAGCTTCCAAGCTTAGGAAAGAGAGTACAA
                                                                  

12480 GTCGGTTCAGAGGTTGTGGTCAATAGAGGACGTGTAATTTTCGACGGCAAGACAGAGTTC
                                                                  

12540 TCTTACTCTCCTGATGAGAGAAAGAAGATTGTGTTTTCATCAAGGCTTGAGGATAAGTCC
                                                                  

12600 CTTGGAGCCACGAAAAACTACAGCTTCAGCATGGGTCTAAGTCATCCATACACGACTGTT
                                                                  

12660 GATATCAAACTGGCATCACATGTTGGCAAATCCAAGAACAGATATTCCGCTGGTATGGGG
                                                                  

12720 CTTGAGTACCTTAACACACACAGACAGACCAAGACCTTCCAAGTCAATGGACAGATTAAC
                                                                  

12780 AAACTCAGGAAAACCATCAGCTTCGAGCTGCAGAGTCCAGTCAAATCTATCAGTATTTCG
                                                                  

12840 GGCAGTGCTCAGACTGAAGACAAGTTCCGTGTGTCTATCCTCAACATCTATGACCAGAAG
                                                                  

12900 ATGCCACTGACGACTGTTTTCACCGTCGACCCTGCCACCAGATCACTTGACTTTTACATT
                                                                  

12960 AATTATGACCTTGAGAACCCAAGTAGTGAGTTCCACATAAATGCCAAGTATGTGAACAGT
                                                                  

13020 TCTGCATTGGCTGCCGAGGTGTTCCATATCGTCAACCGTGAACGAGTGACTGACATTCTG
                                                                  

13080 GTTACTGCCAGACTCAACAACTCTCACCTCCTTCACACAAGAGTTCACTGGAGACCGGAA
                                                                  

13140 ATGATCAAGGAATACGAGACTGTTCGAGAGAGGAAACTTGAGGACTACAAGAGACGCCTG
                                                                  

13200 GAAATTTCAGCAGTTAAAGTAGAGGCTGCTGTAATTGAGGAAACTGTTGAGAAGTTTAAG
                                                                  

13260 ATGATCTGGGAAGCTGTTGTAGAGGAGATTGGCCAAGACAATGCTCTAGCTATAGAGGCT
                                                                  

13320 GCTGTTATCCCCATGTTTGAAGATGGACTGAGGACATATGCACAAGTGCAGGGACATGTG
                                                                  

13380 CAGGCAAACTTCCTTCCATTTGCCTTGGATTTGGCCAACATAACACAGTACAAGTACAAC
                                                                  

13440 AGATTTGTACAAACATACAGAGAGTTTTCACAGGCAGTAAAGCTTCCAGAAACAATGAAG
                                                                  

13500 GATCTTGACTTCCTGTCGTCTGCCAGACAACCATTGGAGAAGCCCTTTAATTATGCACTG
                                                                  

13560 GATCTGATCAAGATCCCTGCGAAGCACCTTCCAACCCAGGTGACCGGAGCACTGAAATAC
                                                                  

13620 CCGGCCAAATATATGTTTTCTAATATGGATACTGCTATGTTGGAGCAGCTTAACAAGAAC
                                                                  

13680 TGGGAACTTGAACACCATCTAGAATCTGTCATTGAAACCATTCTTCTTGCAATTGAGGAG
                                                                  

13740 GAAGCTGAGGAAGGCATACTTAAATTGAAGAGTATCATTCTCAACTCGGCACAATCCCCA
                                                                  

13800 ATCACTGTGTACGACCCAACCCACGGGGAGATCCAGGCAGAATTTCACTCACCCATACCA
                                                                  

13860 CTGAAGTCTCTGGATGAGCTACCTGTTATCAATATTGAAAGATATATTAACATGGTTATG
                                                                  

13920 AAAACTCGCAGTAGAAAGACAGAAAATGTTCCCAGCAAGACATCAGAATGGTTGCCACCA
                                                                  

13980 TTTACTGGTGTTGCCAGTATTACCAGCGGTCATAAAATCACAACTTTCGACGGGTATATC
                                                                  

14040 TATGACCTTGATGCTGACTGCACGTTTGTGCTTGTCCGTGATTTCAGGAATGGCAACTTC
                                                                  

14100 AGTATTATTCTGAACAACAATGATGGGACAACTCTGTCAATCCTTTCACATGGAAAACCA
                                                                  

14160 ATAGAAATCAAGCAGAGCGGAGAGATCTCTGTTGCCATGGAGCCTGTCACTCTCCCATAC
                                                                  

14220 AAAGAAAACAACATCACAATTACATCATCAGATGACGGAATCATCAGCATTGATGGGGCT
                                                                  

14280 AACCACTTCAAGGTAGATTATGACCTCTCAGTCGATCACATCGATGTAGAGATCAATGGA
                                                                  

14340 TGGTATTACGGCAAAACTGCAGGACTTCTTGGTACCTTTGACAACGAGCCCTCAAATGAC
                                                                  

14400 CTTATGACCTCCTTTGGAAAAATCATCAATAATCCTAAACGTTTCGCCAGAACTTGGGAT
                                                                  

14460 GTTGGAAACACAAATTGCCGTTAA
                              

KEYS (in order of precedence):
>>>>>> left primer
<<<<<< right primer

ADDITIONAL OLIGOS
                    start  len      tm     gc%  any_th  3'_th hairpin seq

 1 LEFT PRIMER       3266   18   59.89   61.11    7.91   0.00   31.82 CGTGAGCATCCGAGGCAT
   RIGHT PRIMER      3362   18   60.13   66.67    0.00   0.00    0.00 CTGAGCGGAGACTGGTGC
   PRODUCT SIZE: 97, PAIR ANY_TH COMPL: 0.78, PAIR 3'_TH COMPL: 0.78

 2 LEFT PRIMER       3253   18   60.13   61.11    0.00   0.00    0.00 CGCAGATGAAGCCCGTGA
   RIGHT PRIMER      3362   18   60.13   66.67    0.00   0.00    0.00 CTGAGCGGAGACTGGTGC
   PRODUCT SIZE: 110, PAIR ANY_TH COMPL: 0.00, PAIR 3'_TH COMPL: 0.00

 3 LEFT PRIMER       1922   18   59.83   61.11   12.10   0.00    0.00 CGGCGCGAAAGTTGAAGG
   RIGHT PRIMER      2053   18   60.13   66.67    0.00   0.00   40.25 CCTTCAGCTCGACCACCG
   PRODUCT SIZE: 132, PAIR ANY_TH COMPL: 11.23, PAIR 3'_TH COMPL: 14.04

 4 LEFT PRIMER       1921   18   59.83   61.11   12.10   0.00    0.00 CCGGCGCGAAAGTTGAAG
   RIGHT PRIMER      2053   18   60.13   66.67    0.00   0.00   40.25 CCTTCAGCTCGACCACCG
   PRODUCT SIZE: 133, PAIR ANY_TH COMPL: 5.41, PAIR 3'_TH COMPL: 9.34

Statistics
         con   too    in    in   not          no    tm    tm   high  high  high        high      
         sid  many   tar  excl    ok   bad    GC   too   too any_th 3'_th hair-  poly   end      
        ered    Ns   get   reg   reg   GC% clamp   low  high  compl compl   pin     X  stab    ok
libprimer3 release 2.4.0

In [15]:

%%bash
cd /home/sam/analyses/
rsync \
--archive \
--relative \
./20181129_geoduck_vtg_primers/ gannet:/volume1/web/Atumefaciens

Run again to generate default output format, just for curiosity¶

In [16]:

%%bash
cd /home/sam/analyses/20181129_geoduck_vtg_primers

# Store sequence only from desired FastA.
# Print all lines after the first line and then delete newlines
sequence=$(tail -n +2 /home/sam/data/geoduck/transcriptomes/transdecoder_fasta_splits/TRINITY_DN51983_c0_g1_i8.p1.cds | tr -d '\n')

# 
seq_id=$(echo "$(head -n 1 /home/sam/data/geoduck/transcriptomes/transdecoder_fasta_splits/TRINITY_DN51983_c0_g1_i8.p1.cds | tr -d '>').cds")

# Use heredoc to create Primer3 parameters file
cat << EOF > /home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_params.txt
SEQUENCE_ID=${seq_id}
SEQUENCE_TEMPLATE=${sequence}
PRIMER_TASK=generic
PRIMER_PICK_LEFT_PRIMER=3
PRIMER_PICK_RIGHT_PRIMER=3
PRIMER_OPT_SIZE=18
PRIMER_MIN_SIZE=15
PRIMER_MAX_SIZE=21
PRIMER_MAX_NS_ACCEPTED=1
PRIMER_PRODUCT_SIZE_RANGE=75-150
P3_FILE_FLAG=1
PRIMER_EXPLAIN_FLAG=1
PRIMER_THERMODYNAMIC_PARAMETERS_PATH=/home/sam/software/primer3-2.4.0/src/primer3_config/
=
EOF

# Run Primer3
/home/sam/software/primer3-2.4.0/src/primer3_core \
--output=/home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_primers_default_format.txt \
/home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_params.txt

cat /home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_primers_default_format.txt

SEQUENCE_ID=TRINITY_DN51983_c0_g1_i8.p1.cds
SEQUENCE_TEMPLATE=ATGGAGCGATTGGTTTTAGCGCTAATCGTTTTGGCGGTCTGTGTCCACGCAGGTCCGATACAGAAAATCTCAGTTGATACCTGTGCAAGAACTTGTACAGGCAACAGCAAGTTTAATTATGTTGCTGGTAAGACTTACCAGTACAAGTATGATGCCGACATCAAGACTGGGGTCCAGGGAGCATCAGAAGATAATGCGAAAATACACATGTCGGCAACAGTCGAGATGGAGGTCATATCAAAGTGTGACCTTGTCATGCGGCTGAATGATGTCACATTGACAGAATATGACCCCATTGACTTGATAATGAAGGAAACGTCATCTGAATTCCGCAGTGGTCTTGAGAAGGCTCCCATCCGAATCTCTTTCCAAGATGGAAACATAGAGGAACTTTGTCTGAAACGAGAGGAGCCAAATTGGGTGCTGAATGCCAAACGTGGAATCCTGTCAATGTTCCAGAACAACATGGACGATTTCTCAACCAATAAAACAGTGTCTGAGACTGATGTGTCTGGTGTGTGTGATACAGAGTACCACGTGAGTAAATCTGGCTGGTACAAGACCACAGTCAGCAAGTCTAAGAATCTCCTAGGTTGTACTGACAGGACCGGGTACAACACTGCCGTCCAGGGAGTGCCATATACCGCAGCTTCTGGCATCCAGTCACTGCCAGTTGTGAAGAGCAACCATAACTGTGAACATGAGATTGACATTAAGTCGCACATTCTCCATTCGGCAACTTGTAATGAACAGCACATGTTCCTGCCATTCTCACGCTCAGACAGTGGAGCTGTAACATACAACACTCAGACTCTCAAGTTCGTGAAAGTAACAACTGGAATCAAGTCACCATTTGATACCAGTACTCGCAAATCAATGAAATTCGATCACATCAATGATGCAGGCAGAGAAGCAAAATCGAGGAAAGATATTACACGTAAGCTTATTGAAATCTGTGAGAAGACGAAGTCTGGTGTTCGCCCTGAAACCCCACGTCTGTTCACAGACCTCGTGTTTATGATGAAGACTGTTGATTCTGACACTCTAGCAGACACGTACAAACTGCTCCAAGAAGGTGCCATCTGCACTGACAATAAAGAAAGAACCAGGAAGTTTTTCCTTGATGCCTTACCGATTGCTGGTTCCAGTTCCTCACTGCACTTGATGACCCAACTCTTGACCACAAAGGCTGTGACTGGAATTGAGGCAGACATGTGGCTGTCGGCCATCTCTTTTCTCAAGAACCCAACTAAAGACATGCTGAAGGAAGTCAAGCCTTTGATCAACATGAAGGACACAACTGACAAGGCCCTGCTTTCTGTCGGTACCCTGATCCACAGTTATTGTTTACGCCACGGCAACTGTGAACGTGATGACATGGTGAAGGCTGTCATCTCCGCAATGCAGAACAAGATCGCTAAAGGATGCAAGATCAAGCCAGACAACTTCAAAACCAGCTTGTTGGCACTGCGAGGCATCGGCAATGCCGGATATGCCGTATCAGCAATCCCCACCCTGGAGATTTGTGTGAAGATCACCTCGAACCCCATCGAAATTCGTCTGTCCGCTATTGAGGCTTTCAGGAGGATGCCATGTGATGCAAGCAGAAAAGCTTTGGTAAAGACATTCTTACAGAAGGAGGAAGATTCCGAAGTGAGGATCGCAGCATACAGGGTCTTGATGGAATGTCCATCACCTCAGTTCCTCAGCCTAGTCCGCTCCACGTTAGAGAGTGAGGAAATCAATCAAGTTGGGTCTTACATCTGGTCGCATCTTACAAACCTGATGGAGACATCTGACAGACATAAGCAGGACATCAGAGCAATCCTTGAGGATGAAACATTTAAGAAGGAATTTGACCTTGACAAAAGGAAGTTCTCACGTAACTACGAAGGTTCCATGTTTATTGAGAAACTCAATGCCGGCGCGAAAGTTGAAGGTGATCTTGTCTGGTCATCAAGATCTTTTGTTCCAAGATCGGCCATGATGAATTTCACTGTTGATCTTTTTGGACATTCTATAAATCTTCTGGAATTCGGTGGTCGAGCTGAAGGAATAGAATACTTCTTGGAATCATTCTTTGGACCCAATGGCTACTTCAGTGGACAGGACACAAAGGGTGGAAATGATATGTTGGCCAATGGAATCAAACAGGAGAAAATGAAGAAGATTGATAACAGGTACGGCAGCAAGATGGACGAGCTCCGTGGCTCTATGTACATGAGGGTGTTTGGCAATGAATTGCGTTACAAGAGCTTCCAGGGAGTGGAGGATCTGATGTCTGGTCCTAACTTCAACCTGTTCGATATGCTGATACAGCTGGCCAAGGACAACGATTATACTTTCAGCCATTCTACTATGTTCCTGGACACCAGCATCATTATCCCAACTGGAGCAGGTTTCCCAATGAATCTAACAGTCAACGGAACTGCAACAATTGATCTGAGAATGAAGGGAAAGATGGATCTTAGGTCCCCGCCAGCTGTCAACATAGCAGGACTTGTACAACCAAGTGCGGCTATCGACATATCATCAATGATGAGCGTGGATGCATTTGTAACCAAGTCCGGAATTAAGATGGTGTCCACCCTACACTCCAGTACAGCTGTCCAGGGCAAGTTCCAGGTGAACGAGGCTGGTGTGATAAGCGCAGAATACGAGATGCCACAACCCAAGATGGAGATCATTGATGTCAAGTCATCATTCTTCACTGTTCATCGAGACATGGAGAAGGAACAAAAAATGATTGCTGATAACATTCATACAAAGAAATTCTGCTCCCCAGAGAAACTTGTCACCATCACAGGACTTGAACTATGCGCAGAGGTTACATACCCGAATGCATCTCTGAAATCAGATGCCCCATACTTCCCCCTTACAGGCCCAGTCACTGCTGGTGTCTATCTCTACAACAGAGATACCCACAAGAAATACAAGATGGAGGCCAGATCCACACATAACAAGGCAAGCAACATCCTGCATTTTACCTTTGACACACCAGAATCTCGCATCGACAGACATATTGTCCTAGATCTCAACCTCAACAAACGAGCAACAACCATTGATATGACTTTGAACTCTCCATGGAAGAAGGCAAATCTGCAAGGTGCTATTACAAATGACAAAGGTATCATGGGTATTAACAGCAAGATGTCGGTGGATGGCAAATCTGGTTTCTCGGTCAACTCCAAGTTTGTGAAATCCCGTGTCGGTAACAGCATCAAGTATGTTCCTTCTCTGGAAATCAGTATACCGCAGATGAAGCCCGTGAGCATCCGAGGCATGTTGATGCATAATGGTTACCGGCAGCTGGATTTGGAATATGACATGTCCGGACTGACTGCCGCACCAGTCTCCGCTCAGTTGACCATTAACAACAAACCGGCCCTAAAAGGCGTACGAGGAAGTTTGTCTTTGCAAAAGGACAAGGCCTACTCATTTGACACAAGGGTCATGATTTCATCTGACAACAACAAGATTGGATATAAGCCATTTGTCTCCCTCCGTTCTCCAACAGGGGAGGTCCTTGCATTTGGCGGATCTGCTAATATTATCTTCAACAAGAAGGTTGTTGTAGACCTTGTCCTTGATAAGGCTTTTGCCAAAGCAGTAACACTCAAAGGTTTCGTAACCAAGACAACGAAGAACCGAGGTCGTGTTATATACAACACTAAGATGACTTATACATCCAGTCCAGTGGATCTTCTGCTGAAAGCCAAGATAGACAACAGAAACTCTCGTGCAGTTGCGACAGTTGTAGACTTCACCTACGTCATTCGCAAAATTGCCCGTAACAACATCAAACTTGTGTCAAAGGTCACGAACCTCAGCAGTAAATACCTTACCAAGGCCAAAGCTTCAGCGAATGTACTAGTAAAAAGGAATCCTGAGTTGAACTTGAAATTTATGGGTAATCTAGAGCACAACAAGAAACACTCCGAGTTTGACGTCGATGTTCGCTATGGTCGTGACTTCAAAGATGAAAGCAAACATATCGACATGAGTTTTGAGATGAATAGAAAGTTCAAGGACATTACGGCAGCATCTGCCAATCTCCAGACAAGATTAACATTCCCTGGACAGGGTCTTAATATAATCGTAAAGGGTAATCACAAACACAGCAGTAAGGAACTTGATTCCAACATCTTCCTGCGTCTTGGTAAAGGACAACCTATTGAGAGCAGTTTGCTCATACAGGACAAAACAGAACAATTGGTGAAGGTCGTCAGTGAATACAAGCTTAGTTATCCAGGCAGGGAAGTCATCTTCAATCATACATTAGCACAGACAGATAAAACCACTTTTGTTAGTTCCTTCAAATCTCAACTGGAGAAAAATGGAAAGAATACCATTATTACAACACTGAAAACTTACCCTGACAAGGAAAGGGTTTCCATCTCATCAGATTTGAAACTAAGCAAACAAACACCAGTCCATTTGCAAGGAGACTTTGATTTCAATCCAGCAGACTTTATCACCAGTATGTCATATGAGAAAGATTTAAAAAAATATTCTGGATCATTGACATCTCTGACCAAGGGAACTGAGTCATCAAGCTTAACAATTGATTTGCAACACCCAGAAAGACGCATTGTCATGGACCTTAGTGGCAAGAGCATGATGAAGAAATACCAGGTTGAGGCAGATTTAAAGTGGAATGCAGGCAGAAATGATTCTGAAAATGTGCATATATCATCTTGGATTGAGCCACCGACAGAAGAAAAATTGAATGGCTCCATAACCATCACTTATCCGACAAGAACACTCACTTTGAACGCCCATCAATTACTATCAGACAAATATAACATGCATGCTGATTTTACATGGGAAACTGACAAGAAAGTTACTATGGATACAATCGTCTTATACAAAAACAACATGATGATAAACACCTTAAAGTTGACCTCTCCATTTAGTAAGATGCGTAGACTTGACCTAGCTGTAAACCATAAAGATGACCACGAAGAATATGCAACTAACGTTGAGGTCAAGTGGAACAAAGGTGAATCTGTAACTTCTGAGCTCATACTTAAAAAGCCCGCCAGTCTTAAAACCGTTGTTGGTAGTGTCTTCATGAAAACAAGCTTCAAGGTTCTGAAGAAGATAAGATTAGACGTAAATCATAAATTAAGTGACTCCCTGGCTTCGTCTGTGAAATTTGCATGGAACAGGCAACTCATTAATGTAGATGTAAACCTGAAAAACACAACCAAAGGTAAGAAGATGGGATTTAATGGAAATGTTGATGTTAAGACCTCCTTTGCCTACTTGAAGAAGGGACAACTTAAAATCTCCCATGATAACAATGGTAAGACATTCAACACTTTGACGACTTTGATGAAGAACAAGAAAACATACAAAATCGACAGTAAGATAACTCACATCCCCACAGCTAATAAATATGAAAACACTGGAGCTATTTCTATTTCTGCACCTACTGGAAAGTCTGATATAGTATGGAGTCATATGCACACTTCAGAAAAAGTCACGTCCATGTTCGCTTCATCACAGGGAAAGAAGGGTGATAAGAATATAACAGTGAGACTAAATGGAGAATTTAAAGACCTATATGCTGCCAGTCTTAGCATTCAAACACCATATAAGTCTGCTCGTGATGCCTTGCTGGAGGTTAGTATGAAGCATGATGGGTATGTTATGGTTGACAGCAAGGCTAACGTAAATGTAAATGGTGCGAAAGTTGCTGCTGCTACCATTAGCTACAACTTGCGGAGCCCTGCTACCATTACTACACTTAATATTCCTGCCCTTGATATCAACTGCAGGATTCAAGGTAATGCAACATCAGAGAAAAACTCAGAAACTGTTATAATGGAGGTTGTTCTTACACCAGAAATTAGTATGGCCCTCTCAGCATCACAGAAATTTTTTGATGTCACTGGTAACCCTGATGCTTTTGCCCAGTCTCTCATTTCATGGAAATCTTCCTTCCCAGGATATGAGCATGCCAAATTCGTTTACGAAATTAGTGATAACAAAGACGAGTCCAGTGTTACAACACATACAAAACTTGAGTATAGCCAGGGTAAAGTCATAGAAGTTAAATCTGAATTAGATAAAAACAGTTACTATTCATCACTGGCTACACCTTATGAATCGTTGCCATTTATGGAAGGAAAAATCAGTTTCGTTGGCAAACCAGAATCTTTCAGAAGCTCTGCATTTATCAAGATACTACCTGTATTGGAGAAAACGTCTGCATCTGTATCATGGAGCACCCTTGATGGATTGAAAACTGAACTGAGAGTGGATACACCATCTACCCAGTATCCTTATATTCAGGTTAACTTGGAGGCAAAGAAAACGGAAAACGGAAAAACAACCGGTGATCTTGTAGTTGAATATCTTCCCAGAGAAACTGTCCGAGTGGAGGTGATGAGCGATATTAGTGATATTGTCAACCTCTCTGCAAAGGTGACATCACCATTTGTAATGATTGATCTATACCACAGTGGAAACCTACAATCATTTAAATCCAGTGCAGAGATTGAGGGGACACCTGGCAAGAAATATGGTCTCATTGTAGGCTATACAAATGGTACAACGATTGAAGGCTATGCAACTATATCTGTGCCAGGAAGAAGAGACATAAATGCAGTCTTCTCACACCAAGGATCTGCAATGAACTTTATCACTCATGCAGAAATAACACACAACAGAATGAACCAATTCACCTCTGACTTTAAATTTGCAGCAGGCAACTCAATAACTGTGTCTGCATCCACTTCACTTAGGTCTTTGCTCCTCATATCAGAAGACAAATATAGAGCAGCTTTTACTACGAAGGTCATCCCATTGAAAAAGATGTCTGCTCATGGAGAATTTGTGACAACAACCATAGGAAAGTCTGAAGCAGATGTGTCTTTTGACCTGACTAAAGATATTGAGGGTAGTCTTACTGTTAAATCACCTTTGATTAAAAACATTGAAGCTTCTTTTAATCATCATCAGAGTGAAAAATATATAAACAGTAGAGCAGAAATCGTCCATGACGGTAAAAAAAATATTGATGTGCAGGCCTCTCTAAATGTTGATGAAGATTCTGTTGTTGGTGAAATAGGTATCAAATCCCCATTGTCTGATGATATCCAGGTCCTGTCTAGGTTTGATGGTGGTAAAGACAACTTTGTTGTTCATTTTGAAGGCTCTGTCGGTGTTAACAAATCTGAAATTGATTTATCCCACAAATGGGTTGAGAGAAACAGCCAGCAGACGATAAGTGTGAGATCGACAGGGATGAAGGACGTGACAGCAGAGATAAGTAACACCGGTGATTACTATAACTTAAGATCATATGCTGAGTTAAATCATGGACTTGAAAAACATAGAATTGATTCTACATTTAAACATCTGATAGGCAACACTGAAGGAAGTATTTCCATATCTTCTCCCCTGGGTGATCCACTATCCACAAACTTCTTTGTAAAGGTCACTGAGGCAAATTTAGAGTCAAATGTTGAACTGAACATAGGCTCAGACAAGAGTGAAGTTCATGTTTCTGTTGGTTCAAAACCAAATCTGGAAGGAAGCATTCGTGTCAATTCACCTTACGTCACTGATGTCTCAGCTGGATTTGATCACACTGGAGAGTTTCCAAATATTGTTTCTCACGCACAAGTGAACATAGCCAATAAAGACATTGTTGATGTTAAGTTGATGTCACAATCCACAGAGAGGGGAATAGCTGGATCATTTGCACTGCAGACACCATTGAAAAACTATTCAAGTATTGAGACATCTTTCTTCCACCAAGGCATGTCTAACAATTTCAGAAGTCATGGAGATTTTGCCATTAATTCTGATAAGTCTGAAATTAATCTTTTCTACAGTTCAATGTACAAGTATGAGGGTATGGTCTCCATCAAATCTCATCTCATTGATGACCTTAAGATTGGCTTTGAACATGATGGAACAAAAACTAACTTTGACTCTCATGGGGAAATCAGTGTTGGATTTGAGAAATATGAACTCGATGTTAATGCAAATGTAGATTCAGATGTCATATTGAGCATGATTGTAAAATCTCCCAGAAATGAAGATATCATTGCTAGGTTTTCACACTCGGGTAATTTCTCAGATTTTAGATGCCATGCAGAACTAATGCATGATAAAGACAGCAAATGGGAGGGAGATGTCAGTTTTTCTGCTGGTGATGAAATAAGAGGAGAGATTGTTTTCAAACCATGTCATCATCTTCACAAAGTTTTCATTTTCGATTCTAATATCAAGTTTGAATTCAGTAAATACCATGCTGAAATAAATGGAGATTTACCATTTTTAGGAGAAGTACTTCTGAATTTCAAACGCACAGGAGAACTAAATGACTTTAACATACATGCAGATGCTAGTTTCAGAAATAAGAAATCAGATGCAGATGTCACTTTCCAGCTTGCAAAGAAATTACTCTCTTCATCTGTAAACCTTAGATTTCCACATATGGAAGATGTGTCTTTTAGTTTCAATCACAATGGAGGTTTGAAAAACTTCAACACAAAAACTGAAATGACAATTGGACAGAATAGAACCCAAGGAGCTGTAAGGGTGAGAATCACTGGTTCATCCATTTATTCAAACTTAGCAATTCAATCCCATTACATGGACAGGATAAATGTTAACTTCAACCACAATGGACAATTTGGAGATTTCACCACCAGTGGAGATGTCACTATTGGCAACATGAAAAATGAAGCAGACATGGCATTCCACCTTTCTGGCAAAGTTATGTCATCATCAGCCAGTGTCAAATCGCCTTTAATGGATAGTGTCAGCATAGACTTTAACCACAATGGAGCACCAACAGACTTTACTACCAAAGCTTCTGTGACCATAGGTGATAAAAAAAATGAAGGAGACATTACATTCCAGATTACAGAAAAGGCTGTCATCTCTTCACTTAATATCAAATCACCATACATGGACAACATCAATGCTAATTTCAATCACGAAGGATTTGCTACGAAATTCACTACCAAGGCTGATGTAACAATTGGTGTTGAAAAAAGTGAAGGTGATGTTTCATTCCAGTGGTCCAACACTTCTACGACAATCTCTGGGAACCTGAAATCGCCATCAATGGAAGATATTACTTTTAACCAGTACACCTTATCTATGCCAACAAAGTATACGTATCATCAGGATTACTCGGTTGGTGATGCAAAAACTGAAACTGATATGATGCTGGACTACACCAACCTGAAGGCCACCTTTGCTTTGACTTCGCCAAAAACTTCCCTAAATTTTGACCACTCTGGTGATATTAAGAATTTCATCTCCGCATTGGACCTAACAACTGAAATGGGAAGATATTCTTCTGAAGCAAAATTCACACTGAATGATAATGTAGAAGCAAGCTTCAAACTCACTTCCCCTGTTGAAGGAATGGAGTCAATTTCAGCACTTTATACCCACAATGGCAAACCATCCAACTTCAGATGCCATGGGGAGTTATCTCTTCCAAATAAAGCTAATGTTGCTGATTTAATTATCAATGTTGAGCAACTAACAAATATGAAAGGAAGTCTTCAAATTAAATCTGAAATCATTCCAGACTTCACAGCGAAATTCTCCAACATACTCACAGAAACATCTCTGCAGTCAATGTCTGAGATCAGTGTTGATGATGAAGTACTCTATGGTATAGCTGTCTCTTTCACCAACAATTCATTCCTTAAAGCTGAACTGGAAGTGAAAACACCAGTAACAGAATATCGTGTTATTAGGCTGTCAGGAATTAATCAAATGGACAAAGACCAGGTAAAAGCATCTGCAGAGCTTCTTATTGGAAGTGATAGCAGTGTAATGGAACTTTCATTTTCTTCTAAACCAAATGTTGCGGGCGTTTTCGAACTCAGATCTGTATACCTACCTCATCTTAAGGCTACCCTAGATGCTACTGGAACACCAACTAATTTTAGAGGAAACTCAGAACTTATTTTTGATGGTGAAAAGAAAGGAAGTGTTGATGCTTCTTTCAATATGGAAGGTATATTAGATGCAAATCTCAAGATGGAACTGCCCCTGGAAAATTACACAAGGATAAATGGAGACATCTCAATTAGGAGCAGTAGTGACTTACTTGACATAAAATCTGCACTGAGTATTGAAGATAGAGAGTTAGTTGACGGCAGTGTTCGAATTACAAACCAAAATCAGCTCTCAGGAGAAATATCTCTGAAATCTATTTACATTAACCCTTTGACTGTGAGCTTTGATTTATCTGGGGATCTTAAAGACTTCAGTACAACAGCCGACATAAGCTACAATAATGAGAAACTGGCTGCAAGTAGTATGAAATTCAATTTCAACCCAACTCCTTTGAAAACATCTGGGTTTGCATCGTTCAACAAGATGTCTTTTGCATACAGCTTAGATAATGCCCCAAAAGATTTTAAATCCCATGCAGAGGTAAAAGTAGAAGAAAAGATGTGGTCTCTTGATGCAACCTGCACTAGAAAGCAAGACATTGATGCTTCATTTAAGGTCATTATTCCAGAGATTGATCCAATTTCTGGAAAATTGTCTCATAGCCAGAGACAGTTCAGATGTGCATCTCATGTCGAGCTTAAAACAGATTCCTCAACAAAATACCAGTATGACATGCTTCTCAAGTGGAGACGTGCCTTGGAAGGAACTTTCAGTGTCAAAACACCCATCAAAGGAATGGAAATTACAAAAGTTGTCCTCAATCATGATGGCACTTTCCCAAACATCAAATCTTCAGCTGAAGTCAATTTCAACAAGACAGACATTTCAGCCGCTGTCAGTCTGATGCATGGTGATTTAACCAAAGGAGATGTTTCCATTAAAACTCCATTTGAAGGATTGGAAGATGTCAGTGTAACATTCTATTCTGAAGGTGATATTGAAAAATTCCAAGCAGGTGGAAAGGTTTTGTATGCTCCAGGAAAAGATATTGAGGCAGGAGTGGAACATAGTTTGTCTGACAATAAGCTGCAGTCCCGCATCCATTTTATGTCACCCTTCACCGATGAAATCGTTGTCAGTGCTAACCATACTGGGGTTCCTATGAATTTTGTGTCAAGTTATGAATTAGCCATGGGTTCAGATAATAGAATCAAATCTGAGACATCTTTGAAAACTGGATTCCAGTATGTTCAATTCAAATCTTCTGTCACTACAACAATGAGTGGGGAAACATTTGTACAAAAGGTTGAGCTAAAGCATGATGGCGCTATAGAGAAGTTCAAAACAGAGGCAATGGTACAAGCAATGGAGAAATTAGTAAGAGTTGATACATCCTTCCAGCTTGAACCAGTCATTGAAGGATCAGCCTCAATCATTACACCATTCTTTGAAAAGTCAGAGGAAATAAAGGTAATCTTTTCACATAGTGGTAGTACTAGTGGATTCCTCTCAACTGGAGAGTTACAGTATTCTCCAAAGAAAAAGATAAGTGGAAAAATTGATTTCCTCAATAATGGTTGGAGGAGGAGAGTTGCAACTGTCGAAGTAAGAACGCCATTTAAGGGCATGGAGGTGAACAAGGTTACCTACCAGCATACAGGCAACTCGGACAGCTTTGATTGTGATGCAGATATTTTTGTTGCTTCCCAGCCACTCAGCGCTACTTTCAAAGGATCTAAAGCACCTTTAAGCATGGATCTGAACATCAAAACACCATTTGAAGGATATGAGAGTTTTGGACTTAACGGGAACTTCCTAAACAACACAATGGGCAGATATAGCGGCAGAATGGAAGCCTCATGGCACCCAAATCAGGCAGTCATTTTTGAAAGTTCATTTGCTGCATTGAGAAATAAAATTGAAGGAAGTGCCTCACTAACAACTCCATTTGTCATGCTCCAACGGTCCTCAATTGAATTCTCACACCAGGAGCTCTCTCAAAAATTCATTGAAAATCTAAAAGCAACTTTCAATGGAAGTAGAATTGTGGATGTTGAGGTTGATCACAGCCTGATGAATGAACGCAAACATGCCATTATTACAATGCGTGCTCCACGCTCCATGAAATTTGACATGAGTGGTGATTTCACTCTGGAAAGTTCAGCAGTTGATGCATCTGCCAACTGGAACACTGAAGATAGTAAAAGTAATCTGAAACTTGAGGGAGTTTATGACATAAGAACAGACAAGAGAATGAACTTCAAACTGACCCGACCTGGACAGGTGATTTCCTATTCCGGATTATTGGACAGAAGACACAGTAAATCTGACCTTGTCTGGGGTATAGGATCAACACAAAAAGCAGGCTATGAAGTCGCAATCAATGATTATGACTCCAGACTGAAACTTATACTTCCAACACGAAGCCTAGAGCTAACCGGGTCCCATCGATCAAAGGTCACAGAAGGGTCATTTCTATGGGATGCTGATGTGGATGAAACAAAGAAGGTTGGCTTCCGTTCTGTGATAGTGCCATCAGATGATGCTATTAAGGCCGATGTTACATTCCAGCTTCCAAGCTTAGGAAAGAGAGTACAAGTCGGTTCAGAGGTTGTGGTCAATAGAGGACGTGTAATTTTCGACGGCAAGACAGAGTTCTCTTACTCTCCTGATGAGAGAAAGAAGATTGTGTTTTCATCAAGGCTTGAGGATAAGTCCCTTGGAGCCACGAAAAACTACAGCTTCAGCATGGGTCTAAGTCATCCATACACGACTGTTGATATCAAACTGGCATCACATGTTGGCAAATCCAAGAACAGATATTCCGCTGGTATGGGGCTTGAGTACCTTAACACACACAGACAGACCAAGACCTTCCAAGTCAATGGACAGATTAACAAACTCAGGAAAACCATCAGCTTCGAGCTGCAGAGTCCAGTCAAATCTATCAGTATTTCGGGCAGTGCTCAGACTGAAGACAAGTTCCGTGTGTCTATCCTCAACATCTATGACCAGAAGATGCCACTGACGACTGTTTTCACCGTCGACCCTGCCACCAGATCACTTGACTTTTACATTAATTATGACCTTGAGAACCCAAGTAGTGAGTTCCACATAAATGCCAAGTATGTGAACAGTTCTGCATTGGCTGCCGAGGTGTTCCATATCGTCAACCGTGAACGAGTGACTGACATTCTGGTTACTGCCAGACTCAACAACTCTCACCTCCTTCACACAAGAGTTCACTGGAGACCGGAAATGATCAAGGAATACGAGACTGTTCGAGAGAGGAAACTTGAGGACTACAAGAGACGCCTGGAAATTTCAGCAGTTAAAGTAGAGGCTGCTGTAATTGAGGAAACTGTTGAGAAGTTTAAGATGATCTGGGAAGCTGTTGTAGAGGAGATTGGCCAAGACAATGCTCTAGCTATAGAGGCTGCTGTTATCCCCATGTTTGAAGATGGACTGAGGACATATGCACAAGTGCAGGGACATGTGCAGGCAAACTTCCTTCCATTTGCCTTGGATTTGGCCAACATAACACAGTACAAGTACAACAGATTTGTACAAACATACAGAGAGTTTTCACAGGCAGTAAAGCTTCCAGAAACAATGAAGGATCTTGACTTCCTGTCGTCTGCCAGACAACCATTGGAGAAGCCCTTTAATTATGCACTGGATCTGATCAAGATCCCTGCGAAGCACCTTCCAACCCAGGTGACCGGAGCACTGAAATACCCGGCCAAATATATGTTTTCTAATATGGATACTGCTATGTTGGAGCAGCTTAACAAGAACTGGGAACTTGAACACCATCTAGAATCTGTCATTGAAACCATTCTTCTTGCAATTGAGGAGGAAGCTGAGGAAGGCATACTTAAATTGAAGAGTATCATTCTCAACTCGGCACAATCCCCAATCACTGTGTACGACCCAACCCACGGGGAGATCCAGGCAGAATTTCACTCACCCATACCACTGAAGTCTCTGGATGAGCTACCTGTTATCAATATTGAAAGATATATTAACATGGTTATGAAAACTCGCAGTAGAAAGACAGAAAATGTTCCCAGCAAGACATCAGAATGGTTGCCACCATTTACTGGTGTTGCCAGTATTACCAGCGGTCATAAAATCACAACTTTCGACGGGTATATCTATGACCTTGATGCTGACTGCACGTTTGTGCTTGTCCGTGATTTCAGGAATGGCAACTTCAGTATTATTCTGAACAACAATGATGGGACAACTCTGTCAATCCTTTCACATGGAAAACCAATAGAAATCAAGCAGAGCGGAGAGATCTCTGTTGCCATGGAGCCTGTCACTCTCCCATACAAAGAAAACAACATCACAATTACATCATCAGATGACGGAATCATCAGCATTGATGGGGCTAACCACTTCAAGGTAGATTATGACCTCTCAGTCGATCACATCGATGTAGAGATCAATGGATGGTATTACGGCAAAACTGCAGGACTTCTTGGTACCTTTGACAACGAGCCCTCAAATGACCTTATGACCTCCTTTGGAAAAATCATCAATAATCCTAAACGTTTCGCCAGAACTTGGGATGTTGGAAACACAAATTGCCGTTAA
PRIMER_TASK=generic
PRIMER_PICK_LEFT_PRIMER=3
PRIMER_PICK_RIGHT_PRIMER=3
PRIMER_OPT_SIZE=18
PRIMER_MIN_SIZE=15
PRIMER_MAX_SIZE=21
PRIMER_MAX_NS_ACCEPTED=1
PRIMER_PRODUCT_SIZE_RANGE=75-150
P3_FILE_FLAG=1
PRIMER_EXPLAIN_FLAG=1
PRIMER_THERMODYNAMIC_PARAMETERS_PATH=/home/sam/software/primer3-2.4.0/src/primer3_config/
PRIMER_LEFT_NUM_RETURNED=5
PRIMER_RIGHT_NUM_RETURNED=5
PRIMER_INTERNAL_NUM_RETURNED=0
PRIMER_PAIR_NUM_RETURNED=5
PRIMER_PAIR_0_PENALTY=0.160101
PRIMER_LEFT_0_PENALTY=0.109387
PRIMER_RIGHT_0_PENALTY=0.050714
PRIMER_LEFT_0_SEQUENCE=TTACGCCACGGCAACTGT
PRIMER_RIGHT_0_SEQUENCE=CGCAGTGCCAACAAGCTG
PRIMER_LEFT_0=1347,18
PRIMER_RIGHT_0=1471,18
PRIMER_LEFT_0_TM=59.891
PRIMER_RIGHT_0_TM=60.051
PRIMER_LEFT_0_GC_PERCENT=55.556
PRIMER_RIGHT_0_GC_PERCENT=61.111
PRIMER_LEFT_0_SELF_ANY_TH=9.11
PRIMER_RIGHT_0_SELF_ANY_TH=10.11
PRIMER_LEFT_0_SELF_END_TH=0.13
PRIMER_RIGHT_0_SELF_END_TH=0.00
PRIMER_LEFT_0_HAIRPIN_TH=42.06
PRIMER_RIGHT_0_HAIRPIN_TH=0.00
PRIMER_LEFT_0_END_STABILITY=3.5500
PRIMER_RIGHT_0_END_STABILITY=4.2400
PRIMER_PAIR_0_COMPL_ANY_TH=10.66
PRIMER_PAIR_0_COMPL_END_TH=0.00
PRIMER_PAIR_0_PRODUCT_SIZE=125
PRIMER_PAIR_1_PENALTY=0.233503
PRIMER_LEFT_1_PENALTY=0.107750
PRIMER_RIGHT_1_PENALTY=0.125753
PRIMER_LEFT_1_SEQUENCE=CGTGAGCATCCGAGGCAT
PRIMER_RIGHT_1_SEQUENCE=CTGAGCGGAGACTGGTGC
PRIMER_LEFT_1=3266,18
PRIMER_RIGHT_1=3362,18
PRIMER_LEFT_1_TM=59.892
PRIMER_RIGHT_1_TM=60.126
PRIMER_LEFT_1_GC_PERCENT=61.111
PRIMER_RIGHT_1_GC_PERCENT=66.667
PRIMER_LEFT_1_SELF_ANY_TH=7.91
PRIMER_RIGHT_1_SELF_ANY_TH=0.00
PRIMER_LEFT_1_SELF_END_TH=0.00
PRIMER_RIGHT_1_SELF_END_TH=0.00
PRIMER_LEFT_1_HAIRPIN_TH=31.82
PRIMER_RIGHT_1_HAIRPIN_TH=0.00
PRIMER_LEFT_1_END_STABILITY=4.4000
PRIMER_RIGHT_1_END_STABILITY=5.0100
PRIMER_PAIR_1_COMPL_ANY_TH=0.78
PRIMER_PAIR_1_COMPL_END_TH=0.78
PRIMER_PAIR_1_PRODUCT_SIZE=97
PRIMER_PAIR_2_PENALTY=0.251305
PRIMER_LEFT_2_PENALTY=0.125552
PRIMER_RIGHT_2_PENALTY=0.125753
PRIMER_LEFT_2_SEQUENCE=CGCAGATGAAGCCCGTGA
PRIMER_RIGHT_2_SEQUENCE=CTGAGCGGAGACTGGTGC
PRIMER_LEFT_2=3253,18
PRIMER_RIGHT_2=3362,18
PRIMER_LEFT_2_TM=60.126
PRIMER_RIGHT_2_TM=60.126
PRIMER_LEFT_2_GC_PERCENT=61.111
PRIMER_RIGHT_2_GC_PERCENT=66.667
PRIMER_LEFT_2_SELF_ANY_TH=0.00
PRIMER_RIGHT_2_SELF_ANY_TH=0.00
PRIMER_LEFT_2_SELF_END_TH=0.00
PRIMER_RIGHT_2_SELF_END_TH=0.00
PRIMER_LEFT_2_HAIRPIN_TH=0.00
PRIMER_RIGHT_2_HAIRPIN_TH=0.00
PRIMER_LEFT_2_END_STABILITY=4.3500
PRIMER_RIGHT_2_END_STABILITY=5.0100
PRIMER_PAIR_2_COMPL_ANY_TH=0.00
PRIMER_PAIR_2_COMPL_END_TH=0.00
PRIMER_PAIR_2_PRODUCT_SIZE=110
PRIMER_PAIR_3_PENALTY=0.299294
PRIMER_LEFT_3_PENALTY=0.173382
PRIMER_RIGHT_3_PENALTY=0.125912
PRIMER_LEFT_3_SEQUENCE=CGGCGCGAAAGTTGAAGG
PRIMER_RIGHT_3_SEQUENCE=CCTTCAGCTCGACCACCG
PRIMER_LEFT_3=1922,18
PRIMER_RIGHT_3=2053,18
PRIMER_LEFT_3_TM=59.827
PRIMER_RIGHT_3_TM=60.126
PRIMER_LEFT_3_GC_PERCENT=61.111
PRIMER_RIGHT_3_GC_PERCENT=66.667
PRIMER_LEFT_3_SELF_ANY_TH=12.10
PRIMER_RIGHT_3_SELF_ANY_TH=0.00
PRIMER_LEFT_3_SELF_END_TH=0.00
PRIMER_RIGHT_3_SELF_END_TH=0.00
PRIMER_LEFT_3_HAIRPIN_TH=0.00
PRIMER_RIGHT_3_HAIRPIN_TH=40.25
PRIMER_LEFT_3_END_STABILITY=3.4600
PRIMER_RIGHT_3_END_STABILITY=4.9400
PRIMER_PAIR_3_COMPL_ANY_TH=11.23
PRIMER_PAIR_3_COMPL_END_TH=14.04
PRIMER_PAIR_3_PRODUCT_SIZE=132
PRIMER_PAIR_4_PENALTY=0.299294
PRIMER_LEFT_4_PENALTY=0.173382
PRIMER_RIGHT_4_PENALTY=0.125912
PRIMER_LEFT_4_SEQUENCE=CCGGCGCGAAAGTTGAAG
PRIMER_RIGHT_4_SEQUENCE=CCTTCAGCTCGACCACCG
PRIMER_LEFT_4=1921,18
PRIMER_RIGHT_4=2053,18
PRIMER_LEFT_4_TM=59.827
PRIMER_RIGHT_4_TM=60.126
PRIMER_LEFT_4_GC_PERCENT=61.111
PRIMER_RIGHT_4_GC_PERCENT=66.667
PRIMER_LEFT_4_SELF_ANY_TH=12.10
PRIMER_RIGHT_4_SELF_ANY_TH=0.00
PRIMER_LEFT_4_SELF_END_TH=0.00
PRIMER_RIGHT_4_SELF_END_TH=0.00
PRIMER_LEFT_4_HAIRPIN_TH=0.00
PRIMER_RIGHT_4_HAIRPIN_TH=40.25
PRIMER_LEFT_4_END_STABILITY=3.0200
PRIMER_RIGHT_4_END_STABILITY=4.9400
PRIMER_PAIR_4_COMPL_ANY_TH=5.41
PRIMER_PAIR_4_COMPL_END_TH=9.34
PRIMER_PAIR_4_PRODUCT_SIZE=133
=

Test EMBOSS PrimerSearch on first set of primers picked by Primer3 on source FastA¶

The code below does the following:¶

Parses out sequence id, left, and right primers and creates the proper tab-delimited primer sequences file needed by primersearch
Runs primersearch using the newly created primer sequences file and the target FastA file that was used to generate our primers in Primer3

In [17]:

%%bash
cd /home/sam/analyses/20181129_geoduck_vtg_primers/

seq_id=$(grep "SEQUENCE_ID=" /home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_primers_default_format.txt | sed 's/SEQUENCE_ID=//')
left_primer=$(grep "PRIMER_LEFT_0_SEQUENCE=" /home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_primers_default_format.txt | sed 's/PRIMER_LEFT_0_SEQUENCE=//')
right_primer=$(grep "PRIMER_RIGHT_0_SEQUENCE=" /home/sam/analyses/20181129_geoduck_vtg_primers/20181129_primer3_primers_default_format.txt | sed 's/PRIMER_RIGHT_0_SEQUENCE=//')


printf "%s\t" "${seq_id}" "${left_primer}" "${right_primer}" > /home/sam/analyses/20181129_geoduck_vtg_primers/20181129_emboss_primers.txt

# Add newline to end of file
printf "\n" >> /home/sam/analyses/20181129_geoduck_vtg_primers/20181129_emboss_primers.txt

/home/sam/software/EMBOSS-6.6.0/emboss/primersearch \
-auto \
/home/sam/data/geoduck/transcriptomes/transdecoder_fasta_splits/TRINITY_DN51983_c0_g1_i8.p1.cds \
/home/sam/analyses/20181129_geoduck_vtg_primers/20181129_emboss_primers.txt

cat /home/sam/analyses/20181129_geoduck_vtg_primers/TRINITY_DN51983_c0_g1_i8.primersearch

cat: /home/sam/analyses/20181129_geoduck_vtg_primers/TRINITY_DN51983_c0_g1_i8.primersearch: No such file or directory

In [18]:

%%bash
cd /home/sam/analyses/20181129_geoduck_vtg_primers/

ls

20181129_emboss_primers.txt
20181129_primer3_params.txt
20181129_primer3_primers_default_format.txt
20181129_primer3_primers.txt
TRINITY_DN51983_c0_g1_i8.p1.cds.for
TRINITY_DN51983_c0_g1_i8.p1.cds.rev
trinity_dn51983_c0_g1_i8.primersearch

In [19]:

%%bash
cat /home/sam/analyses/20181129_geoduck_vtg_primers/trinity_dn51983_c0_g1_i8.primersearch

Primer name TRINITY_DN51983_c0_g1_i8.p1.cds
Amplimer 1
	Sequence: TRINITY_DN51983_c0_g1_i8.p1  
	
	TTACGCCACGGCAACTGT hits forward strand at 1348 with 0 mismatches
	CGCAGTGCCAACAAGCTG hits reverse strand at [13013] with 0 mismatches
	Amplimer length: 125 bp

Primers match up to their source sequence, as expected. Now, to test the primers on the rest of the transcriptome to ensure specificity.

Use EMBOSS PrimerSearch tool to test primers across transcriptome¶

The code below does the following:¶

Sets variables for file/folder paths
Runs for loop over all individual CDS FastA files:
- Uses parameter substitution to strip paths from filenames
- Uses parameter subsitution to strip extensions from filesnames
- Uses tr to convert filenames to lowercase
- Runs primersearch on each CDS FastA file
- Uses grep to evaluate if the word "Amplimer" is found in the resulting output file; if it is not, the file is deleted.

In [20]:

%%bash
cd /home/sam/analyses/20181129_geoduck_vtg_primers/

fasta_loc="/home/sam/data/geoduck/transcriptomes/transdecoder_fasta_splits/"
primersearch="/home/sam/software/EMBOSS-6.6.0/emboss/primersearch"
primers="/home/sam/analyses/20181129_geoduck_vtg_primers/20181129_emboss_primers.txt"


time \
for fasta in ${fasta_loc}*.cds
  do
  fasta_no_path=$(echo ${fasta##*/})
  fasta_no_ext=$(echo ${no_path%%.*})
  fasta_no_ext_lower=$(echo ${fasta_no_ext} | tr '[:upper:]' '[:lower:]')
  ${primersearch} -auto ${fasta} ${primers}
  if ! grep --quiet "Amplimer" "${fasta_no_ext_lower}.primersearch"
    then rm ${fasta_no_ext_lower}.primersearch
  fi
done

Process is interrupted.

Killed it to change code to allow primer mismatches.

Also fix extension removal.

In [21]:

%%bash
cd /home/sam/analyses/20181129_geoduck_vtg_primers/

fasta_loc="/home/sam/data/geoduck/transcriptomes/transdecoder_fasta_splits/"
primersearch="/home/sam/software/EMBOSS-6.6.0/emboss/primersearch"
primers="/home/sam/analyses/20181129_geoduck_vtg_primers/20181129_emboss_primers.txt"


time \
for fasta in ${fasta_loc}*.cds
  do
  fasta_no_path=$(echo ${fasta##*/})
  fasta_no_ext=$(echo ${fasta_no_path%%.*})
  fasta_no_ext_lower=$(echo ${fasta_no_ext} | tr '[:upper:]' '[:lower:]')
  ${primersearch} -auto ${fasta} ${primers} 20
  if ! grep --quiet "Amplimer" "${fasta_no_ext_lower}.primersearch"
    then rm ${fasta_no_ext_lower}.primersearch
  fi
done

real	208m42.396s
user	76m45.956s
sys	79m27.744s

In [22]:

%%bash

cd /home/sam/analyses/20181129_geoduck_vtg_primers/

# Check contents of files with matches
for file in *.primersearch
  do
  echo "FILE: ${file}"
  echo ""
  cat ${file}
  echo "----------------------------------"
  echo ""
done

# Copy data to Gannet
cd /home/sam/analyses/
rsync \
--archive \
--relative \
./20181129_geoduck_vtg_primers/ gannet:/volume1/web/Atumefaciens

FILE: trinity_dn51983_c0_g1_i4.primersearch


Primer name TRINITY_DN51983_c0_g1_i8.p1.cds
Amplimer 1
	Sequence: TRINITY_DN51983_c0_g1_i4.p1  
	
	TTACGCCACGGCAACTGT hits forward strand at 1348 with 0 mismatches
	CGCAGTGCCAACAAGCTG hits reverse strand at [12569] with 0 mismatches
	Amplimer length: 125 bp
----------------------------------

FILE: trinity_dn51983_c0_g1_i8.primersearch


Primer name TRINITY_DN51983_c0_g1_i8.p1.cds
Amplimer 1
	Sequence: TRINITY_DN51983_c0_g1_i8.p1  
	
	TTACGCCACGGCAACTGT hits forward strand at 1348 with 0 mismatches
	CGCAGTGCCAACAAGCTG hits reverse strand at [13013] with 0 mismatches
	Amplimer length: 125 bp
----------------------------------

OK, only two matches found, both are the same gene, different isoforms. So, I say we're good to go! Will order that primer pair.¶

In [ ]: