Căutarea īn bazele de date de nucleotide

64

Alinierea secvenţelor

            Prima decizie ce trebuie luată atunci cānd se explorează o bază de date este: Ce program să fie folosit? 

             Există trei programe principale disponibile: BLAST, FASTA şi BLITZ. Alegerea programului este un subiect de controversă (precum dezbaterea īntre Mac şi PC). Īn general, se recomandă ca prima dată să fie utilizat programul BLAST. BLAST este o opţiune rapidă care dă bune rezultate. Dacă rezultatul BLAST nu răspunde detaliilor solicitate se alege apoi programul FASTA. Aceasta este o regulă generală bună. Experienţa va decide care program (şi cu ce opţiuni) este mai bun pentru fiecare tip de secvenţă.

            BLAST este cel mai rapid program de aliniere, dar care face cāteva compromisuri īn favoarea vitezei pierzānd astfel īn ceea ce priveşte senzitivitatea. FASTA este mai lent, dar este mult mai senzitiv. Mai se poate utiliza BLITZ, care furnizează şi el o căutare mai senzitivă, dar este lent (adică necesită putere de calcul mare). BLAST se poate rula şi local dacă aveţi o distribuţie furnizată de EMBnet, spre exemplu. Mai există şi alte programe, precum BEAUTY, un BLAST modificat.

            De regulă, ajustarea opţiunilor de căutare pentru BLAST şi FASTA permite localizarea secvenţei dumneavoastă, presupunānd că ea este prezentă īn baza de date pe care o interogaţi.

            Principiile de căutare sunt īn general aceleaşi, chiar dacă metodele de aliniere sunt diferite.

Alinierea secvenţelor cu BLAST

BLAST (Basic Local Alignment Search Tool) este algoritmul utilizat de o familie de cinci programe care vor alinia secvenţa introdusă contra secvenţelor din baza de date interogată. Metode statistice sunt aplicate pentru a aprecia semnificaţia potrivirilor. Aliniamentele raportate (adică secventele din baza de date care pot fi identice cu secvenţa introdusă) sunt listate īn ordinea semnificanţei, aşa cum a fost estimată de statisticile aplicate. 

Īn continuare sunt date definiţiile celor cinci variante de BLAST aşa cum sunt descrise de NCBI:

              Sintetic, notānd cu N sau P secvenţele de nucleotide, respectiv de proteine se poate genera tabelul urmator.

BLASTN

N Ī{N..N}?

BLASTP

P Ī{P..P}?

BLASTX

N ->{6P}Ī{P..P}?

TBLASTN

P->{6N} Ī{N..N}?

TBLASTX

N->{6P}Ī{6P..6P}<-{N..N}?

Programele BLAST sunt cele mai rapide programe curent disponibile. Viteza a fost initial obţinută (versiunea 1.4) īn parte prin interzicerea gapurilor īn secvenţă. Īnsa prezenţa gap-urilor afectează foarte mult calitatea rezultatelor. Cele mai multe servere oferă BLAST versiunea 2.0 (BLAST2.0), care poate analiza aliniamente cu gap-uri. Căutarea este accelerată de natura euristică a algoritmului statistic utilizat. BLAST, prin natura sa, nu īncearcă să potriveasc īntrega secvenţă.

Exerciţiul 1.

Scenariu: Aveţi o genă umană de secvenţiat şi identificat, dar nici un fel de indiciu suplimentar despre ce este. Pentru a identifica secvenţa, trebuie să:

1.     Copiaţi secvenţa de nucleotide umană dată aici:

 

            2. Mergeţi la pagina web a serverului  EXPASY (EMBnet), sau la orice alt server BLAST. Īnsă, īn cele ce urmează ne vom concentra pe serverul EXPASY (http://www.ch.embnet.org/). O imagine a paginii de la EXPASY aşa cum era ea īn iulie 2002 este aici.

            3. Alegeţi programul: BLASTN

            4. Bifaţi checkBox-ul DNA şi alegeţi baza de date: All EMBL (without HTG and ESTs)  - Aceasta este baza  de date de nucleotide principală a EMBL.

            5. Ignoraţi opţiunea referitoare la matrice. Oricum nu este utilizată de BLASTN.

            6. Alegeţi formatul de introducere: Plain Text.

            7. Copiaţi secvenţa īn zona de text corespunzătoare

            8. Apăsaţi butonul Run BLAST

Daca totul este OK raspunsul serverului va arata cam asa.

 

© Cornel Mironel Niculae, 2003-

12-Jan-2012