O trecere în revistă a bazelor de date publice

Bazele de date principale

În prezent există trei principale baze de date publice:

EMBL: la European Molecular Biology Laboratory, Cambridge, UK.
GenBank: la NCBI (National Center for Biotechnology Information), o secţiune a NLM de la campusul NIH, USA.
DDBJ: Banca de date a Japoniei (DNA Databank of Japan).

Aceste trei baze de date au colaborat încă din 1982. Fiecare bază de date colectează şi procesează noi secvenţe şi informaţii biologice relevante pentru oamenii de ştiinţă din regiunea lor, adică EMBL colectează din Europa, GenBank din USA.

Aceste baze de date comunică între ele şi îşi aduc la zi informaţiile (referitoare la secvenţele nou introduse) la fiecare 24 de ore. Aceasta face ca ele să aibă exact aceeaşi informaţie, ce exceptia oricărei secvenţe introduse în ultimele 24 de ore. Aceasta este o observaţie importantă pentru alegerea bazei de date.

În cele ce urmează ne focalizăm asupra bazelor de EMBL şi GenBank.

În 1998, existau mai mult de 1200 milioane de perechi de baze din peste 1.6 milioane de secvenţe în baza de date EMBL database, şi perioada de dublare a fost estimată a fi de ordinul unui an. Pentru a organiza o astfel de imensă cantitate de informaţie, baza de date a fost împarţită în numeroase secţiuni (17 în 1998). Fiecare intrare (secvenţă şi alte relevante informaţii) este distribuită unei singure secţiuni. Secţiunea este indicată printr-un cod de trei litere, specificată atunci când este furnizată informaţia despre o secvenţă. Codurile sunt date aici.

Codificare intrărilor în baza de date

Fiecare intrare în baza de date trebuie să aibă un unic identificator care este un şir de caractere alfanumerice pe care îl are o singură înregistrare. Identificatorul poate fi citat în literatura ştiinţifică şi nu se va schimba niciodată. Cum acest identificator nu se chimbă niciodată, un alt cod este folosit pentru a identifica diferitele versiuni ale aceleiaşi înregistrări: noi informaţii pot fi adăugate, sau secvenţa poate fi corectată, spre exemplu. Trebuie de aceea întodeauna avut grijă să fie citate atât unicul identificator cât şi numărul versiunii, atunci când se face referire la o înregistrare într-a bază de date moleculară. Codurile de identificare ale înregistrărilor pentru EMBL şi GenBank sunt date în continuare.

EMBL

Identificator (ID)

Acest nume este unicul identificator. El este alocat atunci când o secvenţă trimisă către baza de date EMBL este acceptată pentru publicare. El nu se va schimba niciodată. El este citat într-un raport al EMBL şi de asemenea în linia de descriere a raportului FASTA.

Exemplu:

Într-un raport EMBL - HS498971

Numărul de acces (AC)- Accession Number

Acesta este identificatorul unic alocat de către GenBank. Vezi descrierea lui în continuare.

Exemplu:

Într-un raport EMBL - AC U49897

Identificator de acid nucleic (NI) -Nucleic Acid Identifier

Acest cod este atribuit fiecarei versiuni ale unei înregistrări. În timp ce identificatorul ID (EMBL) şi numărul de acces AC (GenBank) nu se schimbă niciodată, un nou număr NI va fi alocat de fiecare dată când secvenţă este modificată, oricât deminoră ar fi schimbarea.

Examplu:

Într-un raport EMBL - NI g2462721

GenBank

Numărul de acces (AC) - Accession Number

Acest număr este alocat atunci când înregistrarea este introdusă prima dată în baza de date, şi nu se va schimba niciodată. El constă dintr-o literă urmată de cinci cifre (X12345), sau (mai recent) două litere urmate de 6 cifre (XY123456). Acest număr este deasemenea raportat în rapoartele EMBL.

Exemple:

Într-un raport GenBank - ACCESSION: U49897

Într-un raport FASTA - gb|U49897

Numărul (GI, NID) - GI Number

Acest număr este referit ca numărul NI la EMBL, ele sunt identice. Numărul GI identifică versiunile fiecărei înregistrări şi, până de curând, a fost numai citat în linia NID al unui raport al GenBank. Eforturile de colaborare au condus la o modificare: numărul GI number este acum citat într-o nouă linie numită VERSION. Cu toată redundanţa apărută astfel, numărul NID va mai fi citat câtăva vreme.

Exemple:

Într-un raport GenBank - NID: g2462721

[NID: Acum redundant.]

Într-un raport GenBank - VERSION: U49897.1 GI: 2462721

Într-un raport FASTA - gi|2462721

Acces.Versiune - Accession.version

Acesta este un nou câmp căruia trebuie să-i acordăm atenţie. Primul cod este numărul de acces care nu se schimbă niciodată, urmat de un punct (.) şi de numărul versiunii. Codul versiunii începe începe cu 1 (unu), şi creşte cu 1 (unu) de fiecare dată când secvenţa este modificată. Codul al doilea este numărul GI (vezi exemplul anterior).

Exemplu:

Într-un raport GenBank - VERSION: U49897.1 GI: 2462721

Alte informaţii sunt stocate împreună cu informaţia referitoare la secvenţă. Fiecare “bucată” de informaţie este scrisă pe linia sa, cu un cod definind linia. De exemplu, DE, description; OS, organism species; AC, accession number etc. Semnificaţia celor mai multe rezultă din context. Informaţia biologic relevantă este descrisă în tabelul FT - feature table.

Alte baze de date

Scopurile cercetări şi alţi factori au influenţat conţinutul bazelor de date moleculare. Câteva baze de date s-au specializat şi o listă a lor este dată în anexe. Dacă sunteţi interesaţi în imunogenetică, de exemplu, veţi găsi că IMGT (International Immunogenetics Database) este mult mai bine adnotată decât bazele de date generale EMBL şi GenBank.

Redundanţa bazelor de date

O bază de date redundantă este o bază de date în care există mai multe copii pentru fiecare secvenţă. În cazul bazelor de date generale, nu s-a făcut nici un efort pentru reducerea redundantei inevitabile (dublarea secvenţelor). O astfel de bază de date este mult mai cuprinzătoare şi este mult mai probabil să conţină secvenţele nou descoperite. Preţul plătit este că rezultatele biologic relevante sunt mai dificil de găsit printre atâtea alte informaţii (irelevante pentru ceea ce se urmăreşte la un moment dat).

Bazele de date neredundante sunt mai puţin complete, dar reducerea redundanţei uşurează găsirea informaţiei.

13-Nov-2009