Database primari e Database secondari Database di sequenze nucleotidiche e proteiche



Scaricare 445 b.
04.01.2018
Dimensione del file445 b.

















  • Database primari e Database secondari

  • Database di sequenze nucleotidiche e proteiche

    • GenBank, short seqs. archives
    • SWISSPROT, Uniprot
  • ENTREZ Information retrieval system

    • Pubmed
    • Bookshelf




INTRODUZIONE ALL’UTILIZZO DI DATABASE

  • INTRODUZIONE ALL’UTILIZZO DI DATABASE

  • Database flat-file

    • Il tipo piu' semplice di database e' il database flat-file, formato da files di testo ASCII in formato standard che il programa esamina per cercare informazioni.
    • Il formato e' di solito costituito da un insieme di campi, contenenti ciascuno una specifica categoria di informazioni, delimitati attraverso caratteri speciali o con lunghezza fissa assegnata.
    • Il pregio principale dei database flat-file e' la semplicita' di gestione, controbilanciata pero' dall’incapacita' di gestire accesso concorrente e dalla mancanza di indicizzazione dei dati, che non consentono interrogazioni sequenziali.




How to get information out of a database:

  • How to get information out of a database:

    • Summaries: how many entries, average or extreme values; rates of change, most recent entries, etc.
    • Browsing: getting a sense of the kind and quality of information available, e.g. checking familiar records
    • Search: looking for specific, predefined information
  • “Key” to searching a database:

    • Must identify the element(s) of the database that are of interest somehow:
      • Gene name, symbol, location or other identifying information.
      • Sequences of genes, mRNAs, proteins, etc.
      • A crossreference from another database or database generated id.


DATABASE PRIMARI

  • DATABASE PRIMARI

  • DATABASE DI SEQUENZE NUCLEOTIDICHE

  • Collezioni di singoli record, ognuno dei quali contiene un tratto di DNA o RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha un codice che lo identifica univocamente (ACCESSION NUMBER).

  • Le tre principali banche dati primarie di sequenze nucleotidiche sono: 

  • EMBL nucleotide database, ora gestita dall’EBI (1980)

      • EMBL = European Molecular Biology Laboratory (Heidelberg)
      • EBI = European Bioinformatics Institute (Hinxton, UK)
  • GenBank = banca dell NIH gestita dal NCBI (1982)

      • NIH = National Institutes of Health (Stuttura USA)
      • NCBI = National Center for Biotechnology Information, Bethesda, Maryland
  • DDBJ = banca DNA giapponese (1986)

  • SCAMBIO DI DATI  Nel 1988, i gruppi responsabili dei 3 database si sono organizzati nell’International Collaboration of DNA Sequence Databases per utilizzare un formato comune e scambiarsi giornalmente le sequenze.  



SUBMISSION DIRETTA  La gran parte delle sequenze finisce in uno dei tre database perché l’autore (il laboratorio dove tale sequenza é stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà solo di quel database, l’unico con il diritto di modificarlo. Il database che riceve la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un database sono presenti anche negli altri due.

  • SUBMISSION DIRETTA  La gran parte delle sequenze finisce in uno dei tre database perché l’autore (il laboratorio dove tale sequenza é stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà solo di quel database, l’unico con il diritto di modificarlo. Il database che riceve la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un database sono presenti anche negli altri due.

  • ANNOTAZIONE  Ci sono poi anche degli “annotatori” che prendono le sequenze dalle riviste scientifiche e le trasferiscono nel database.

  •  Problema della ridondanza

  • There are specialized, streamlined procedures for batch submissions of sequences, such as EST, STS, and HTG sequences (High-throughput sequencing).



DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank

  • DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank

  • NAR Database Issue















DATABASE PRIMARI

  • DATABASE PRIMARI

  • DATABASE DI SEQUENZE PROTEICHE

  • SWISS-PROT

  • Database di sequenze proteiche annotate, “scarsamente” ridondanti e cross-referenced

  • Contiene TrEMBL, supplemento a SWISS-PROT costituito dalle sequenze annotate al computer, come traduzione di tutte le sequenze codificanti presenti all’EMBL

  • TrEMBL contiene due sezioni:

  • SP-TrEMBL, sequenze da incorporare in SWISSPROT, con AC.

  • REM-TrEMBL, remaining (immunoglobuline, proteine sintetiche, ...), senza AC.

  • TrEMBLnew, generato ogni settimana.



DATABASE SECONDARI

  • DATABASE SECONDARI

  • UniProt (Universal Protein Resource)

  • Il piu’ grande catalogo di informazioni sulle proteine. Contiene informazioni sulla sequenza e sulla funzione di proteine ed e’ ottenuto dall’insieme delle informazioni contenute in Swiss-Prot, TrEMBL e PIR.



UniProt http://www.uniprot.org/uniprot/

  • UniProt http://www.uniprot.org/uniprot/

  • UniProt Knowledgebase, due parti:

  • Records annotati manualmente, informazioni dalla letteratura (UniProtKB/Swiss-Prot)

  • Records risultato

  • di analisi

  • computazionali,

  • in attesa di

  • annotazione

  • completa

  • (UniProtKB/TrEMBL).















©astratto.info 2017
invia messaggio

    Pagina principale