Preview only show first 10 pages with watermark. For full document please download

Bioinformática: Manual Do Usuário

Bioinformática: Manual do Usuário

   EMBED


Share

Transcript

  12  Biotecnologia Ciência & Desenvolvimento - nº 29  Pesquisa Um guia básico e amplo sobre os diversos aspectos dessa nova ciência Bioinformática:Manual do Usuário Ilustrações cedidas pelos autores Figura 1: O Dogma Central da BiologiaMolecular   Francisco Prosdocimi MestrandoemGenéticaeEspecialista em Bioinformática UniversidadeFederaldeMinasGerais  [email protected]   Gustavo Coutinho Cerqueira BacharelemCiênciadaComputaçãoe Especialista em Bioinformática UniversidadeFederaldeMinasGerais [email protected]   Eliseu Binneck Doutor em Ciência e Tecnologia de SementeseEspecialistaem Bioinformática EmbrapaSoja [email protected]   Acácia Fernandes Silva MestreemAgronomiaeEspecialista em Bioinformática EmpresaPernambucanadePesquisa Agropecuária [email protected]   Adriana Neves dos Reis BacharelemInformáticaeEspecialista em Bioinformática UniversidadedoValedoRiodosSinos [email protected]   Ana Carolina Martins  Junqueira MestreemGenéticaeBiologia MoleculareEspecialistaem Bioinformática UniversidadedeCampinas [email protected]   Ana Cecília Feio dos Santos MestrandaemGenéticaeBiologia MoleculareEspecialistaem Bioinformática UniversidadeFederaldoPará [email protected]   Antônio Nhani Júnior DoutoremBioquímicaeEspecialista em Bioinformática UniversidadeEstadualPaulista [email protected]   Charles I. Wust MestrandoemCiênciasdaComputa- ção e Especialista em Bioinformática UniversidadeFederaldeSanta Catarina [email protected]   Fernando Camargo Filho MestrandoemBiotecnologiaVegetale Especialista em Bioinformática Universidade de Ribeirão preto [email protected]    Jayme Lourenço Kessedjian AnalistadesistemaseEspecialistaem Bioinformática Embrapa Agrobiologia  [email protected]    Jorge H. Petretski Prof.AssociadoeEspecialistaem Bioinformática UniversidadeEstadualdoNorte Fluminense  [email protected]   Luiz Paulo Camargo AnalistadeSistemaseEspecialistaem Bioinformática Universidade de Ribeirão Preto [email protected]   Ricardo de Godoi Mattos Ferreira BacharelemCiênciasBiológicaseEspecia- lista em Bioinformática UniversidadedeSãoPaulo [email protected]   Roceli P. Lima MestrandoemInformáticaeEspecialista em Bioinformática UniversidadedoAmazonas [email protected]   Rodrigo Matheus Pereira MestrandoemMicrobiologiaeEspecialista em Bioinformática UniversidadeEstadualPaulista [email protected]   Sílvia Jardim MestreemFarmacologiaeEspecialistaem Bioinformática EmbrapaMilhoeSorgo [email protected]  Vanderson de Souza Sampaio MestrandoemGenéticaeBiologia MoleculareEspecialistaem Bioinformática UniversidadeFederaldoPará [email protected]   Áurea V. Folgueras-Flatschart DoutoraemMicrobiologiaeEspecialista em Bioinformática UniversidadeFederaldeMinasGerais  [email protected]  INTRODUÇÃO Doinícioatémeadosdoséculopassadoosgeneticistasequímicossequestionaramsobreanaturezaquímicadomaterialgenético.Daspes-quisasdesenvolvidas,surgiuaconclusãodequeo DNA era a molécula que armazenava a infor-mação genética e, em 1953, sua estrutura quí-micafoidesvendadanoclássicotrabalhode Watson e Crick. Com a posterior descoberta docódigogenéticoedofluxodainformaçãobioló-gica,dosácidosnucléicosparaasproteínas,taispolímerospassaramaconstituirosprincipaisobjetos de estudo de uma nova ciência, a Biolo-giaMolecular.Logosurgirammétodosdese-qüenciamentodessespolímeros,principalmentedo DNA, que permitiam a investigação de suasseqüênciasmonoméricasconstituintes.Desdeentão, mais de 18 bilhões dessas seqüências jáforamproduzidaseestãodisponíveisnosban-cosdedadospúblicos.Na segunda metade da década de 90, com osurgimento dos seqüenciadores automáticos deDNA, houve uma explosão na quantidade deseqüênciasaseremarmazenadas,exigindorecur-soscomputacionaiscadavezmaiseficientes.Alémdoarmazenamentoocorria,paralelamente,ane-cessidadedeanálisedessesdados,oquetornavaindispensávelautilizaçãodeplataformascompu-tacionaiseficientesparaainterpretaçãodosresul-tadosobtidos. Assimnasciaabioinformática.Essanovaciên-ciaenvolveriaauniãodediversaslinhasdeconhe-cimento – a engenharia de softwares, a matemá-tica, a estatística, a ciência da computação e abiologiamolecular.Osprimeirosprojetosnaáreaeram compostos por profissionais de diferentes  Biotecnologia Ciência & Desenvolvimento - nº 29   13 áreas da biologia e informática epercebia-se uma certa dificuldadedecomunicação:enquantoobiólo-go procurava uma solução que le- vasseemconsideraçãoasincertezase erros que ocorrem na prática, ocientistadacomputaçãoprocuravaumasoluçãoeficienteparaumpro-blemabemdefinido.Assim,surgiuanecessidade de um novo profissio-nal, que entendesse bem ambas asáreas e fizesse a ponte entre elas: oBioinformata. Esse profissional de- veriateroconhecimentosuficienteparasaberquaiseramosproblemasbiológicos reais e quais seriam asopçõesviáveisdedesenvolvimentoe abordagem computacional dosproblemasemquestão.Dadoosucessoeaimportânciaque alcançaram os projetos Geno-ma e seus desmembramentos, obioinformatatemsidoumprofissio-nal requisitado e raro. No exterior,podemserencontradospelomenos122cursosdeformaçãoembioinfor-mática,emsuagrandemaioriacen-tradosnaAméricadoNorteeEuropa(http://linkage.rockefeller.edu/wli/bioinfocourse/).NoBrasil,entretan-to,atéoiníciodesteano,nãoexisti-am cursos que formassem tais pro-fissionais especializados. Políticascientíficasgovernamentaistêmpro-curadoincentivaraformaçãodegru-posdepesquisaedepessoalnessaárea,financiandoprojetosecriandocursosdepós-graduação.Em2002,foiimplantadooprimeiroCursodeEspecialização(pós-graduação lato sensu  ) do LNCC (http://www.lncc.br/~biologia) - do qual forma-mos a segunda turma. Ainda nesteano foi autorizada pela CAPES acriaçãodedoiscursosdedoutoradoem Bioinformática, um na USP eoutro na UFMG (http://www.capes.gov.br/).Parece-nos que cada vez mais abioinformáticavaisernecessáriaparaaanálisededadosembiologiamo-lecular e, nesse sentido, o presenteartigo foi escrito com o intuito deconterasinformaçõesmaisrelevan-tes para quem deseja começar atrabalhar na área. Assim, tentamosapresentar os principais conceitosrelacionadosàbiologiaeàcomputa-ção,ossoftwaresmaisutilizados,ossitesmaisfreqüentadoseasprincipaisáreasdeinteresse. Sistemasoperacionais O sistema operacional (SO) é oprincipal programa de um computa-dor. Ele é responsável pelo gerencia-mento da memória, pelo acesso aosdiscos e também intermedeia todoacesso aos componentes físicos damáquina( hardware  ).Os SOs mais conhecidos e utiliza-dossãoaquelesbaseadosnoWindows,Unix e MacOS. Muitas das aplicaçõesutilizadasembioinformáticasãocom-piladasedistribuídasparaaexecuçãoem plataformas derivadas do Unix,portantooconhecimentodessesiste-maoperacionalédegrandeimportân-ciaparaaquelesquedesejamaprofun-dar-senaárea.Apreferênciaporsiste-masbaseadosemUnixdeve-seaofatodequetaissistemassãonormalmentemais confiáveis, gerenciam melhor otrabalhocomgrandesquantidadesdedadosequealgumasdesuasvariantes,comooLinux,possuemcódigoabertoedistribuiçõesgratuitas. Linguagens de programação Umprofissionalembioinformática,além de saber utilizar os programasproduzidosporoutrosprogramadores,deve também ser capaz de desenvol- ver programas aplicativos para lidarcom os mais diversos problemas en-contrados durante a análise de dadosembiologiamolecular.Paradesenvol- ver,portanto,taisprogramas,obioin-formatadeveterconhecimentosobrealgum tipo de linguagem de progra-mação. AsLinguagensdeprogramaçãofo-ramcriadasparafacilitaraespecifica-çãodetarefasaumcomputador.Exis-temmilharesdelinguagensdeprogra-mação e cada uma delas possui umconjuntodecomandosespecíficosquecriamestainterfacehomem-máquina.Daslinguagensdeprogramaçãomaisutilizadas,podemoscitar:basic,pascal,C,C++,java,cobolefortran.Entretan-to, a linguagem mais utilizada pelosbioinformatasé,semsombradedúvi-da,oPERL.OPERL( PracticalExtractandRe-  port Language  ) é uma linguagem deprogramação, simples e muito rica,alémdedisponívelgratuitamente.Foicriada por Larry Wall, srcinalmentepara produzir relatórios de informa-çõesdeerros,queadisponibilizounaInternetnoespírito  freeware  ,pensan-doquealguémpudesseachá-laútil.Aolongo dos anos esta linguagem con-quistoumilharesdeadeptose,atravésdeváriascolaboraçõesrecebidasparaseu aprimoramento, o PERL é hojeconceituado como uma linguagemsofisticada, que possui como pontoforteamanipulaçãodetexto,masque,alémdisso,possuitodasascaracterísti-cas de uma linguagem de alto-nívelgenérica.Éessagrandefacilidadeparaa manipulação de texto que fez doPERL a linguagem mais utilizada notratamentodedadosdeseqüênciasdeDNAeproteínas.OPERLpodetersuasfuncionalida-des acrescidas através de módulos,que são distribuídos gratuitamente.Existem módulos para uma gama deaplicações,desdemétodosestatísticosclássicos, aplicações gráficas em 3D,atéacessoainternetviaprogramaçãoPERL. O site CPAN ( Comprehensive Perl Archive Network   – http://www.cpan.org)éoprincipalpontodedistri-buiçãodemódulosedesuasrespecti- vas documentações. Alguns destesmódulos são especialmente dirigidospara aplicações em Bioinformática,destacando-se os módulos  bioperl   e biographics  ,queapresentamferramen-tasbastanteúteisparaasmaisdiversasaplicaçõesnestaárea.Umaboainterconectividadecombancosdedadoséoutracaracterísti-ca desejada em uma linguagem deprogramação.AlinguagemPERLatende muito bem a esta demandaatravésdabibliotecaPERL-DBI,umconjuntodemódulosqueforneceumainterfaceconsistenteparasolu-ções de integração com bancos dedados. Bancos de dados Emconseqüênciadagrandequantidadedeinformaçõesdese-qüências de nucleotídeos e de ami-noácidosquesãoproduzidasatual-mente, principalmente em projetosGenoma,TranscriptomaeProteoma,o uso dos bancos de dados vem as-  14  Biotecnologia Ciência & Desenvolvimento - nº 29  sumindoumaimportânciacrescentenabioinformática.Um banco de dados pode serconsideradoumacoleçãodedadosinter-relacionados,projetadoparasuprirasnecessidadesdeumgrupoespecíficodeaplicaçõeseusuários.Um banco de dados organiza e es-truturaasinformaçõesdemodoafacilitarconsultas,atualizaçõesede-leçõesdedados. Agrandemaioriadosbancosdedados é atrelado a um sistema deno-minado SGBD (Sistema de Gerencia-mento de Banco de Dados). Estesistema é responsável por intermedi-arosprocessosdeconstrução,mani-pulaçãoeadministraçãodobancodedadossolicitadospelosusuáriosouporoutrasaplicações.Existem vários sistemas de geren-ciamento de banco de dados, sendoque cada sistema possui seus prós econtras. O  mysql   é um sistema muitoutilizadopelacomunidadeacadêmicae em projetos genoma por ser gratui-to, possuir código aberto e acesso velozaosdados,masapresentacertaslimitações em suas ferramentas. O  postgreSQL   também é um SGBD gra-tuito,comferramentasmuitopodero-sas, entretanto não é muito utilizadopeladificuldadenoseugerenciamen-to.OsSGBD’sO racle  e SQLServer  sãorobustosesofisticados,masdevidoaoalto custo de suas licenças possuemseuusolimitadoàsgrandesempresas. Bancos de dados públicosembioinformática  Oinvestimentocontínuonacons-truçãodebancosdedadospúblicoséum dos grandes motivos do sucessodos projetos genoma e, em especial,doProjetogenomaHumano.Devidoàmagnitudedoconjuntodedadospro-duzidostorna-sefundamentalaorga-nizaçãodessesdadosembancosquepermitamacessoon-line.Os bancos de dados envolvendoseqüências de nucleotídeos, de ami-noácidos ou estruturas de proteínaspodemserclassificadosembancosdeseqüências primários e secundários.Osprimeirossãoformadospeladepo-siçãodiretadeseqüênciasdenucleo-tídeos,aminoácidosouestruturaspro-téicas, sem qualquer processamento BOX1 - Exemplo de programa PERL para obter a fita reversa-complementar a partir de uma seqüência de DNA desejada. #!/usr/bin/perl# Seqüência que se deseja utilizar$meuDNA=‘TTCCGAGCCAATTGTATCAGTTGCCAATAG’;# Inverte a ordem da seqüência de DNA$RevCom = reverse $meuDNA;# Troca as bases produzindo a fita complementar$RevCom=~tr/ACGT/TGCA/;print “Minha seqüência invertida é: \n $RevCom”; A primeira linha é obrigatória e diz ao programa o caminho onde seencontraointerpretadorPERLparaqueoprogramapossaachá-lonahorade sua execução. As linhas seguintes que se iniciam com o sinal de “#”representam linhas de comentário. As variáveis em PERL são sempreseguidas do sinal de “$” e não precisam ser declaradas, cabe aoprogramador saber como e em que contexto devem ser utilizadas. Oscomandos terminam sempre com ponto-e-vírgula e o sinal de “=~” estárelacionadoàutilizaçãodeumaexpressãoregular. BOX2 - Principais Sistemas de Gerenciamento de Bancos de dadosMySQL  http://www.mysql.org Acesso livre para download do gerenciador MySQL, como também a váriasferramentasdeconexãocomo:DBI,Java,ODBCeetc.Apresentadocumentaçãocompleta. PostgreSQL  http://www.pgsql.com/ Acesso livre para download do gerenciador PostgreSQL, como tambémalgumasferramentas.Apresentadocumentaçãocompleta. ORACLE http://www.oracle.comInformaçõescomerciaissobreobancodedados. MicrosoftSQLServer  http://www.microsoft.com/sql/Informaçõescomerciaissobreobancodedados. BOX3 - Bancos de Dados mais utilizados em bioinformática Genbank  http://www.ncbi.nlm.nih.gov/BancodedadosamericanodeseqüênciasdeDNAeproteínas. EBI http://www.ebi.ac.uk/Banco de dados europeu de seqüências de DNA. DDBJ http://www.ddbj.nig.ac.jp/Banco de dados japonês de seqüências de DNA. PDB http://www.rcsb.org/pdb Armazenaestruturastridimensionaisresolvidasdeproteínas. GDB http://gdbwww.gdb.org/Bancodedadosoficialdoprojetogenomahumano.  TIGRDatabases http://www.tigr.org/tdb/Bancocominformaçõesdegenomasdeváriosorganismosdiferentes. PIR  http://www-nbrf.georgetown.edu/Bancodeproteínasanotadas. SWISS-PROT http://www.expasy.ch/spro/ Armazenaseqüênciasdeproteínasesuasrespectivascaracterísticasmoleculares,anotadomanualmenteporumaequipedeespecialistas. INTERPRO http://www.ebi.ac.uk/interpro/Bancodedadosdefamílias,domínioseassinaturasdeproteínas. KEGG  http://www.genome.ad.jp/kegg/Bancocomdadosdeseqüênciasdegenomasdeváriosorganismosdiferen-teseinformaçõesrelacionadasàssuasviasmetabólicas.  Biotecnologia Ciência & Desenvolvimento - nº 29   15 ou análise. Os principais bancos dedadosprimáriossãoo GenBank  ,oEBI( European Bioinformatics Institute  ),o  DDBJ   ( DNA Data Bank of Japan  ) eo PDB ( Protein Data Bank  ). Os trêsprimeiros bancos são membros doINSDC ( International Nucleotide Se- quenceDatabaseColaboration  )ecadaumdessescentrospossibilitaasubmis-sãoindividualdeseqüênciasdeDNA.Elestrocaminformaçõesentresidiari-amente, de modo que todos os trêspossuem informações atualizadas detodasasseqüênciasdeDNAdeposita-das em todo o mundo. Apesar disso,cada centro apresenta seus dados deforma particular, apesar de bastantesemelhante.Atualmenteamaioriadasrevistasexigequeasseqüênciasiden-tificadaspeloslaboratóriossejamsub-metidas a um destes bancos antesmesmodapublicaçãodoartigo.Os bancos de dados secundários,como o PIR ( ProteinInformationRe- source  )ouoSWISS-PROT,sãoaquelesque derivam dos primários, ou seja,foram formados usando as informa-çõesdepositadasnosbancosprimári-os.Porexemplo,oSWISS-PROTéumbanco de dados onde as informaçõessobre seqüências de proteínas foramanotadas e associadas à informaçõessobrefunção,domíniosfuncionais,pro-teínashomólogaseoutros.Osbancosdeseqüênciastambémpodemserclassificadoscomobancosestruturais ou funcionais. Os bancosestruturais mantêm dados relativos àestrutura de proteínas. Embora a se-qüênciadenucleotídeos,aseqüênciadeaminoácidoseaestruturadeprote-ína sejam formas diferentes de repre-sentar o produto de um dado gene,esses aspectos apresentam informa-çõesdiferentesesãotratadosporpro-jetosdiferentes,queresultamemban-cosespecíficos.Dos bancos funcionais, o KEGG( Kyoto Encyclopedia of Genes and Genomes  ) é um dos mais utilizados.Disponibiliza  links   para mapas meta-bólicos de organismos com genomacompletamente ou parcialmente se-qüenciadosapartirdeseqüênciasedebuscaatravéspalavras-chave.Comocrescentenúmerodedadosbiológicos que vem sendo gerados, váriosbancosdedadostêmsurgidoeanualmente a revista  Nucleic Acids Figura 2 – Alinhamento de duas seqüências de proteínas Research  (http://www3.oup.co.uk/nar/database/)publicaumalistaatualizadacomaclassificaçãodetodososbancosdedadosbiológicosdisponíveis.  Alinhamento de seqüências Oalinhamentodeseqüênciaspos-sui uma diversidade de aplicações nabioinformática,sendoconsideradaumadasoperaçõesmaisimportantesdestaárea.Estemétododecomparaçãopro-curadeterminarograudesimilaridadeentre duas ou mais seqüências, ou asimilaridade entre fragmentos destasseqüências. No caso de mais de duasseqüênciasoprocessoédenominadoalinhamentomúltiplo.É bom lembrar que similaridade ehomologiasãoconceitosdiferentes.Oalinhamentoindicaograudesimilari-dadeentreseqüências,jáahomologiaéumahipótesedecunhoevolutivo,enãopossuigradação:duasseqüênciassão homólogas caso derivem de umancestralcomumou,casoestahipóte-se não se comprove, simplesmentenãosãohomólogas.Existemváriosprogramasdecom-putador que realizam esta tarefa e agrandemaioriadelespodeserutiliza-do on-line  ,semanecessidadedeins-talação.Comoexemplotemosospro-gramas: ClustalW, Multialin, FASTA,BLAST 2 sequences, etc.Oprocessoconsisteemintroduzirespaços ( gaps  ) entre os monômerosde uma ou mais seqüências a fim deobteromelhoralinhamentopossível. A qualidade de um alinhamento édeterminada pela soma dos pontosobtidos por cada unidade pareada( match  ) menos as penalidades pelaintrodução de  gaps   e posições nãopareadas( mismatch  ).  Matrizesdesubstituição Matrizes de substituição são umaalternativaaosvaloresfixosdepontu-ação para  matches   e  mismatches  . Es- Figura 3. Parte de uma matriz de substituição BLOSUM62, utilizada em alinhamentos de seqüências de  proteínas. As letras representam os aminoácidos e os números indicam ospontosaseremcontabilizadosna ocorrência de match (diagonal  principal) ou mismatch  tasmatrizesindicamosdiferentesva-loresaseremcontabilizadosparacadapardeunidades. Asmatrizesdesubstituiçãosãonor-malmente utilizadas no alinhamentodeseqüênciasprotéicas.Assimovalorde cada uma de suas células indica achance da ocorrência da substituiçãocorrespondente ao par de aminoáci-dosdeste mismatch  . As matrizes de substituição maisutilizadassãoaquelaspertencentesàsfamílias de matrizes PAM ( Point Ac- ceptedMutation  )eBLOSUM.AmatrizPAM1foiconstruídaatravésdaanálisedemutaçõesentreproteínashomólo-gas com 1% de divergência (1% dosaminoácidos diferentes). As outrasmatrizes, PAM50, PAM100, PAM250sãoextrapolaçõesdamatrizPAM1.Asmatrizes BLOSUM foram construídastendocomobaseosalinhamentosdobancodemotivosBLOCKS.Umama-triz BLOSUM62 é definida através daanálisedassubstituiçõesnasseqüênci-as de BLOCKS que possuem menos  16  Biotecnologia Ciência & Desenvolvimento - nº 29  que62%desimilaridade.Asseqüênci-as que ultrapassam este limite sãomescladas, e participam da definiçãoda matriz como se fossem uma únicaseqüência.  Alinhamento global e local Quantoàregiãoanalisada,oalinha-mentodeseqüênciaspodesergrossei-ramente classificado em dois tipos, oalinhamento global e o alinhamentolocal. No alinhamento global, as se-qüênciasenvolvidasdevemseralinha-das de um extremo ao outro, dandosrcem a apenas um resultado. Já noalinhamentolocal,procura-sealinharapenas as regiões mais conservadas,independente da localização relativadecadaregiãoemsuaseqüência.Con-sequentemente,estealinhamentotemcomo resultado uma ou mais regiõesconservadasentreasseqüências.Oalinhamentoglobaléfreqüente-menteutilizadoparadeterminarregi-ões mais conservadas de seqüênciashomólogas. Exemplo de programasqueutilizamestealinhamentosãoClus-talWeMultialin.Oalinhamentolocalégeralmente utilizado na procura porseqüências homólogas ou análogas(funcionalmente semelhantes) embancodedados.Oalgoritmoutilizadopelo programa BLAST ( Basic Local Alignment Search Tool  ) realiza estetipodealinhamento. Figura 4: Exemplos de alinhamento global e local. No alinhamento global as seqüências são alinhadas do início ao fim, já no alinhamentolocalalinha-seassubseqüênciasconservadas  BOX4-SoftwaresmaisutilizadosparaoalinhamentodeseqüênciasClustalW  http://www.ebi.ac.uk/clustalw/index.html Versãowebdeumdosprogramasdealinhamentomúltiplomaisutilizados(Clustal). Fornece ao usuário uma grande quantidade de parâmetros e desaídasdiferentes.Possuiinterfacegráficaondeosalinhamentospodemser visualizadosdeformaagradávelealterados. Multialin  http://prodes.toulouse.inra.fr/multalin/multalin.htmlProgramadealinhamentomúltiplobastanteconhecido.Fácilerápido. Fasta  http://www.ebi.ac.uk/fasta33/Precursordosprogramasdealinhamento.Promove serviço de busca em banco de dados de ácidos nucléicos eproteínas. BLAST,BLAST2sequences http://www.ncbi.nlm.nih.gov/BLAST/BLAST é o programa de alinhamento mais utilizado no mundo. Realiza abuscaporseqüênciashomólogasembancodedadosdeácidosnucléicoseproteínas.Oprograma BLAST2sequences  consistenoalgoritmoBLASTparaalinhamentodeduasseqüências. Projetosgenomaetranscriptoma  Grande parte dos bioinformatasmodernostrabalhacomdadosdepro-jetos genoma ou transcriptoma. Emprojetos genoma adota-se a aborda-gemdefragmentartodoogenomadeumorganismoempequenospedaçosedeseqüenciartaispedaços,utilizan-do programas computacionais paramontá-losereconstituirainformaçãogenômicainicial.Essaestratégiaéado-tadaprincipalmentedevidoàrestriçãodo tamanho da seqüência que podeserlidanosseqüenciadores.Mesmoosmaismodernosconseguemlerapenascerca de 1000 pares de base em cadacorrida.Emprojetosgenomasdeprocario-tos, normalmente realiza-se a quebradoDNAinteirodoorganismodesejadoem fragmentos pequenos (através datécnicade shotgun  )quesãoclonadosem vetores plasmidiais que serão se-qüenciados em suas extremidades. Após uma primeira etapa de monta-gemdessegenoma,fragmentosmaio-res são clonados em cosmídeos e se-qüenciados.Essasegundaetapaéim-portanteparaamontagemdogenomacompleto do organismo, já que a pri-meira normalmente produz uma se-qüênciaincompleta,apresentandoal-gunsburacosdeseqüência( gaps  ). Já em projetos genomas de orga-nismos eucariotos, que possuem fre-qüentemente uma enorme quantida-de de DNA, normalmente prefere-seadotar uma técnica conhecida como shotgun  hierárquico.Nessatécnica,oDNAinteirodoorganismoéprimeira-menteinseridoemgrandesvetoresdeclonagem,comocromossomosartifici-aisdebactérias(BACs)oudelevedu-ras (YACs). Depois então é realizadoum  shotgun  desses grandes fragmen-tos dos vetores, gerando fragmentosmenores que são agora clonados em vetoresplasmidiaisparaosequencia-mento. Portanto, tais projetos consis-tem de duas etapas, a montagem decadaumdosgrandesfragmentosclo-nadosnosBACseYACseamontagemfinal que reunirá as seqüências com-pletas dos BACs e YACs montadospara a reconstituição da informaçãogenômicainicial.