naturii

obiecte

  • Secvențierea ADN-ului
  • genetică
  • genom
  • Genetica populației

Genomul panda-uriaș este primul ansamblu de novo raportat al unui genom mare de mamifere realizat folosind metode de secvențiere de generația următoare. Această evaluare reflectă tendința către costuri în continuă scădere a secvențierii genomului.

Studiul din acest număr al lui Li și colab. 1 (pagina 311) al Institutului de Genomică din Beijing este notabil din două motive - prezintă structura primară a genomului panda gigant (Ailuropoda melanoleuca) și este prima publicație a unui genom de novo de înaltă calitate asamblat de la un mamifer. folosind mașini de secvențiat de nouă generație (NGS). Panda al cărui genom a fost secvențiat se numește Jingjing; ea este una dintre cele aproximativ 3.000 de creaturi rămase. Pe lângă faptul că este una dintre comorile naționale ale Chinei, panda ocupă un loc interesant în arborele evolutiv - printre oameni și câini. De asemenea, se bazează pe o dietă neobișnuită din bambus. Oferă un subiect convingător pentru studiul genomului, care poate stimula cunoștințele despre biologia sa de bază și oferă o bază pentru genetica populației panda.

Pentru mulți, însă, cel mai mare interes va fi că panda gigant reprezintă prima asamblare publicată de novo a genomului acestei complexități, realizată prin metode NGS. Aceste metode produc citiri de secvențe foarte scurte în cantități mult mai mari și la costuri mai mici decât tehnicile tradiționale Sanger. Deși au fost raportate zece sau mai multe genomuri NGS (cu estimări recente ale costurilor de 10.000 $ - 50.000 $ per genom), toate au fost realizate prin secvențierea și compararea secvențelor cu o referință umană. Ei nu au rezolvat o problemă atât de complexă a unui ansamblu complet nou ca Li și colab. Am făcut-o. Alte grupuri care s-au luptat cu provocările asamblării de novo a genomurilor mamiferelor NGS 3-gigabase vor examina metodele și calitatea datelor panda și vor întreba cum aceste lecții ar putea fi reflectate în alte proiecte de genom în desfășurare. Agențiile financiare vor monitoriza, de asemenea, această dezvoltare în anticiparea unei tendințe descendente continue a costurilor de secvențiere a genomului.

Nu toate secvențele genomice ale mamiferelor sunt de aceeași calitate: proiectarea inițială a genomului uman 2 a fost construită în 2001 folosind secvențierea Sanger suprapusă, care a fost generată prin metode clasice de terminare a catenelor nucleotidice 3. Dezvoltarea secvenței 4 „esențial completată” 4 până în 2003, care a costat aproape la fel de mult efort și bani ca și designul original, a culminat cu succesiunea genomului uman cu o mai mare coerență și precizie decât proiectarea și cu doar câteva lacune. rămânând în toate cele 3 baze de gigant. De atunci, doar șoarecele a beneficiat de genomul finit 5, iar restul secvențelor genomice publicate, cum ar fi macacul rhesus 6, câinele 7, șobolanul 8 și vaca 9, sunt concepte de înaltă calitate pentru care șase până la opt -acoperirea genomului a fost realizată folosind metode de secvențiere Sanger, cu un software special de asamblare care a calculat suprapunerile.

Secvențele conceptuale tipice Sanger au așa-numitele N50 contigue de 20-200 kilobaze, în care jumătate din toate bazele se află în fragmente de secvențe contigue de această lungime sau mai mult. Această lungime a secvenței neîntrerupte permite studierea majorității genelor ca unități contigue individuale. Contigurile sunt cusute împreună pentru a forma structuri mai lungi sau schele, care sunt adesea bazate pe mai multe baze multiple (Fig. 1). În general, valorile mai mari ale schelelor și N50 contiguu sunt mai utile deoarece permit studiul proprietăților genomice în context - de exemplu, genele cu toți exonii (regiunile de codificare) în ordine și cu secvențe de reglare adiacente atașate. Secvențierea de înaltă calitate necesită prevenirea conexiunilor false, care umflă contigul și schela N50 prin îmbinarea incorectă a secvențelor îndepărtate. Faptul că citirile Sanger utilizate în proiectele anterioare sunt mai lungi și mai precise decât datele NGS (de obicei în jur de 1.000 de baze comparativ cu mai puțin de 100 de baze, 0,1% față de> 1% erori) i-a determinat pe mulți să se întrebe dacă sunt rentabili., kituri de design de înaltă calitate ar putea fi produse prin metode NGS.

A, Genomul este mai întâi împărțit în multe fragmente mici, ale căror capete sunt secvențiate, generând secvențe numite perechi de perechi separate printr-o distanță cunoscută (săgeți albastre conectate prin curbe). Aceste citiri sunt reasamblate folosind algoritmi de computer care îmbină secvențe suprapuse pentru a forma fragmente de secvență adiacente sau contigs. b, Contigurile sunt aranjate în schele mai mari folosind informații despre similaritatea secvenței și distanța dintre perechile de perechi. Figura prezintă o schelă compusă din contiguri secvențiale cu goluri împrăștiate de dimensiunea așteptată pe baza perechilor care leagă contigurile. Diferite tehnologii de secvențiere au rate de eroare și lungimi de citire diferite, dar principiile sunt aceleași. Un set tipic de imersie Sanger generează date cu o lungime de aproximativ 1.000 de baze, în timp ce metodele de generație următoare utilizate de Li și colab. 1 pentru ansamblul genomului panda gigant este mult mai mic (lung de 50 până la 75 de baze).

Imagine la dimensiune completă

Li și colab. 1 pentru a face această sarcină să pară simplă, controlabilă - chiar ușoară. Autorii au generat o acoperire remarcabilă de 73 de ori totală a genomului panda cu 50 și 75 de citiri de bază folosind platforma secvenței Illumina - de aproximativ opt ori acoperirea medie a unui proiect tipic de genom al conceptului Sanger comparabil. Redundanța crescută care rezultă din acoperirea mai mare poate compensa date de secvență mai puțin fiabile pentru a îmbunătăți acuratețea secvenței consens finale. Mai mult, autorii au folosit aproximativ două treimi din cele mai bune date pentru a construi o secvență contiguă, rezultând o creștere a N50 de 40 kilobaze. Aceste contiguri au fost combinate pentru a obține schele cu un N50 de 1,3 megbaze. Astfel, ansamblul genomului conține secvențe relativ lungi, dar rămâne fragmentat în 3.805 schele comparativ cu mai puțin de 100 la câini. O astfel de fragmentare frustrează utilizatorii de date genomice și exclude analiza unor funcții, cum ar fi variantele structurale mari, dar multe analize genomice sunt încă posibile.

Li și colab., Bazându-se pe acest nou ansamblu genomic. 1, am găsit mai multe caracteristici interesante ale secvenței genomice panda care se referă la biologia panda. Deși animalul are un repertoriu genic tipic pentru carnivore, are o dietă erbivoră constând în principal din bambus. În concordanță cu această dietă, gena care codifică receptorul gustului umami pentru proprietățile picante sau carnoase ale alimentelor pare să fie disfuncțională în panda. În general, genomul Jingjing a prezentat un nivel ridicat de heterozigoză (unde secvența diferă între cromozomii materni și paterni), pe care autorii îl interpretează în mod optimist ca reflectând o diversitate genetică ridicată în restul speciilor. Deoarece a fost studiat un singur animal, această întrebare cheie a măsurii în care variabilitatea genetică globală apare la speciile de panda nu a fost abordată direct. În mod clar, este nevoie de mult mai multă muncă pentru a fi siguri de această concluzie.

Proprietățile genomului care complică algoritmii de asamblare includ repetări ADN comune, simple, inserții de transpozon (ADN mobil), aranjament structural și duplicări segmentare recent divergente. Duplicările segmentare sunt o provocare specială, deoarece reprezintă secțiuni relativ lungi ale unei secvențe similare. Cu toate acestea, Li și colegii raportează că panda are relativ puțini. Interesant este că atât ansamblurile genomului șoarecului 5, cât și al câinelui 7 au indicat o rată foarte scăzută de duplicare a segmentelor, dar lucrările ulterioare în fiecare caz au arătat că 4-5% din fiecare genom 10, 11 a fost duplicat în acest fel. Diferența a fost rezultatul „coborârii” ansamblului, în cazul în care programul de asamblare a suprapus în mod involuntar secvențe similare. Dacă acest lucru se poate întâmpla cu datele Sanger relativ lungi și exacte utilizate în proiectele de șoareci și câini, s-ar fi putut întâmpla în studiul actual.

Proiectul de secvențiere a genomului panda a necesitat echivalentul a aproximativ 30 de cicluri ale mașinii Illumina, echivalent cu aproximativ 900.000 de dolari în producția de date brute. Cu toate acestea, aceasta este viteza de producție a datelor cu cel puțin un an în urmă și, de atunci, puterea mașinii și costul corespunzător pe unitate de date au scăzut. Metodele NGS funcționează mai mult în paralel decât metodele lui Sanger, permițând milioane de citiri pe ciclu comparativ cu sute de secvențe pentru Sanger. Având în vedere toate acestea și chiar având în vedere infrastructura de calcul, procesoarele mari de memorie și capacitatea de stocare necesare pentru a gestiona volumul de date, costul secvențierii genomului panda gigant este mult mai mic decât costul proiectelor de secvențiere a genomului tehnologiei Sanger, care rămân la zeci de milioane.dolari pe genom. Această reducere extraordinară a costurilor este cea care, în ciuda incertitudinilor cu privire la acuratețe, coerență și completitudine, înseamnă că raportul Li și colegii 1 va sprijini aplicarea metodelor NGS la alte proiecte de asamblare a genomului de novo.

O evaluare obiectivă completă a exhaustivității și acurateței ansamblului panda-genom va necesita repetarea proiectului prin diferite metode și o examinare amănunțită a oricăror diferențe între versiuni. Acest lucru nu se va întâmpla în viitorul apropiat, dar odată cu convenția actuală de divulgare generoasă, toate rapoartele sunt o chestiune de evidență publică și sunt susceptibile de a fi revizuite pe măsură ce tehnologia se îmbunătățește, iar alții studiază aceeași specie. La fel ca toate datele genomului, setul panda va supraviețui unui test de timp și teste de calitate independente.

Comentarii

Prin trimiterea unui comentariu, sunteți de acord să respectați Termenii și condițiile și Regulile comunității. Dacă găsiți ceva jignitor sau nu respectați termenii sau liniile directoare, marcați-l ca fiind nepotrivit.