obiecte
abstract
Studiul de asociere este un proiect popular de studiu pentru identificarea genelor de susceptibilitate pentru boli complexe comune. Într-un astfel de studiu, prezența probelor necorespunzătoare, cum ar fi cele provenite de la rude apropiate sau care prezintă contaminare cu ADN, provoacă inflare de eroare de tip I sau performanță scăzută. Aici, propunem o metodă de detectare bazată pe identitatea națională (IBS) a probelor nepotrivite, luând în considerare dezechilibrul obligatoriu (LD). Statisticile de testare sunt media proporției de alele care sunt împărțite de o stare identică la fiecare polimorfism nucleotidic unic (SNP) între fiecare pereche de probe din studiul de asociere. O covarianță a numărului de alele partajate între doi SNP este introdusă pentru a lua în considerare LD. Arătăm că eroarea și puterea de tip I sunt estimate cu exactitate în datele simulate de computer și că, dacă numărul de SNP-uri analizate este mic, performanța de detectare a probelor necorespunzătoare este mai bună decât metoda anterioară din LD simulat. Aplicarea datelor din studii reale de asociere a arătat că acuratețea în estimarea distribuției statisticilor testelor s-a îmbunătățit atunci când a fost luată în considerare LD. Au fost identificate probe de cupluri care sunt considerate frați. Aceste rezultate sugerează că metoda de detectare a IBS bazată pe LD este utilă în identificarea probelor necorespunzătoare într-un studiu de asociere.
Studiul de asociere este un proiect popular de studiu pentru identificarea genelor de susceptibilitate pentru boli complexe comune. 1 Conform Ipotezei Boli Comune (CD-CV), puterea unui studiu de asociere este, în general, mai mare decât un studiu obligatoriu pentru identificarea genelor sensibile la boli. Majoritatea studiilor de asociere caută markeri genetici care sunt legați de boală comparând frecvența dintre cazuri (boală) și populația de control (fără boală). În regiunea dezechilibrului de legare (LD), care corespunde markerului genetic asociat, poate fi identificată apoi o genă sensibilă la boală. Recent, polimorfismele bialelelice cu un singur nucleotid (SNP) sunt utilizate pe scară largă ca markeri genetici.
Mai multe prejudecăți pot fi introduse în studiile de asociere de caz și de control, ceea ce este foarte important pentru a face față în mod corespunzător, deoarece acestea provoacă o inflație semnificativă a erorilor de tip I sau degradarea performanței. Controlul calității (QC), o serie de operații pentru detectarea și eliminarea prejudecății, include cauze posibile, cum ar fi stratificarea populației, contaminarea eșantionului și legătura criptică. 1, 3 Contaminarea unui eșantion poate apărea atunci când eșantioane de diferite origini individuale sunt amestecate în mod eronat într-un proces experimental, cum ar fi extracția ADN-ului sau tiparea SNP. Legătura criptoidelor este observată atunci când unele rude apropiate sunt incluse în studiu întâmplător, fără știința cercetătorilor, ceea ce poate provoca o inflație de eroare de tip I. 3
Pentru detectarea generală a probelor înrudite, a fost propus un test al raportului de probabilitate bazat pe probabilitatea inversă a genotipului în anumite relații. 4 Pentru un studiu bazat pe familie, a fost propusă o metodă de identitate de ultimă generație (IBS) 5, 6 pentru a detecta erorile într-o relație de pereche frate, utilizând suma IBS pentru o pereche de frați. În schimb, a fost propusă o metodă de identitate a zecimii (IBD) (PLINK 7). PLINK (//pngu.mgh.harvard.edu/purcell/plink/) estimează coeficienții de partajare a genomului în întreaga gamă dintre probele fără legătură din datele genomului întreg. Această valoare este utilă pentru QC prin diagnosticarea erorilor genealogice, a relațiilor nedetectate și a eșantionării, duplicării și contaminării aleatorii. Se calculează π̂ (proporția de alele împărțită de IBD) pentru fiecare pereche de eșantioane și evenimentele de contaminare sunt considerate valori π̂. Cu toate acestea, în aceste studii anterioare, s-a presupus că SNP-urile sunt independente una de cealaltă și LD nu este luat în considerare. Cu toate acestea, în multe studii de asociere, LD nu poate fi neglijat printre markerii SNP.
Aici, propunem o metodă de detectare bazată pe IBS pentru detectarea probelor necorespunzătoare (de exemplu, contaminare, rude apropiate) într-un studiu de asociere care se bazează pe markeri SNP cu sau fără LD. Am evaluat eroarea de tip I și puterea metodei propuse și am estimat numărul de SNP-uri necesare pentru detectarea eșantioanelor nepotrivite pentru markerii SNP fie în LD, fie în echilibru linker (LE). Metoda propusă a fost comparată cu metoda anterioară prin simulare. În cele din urmă, aplicarea metodei propuse la exemplul datelor reale în studiul asocierii în întregul genom a indicat semnificația practică a discuției noastre.
Rezultatul
Studiu de simulare
Am evaluat eroarea și puterea de tip I (R = 2, 3, 4) în datele de simulare pentru markerii SNP care arată LE sau LD (tabelele 1 și 2). Eroarea și puterea de tip I au fost calculate cu precizie presupunând că distribuția Y este o distribuție normală cu media E (Y) și varianța V (Y) în ambele cazuri. În cazul LE, au fost necesare peste 800 de SNP-uri pentru a detecta corect probele părinte-copil (v̂ = 1) și pentru a exclude excluderea probelor normale din datele de control al cazului (ûN (N - 1)/2
Curba ROC pentru performanța metodelor bazate pe IBD/IBS aplicate datelor de simulare LD (K = 200, N = 200). ASC este 0,95 (IBD) și 0,96 (IBS) pentru părinte-copil, 0,92 (IBD) și 0,99 (IBS) pentru contaminare.
Imagine la dimensiune completă
Deși numărul SNP-urilor nu este suficient pentru a detecta cu precizie eșantioane necorespunzătoare conform Tabelului 2, concentrăm această simulare pe un studiu de asociere în care numărul SNP-urilor este mai mic de 1000. În plus, confirmăm că nu există nicio diferență de performanță între cele două metode. în cazul a 1000 SNP și că ambele metode detectează cu precizie eșantioane nepotrivite (datele nu sunt prezentate).
Analiza datelor reale
Am aplicat metoda bazată pe IBS la studiile de asociere reală la schimbarea numărului de SNP (K = 200, 600, 1000 și 2665). Aceste date reale au avut un LD slab global (Figura 1). A fost posibilă aproximarea distribuției lui Y printr-o distribuție normală și a existat o diferență mică între w = 10 și w = 100 (Figura 3). În cazul unui LD slab, precizia estimării Y ar putea fi îmbunătățită luând în considerare LD. Numărul de perechi de probe detectate a fost determinat cu precizie de probabilitatea superioară de distribuție normală (Tabelul 3). Cele două eșantioane de cupluri găsite au fost re-verificate de cercetătorii clinici, iar relația dintre frați a fost, de fapt, puternic concepută.
Histograma cazurilor reale - date de control și distribuție teoretică a lui Y, (K = 1000, 2665). Valoarea pragului este s = 0,75.
Imagine la dimensiune completă
Tabel în dimensiune completă
discuţie
Într-un studiu de asociere, este necesară o serie de QC pentru a menține calitatea cercetării. În acest studiu, ne-am concentrat pe detectarea probelor necorespunzătoare. Până în prezent, în studiile de familie au fost propuse metode de detectare bazate pe IBS. Cu toate acestea, aceste metode nu au luat în considerare LD în rândul markerilor genetici și, prin urmare, nu pot fi aplicate datelor studiului de asociere LD. Noua noastră metodă de detectare bazată pe IBS poate lua în considerare LD folosind covarianța Y, iar eroarea de tip I și performanța metodei propuse au putut fi evaluate cu exactitate folosind un studiu de simulare. Într-un studiu tipic de asociere cu doar câteva eșantioane inadecvate, o eroare de tip I trebuie evaluată corespunzător pentru a evita excluderea accidentală a eșantioanelor adecvate. În datele de simulare, metoda propusă a detectat corect și mai precis eșantioane inadecvate decât metoda bazată pe IBD.
În studiul nostru de simulare, numărul falsurilor pozitive scade drastic atunci când sunt analizate peste 1000 de SNP-uri (Tabelul 2), iar site-ul web PLINK afirmă, de asemenea, că un număr mare de SNP-uri (minim 1000 de SNP-uri independente) sunt necesare pentru a calcula întregul genom. IBD a furnizat informații despre IBS. Luate împreună, aceasta înseamnă că sunt necesare peste 1000 de SNP-uri pentru a detecta eșantioane nepotrivite. Cu toate acestea, în unele abordări genetice candidate, genele țintă au fost deja definite, iar numărul de SNP-uri de tipare pe aceste gene este mai mic de 1000 SNP. În acest caz, vă recomandăm metoda propusă.
În metoda propusă, stabilim pragul s = < E ( Y ∣ R = 1) + E ( Y ∣ R = 2)>/ 2. Stabilirea pragului optim utilizând factorul Bayes 6 este necesară presupunând că distribuția lui Y este o distribuție normală mixtă de probe fără legătură (R = 1) și nepotrivite (părinte-copil (R = 2) și frați ( R = 3)). Și așa mai departe). Cu toate acestea, deoarece probele nepotrivite sunt în general rare, este dificil de estimat rata mixtă și parametrul de distribuție nepotrivită a probelor. Deci, acceptăm pur și simplu pragul definit de s = < E ( Y ∣ R = 1) + E ( Y ∣ R = 2)>/ 2. Există spațiu pentru studiu cu privire la modul de a decide asupra unui prag.
În metoda propusă, am presupus o regiune LD puternică virtuală ca SNP succesivi, iar covarianța Cov este calculată în această regiune (Tk1, Tk2│R = 1). Deoarece modelul LD este variabil pe tot genomul, este rezonabil să se ia în considerare covarianța în funcție de lățimea dependentă de poziție a LD. Cu toate acestea, rezultatele datelor reale sugerează că este acceptabil să se considere o zonă LD puternică ca o regiune constând din mai mulți SNP succesivi.
În aplicația de date reale, am exclus anterior eșantioane care au multe SNP-uri lipsă sau o proporție mare de SNP heterozigoți, deoarece aceasta face parte dintr-un proces de rutină de control al calității în laboratorul nostru. De fapt, am constatat că includerea acestor probe umflă dispersia Y, ceea ce la rândul său supraestimează eroarea de tip I. În procedura noastră actuală de QC, nu considerăm că LD este detectarea și excluderea probelor cu o proporție nerezonabil de mare. de heterozigoitate. O metodă care consideră LD într-o manieră similară cu metoda propusă poate fi utilizată pentru a detecta o probă cu o proporție mare de heterozigoitate utilizând Tk = 1 (genotipul este heterozigot pentru SNP k), Tk = 0 (genotipul este homozigot pentru SNP k) . Rețineți că contaminarea non-reciprocă, unidirecțională, în care eșantionul B este contaminat cu eșantionul A, în timp ce eșantionul A rămâne intact, poate fi detectat de o proporție anormal de mare de heterozigoitate a eșantionului B.
Introducerea recentă a unor platforme SNP puternice pentru tastarea cipurilor a dus la un studiu de asociere, care este o strategie populară pentru identificarea genelor asociate bolii și a datelor genotipului la 100.000 - 1.000.000 SNP. Într-un studiu de asociere a întregului genom, probele necorespunzătoare pot fi detectate în mod eficient deoarece câteva sute de SNP-uri pot fi selectate în scopuri de control al calității (QC-SNP). Este necesar să selectați QC-SNP-uri care sunt în LE între ele și ale căror frecvențe de alelă sunt în jur de 0,5; astfel de SNP-uri pot distinge cel mai eficient eșantioane inadecvate de cele normale. Pe de altă parte, atunci când mai multe gene candidate sau regiuni de interes ale genomului sunt deja cunoscute sau selectate și se dorește tiparea SNP cu densitate ridicată pe aceste gene, LD ar trebui luat în considerare în conformitate cu metoda propusă.
În acest studiu, am propus o metodă de detectare a perechilor de probe nepotrivite într-un studiu de asociere caz-control. Când am aplicat metoda propusă datelor reale ale studiului de asociere, s-au găsit două perechi de probe ca frați. De îndată ce eșantioanele necorespunzătoare sunt foarte suspectate, vom lua de obicei următoarele etape: atunci când este detectată contaminarea, vom exclude toate eșantioanele relevante din datele de control al cazului. Dacă se găsește o pereche de probe înrudită, de obicei reținem un singur subiect din pereche printr-o combinație a următoarelor două criterii: (2) calitatea generală a datelor de tastare a eșantionului, în special rata SNP a apelului (numărul de SNP-uri genotipate cu succes pentru fiecare eșantion). Cu toate acestea, dacă numărul eșantioanelor necorespunzătoare este semnificativ, decizia de a le include poate necesita luarea în considerare a unui compromis între umflarea unei erori de tip I și puterea redusă de testare. În acest caz, este posibil să avem nevoie de un viitor studiu de analiză a sensibilității pentru a evalua compromisul.
- Diagnosticul care înconjoară bărbații ca un sfat te așteaptă și pe tine
- DEDOLES - o companie care ajută
- Mama britanică, care a mâncat carne de vită, a născut un copil uriaș
- Vreau o schimbare! Interviu cu Kristián Dufinec, autorul piesei care a mutat alegerile - Dušan Plichta
- Cafea antiglont; sau cafeaua care arde grăsime a inundat internetul. Ce crede fitness despre asta