obiecte

abstract

Am investigat interacțiunile genă-genă (epistază) în indicele corpului uman (IMC) în patru populații europene (n 5000). Concluzionăm că analiza epistazei în mai multe populații la nivel de genom este o abordare eficientă pentru obținerea unor noi perspective asupra reglementării genetice a IMC, dar necesită eforturi suplimentare pentru a confirma constatările.

analiza

Indicele de masă corporală (IMC) este cea mai frecvent utilizată metodă antropometrică pentru a defini obezitatea umană. IMC este o trăsătură complexă influențată de mulți factori de mediu (de exemplu, dietă, vârstă, activitate fizică) și genetici, cu estimări ale eredității variind de la 40 la 80% în studii duplicate, de la 20 la 50% în studiile de familie și de la 20 la 60% în studii de familie.studii în grup. studiul. 1 Studii recente cu asociere genomică mare (GWA) au identificat cu succes numeroase polimorfisme cu un singur nucleotid (SNP) care sunt puternic asociate cu caracteristici legate de obezitate, inclusiv IMC. 2, 3, 4 Aceștia fac lumină pe baza biologică a obezității și sugerează rolul influențelor neuronale în reglarea apetitului și/sau echilibrul energetic. Cu toate acestea, variantele genetice identificate împreună explică doar o mică parte din variația trăsăturii și, prin urmare, au o valoare predictivă limitată pentru riscul obezității. 5 De exemplu, într-o meta-analiză recentă (249.796 indivizi) din 32 de SNP identificați și reproduși, doar 1,45% din variația IMC interindividuală a fost explicată împreună, cel mai puternic SNP reprezentând doar 0,34% din varianță. 3 32 SNP IMC mapează 32 de gene diferite, denumite în continuare loci IMC.

Interacțiunile genă-genă (epistază) sunt considerate surse potențiale de variație genetică inexplicabilă, 6, 7, 8, dar rămân în mare parte neexplorate în studiile GWA până în prezent pentru IMC. Principalul obstacol în calea analizei epistazei în studiile GWA a fost lipsa unor metode rapide pentru a calcula miliarde de teste de interacțiune într-o scanare completă a genomului pereche pentru a cartografia diferitele tipuri de epistaze (de exemplu, cu sau fără efecte majore), menținând în același timp valori pozitive false. sub control. 9, 10 Un alt obstacol în calea studierii epistazei este dimensiunea eșantionului relativ mică în multe cohorte GWA existente, care pot limita capacitatea de a detecta și de a reproduce semnale epistazice, cu excepția cazului în care efectele epistatice care urmează să fie detectate sunt mari. Simularea a arătat că au fost necesare peste 4000 de perechi de cazuri și controale pentru a atinge capacitatea de detectare a epistazei cu 80%, cu raportul 3,0 necesar în bolile complexe. Pentru trăsăturile cantitative, dimensiunile eșantionului trebuie să fie semnificativ mai mari (de exemplu, 45%) mai mari decât fenotipurile de caz și de control de caz pentru a obține o rezistență similară. 14

Odată cu progresele în tehnologia de calcul, principalul obstacol este eliberat treptat și scanarea completă pereche a genomului începe să se aplice individual populațiilor GWA. Meta-analiza epistazei, așa cum este utilizată în studiile GWA 3, ar putea fi o modalitate bună de a depăși obstacolul în mărimea eșantionului, dar necesită metode noi pentru a adapta datele de genotip SNP imputate. Diferite abordări în reducerea spațiului de căutare (de exemplu, praguri de semnificație mai puțin stricte datorită unui număr mult mai mic de teste) pot fi utilizate pentru a îmbunătăți capacitatea de a detecta episaza în populațiile individuale de GWA. Interacțiunile de testare care implică loci semnificativi (efecte marginale) cu o gamă largă de genomi, cu un prag corectat pentru numărul real de teste, au fost propuse 10, 17, 18 și aplicate cu succes în studii recente. 16, 19, 20, 21 O altă abordare este de a selecta SNP-uri pe baza cunoștințelor biologice existente (de exemplu, interacțiuni proteină-proteină) și de a testa interacțiunile numai între ele. Cu toate acestea, trebuie să se acorde precauție la selectarea SNP 12, deoarece cunoștințele biologice nu pot fi direct legate de trăsătura studiată și orice prejudecăți din loci preidentificate ar putea duce la semnale epistatice fals pozitive.

Aici demonstrăm o abordare diferită a exploatării valorii epistazei prin analiza unei populații numeroase. În primul rând, am efectuat examinări complete ale genomului perechi pentru episoade în IMC în patru populații GWA la care am avut acces direct: scoțian ORCADES, 24 CROATIA-Vis 25 și CROATIA-Korcula, 26 și grupurile de studiu italiene MICROS 27. Fiecare dintre aceste grupuri are o dimensiune relativ mică a eșantionului și este eșantionat din diferite regiuni europene cu stiluri de viață și diete foarte diferite. În al doilea rând, am identificat interacțiuni genă-genă comune și potențial importante folosind semnale epistazice descoperite în fiecare cohortă și îmbogățirea lor în ontologia genică (GO) la populații. În plus, am identificat și un set de interacțiuni care implică loci IMC (ca și descoperirile anterioare) în diferite cohorte. În al treilea rând, am testat interacțiunile identificate în fiecare cohortă de replicare și apoi semnalele replicate în cohorta nativă a Finlandei de Nord 1966 (NFBC1966). 28 Scopul nostru este de a aborda problema dacă analiza epistazei este relevantă pentru disecția reglării genetice a IMC în aceste grupuri de studiu.

Materiale și metode

Grupuri de studiu și declarație etică

Cele patru grupuri de studiu au fost descrise în detaliu în altă parte. 24, 25, 26, 27, 29 Pe scurt, grupul scoțian ORCADES a fost acceptat dintr-un subgrup de 10 insule ale arhipelagului Orkney. Acest studiu a fost aprobat de Comitetul Etic al Cercetării NHS Orkney și REC din nordul Scoției. Cohortele CROAȚIA-Vis și CROAȚIA-Korcula au fost admise în insula Vis și în insula Korcula. Ambele studii au fost aprobate de Comitetul de Etică al Școlii de Medicină, Universitatea din Zagreb și Comitetul pentru Etică al Cercetării Multiculturale din Scoția. Grupul italian MICROS a fost primit din sate dintr-o zonă montană izolată din Tirolul de Sud. Studiul a fost aprobat de Comitetul de Etică al provinciei autonome Bolzano. Toți participanții au oferit consimțământul informat în scris și au fost măsurați pentru numărul de caractere, inclusiv greutatea și înălțimea de la care au fost calculate valorile IMC.

Tabel în dimensiune completă

analize statistice

Datele brute ale IMC din fiecare dintre cele patru grupuri de studiu au fost corectate și normalizate în funcție de vârstă și sex utilizând funcția de transformare, care este implementată în pachetul GenABEL, care realizează normalizarea cuantilă a reziduurilor din analiza modelului liniar generalizat. Reziduurile BMI normalizate au fost apoi analizate folosind un model mixt liniar pentru a corecta efectele poligenice datorate corelării folosind funcția poligenică din pachetul GenABEL, iar reziduurile de mediu rezultate (adică pgresidualY în GenABEL) au fost utilizate ca marker pentru a testa asocierea. Moștenirea poligenică a fost estimată în etapa modelului mixt. În urma studiului inițial GWA, 28 de pacienți din grupul NFBC1966 au fost excluși din sarcină și/sau măsurători ale IMC raportate separat, iar valorile brute ale IMC au fost corectate pentru SexOCPG (calculate după sex, starea contraceptivă orală și sarcină) și apoi normalizate și corectat pentru rudenie ca mai sus.

Scanarea GWA bazată pe SNP a fost efectuată în fiecare populație folosind o metodă de testare a scorului (bazată pe modelul aditiv) implementată în funcția mmscore din pachetul GenABEL. Pragul consensului GWA de 7, 3 (−log 10 (5, 0E - 08)) a fost utilizat pentru a identifica SNP-uri GWA semnificative. 32 De asemenea, am efectuat o scanare genomică pereche completă utilizând modelele de regresie descrise mai jos. În ceea ce privește perechea de SNP desemnați SNP 1 și SNP 2, următoarele modele genetice au fost folosite pentru a detecta episaza, în care genotipurile fiecărui SNP (adică homozigot alele minore, homozigote alele majore și heterozigote) au fost utilizate ca factori fixi:

unde y este un semn de interes, μ este o constantă de model, SNP 1 (sau SNP 2) este un factor fix cu trei niveluri (clase de genotip), SNP 1 * SNP 2 este un termen de interacțiune, e este un termen de eroare aleatorie. Testul raportului F al modelului 1 versus modelul 3 evaluează efectul întregii perechi, inclusiv interacțiunea (adică perechea F, 8 grade de libertate). Testul raportului F al modelului 1 comparativ cu modelul 2 evaluează interacțiunea dintre două SNP (adică F int, 4 grade de libertate). Valorile P au fost calculate pe baza distribuției lui F cu gradele de libertate corespunzătoare și transformate într-o scară −log 10 (adică −log 10 P pereche pentru testul perechii F, −log 10 P int pentru testul F int) . În acest studiu, ne-am concentrat în principal pe testele F int .

Praguri semnificative în întregul genom (toate în scala −log 10) au fost derivate pe baza corecției Bonferroni pentru teste multiple, adică o valoare nominală de 5% P corectată de numărul de teste efectuate. Ținând cont de cei 300.000 de SNP-uri, efectuează o verificare dublă completă a testelor de asociere a genomului 4, 5E + 10 și decupajul genomic de 5% este astfel de 11,95 (adică −log 10 (0,05/4, 5E + 10)). După fiecare scanare a genomului asociat, rezultatele au fost evaluate utilizând un prag predefinit pentru a identifica semnale semnificative de interacțiune a genomului. Fiecare SNP din rezultate a fost adnotat la cea mai apropiată genă din fereastra de 20 kilobaze care flancează SNP-urile (pe baza distanței fizice de la începutul sau sfârșitul transcrierii genei; distanța este considerată zero dacă SNP se află în genă).

Analiza de îmbogățire GO a fost efectuată pentru fiecare cohortă de studiu folosind modul „Două liste de gene nelegate” în Gorilla 33, bazat pe statistici hiper geometrice standard, în care genele epistatice adnotate au fost utilizate ca țintă cu o listă completă de gene umane. ca fundal. Pentru simplitate, am decis să folosim aceeași valoare −log 10 P ca pragul consensului GWA (adică −log 10 P int> 7.3) pentru a selecta perechile SNP ale fiecărei cohorte și a folosi adnotările lor genetice ca intrare pentru analiza de îmbogățire GO., Termenii GO îmbogățiți (P 7.3) în fiecare grup de studiu au fost, de asemenea, identificați ca semnale de interacțiune potențial importante pentru testele de replicare.

Perechi semnificative de genom SNP și cele identificate ca interacțiuni potențial importante au fost testate pentru replicare în patru grupuri de studiu. Perechile SNP replicate au fost testate în continuare pentru replicare în cohorta NFBC1966. Fiecare test de replicare a fost efectuat la nivelul SNP, precum și în regiune. La nivelul SNP, fiecare SNP replicat a fost exact același cu SNP epistatic corespunzător și, prin urmare, a fost utilizat un prag de 5% semnificație nominală (adică −log 10 (0,05) = 1,30) deoarece a fost necesară o singură analiză de replicare. La nivel de regiune, interacțiunile dintre fiecare dintre cele 10 SNP-uri adiacente (adică cinci în amonte și cinci în aval) ale primului SNP epistatic și fiecare din al doilea SNP epizatic au fost testate pentru a se potrivi unei situații în care SNP-uri multiple pot eticheta același mutant mutant. gen. Permutarea a fost utilizată pentru a obține praguri de semnificație pentru replicarea fiecărei perechi epistatice la nivelul regiunii unde fenotipurile au fost permutate și au fost înregistrate cele mai mari teste de interacțiune cu 10 Pint 121 (adică 11 × 11) în fiecare dintre cele 1000 de iterații. Perechile de SNP replicate au fost combinate într-un model complet pentru a calcula proporția de varianță fenotipică explicată în fiecare grup de studiu.

Rezultatul

IMC mediu a fost similar în cohorta CROATIA-Vis, CROATIA-Korcula și ORCADES, dar mai mică în MICROS (Tabelul 1). Estimările moștenirii poligenice au variat de la 0,356 (CROAȚIA-Vis) la 0,514 (ORCADES). Scanarea GWA convențională nu a găsit niciun SNP semnificativ în întregul genom într-o singură cohortă. Factorul de inflație lambda (calculat prin regresia asocierii observate a valorilor P față de valoarea așteptată) a fiecărei scanări GWA a fost foarte aproape de 1 (Tabelul 1), indicând faptul că legătura familială în fiecare cohortă a fost bine contată. Doar 8 din cele 32 de SNP IMC identificate anterior au fost 3 genotipate în patru grupuri de studiu și niciunul nu a prezentat o asociere puternică cu IMC (Tabelul suplimentar S1).

Scanarea genomului cu perechi complete a constatat că în niciunul dintre cele patru grupuri de studiu nu au existat perechi SNP care să depășească pragul larg al genomului (-log 10P int = 11, 95) (Figura 1). Datorită semnalelor de interacțiune cu −log 10Pint> 7, 3, MICROS a avut cel mai mic număr de perechi SNP și, în consecință, cel mai mic număr de gene adnotate, în timp ce restul de trei cohorte au avut un număr relativ similar de perechi SNP și gene adnotate (Tabelul 2 ). Cinci din cei 32 de loci IMC (dar nu și IMC SNP) au fost implicați în 7 perechi epistatice în CROAȚIA-Vis: FTO, KCTD15, LRP1B, NEGR1 și PRKD1. În mod similar, trei loci IMC (NEGR1, NRXN3 și PRKD1) au fost implicați în CROAȚIA-Korcula, doi (FTO și MTCH2) în ORCADES și doi (FTO și LRP1B) în MICROS.

Perechi de semnale epistatice în fiecare grup de studiu. A ) a asociat semnale epistatice în CROAȚIA-Vis. ( b ) a asociat semnale epistatice în CROAȚIA-Korcula. ( c ) a asociat semnale epistatice în ORCADES. ( d ) a asociat semnale epistatice în MICROS.

Imagine la dimensiune completă

Tabel în dimensiune completă

Termenii GO îmbogățiți cu gene epistatice (−log 10Pint> 7.3) în fiecare cohortă au fost comparați (tabelul suplimentar S2) și au identificat 9 obișnuiți în toate cele patru cohorte (Tabelul 3), care ar putea indica mecanisme de reglare comune (de exemplu GO: 0008038 - neuroni de recunoaștere ). Dintre genele epistatice care au îmbogățit termenii 9 GO, am găsit 19 gene epistatice împărtășite de patru cohorte, dintre care 15 au fost publicate anterior loci GWA (majoritatea nu sunt semnificative din punct de vedere genomic) asociate cu fenotipuri diferite 34 (Tabelul suplimentar S3). Majoritatea celor 19 gene epistatice comune au interacționat între ele, deși interacțiunile lor au fost relativ slabe (−log 10P int 35 și SORCS2 (sortare asociată cu VPS10). Receptor care conține receptorul 2) asociat cu factorul de creștere insulinic 1 circulant și protein 3 factorul de creștere a insulinei 3 obligatoriu, care este important pentru caracteristicile antropometrice și riscul de cancer și boli cardiovasculare. 36

Tabel în dimensiune completă

Tabel în dimensiune completă

discuţie

Conștienți de posibilele zgomote din aceste interacțiuni potențial importante, am folosit replicarea pentru a identifica cele mai fiabile semnale epistatice din cadrul grupurilor de studiu. Opt perechi epistatice cuprinzând fie loci IMC, fie două gene epistatice comune au prezentat replicarea la nivelul SNP în cel puțin o cohortă (Tabelul 4). Cele opt perechi epistatice împreună ar putea explica într-adevăr o mare parte a variației IMC în fiecare cohortă individuală. Cu toate acestea, se recomandă prudență, având în vedere supraevaluarea potențială a efectelor „blestemului câștigătorilor”. 39 În plus, niciuna dintre cele opt perechi epistatice nu a fost reprodusă în toate cele patru grupuri de studiu sau în cohorta de replicare NFBC1966. Testele de replicare suplimentare în alte populații și/sau testele funcționale sunt utile pentru a confirma dacă acestea sunt semnale adevărate.

Replicarea statistică a fost utilizată ca regulă de aur pentru a evita raportarea falsurilor pozitive în studiile GWA. Cu toate acestea, acest lucru pare a fi mult mai dificil pentru semnalele epistatice decât pentru semnalele SNP individuale din motive precum performanța, schimbarea frecvenței alelei mai mici și dezechilibrul asocierii dintre SNP epistatic și mutant pentru ambii loci. Slight -log 10 Pist valori ale perechilor epistatice testate pentru replicare sugerează că dezechilibrul de legare între SNP epistatic și mutanți nu este mare, astfel încât replicarea acestor perechi va fi dificilă. În plus, medii diferite pot provoca distribuții diferite de fenotipuri în cohorte de descoperire și replicare. Lipsa replicării în cohorta NFBC1966 s-ar putea datora a doi factori importanți de mediu ai IMC: vârsta de 40 de ani (adică, 31 față de intervalul cuprins între 18 și 90 în grupurile de studiu) și dieta. 29

O abordare bazată pe interacțiuni articulare genă-genă în mai multe populații GWA este o soluție eficientă la problema capacității limitate de a detecta epistaza. Aceasta este doar o soluție parțială, deoarece unele interacțiuni ignorate pot fi, de asemenea, importante. Compararea semnalelor epistatice semnificative de-a lungul genomului poate fi efectuată fie la nivelul SNP, fie la nivelul genei sau al căii și se poate dovedi mai fructuoasă la nivelul genei sau căii decât nivelul SNP. Abordarea poate deveni mai utilă dacă metode mai bune de adnotare (luând în considerare doar semnale GWA fără interacțiuni) 41 pot fi adaptate la episod. De exemplu, nu toate SNP-urile epistatice au fost adnotate la gene din studiu și, prin urmare, nu au contribuit la analiza de îmbogățire. Această abordare este probabil să fie importantă chiar și atunci când sunt disponibile noi instrumente de meta-analiză epistază în seturile de date GWA pentru a crește performanța de detectare a epistazei.