Dall'Istituto di Biometria Medica e Statistica
presso l'Università di Lubecca
Direttore: prof. Dott. ri. notte. Andrea Ziegler
Mappatura genetica dei tratti quantitativi -
Un confronto qualitativo dei metodi di analisi dell'accoppiamento
Dissertazione inaugurale
al
conseguimento del dottorato
presso l'Università di Lubecca
- Dalla Facoltà di Medicina -
presentato da
André Kleensang di Amburgo
Lubecca 2010
ii
1. Relatore: prof. dott. Rif. Ovviamente Andrea Ziegler
2. Relatore: prof. dott. medico Gabriele Gillessen-Kaesbach
Data della prova orale: 05.07.2010
approvato per la stampa. Lubecca, 5 luglio 2010
Vedere prof. dott. con. Werner Solbach
- Preside della Facoltà di Medicina -
Sommario
iii
1. Introduzione ................................................ ................................................ 1
1.1 Mappatura genetica dei caratteri quantitativi................................................... ............ ....1
1.2 Obiettivo ................................................... ..... ............................................. ..... ..........5
2 Metodi per la mappatura genetica dei caratteri quantitativi .......... 7
2.1 Metodo di Haseman-Elston ............................................. . ....................................7
2.2 Metodo Haseman-Elston rivisto ............................................. ..................9
2.3 Metodo di regressione di Merlin ............................................. .. .................................. 10
2.4 Modelli a componenti di varianza................................................ ... ....................... 12
2.5 Procedura Merlin-QTL................................................ .... ............................................. 13
2.6 Metodo binomiale di massima verosimiglianza................................................ .... ........... 14
2.7 Wilcoxon-Rangsummentest .............................................. ................................ 16
2.8 Procedura basata su modello................................................ .... .................................... 17
3 Materiali e Metodi................................................................ ... ............................. 18
3.1 Simulazioni Monte Carlo ............................................. .. .................................. 18 3.1.1 QTL e fenotipi........ .. .................................................. .. ..................................18 3.1.2 Strutture familiari.................. .................................................. ....................................20 3.1.3 Marcatore genetico ......... .................................................. ........................................20 3.1.4 Disegno dello studio: selezione delle famiglie ... .. .................................................. .. ........20 3.1.5 Simulazione dei set di dati .............................. .................................................................. .......21
3.2 Confronto qualitativo ...................................... .......... ........................................ ... 21 3.2.1 Metodi applicati di analisi di accoppiamento .................................. ........ ....21 3.2.2 Errore empirico di tipo I e potenza empirica ........................ ........... ............23
3.3 Set di dati COAG Perth................................................ .................................................... 24
3.4 Ambiente informatico utilizzato ............................................. ... ...................... 24
4 Risultati .................................................. ............................................. 25
4.1 Validazione esterna del software di simulazione Sibsim ........................................ 25 4.1.1 Famiglia strutture, - dimensioni e numero di famiglie per set di dati .................26 4.1.2 Regole di ereditarietà e frequenze alleliche per i genotipi QTL e marcatori.26 4.1.3 Simulazione di i fenotipi ..... ............................................. ....... ...........................27 4.1.4 Selezione delle famiglie ........ .................. ........................................ .................. ........................30
4.2 Set di dati e calcolo delle statistiche di prova................................................ 31
4.3 Errori empirici di tipo I nelle procedure ............................................. ... ................. 33 4.3.1 Metodo Haseman-Elston........................ ... ............................................. ... .......34 4.3.2 Metodo di Haseman-Elston rivisto.................................. ................................35
Sommario
iv
4.3.3 Metodo di regressione Merlin ................................................ ..... ............................................. ...36 4.3.4 Modelli a componenti di varianza .................................... ...........................................37 4.3.5 Test della somma dei ranghi di Wilcoxon . .................. ................................. .................. ..............38 4.3.6 Procedura Merlin-QTL ......... .................. ................................. .................. ..............39 4.3.7 Metodo binomiale di massima verosimiglianza........... .................. ................................. 40 4.3.8 Procedura basata su modello ................... .............................. .................... ........................41
4.4 Confronto empirico della potenza dei processi................................................ .... ......... 42 4.4.1 Confronto empirico del potere all'interno delle procedure .......................... ........ ........43 4.4.2 Potere empirico dei metodi nel confronto diretto ...................... ....... ......44 4.4.3 Riepilogo dei confronti empirici di potenza .................. .............. ...45
4.5 Analisi del set di dati COAG Perth................................................ ....... .................. 47
5 Discussione................................................. ....................................... 50
5.1 Modelli e metodi di simulazione selezionati ........................................ 50
5.2 Pacchetto software Sibsim ............................................. ........................................ 52
5.3 Confronto qualitativo dei metodi di analisi dell'accoppiamento ................................ 52
5.4 Analisi del set di dati COAG Perth................................................ ....... .................. 55
5.5 Prospettive ................................................ ..... ............................................. ..... ............ 56
6 Sommario.............................................. ................ ....................... 58
7 Pacchetti software e bibliografia ............................................. 59
7.1 Pacchetti software................................................ .................................................. 59
7.2 Bibliografia ................................................... ..... ....................................... 61
8 Appendici ..................................... ......... ........................................ 66
8.1 Simulazioni di validazione dei parametri di simulazione Sibsim ............................. 66
8.2 Numeri casuali di partenza per le simulazioni Monte-Carlo ............................................. 66
8.3 Errori empirici di tipo I ............................................. . ....................................... 67 8.3.1 Sotto ipotesi di distribuzione normale... . .................................................. . ...............67 8.3.2 In violazione dei presupposti della distribuzione normale ........................ .................70
8.4 Errori empirici di tipo I e potenza quando i parametri del modello sono specificati in modo errato
per il regresso di Merlino ................................................ .................................................. 73
9 Ringraziamenti................................................... ....................................... 76
10 Curriculum Vitae ........................................ .......... .................................. 77
11 Elenco delle pubblicazioni (al 01.02.2010).................................... .. ....... 78
Elenco delle abbreviazioni
v
'Trasposto
add Additivo (codominante)
Consorzio COAG sulla genetica dell'asma
cm Centi Morgan
g effetto del gene principale
Effetto poligene G
dom Dominante
Massimizzazione delle aspettative EM
e Fehlerterm
ESP Doppia selezione di coppie di fratelli o estrema
Approcci di coppia di fratelli
Gh.HE.Trad Metodo HASEMAN-ELSTON, implementazione in Genehunter
Gh.VC VARIANZKOMPONENTENMODELLE, Implementazione in Genehunter
Il metodo HASEMAN-ELSTON
IBD Identico per discendenza
IMBS Institute for Medical Biometry and Statistics of the Medical University
ità a Lubecca
Processo di collegamento MODEL-BASED utilizzando il pacchetto software Linkage
Frazione lipoproteica LDL a bassa densità (lipoproteine a densità leggera)
log NV Distribuzione normale logaritmica
Test del rapporto di verosimiglianza LQT
Metodo Merlin.K&C MERLIN-QTL, statistiche test secondo Kong e Cox (1997)
Metodo Merlin.W&H MERLIN-QTL, statistiche test secondo Whittemore e Halpern (1994)
Metodo MERLIN-REGRESS di Sham et al. (2002)
Procedura BINOMIALE MASSIMA PROBABILITÀ MLB
Metodo MLBQT MAXIMUM LIKELIHOOD BINOMIAL per fenotipi quantitativi
Metodo MLBQT.Kat MAXIMUM LIKELIHOOD BINOMIAL per fenotipi quantitativi
utilizzando i decili empirici della distribuzione basata sulla popolazione
sviluppo dei fenotipi
Metodo MLBQT.NV MAXIMUM LIKELIHOOD BINOMIAL per fenotipi quantitativi
assumendo una distribuzione normale standard della distribuzione dei fenotipi
Npar WILCOXON-RANGSUMMENTEST
Distribuzione normale NV
QTL Loci tratto quantitativo, locus fenotipo quantitativo
rez recessivo
rHE REVISED HASEMAN-ELSTON metodo
Elenco delle abbreviazioni
VI
RSP Coppia di fratelli casuali, coppie di fratelli selezionati casualmente
Metodo Sage.HE HASEMAN-ELSTON, regressione dei minimi quadrati generalizzata,
Implementazione in S.A.G.E.
SPSP singola coppia di fratelli probando, semplice selezione di coppie di fratelli o
approcci estremi del soggetto di prova
θ frequenza di ricombinazione
MODELLI A COMPONENTI DI VARIAZIONE VC
introduzione
1
1. Introduzione
1.1 Mappatura genetica dei caratteri quantitativi
Caratteri quantitativi il cui modello di ereditarietà suggerisce una componente genetica
senza seguire una chiara eredità mendeliana non solo recentemente hanno eccitato questo
particolare interesse per la genetica umana. Già all'inizio del XX secolo il
comunità scientifica violentemente l'apparente incompatibilità dell'appena riscoperto
Il lavoro di Gregor Mendel con la nuova teoria emergente della biometria, il cui soggetto
a quel tempo la misurazione delle caratteristiche quantitative degli esseri viventi e la loro analisi statistica
guerra.
Seguaci mendeliani, in particolare William Bateson, e in particolare von
Il lavoro di Sir Francis Galton ha ispirato i discepoli della biometria, in particolare WFR Weldon
e più tardi Karl Pearson, hanno discusso vigorosamente e parzialmente le questioni coinvolte
decisamente emotivo (per una discussione dettagliata vedi ad esempio Gilham, 2001). La biometria ha gettato
della teoria di Mendel, soprattutto, che può essere applicata solo in misura molto limitata. La maggior parte delle funzionalità
sono di natura quantitativa; ma questo non può essere conciliato con l'insegnamento di Mendel.
Tuttavia, anche le voci di mediazione si fecero presto sentire: già nel 1918, R. A.
Fisher un lavoro scientifico, che, tra l'altro, la teoria mendeliana con il
ha tentato di riconciliare la teoria biometrica (Fisher, 1918). Fisher lo ha dimostrato lui stesso
caratteri quantitativi e le loro aumentate correlazioni all'interno delle famiglie, come il
La biometria descrive, può benissimo essere spiegata sulla base degli insegnamenti di Mendel, vale a dire
con l'influenza di diversi fattori mendeliani indipendenti. I lavori guidati da Fisher
oltre ad altri falconieri e sviluppò il modello della polige-
una teoria dei tratti quantitativi (Falconer e Mackay, 1996).
Dal lavoro fondamentale di Fisher e Falconer, la mappatura genetica è stata utilizzata
fenotipi attivi nell'uomo mappano centinaia di regioni cromosomiche associate a a
Varietà di caratteristiche o malattie come il peso corporeo (Rankinen et al., 2006),
Altezza (Perola et al., 2007), densità ossea (Streeten et al., 2006; Zmuda et al., 2006; Perola
et al., 2007) o malaria (Timmann et al., 2007). Per la prima volta nel 1991
mappato e identificato con successo un gene utilizzando un tratto quantitativo
(Goate et al., 1991). Nel frattempo, numerosi geni sono stati resi più quantitativi attraverso l'uso di
Caratteristiche identificate direttamente o indirettamente (Korstanje e Paigen, 2002). Blangero (2004)
ha descritto il successo della mappatura genetica dei tratti quantitativi nel titolo di una pubblicazione
chung giustamente con le parole: "[...] il raccolto del re è sicuramente arrivato".
introduzione
2
Molte malattie o caratteristiche possono essere misurate indirettamente su scala quantitativa come intermedie
fenotipi del diario o direttamente come quantitativi
Misurare le caratteristiche (vedi Tabella 1). IL
fenotipi intermedi quantitativi
possibile in generale una più precisa
Definizione della malattia o caratteristica
come caratteristiche dicotomiche, ad es
può essere definito un intervallo di riferimento (Duggirala et
al., 1997). Inoltre, metodi statistici basati su caratteristiche quantitative
le caratteristiche sono basate, generalmente hanno un potere statistico (potenza) superiore a quello statistico
Metodi in cui la dimensione quantitativa è ridotta a una variabile dicotomica.
Nella mappatura genetica dei caratteri quantitativi, particolare attenzione è rivolta al
Dirigere il disegno dello studio e la selezione dei metodi di accoppiamento-analitici (Terwilliger e
Göring, 2000).
Solitamente, per la mappatura genetica di caratteri quantitativi, famiglie nucleari, ad es.
genitori e i loro figli, reclutati. Ciò si basa sulla considerazione che forse il feno-
Effetti ambientali che influenzano il tipo come nutrizione, educazione, condizioni di vita generali e
altri possibili fattori di influenza dell'ambiente possono essere relativamente forti nei fratelli
Dovrebbe. Le famiglie sono casuali (RSP, random sib-pair), basate su a
fratelli fenotipicamente estremi (SPSP, single proband sib-pair) o due fratelli fenotipicamente
fratelli estremi (ESP, coppia di fratelli estremi). Una panoramica dei disegni di studio è
ad esempio in Ziegler e König (2010, capitolo 9).
Già nel 1985, Blackwelder ed Elston ipotizzarono che il potere fosse statistico
metodo di taglio per l'analisi di accoppiamento potrebbe essere aumentato se si analizza
Coppie di fratelli limitate in cui almeno un fratello ha un fenotipo estremo
espressione (Blackwelder e Elston, 1985). Numerosi su queste riflessioni
Indagini basate hanno dimostrato essenzialmente che con la stessa dimensione del campione
La potenza statistica può essere maggiore se le famiglie vengono selezionate tramite valori estremi dei fenotipi
studiato che in campioni non selezionati (vedi ad esempio Carey e Williamson, 1991;
Fulker et al., 1991; Risch e Zhang, 1995). Ne consegue che quando si utilizza unselected
I campioni della maggior parte delle famiglie hanno dato solo un contributo molto piccolo all'analisi di linkage
consegna. Pertanto, avrebbe senso utilizzare campioni con famiglie selezionate da cui
si prevede che forniranno un contributo importante all'analisi di accoppiamento.
Negli ultimi 15 anni è stato il risultato di un crescente interesse per la mappatura genetica
di caratteristiche con caratteristiche quantitative ad uno sviluppo quasi esplosivo
metodi di analisi di accoppiamento per la mappatura genetica di fenotipi quantitativi (cfr
Tabella 1: Esempi di malattie e caratteristiche quantitative come fenotipi clinicamente rilevanti.
Malattia Caratteri quantitativiAterosclerosi Colesterolo, lipoproteineAsma IgEPressione alta Pressione sanguignaDislessia AlfabetizzazioneOsteoporosi Densità osseaSovrappeso Indice di massa corporea
introduzione
3
Capitolo 2 o Elston, 1998; Ferreira, 2004). Queste procedure dispensano dall'assunzione di a
specifico modello genetico di ereditarietà (ad esempio dominante o recessiva) e sono quindi
indicato come senza modello. Al contrario, i metodi basati su modelli lo sono
le capacità di derivare un modello genetico di ereditarietà da tratti quantitativi sono problematiche
e quindi poco comune (vedi Capitolo 2, Sezione 8).
La letteratura cita più volte una classe di metodi, ovvero quella della VARIANZA
MODELLI A COMPONENTI (vedi Capitolo 2, Sezione 4), menzionati come metodo di scelta (vedi ad es.
Blangero, 2004). Il motivo addotto è la possibilità di stimare la varianza individuale
componenti, e soprattutto la potenza statistica rispetto ad altri metodi
chiamato. Tuttavia, un prerequisito essenziale per l'applicazione del metodo è il
distribuzione normale multivariata del fenotipo. Se manca questo prerequisito, il
MODELLI A COMPONENTI DELLA VARIANZA Deviazioni parzialmente massicce dall'errore nominale di tipo I.
Allison et al. (1999) hanno ad esempio per uno specifico modello genetico in violazione del
Ipotesi di distribuzione normale mediante simulazioni Monte Carlo un errore empirico di tipo I di
18% indicato con un errore nominale del 5%. Quindi l'errore empirico di tipo I supera
l'errore nominale di tipo I di oltre il 300%. Questo è importante perché come disegno di studio
non viene utilizzato solo RSP, ma vengono spesso utilizzati anche campioni casuali selezionati. Questo
Il disegno dello studio di solito viola i presupposti della distribuzione normale (Dolan e Boomsma, 1998).
Non tutti i metodi sviluppati possono quindi essere utilizzati con ogni progetto di studio o distribuzione
utilizzare la forma dei fenotipi. Questa realizzazione porta alla domanda su quali
criteri sistematici la qualità di una procedura accoppiamento-analitica alla genetica
Dovrebbe essere valutata la mappatura dei fenotipi quantitativi.
Secondo Feingold (2002), per questo dovrebbero essere assunti tre criteri principali. Il primo
Il criterio è la potenza del metodo in condizioni ideali quando il tipo nominale I
l'errore viene mantenuto corretto. Nel caso dei fenotipi quantitativi, ciò significa che il
I confronti di potenza si basano su campioni simulati basati sulla popolazione (non selezionati).
cui il fenotipo è distribuito approssimativamente normalmente. Il secondo criterio è la robustezza del tipo
sbaglio. Riguarda se in condizioni ideali così come in condizioni diverse
altre condizioni, ad esempio con fenotipi non distribuiti normalmente o campioni casuali selezionati
il livello di errore di tipo I viene mantenuto correttamente. Feingold nomina la robustezza come terzo criterio
il potere, cioè la domanda fino a che punto, ad esempio, fenotipi non distribuiti normalmente o dati selezionati
influenzare la potenza di un processo. Oltre ai tre criteri principali,
Feingold dovrebbe essere considerata l'influenza dei fratelli a carico sull'errore di tipo I, ad es.
se sono state reclutate famiglie con più di due fratelli. Anche questo deve essere preso in considerazione
perché pochi metodi sono stati originariamente progettati per essere applicati ai fratelli a carico
sono stati sviluppati o ulteriormente sviluppati.
introduzione
4
Confronti di qualità basati sui criteri menzionati tra diverse analisi di accoppiamento
metodi cal sono stati eseguiti solo in misura limitata.
Nella maggior parte dei confronti di qualità, uno o pochi altri sono stati aggiunti al processo da valutare
Vengono confrontati metodi basati su simulazioni Monte Carlo (Alcaïs e Abel, 1999;
Allison et al., 2000; Sham e Purcell, 2001; Sham et al., 2002; Yu et al., 2004). Solo due in su
I confronti basati su simulazioni Monte Carlo rientravano nella classe di regressione
Procedure per la progettazione di SPSP ed ESP eseguite (Cuenco et al., 2003; Szatkiewicz et al.,
2003). Per una discussione dettagliata dei confronti di qualità, fare riferimento alla presentazione a questo punto
delle singole procedure di cui al capitolo 2.
Anche le considerazioni analitiche sono state effettuate solo in misura limitata. Questo
i confronti algebrici si basano solitamente su presupposti notevolmente semplificati. Quindi esisti-
ren considerazioni teoriche per confrontare il metodo HASEMAN-ELSTON (vedi Capitolo 2,
Sezione 1) con i VARIATION COMPONENT MODELS (Sham e Purcell, 2001) e a
Confronto tra il metodo HASEMAN-ELSTON e il metodo WPC (Commenges, 1994; Ziegler,
2001). Per il disegno dello studio ESP, il metodo MAXIMUM LIKELIHOOD BINOMIAL (cfr
Capitolo 2, Sezione 6) con il metodo di Risch e Zhang (1995) e l'EDAC
metodi (Gu et al., 1996). Perché questi confronti di qualità si basano su presupposti diversi
esauriti, sono difficili da confrontare o combinare. Per alcune procedure-
infine il metodo MERLIN-QTL (Abecasis et al., 2002, vedi Capitolo 2, Sezione 5) e
il WILCOXON RANK SUM TEST (Kruglyak e Lander, 1995b, vedi Capitolo 2, Sezione 7)
finora non sono stati effettuati confronti qualitativi. Inoltre, solo per una parte
dei metodi noti come deviazioni dalla distribuzione normale o dall'analisi
i campioni selezionati influenzano la robustezza e la potenza.
È stato sottolineato in letteratura che sono necessari ulteriori studi
Proprietà di qualità rispetto ad altri metodi e tra gli altri
identificare e confrontare le ipotesi del modello e i disegni di studio (Allison et al., 1999, p. 541;
Allison et al., 2000, S.252; Feingold, 2002, S. 220-221; Cuenco et al., 2003, S.872; Szatkiewicz e
al., 2003, p. 884).
In sintesi, si può dire che finora è mancato un confronto esaustivo della qualità, quello
varietà di metodi di analisi dell'accoppiamento per la mappatura genetica dei tratti quantitativi,
in varie condizioni che sono importanti nella pratica, come le deviazioni dal normale
distribuzione, diversi disegni di studio (RSP, SPSP, ESP) e influenza della dipendenza
Fratelli - considerati in uno studio.
Nella sezione seguente, basandosi su questa sezione, verrà ora discusso l'obiettivo
definito in questo lavoro. Il capitolo 2 descrive quindi i più importanti metodi di analisi dell'accoppiamento
per la mappatura genetica di fenotipi quantitativi spiegati in dettaglio e derivati.
introduzione
5
Le proprietà qualitative note dalla letteratura e, se note, le
Confronto di questo con le altre procedure discusse.
1.2 Obiettivi
Sulla base delle considerazioni preliminari presentate, l'obiettivo di questi
il lavoro è delineato in modo più dettagliato. In pratica, per chiarire genetiche più complesse
Le malattie utilizzano sempre più metodi di analisi dell'accoppiamento per fenotipi quantitativi
Utilizzo di nuclei familiari con due o più fratelli. Negli ultimi anni
un gran numero di nuovi metodi sono stati sviluppati per queste domande. Ma così lontano
Non è quindi chiaro come la qualità di questi metodi si comporti in confronto diretto l'uno con l'altro.
Pertanto, nell'ambito di questo lavoro, in uno studio di simulazione Monte Carlo, la qualità
tes una varietà di procedure diverse sotto diversi modelli e disegni di studio
rispetto.
Vengono presi in considerazione otto processi, sei dei quali sono per uso non commerciale
sono disponibili pacchetti software approvati. Queste procedure sono sotto tre genetica
modelli (dominante, additivo, recessivo) tre disegni di studio (senza selezione [RSP], con semplice
selezione [SPSP] e doppia selezione [ESP]) e due strutture familiari (famiglie nucleari con
una coppia di fratelli e nuclei familiari con un numero variabile da due a cinque
fratelli) esaminati. Inoltre, l'effetto della deviazione dalla distribuzione normale
esaminato. Vengono presi in considerazione un totale di 36 diversi scenari di simulazione. Qui
i tre criteri secondo Feingold (2002) sono descritti più dettagliatamente nella sezione precedente,
utilizzato per confrontare i processi:
1. Potenza in condizioni di distribuzione normale quando viene mantenuto il livello di errore
2. Robustezza dell'errore di tipo I rispetto a una violazione della distribuzione normale
presupposti e sotto diversi disegni di studio
3. Robustezza del potere
Inoltre, come raccomandato da Feingold, l'influenza dei fratelli a carico
considerato.
In una prima fase viene creato un software di simulazione (Sibsim) basato su
cui devono essere simulati i set di dati per i 36 scenari. Attraverso una validazione esterna
i set di dati vengono quindi creati in diversi scenari e i singoli pacchetti di simulazione
metro su simulazioni selezionate casualmente per le deviazioni.
Per il confronto della robustezza, vengono quindi utilizzate 100.000 simulazioni per ogni scenario di simulazione
sotto l'ipotesi nulla e per il confronto di potenza 1.000 simulazioni sotto l'ipotesi alternativa
tesi da creare.
introduzione
6
Il confronto della robustezza viene effettuato confrontando le deviazioni tra l'empirico
determinate proporzioni di errore di tipo I e l'errore nominale di tipo I a diversi livelli di test
eseguito. L'elevato numero di simulazioni sotto l'ipotesi nulla consente quindi
Sulla base di valori limite determinati empiricamente, un confronto di potenza empirico sotto l'alternativa
ipotesi, come suggerito da Yu et al. (2004) sul confronto di potenza dei metodi per la genetica
Mappatura proposta di caratteristiche quantitative.
Viene quindi discussa l'applicazione dei vari metodi utilizzati in questo lavoro
sul dataset "Consortium on Asthma Genetics: Perth study" (COAG Perth dataset)
illustrato (Palmer et al., 1998; Palmer et al., 2001).
Metodo per la mappatura genetica di fenotipi quantitativi
7
2 Metodi per la mappatura genetica dei caratteri quantitativi
I più importanti metodi di analisi dell'accoppiamento per la mappatura genetica sono descritti di seguito
i fenotipi quantitativi sono spiegati e derivati in dettaglio. Inoltre, quelli del
Vengono discusse le proprietà di qualità note dalla letteratura e, se disponibili, anche il confronto
analizzati tra questi metodi e gli altri metodi.
Innanzitutto, viene spiegato il modello genetico insieme al metodo HASEMAN-ELSTON.
Seguono le estensioni fino al metodo MERLIN-REGRESS. Dopo di che, prima il
MODELLI A COMPONENTI DELLA VARIANZA e il metodo di condivisione degli alleli MERLIN-QTL e così via
Spiegazione della procedura MASSIMA-PROBABILITÀ-BINOMIALE. Infine, il non parametrico
sche WILLCOXON RANK SUM TEST e l'analisi di accoppiamento MODEL-BASED sono spiegati.
2.1 Metodo di Haseman-Elston
Nel 1972 Haseman ed Elston hanno presentato un metodo analitico di accoppiamento senza modello
mappatura genetica di fenotipi quantitativi basata su un modello di regressione
(Haseman e Elston, 1972). Rappresenta il punto di partenza per la mappatura genetica quantitativa
tive fenotipi ed è una delle opere più frequentemente citate in connessione con il
Analisi di linkage di fenotipi quantitativi. Il metodo HASEMAN-ELSTON viene utilizzato a causa della sua
Semplicità ancora ampiamente utilizzata oggi.
Si basa sulla seguente idea: due fratelli si assomigliano fenotipicamente e lo faranno
l'espressione del fenotipo è in gran parte determinata da un locus genetico (che è
si chiama QTL) allora anche i due individui in quel locus dovrebbero corrispondere
geneticamente simili. Il metodo richiede quindi che le prime misure per la genetica e la
si può definire la somiglianza fenotipica.
Per la somiglianza genetica della coppia di fratelli m in un albero genealogico, gli alleli
identico per discendenza (IBD) può essere utilizzato come parametro di riferimento. Questo significa il numero di alleli
quale due persone in un albero genealogico dalla stessa origine sono state ereditate insieme. Per
Fratelli, il punteggio IBD può essere 0, 1 o 2. Nel metodo HASEMAN-ELSTON, invece
la proporzione di alleli IBD τ considerati. Per i valori IBP 0, 1 o 2 quindi risultato per il
Proporzione di alleli IBD i valori 0, ½, 1.
Come misura della somiglianza fenotipica, il metodo HASEMAN-ELSTON utilizza il
differenza fenotipica al quadrato y, cioè la distanza euclidea.
Per derivare il modello di regressione, Haseman ed Elston ne considerano uno semplice additivo
Modello. Dove x1m e x2m denotano i fenotipi osservati della mesima coppia di fratelli
allora il modello additivo è dato da:
Metodo per la mappatura genetica di fenotipi quantitativi
8
1 1 1
2 2 2
mmm
mmm
x µ gx µ g
Unione Europea
=++=++
Dove µ è la media generale, gim è l'effetto del gene principale e εim è la dimensione residua
della persona i è designata dalla m-esima coppia di fratelli. Effetti poligenici ed effetti ambientali
sono inclusi nella quantità residua εim. L'effetto gene principale è quindi da un locus biallelico
determinato con gli alleli A1 e A2.
Supponendo che non vi sia alcun effetto dominante, questo è quello di Haseman ed Elston
(1972) hanno quindi proposto il modello di regressione come segue:
m mio α βτ= +
dove ym è la differenza fenotipica al quadrato e i coefficienti di regressione α e β
sono dati da: 2 2
2
2
2gr
G
facile
b pag
= +
= -
Quindi se β è uno stimatore di β, allora ˆ1 2β− è uno stimatore di 22 gσ .
Se i genotipi dei genitori sono determinati e inclusi nell'analisi, allora come
Amos et al. (1989) hanno mostrato - la trascuratezza di un possibile termine dominante (cfr
Il Capitolo 3, Sezione 1.1) non conduce a uno stimatore distorto. Saranno i genotipi dei genitori
indeterminato e se è presente una componente dominante, allora β è uno stimatore distorto per
beta. In generale, tuttavia, questo pregiudizio è trascurabile (Amos et al., 1990). In realtà lo farà
quindi un possibile termine dominante viene solitamente trascurato.
Il collegamento tra un locus marcatore e un fenotipo quantitativo è presente quando il
il coefficiente di regressione stimato β è significativamente inferiore a 0. Nel caso in cui il marcatore
locus e il fenotipo quantitativo non sono collegati, β = 0. Il test statistico su
L'accoppiamento è quindi un test t unilaterale sul parametro β.
Il metodo HASEMAN-ELSTON è inizialmente per nuclei familiari con una coppia di fratelli
stato derivato. Tuttavia, con un numero maggiore di fratelli, le coppie di fratelli lo sono
non più indipendente; ciò può comportare la sovrastima del valore p. L'HASEMAN
La procedura di ELSTON tende ad essere liberale con un numero maggiore di fratelli
(vedi ad esempio Williams e Blangero, 1999). Due possibili soluzioni sono discusse qui brevemente
da introdurre. Da un lato, solo le coppie di fratelli strettamente indipendenti possono farlo
visualizzazione. Ma questo trascura parte delle informazioni esistenti, cosa
porta inevitabilmente ad una perdita di potenza. Un'altra possibilità è usare un generale
utilizzare la regressione dei minimi quadrati, che fornisce una correlazione tra i quadrati
differenze fenotipiche consentite. Ciò rende possibile per tutte le possibili coppie di fratelli e sorelle
Metodo per la mappatura genetica di fenotipi quantitativi
9
utilizzare tutte le informazioni disponibili. Prima era questo
Idea descritta da Single e Finch (1995). Gli autori hanno dimostrato che quando più di due
Fratelli che utilizzano una regressione dei minimi quadrati generalizzata rispetto a
L'analisi delle coppie di fratelli indipendenti porta a un aumento significativo del potere.
Elstone et al. avere nella presentazione del metodo REVISED HASEMAN-ELSTON (vedi
Capitolo 2, Sezione 2) questa idea per l'applicazione a ulteriori covariate e QTL multipli
ampliato e incorporato questo approccio nel pacchetto software S.A.G.E. implementato (Elston et al., 2000).
Inoltre, il metodo HASEMAN-ELSTON è implementato in una varietà di pacchetti software
la già citata S.A.G.E. per esempio anche nell'uso frequente
Programma Genehunter.
2.2 Metodo Haseman-Elston rivisto
Il classico processo HASEMAN-ELSTON è stato modificato molte volte nel corso del tempo
allargato. Il metodo originale è stato criticato soprattutto per il fatto che, a seguito dell'uso
il calcolo della differenza fenotipica al quadrato non rappresenta il totale presente nei dati
le informazioni vengono sfruttate (Fulker e Cherny, 1996; Wright, 1997; Drigalenko, 1998).
Wright ha mostrato nel 1997 che è possibile ottenere un guadagno di potere che non dovrebbe essere sottovalutato
se viene utilizzata anche l'informazione della somma fenotipica.
Ciò ha portato, tra le altre cose, al metodo REVISED HASEMAN-ELSTON proposto da Elston
è stato proposto nel 2000 (Elston et al., 2000).
Basato sulla differenza al quadrato dei fenotipi centrati della mesima coppia di fratelli
( ) ( )( )2, 1 2m D m my x µ x µ= − − −
e la somma al quadrato dei fenotipi centrati, vale a dire
( ) ( )( )2, 1 2m S m my x xμ μ= − + −
come suggerito da Wright (1997), queste due informazioni possono essere
considerazione della differenza tra le due grandezze ym,S – ym,D.
La differenza ym,S – ym,D è identica a 4 volte il prodotto incrociato centrato
( )( ), , 1 24m S m D m mio y x µ x µ− = − − ,
che nel metodo REVISED HASEMAN-ELSTON come variabile dipendente per la regressione
si usa.
Elston (2000) ha dimostrato attraverso simulazioni che nelle famiglie con due figli il tipo I
il livello di errore può essere meglio controllato.
Anche se vengono violate le ipotesi di normale distribuzione dei fenotipi, con forte residuo
relazione di fratelli e nella condizione di famiglie selezionate in cui un fratello
Metodo per la mappatura genetica di fenotipi quantitativi
10
ha origine dal decile inferiore e/o superiore della distribuzione diventa il livello di errore di tipo I
tenuto correttamente (Allison et al., 2000).
Il processo REVISED HASEMAN-ELSTON è migliorato rispetto all'originale HASEMAN
Il metodo ELSTON ha un potere maggiore quando la correlazione tra fratelli è piccola, ma a
potenza inferiore quando la correlazione tra fratelli è alta (Palmer et al., 2000; Forrest,
2001).
Il metodo REVISED HASEMAN-ELSTON è incluso nel pacchetto software S.A.G.E. strumento
animali.
2.3 Metodo di regressione di Merlin
Nel 2002, Sham et al. (2002) un nuovo metodo basato sulla regressione per la genetica
Mappatura di fenotipi quantitativi (di seguito denominata MERLIN-REGRESS).
L'idea di base di questo metodo è di invertire il metodo HASEMAN-ELSTON. A proposito
Inoltre, gli autori usano non solo quadrato come misura della somiglianza fenotipica
differenza ma anche la somma al quadrato in una regressione multivariata. Un altro
progresso significativo di questo metodo rispetto a HASEMAN-ELSTON o al
Il metodo REVISED HASEMAN-ELSTON è che non solo coppie di fratelli, ma coppie
di tutti i gradi di relazione possono essere inclusi nel calcolo delle statistiche del test.
Gli autori hanno dimostrato attraverso simulazioni che il loro metodo riduce il livello di errore di tipo I a entrambi
in condizioni di distribuzione normale nonché in violazione delle normali ipotesi di distribuzione e
nelle famiglie con fratelli a carico. Inoltre, Sham et al. aggiuntivo
chiaramente dimostrato che il livello di errore di tipo I anche con ESP concordanti o discordi
viene mantenuto il disegno dello studio. MERLIN-REGRESS è quindi apparentemente molto robusto e anche attivo
set di dati selezionati e fenotipi non normalmente distribuiti. Il potere dovrebbe
dichiarazione degli autori per essere confrontabile con l'elevata potenza dei modelli a componenti di varianza.
In contrasto con gli altri metodi qui presentati, l'uso di MERLIN
Tuttavia, REGRESS stima la media, la varianza e l'ereditarietà basate sulla popolazione
bilità avanti. Tuttavia, la stima di questi parametri può essere effettuata nel caso di insiemi di dati selezionati
o, nel caso di fenotipi non distribuiti normalmente, essere difficili e portare a stime distorte.
Nel caso di set di dati non selezionati e fenotipi normalmente distribuiti, Sham et al.
dimostrato da simulazioni che parametri errati portano solo a una perdita di potenza e
non hanno alcuna influenza sull'errore di tipo I. Se queste affermazioni si applicano anche a famiglie selezionate
e/o trasferito a fenotipi non normalmente distribuiti non è ancora chiaro.
Per derivare il metodo, vengono prima definiti due vettori S e D, che
somma al quadrato del fenotipo yjk,S e differenza al quadrato del fenotipo yjk,D per tutte le coppie di
Metodo per la mappatura genetica di fenotipi quantitativi
11
Contengono le persone j e k con j ≠ k di un albero genealogico. Inoltre, sia Π un vettore che
Stimatore per la proporzione centrata degli alleli IBD ˆ jkτ di tutte le coppie di persone j e k con j ≠ k
contiene.
Tuttavia, per le famiglie con più di quattro componenti, ci sono colinearità tra S e D.
Pertanto, per rimuovere queste colinearità, il vettore D viene arbitrariamente ridotto al numero di
Membri della famiglia abbreviati, con ogni individuo che appare almeno una volta. Dal momento che il
gli elementi cancellati di D sono combinazioni lineari degli elementi mantenuti di S e D,
risulta dalla riduzione secondo Sham et al. (2002) nessuna perdita di informazioni. Il vettore troncato
di D è indicato con D*. I due vettori S e D* diventano quindi il vettore '[ , ]= *
MRY SD riassunto. In modo che la procedura MERLIN-REGRESS si applichi anche a selezionati
applicabile al campionamento, YMR e Π sono centrati:
( )E= −C,MR MR MRY Y Y
( )ˆ ˆ ˆE= −CP Π Π
La regressione multivariata di ˆCΠ su YC,MR è quindi data da
ˆˆ = +
MRMR
' -1C Y C,MRY PP S S Y e ,
dove ˆ MRY ΠΣ è la matrice di covarianza tra YMR e Π , e Σ
MRY la matrice di covarianza di
YMR è. ε denota il residuo.
La matrice ˆMRY ΠΣ può essere scomposta in ΠQΣ H , dove Q è una matrice diagonale con
valori è 2gσ. La matrice H è quindi una matrice orizzontale a blocchi, dove il primo blocco è a
matrice diagonale quadrata con valori costanti 2 e la seconda matrice a blocchi uno
matrice diagonale con valori costanti -2. ΠΣ è la matrice di covarianza della stima
azioni centrate IBD. La stima di ΠΣ e MRYΣ è fornita in Sham et al. (2002) e
non verrà presentato in dettaglio qui.
Se -1Y MRHΣ Y è indicato con B nel seguito, allora secondo Sham et al. l'ottimale
stimatori ponderati per 2gσ per famiglia
ˆ
ˆ'
C
Pi
B ΠB Σ B
o per tutte le famiglie in un campione
2
ˆ
ˆ[ ' ]ˆ
[ ' ]gσ = ∑∑
C
Pi
B ΠB Σ B
dato.
Metodo per la mappatura genetica di fenotipi quantitativi
12
La statistica del test può quindi essere formulata come segue: 2 ˆˆ [ ' ]gT σ= ∑ CB Π
Sotto l'ipotesi nulla, T χ2 è distribuito con un grado di libertà. Poiché solo valori positivi di 2gσ
Per avere un senso, gli autori raccomandano di impostare T a zero quando 2ˆgσ è negativo. La statistica del test
quindi segue sotto l'ipotesi nulla una miscela 50:50 di 0 e una distribuzione χ2 con uno
grado di libertà.
Il metodo di Sham et al. è implementato nel pacchetto software Merlin.
2.4 Modelli a componenti di varianza
A metà degli anni '90, i VARIANCE COMPONENT MODELS hanno offerto per la prima volta un'importante alternativa
sul metodo HASEMAN-ELSTON (Amos, 1994; Almasy e Blangero, 1998).
I modelli dei componenti della varianza si basano su un'estensione del modello additivo, ad esempio
era precedentemente utilizzato per derivare il metodo HASEMAN-ELSTON: '
1m m m m mx g G uμ β ε= + + + +
Il modello additivo è esteso qui da due termini aggiuntivi. Gm è un poligenico casuale
Effetto della coppia di fratelli di mezzo. Quindi Gm non è usato come nel metodo HASEMAN-ELSTON in
della dimensione residua ma come termine separato. Oltre alle variabili genetiche
possono essere p covariabili raggruppate in un ordine vettoriale p × 1 nel modello
essere incluso. L'effetto delle covariate è dato dal vettore dei parametri p × 1 β1
descritto.
A causa del modello additivo, la varianza dei fenotipi è data dalla somma 2 2 2 2a d G εσ σ σ σ+ + + ,
dove 2aσ è la varianza additiva e 2
dσ è la varianza di dominanza dell'effetto del gene principale.
La stima delle quattro componenti della varianza 2aσ , 2
Gσ , 2εσ e 2
dσ può essere calcolato utilizzando il
è possibile applicare il metodo della massima verosimiglianza. Viene chiamato il test statistico per il collegamento
LQT sotto un modello non vincolato (in cui 2aσ , 2nd
Gσ , 2εσ e 2
dσ e un possibile θ
essere stimato) e un modello limitato sotto il vincolo 2 0aσ =
porta: 2 2 2 2
2 2 2 2
ˆˆ ˆ ˆ( 0, , , , , )ˆˆ ˆ ˆ ˆ( , , , , )
un sol d
un sol d
LLQTL
e
e
s s s s s s s s
==
Secondo la classica teoria LQT, -2ln LQT è asintoticamente χ2-distribuito con un grado di libertà.
Metodo per la mappatura genetica di fenotipi quantitativi
13
Mentre il metodo HASEMAN-ELSTON nella sua forma originale si applica solo ai fratelli
è applicabile, i modelli della componente di varianza possono essere utilizzati per qualsiasi albero genealogico
diventare. Un altro vantaggio è che i modelli dei componenti della varianza non sono solo
consentono di effettuare un test per l'accoppiamento, ma anche la varianza individuale
apprezzare i componenti.
Numerosi studi di simulazione hanno dimostrato che i modelli di componenti della varianza
potenza molto più elevata rispetto al metodo HASEMAN-ELSTON (vedi ad esempio Amos et al., 1996). Lei
mostrare, tuttavia, quando vengono violate le ipotesi di distribuzione normale multivariata sottostanti
a volte un errore di tipo I inaccettabilmente liberale (vedi ad esempio Allison et al., 1999). Blangero et al.
sospettare che un errore liberale di tipo I si riferisca principalmente a un rigonfiamento positivo della relazione fenotipica
divisione (4° momento di distribuzione) (Blangero et al., 2001). Se il rigonfiamento
della distribuzione del fenotipo è maggiore di 1,5, quindi Blangero et al. alternativa più robusta
metodi da utilizzare. In alternativa Blangero propone, ad esempio, la stima della componente di varianza
previsto da metodi robusti come la stima della pseudo-massima verosimiglianza (Amos,
1994).
Le ipotesi di distribuzione normale multivariata sottostanti sono - come già nel
Citato nell'introduzione – violato anche dall'analisi di dataset selezionati (Dolan e
Boomma, 1998). In pratica vengono selezionati anche i MODELLI A COMPONENTI DELLA VARIANZA
Tuttavia, i set di dati vengono spesso utilizzati senza tener conto di questo fatto.
I modelli dei componenti della varianza sono disponibili nei pacchetti software Genehunter,
Merlin e Solar implementati.
2.5 Procedura Merlin-QTL
La base del processo MERLIN-QTL sono i due lavori di Whittemore e Halpern
(1994) e Kong e Cox (1997) sulle statistiche di condivisione degli alleli, il cui scopo è l'analisi
fenotipo binario. Tuttavia, come descritto da Ferreira (2004), questo metodo è stato
Abecasis (2002) adattato per l'uso di fenotipi quantitativi.
MERLIN-QTL definisce una funzione S(w) per la mappatura genetica di fenotipi quantitativi,
che descrive ogni possibile vettore di ereditarietà w per un dato pedigree in termini di its
Prove di collegamento valutate. Più alto è il punteggio di S per una data eredità
vettore w, maggiore è l'evidenza di collegamento per quel vettore di ereditarietà.
La funzione di punteggio S(w) utilizzata da MERLIN-QTL è 2( ) a
aS w S= ∑ ,
con ( )a ii
S y µ= −∑ .
Metodo per la mappatura genetica di fenotipi quantitativi
14
Il punteggio per ogni vettore di ereditarietà w in una famiglia viene quindi calcolato sommando il
punteggi al quadrato di tutti gli alleli fondatori a (inglese: alleli fondatori) calcolati in
sono presenti nel vettore di ereditarietà. Il punteggio per ciascun allele fondatore (Sa) nel file
Il vettore di ereditarietà w viene calcolato sommando le deviazioni dei fenotipi dal popolare
media basata sulla zione calcolata per tutte le persone i che portano questo allele fondatore.
Sulla base del lavoro di Whittemore e Halpern (1994), le valutazioni di tutti
Alberi genealogici convertiti in z-score. Inoltre, come suggerito da Kong e Cox (1997),
colpito, ha formulato un LQT.
Il processo MERLIN-QTL è implementato nel pacchetto software Merlin.
2.6 Metodo binomiale di massima verosimiglianza
Il metodo MAXIMUM LIKELIHOOD BINOMIAL per fenotipi quantitativi (Alcaïs e Abel,
1999) è un'estensione del metodo MAXIMUM LIKELIHOOD BINOMIAL per i dati fenotipici binari
penna (Abel et al., 1998; Abel e Müller-Myhsok, 1998).
Il metodo MAXIMUM LIKELIHOOD BINOMIAL si basa sull'idea di distribuzione binomiale
Trasmissione di alleli parentali alla prole. Se non c'è accoppiamento, non ha luogo
trasmissione preferenziale di un allele. Tuttavia, se i marcatori e la malattia sono accoppiati, a
trasmissione che si discosta dallo 0,5 previsto.
Consideriamo una famiglia nucleare con n fratelli. 1 2( )nx ,x ,...,x '=X Sia il vettore n × 1 di
fenotipi e 11 12 1 2( , ,..., , ) 'n nm m m m=M sia il vettore 2n × 1 degli alleli dei fratelli am
Markerlocus.
Per costruire un LQT, abbiamo prima bisogno della verosimiglianza del marcatore osservato
Alleli dati i fenotipi dei bambini: P(M|X)
A tale scopo viene dapprima introdotta una variabile binaria latente, che contiene le informazioni di accoppiamento
tra il QTL e il marcatore. Sia dunque 1 2( , ,..., ) 'nb b b=B il vettore di questi
variabili binarie per i fratelli di una famiglia. Poiché bi non è osservabile, l'introduzione
zione di B in P(M|X) per sommatoria dei 2n possibili vettori B, perché per definizione
è M e X, dato B, condizionalmente indipendente.
( | ) ( | ) * ( | , ) ( | ) ( | )n n
P P P P P= = ⋅∑ ∑M X B X M B X B X M B
La formulazione della verosimiglianza P(M|X) presuppone quindi P(B|X) e P(M|B).
Formulazione di P(B|X)
Poiché la variabile binaria latente dell'i-esimo fratello bi dipende solo da xi, quella comune è
distribuzione condizionale di B dato X il prodotto delle distribuzioni univariate:
Metodo per la mappatura genetica di fenotipi quantitativi
15
1
( | ) ( | )n
io ii
P P b x=
= ∏BX
La definizione di P(bi|xi) si basa sulla seguente considerazione: maggiore è il valore di xi
cioè, maggiore dovrebbe essere P(bi = 1|xi). Teoricamente, qualsiasi funzione di distribuzione può essere
selezionare come funzione di connessione. Il metodo BINOMIALE DI MASSIMA PROBABILITÀ può essere
quindi sia nell'ipotesi di una distribuzione (classicamente nell'ipotesi di a
distribuzione normale) e senza presupposti sul tipo di distribuzione. Nel secondo caso
la distribuzione è quindi determinata da una funzione di distribuzione empirica come funzione a gradino sulla
frequenze cumulative definite (ad esempio utilizzando il metodo empirico basato sulla popolazione
Di giorni).
Formulazione di P(M|B)
La definizione di P(M|B) si basa sull'idea che l'ereditarietà degli alleli parentali
segue i figli di una distribuzione binomiale.
Sotto l'ipotesi nulla (nessun collegamento), ogni fratello eredita con una probabilità
di 0,5 l'allele marcatore A (o B) dei genitori eterozigoti con genotipo AB.
S è il numero di fratelli con bi = 0 per il dato vettore B. Inoltre, sia α la probabilità
probabilità che i fratelli con bi = 1 portino l'allele A da un genitore con genotipo AB
avere ricevuto. Di conseguenza, 1-α è la probabilità per i fratelli con bi = 0. If
Inoltre, se i genitori sono indicati con j, allora la verosimiglianza della famiglia è 2
1
( | ) ( )jj
Pgα=
= ∏M B ,
dove gj(α) è la probabilità di un fratello per il genitore j. Il contributo a
La probabilità gj(α) di un fratello con bi = k è quindi data da αk(1 - α)1-k o α1-k(1 - α)k,
se il fratello ha ereditato l'allele A o B. Nel caso in cui la fase di
Se questo non è noto, non sappiamo da una famiglia all'altra quale allele marcatore
di ereditarietà ha probabilità α e che ha probabilità 1-α. Qualsiasi di questi
Le possibilità hanno una probabilità pre-test di 0,5. Pertanto gj(α) può allora essere il seguente
essere formulato: (1) (1)(1) (0) (0) (1) (0) (0)( ) 0.5 (1 ) (1 ) 0.5 (1 ) (1 )a aA A A A A An nS n n S n n S n n S n n
jg α α α α α α α α α− − − − − −⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤= − − + − −⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦
Qui nA(k) è il numero di fratelli con bi = k, portatori dell'allele A dall'eterozigote
genitori con genotipo AB.
Ora la funzione di verosimiglianza per la famiglia f con due genitori e n figli può essere scritta come
formulare come segue:
Metodo per la mappatura genetica di fenotipi quantitativi
16
2
1 1
( ) ( | ) ( )n
f io io jn io j
L P b x gα α= =
= ∑∏ ∏
La verosimiglianza dell'intero set di dati L(α) con famiglie F è quindi il prodotto su F
Famiglie di Lf(α).
Sia a lo stimatore di massima verosimiglianza per α, allora il test per l'accoppiamento è dato come LQT
Attraverso
( 0.5)ˆ( )mlb
LL ala
==
=.
Secondo la classica teoria LQT -2ln λmlb è asintoticamente χ2-distribuito con una libertà
grad.Il test dovrebbe essere sempre eseguito unilateralmente.
Per famiglie con un numero diverso di fratelli, Alcaïs e Abel (1999)
dimostrato dalle simulazioni che il livello di errore di tipo I viene mantenuto così come quello
Il metodo MAXIMUM LIKELIHOOD BINOMIAL ha generalmente una potenza maggiore rispetto all'HASEMAN
Il metodo ELSTON mostra.
Utilizzando una funzione di distribuzione empirica, il MASSIMO
Procedura BINOMIALE DI PROBABILITÀ per famiglie selezionate e non distribuite normalmente
Applicare i fenotipi in modo appropriato (Alcaïs e Abel, 1999). Per fratelli estremamente discordanti-
Alcaïs e Abel hanno dimostrato analiticamente che il MASSIMO BINOMIALE DI PROBABILITÀ
procedura ha una potenza maggiore rispetto al test proposto da Risch e Zhang (1995). In
avere dati contenenti coppie di fratelli estremamente concordanti e discordanti
Alcaïs e Abel hanno mostrato attraverso simulazioni che il BINOMIO DI MASSIMA PROBABILITÀ
Il metodo ha almeno la stessa potenza statistica del metodo EDAC di Gu et al. (1996)
cappello.
La procedura MAXIMUM LIKELIHOOD BINOMIAL è stata storicamente paragonata a
i metodi popolari come VARIANCE COMPONENT MODELS o HASEMAN-ELSTON
Procedura usata relativamente raramente. Knobloc et al. (2000) hanno utilizzato la PROBABILITÀ MASSIMA
BINOMIALE Procedura per mappare un QTL sul braccio lungo del cromosoma 13 che contiene il
Concentrazione sierica di LDL interessata. Dina et al. avere nel 2005 sul braccio corto di Chromo-
som 8 ha mappato un QTL all'ansia abituale (Dina et al., 2005).
Solo il pacchetto software Mlbgh è attualmente disponibile per l'utilizzo di MLB QT. Incluso
È una modifica del pacchetto software Genehunter.
2.7 Wilcoxon-Rangsumentetest
Nel 1995, Kruglyak e Lander hanno presentato un metodo di accoppiamento non parametrico senza modello per
fenotipi quantitativi basati su WILCOXON RANK SUM TEST. Il WILCOXON
Metodo per la mappatura genetica di fenotipi quantitativi
17
RANK SUM TEST è applicabile a qualsiasi distribuzione di fenotipi ed è quindi utilizzato
dagli autori in particolare per analisi di linkage in fenotipi non normalmente distribuiti
proposto (Kruglyak e Lander, 1995b).
Come nel metodo di HASEMAN E ELSTON, il punto di partenza è il fenotipico al quadrato
Differenza di n coppie di fratelli. Nella prima fase, questi vengono assegnati in base ai loro ranghi
ordinato, dove rm è il rango della m-esima coppia di fratelli. Inoltre, i valori IBD
centrato sulla funzione f: f assume rispettivamente i valori -1, 0 e 1, quando i valori IBD sono 0, 1 e 2
Sono. La statistica della somma dei ranghi proposta da Kruglyak e Lander è quindi data da
1( )
N
mm
Trfm=
= ⋅∑
Per il teorema del limite centrale, T è distribuito asintoticamente normalmente, sotto H0 con aspettativa
valore E(T) = 0 e varianza ( 1)(2 1)Var( )12
n n nT + += . Con un numero sufficiente di
Un test z asintotico a una coda può quindi essere applicato a coppie di fratelli.
Il WILCOXON RANK SUM TEST è disponibile nei programmi Mapmaker/Sibs (Kruglyak e
Lander, 1995a) e Genehunter (Kruglyak et al., 1996).
2.8 Metodo basato su modelli
Oltre ai metodi senza modello, esiste anche la possibilità di un LQT completamente parametrizzato
analisi come metodo MODEL-BASED (Lathrop et al., 1984). In pratica sono
Metodi analitici di accoppiamento MODEL-BASED per la mappatura genetica di quantitativa
Fenotipi poco diffusi. Ciò è principalmente dovuto all'uso di un file dettagliato
Specifica del modello richiesta. Il calcolo basato sul modello presuppone una genetica
modello di ereditarietà cal e una specifica esatta dei parametri di ereditarietà. Per il
Il presunto QTL deve quindi includere le frequenze alleliche e i valori attesi associati
dell'effetto del gene principale può essere definito insieme alla varianza del fenotipo. Quanto a questo
Parametrizzazione non sono disponibili metodi di stima significativi ei risultati
i parametri impostati arbitrariamente sono difficilmente interpretabili, è quindi utilizzato più comunemente nelle applicazioni
sono preferiti metodi analitici di accoppiamento saggi e privi di modello.
Il metodo basato su modello è implementato nel pacchetto software Linkage.
materiale e metodi
18
3 Materiali e Metodi
In questo capitolo, prima le simulazioni Monte Carlo compreso il sottostante
le ipotesi ei modelli sottostanti sono presentati in dettaglio (sezione 1). Questa sarà la prima cosa da fare
modello necessario per la simulazione del QTL e dei fenotipi secondo Falconer e Mackay
(1996) ha introdotto e spiegato. Successivamente, quindi anche nell'ambito di questo lavoro
strutture familiari utilizzate così come la selezione delle famiglie e il calcestruzzo simulato
modelli definiti. Infine, la creazione dei set di dati simulati con il file
Spiegazione del software di simulazione Sibsim.
La sezione due fornisce una panoramica degli otto metodi di analisi dell'accoppiamento da confrontare qui.
cal, le loro implementazioni software e quelle specifiche utilizzate
Parametri di analisi utilizzati per analizzare le simulazioni Monte Carlo. collegamento
È quindi necessario il calcolo dell'errore empirico di tipo I richiesto per il confronto qualitativo
così come il potere empirico.
Infine, viene presentato il set di dati COAG Perth, così come l'ultima sezione
ambiente informatico utilizzato.
3.1 Simulazioni Monte Carlo
3.1.1 QTL e fenotipi
Un additivo è servito come base per la simulazione del QTL e dei fenotipi associati
Modello con un gene maggiore mendeliano biallelico secondo Falconer e Mackay (1996). Qui
è il fenotipo xim della persona i nella famiglia m scomposto in modo additivo in una media generale
μ, un effetto genico principale gim determinato dal genotipo di un QTL biallelico
Effetto ambientale Gm simulato come effetto famiglia e termine di errore εim:
im im m imx µ g sol ε= + + +
Si assume inoltre che gim, Gm e εim non siano correlati. Poi risulta essere
Varianza per il fenotipo: 2 2 2 2x g G εσ σ σ σ= + +
L'effetto del gene della pelle è caratterizzato da un locus biallelico insieme alla sua specifica
modello ereditario determinato. Gli alleli del gene principale sono A1 e A2 con frequenze p
e q = 1 - p. La frequenza p è indicata di seguito come la frequenza dell'allele alto.
materiale e metodi
19
L'effetto del gene principale è stato quindi modellato come segue:
1 1
1 2
2 2
per una persona con un genotipo per una persona con un genotipo per una persona con un genotipo
IO
a LA Ag d LA A
un A A
⎧⎪= ⎨⎪−⎩
I seguenti modelli sono stati considerati come parte di questo lavoro: Il modello dominante (con a = d),
il modello additivo (con d = 0) e il modello recessivo (con d = -a). Un modello con sottodominio
nance (con d < -a) o overdominance (con d > a) non è stata considerata.
Tuttavia, i valori attesi dei genotipi dell'effetto gene principale sono stati utilizzati per la simulazione del
Record spostati dalle frequenze p e q del locus biallelico e the
da simulare la varianza dell'effetto del gene principale un valore atteso per l'effetto del gene principale di
E(gik) = 0 (vedi Ziegler e König, 2010, p. 160). L'effetto ambientale è stato considerato una famiglia
perfettamente simulato in cui ad ogni membro della famiglia m viene assegnato lo stesso valore casuale.
Al fine di poter valutare l'effetto della violazione delle normali ipotesi di distribuzione, il
Termine di errore εim del modello additivo da un lato da una distribuzione normale e dall'altro da
simulato con una distribuzione normale logaritmica. Per utilizzare una distribuzione normale logaritmica
Per ottenere la media e la varianza date, è stata prima considerata la distribuzione normale standard
argomento di exp( ), quindi la media del logaritmico da simulare
Distribuzione normale sottratta e infine divisa per la deviazione standard da simulare
diviso per la distribuzione log-normale.
In totale, sono stati considerati tre modelli genetici e due distribuzioni. La tavola 2
e la Tabella 3 fornisce una panoramica dei modelli simulati dei fenotipi.
Tabella 2: Panoramica dei tre modelli genetici simulati.
Dominante 0,05 0 0,2 0,3 0,5 0,754 0,754Additiv 0,2 0 0,2 0,3 0,5 0,474 0Rezessiv 0,3 0 0,2 0,3 0,5 0,782 -0,782
un modello genetico
Frequenza "allele alto" µ
2gd 2
Piano terra 2 vani
Come si può vedere dalla tabella 2, si applica a
tutti i modelli di fenotipi µ = 0, uno
varianza di 1 ed ereditabilità di 0,2
in senso lato e di 0,5 in senso stretto
Là.
Modello genetico E(A1,A1) E(A1,A2) E(A2,A2) Dominante 1.361 1.361 -0.147 Additivo 1.265 0.474 -0.316 Recessivo 1.422 -0.141 -0.141
Tabella 3: Valori attesi dell'effetto genico principale per i tre modelli genetici utilizzati.
materiale e metodi
20
3.1.2 Strutture familiari
I set di dati simulati sono stati simulati sulla base di due diverse strutture familiari.
Il punto di partenza è stata la struttura di una famiglia nucleare con una coppia di fratelli
scelto. Questo termine significa uno
Pedigree con la struttura di a
Genitori come fondatori nel primo
generazione e una coppia di fratelli
come discendenti. Poiché c'è solo una coppia di fratelli per famiglia, le coppie di fratelli lo sono
indipendente. La seconda struttura familiare dovrebbe essere una famiglia nucleare con fratelli a carico
essere considerato, cioè un miscuglio di nuclei familiari con uno diverso
Numero di fratelli come discendenti. La miscela dovrebbe essere realistica
distribuzione nei paesi industrializzati. Pertanto, la distribuzione della famiglia
le strutture del set di dati simulato sono state utilizzate per il Genetic Analysis Workshop 9 (Speer et
al., 1995). Questa struttura familiare è indicata di seguito come una famiglia nucleare con fratelli a carico
riferito a. La composizione esatta è mostrata nella Tabella 4.
Per ogni set di dati, 300 famiglie sono state classificate sotto la struttura familiare nucleare con un fratello
tercoppia e 100 famiglie sotto la struttura familiare nucleare con multiplo
Fratelli simulati. I fenotipi e i genotipi sono stati registrati per tutti i membri della famiglia
simulato.
3.1.3 Marcatore genetico
Un marcatore genetico con dieci alleli è stato identificato per ogni set di dati all'interno di una simulazione
simulato con la stessa frequenza. Sotto l'ipotesi nulla, il marcatore genetico era associato a a
Distanza di θ = 0,5 dal QTL e nell'ipotesi alternativa con una distanza di θ = 0
simulato al QTL.
3.1.4 Disegno dello studio: selezione delle famiglie
Per poter valutare l'effetto della selezione delle famiglie, tre diversi studi
sono stati utilizzati disegni di servizio: da un lato, famiglie sotto selezione casuale, famiglie con
almeno un figlio nel quartile superiore della distribuzione fenotipica (selezione semplice, corrisponde a
un disegno SPSP) e famiglie con due figli nel quartile superiore, due figli nel
quartile inferiore o un figlio nel quartile superiore e un figlio nel quartile inferiore di feno-
distribuzione del tipo (doppia selezione, corrisponde a un progetto ESP). La simulazione di
I set di dati sono stati continuati con la selezione fino a 100.000 set di dati con il mutuo zero
tesi e 1.000 set di dati sono stati simulati sotto l'ipotesi alternativa, che
soddisfare i criteri di selezione.
Numero di fratelli 2 3 4 5 Proporzione 40% 30% 18% 12%
Tabella 4: Distribuzione dei fratelli tra i fratelli a carico della struttura familiare.
materiale e metodi
21
3.1.5 Simulazione dei set di dati
Il programma Sibsim, creato presso IMBS, è stato utilizzato per creare i set di dati simulati
Versione 1.02 utilizzata (Franke et al., 2006). I record erano in formato di dati di collegamento
creato e, se necessario, per i programmi di analisi utilizzati con il software Mega2 in das
convertito nel formato dati richiesto (Mukhopadhyay et al., 2005). Per la definizione di
Formato dei dati di collegamento vedere ad esempio Terdlinger e Ott (1994, capitolo 2).
Una simulazione consisteva in 100.000 set di dati sotto l'ipotesi nulla (θ = 0,5) e
1.000 set di dati nell'ipotesi alternativa (θ = 0).
Un totale di 36 diversi modelli (3 modelli genetici × 2 distribuzioni × 2
strutture familiari × 3 schemi di selezione) simulati come descritto in precedenza.
I numeri casuali iniziali per il pacchetto software Sibsim sono documentati nella Tabella 23 in appendice.
3.2 Confronto qualitativo
3.2.1 Metodi applicati di analisi di accoppiamento
Per analizzare le simulazioni sono stati utilizzati un totale di otto diversi metodi analitici di accoppiamento.
ren implementato in sei pacchetti software. Tutti i pacchetti software utilizzati erano
liberamente disponibile per uso non commerciale al momento della pubblicazione di quest'opera. Quelli usati
Versioni e fonti dei pacchetti software sono disponibili nell'Appendice, Capitolo 7, Sezione 1. Nel
La tabella seguente mostra i pacchetti software utilizzati per l'analisi dell'accoppiamento
procedura a confronto. Il metodo HASEMAN-ELSTON e la COMPOSIZIONE DELLA VARIANZA
NET MODELS sono stati utilizzati per confrontare l'implementazione con due diversi
programmi calcolati.
Tabella 5: Panoramica dei metodi di analisi dell'accoppiamento utilizzati, delle abbreviazioni utilizzate e dei pacchetti software associati.
Programma del metodo analitico di accoppiamento Abbreviazioni utilizzate Metodo Genehunter HASEMAN-ELSTON
WILCOXON RANK SUM TEST VARIANCE COMPONENT MODELS
Gh.HE.Trad Npar Gh.VC
Linkage LINKAGE (metodo BASATO SU MODELLO) Linkage Merlin MERLIN-REGRESS
MERLIN-QTL Merlin-Regresso Merlin.K&C, Merlin.W&H
Mlbgh Metodo MAXIMUM LIKELIHOOD BINOMIAL per fenotipi quantitativi
MLBQT.NV, MLBQT.Kat
LEGGENDA. Procedura HASEMAN-ELSTON Procedura HASEMAN-ELSTON REVISIONATA
Salvia.HE rHE
Solar VARIANTE COMPONENTE MODELLI Solar.VC
materiale e metodi
22
Di seguito si riportano i programmi utilizzati ei parametri di analisi utilizzati
metro spiegato in ordine alfabetico.
Genehunter
Con il programma Genehunter, il metodo HASEMAN-ELSTON (Gh.HE.Trad), il
WILCOXON RANK SUM TEST (Npar) e VARIANCE COMPONENT MODELS (Gh.VC)
previsto. Per tutte le analisi è stata utilizzata l'opzione tutti i fratelli senza peso ("tutte le coppie
non ponderato"). I MODELLI DELLA COMPONENTE DELLA VARIANZA sono stati calcolati senza termini di dominanza. Là
i genotipi parentali sono noti, il metodo HASEMAN-ELSTON
Calcoli eseguiti senza applicazione dell'algoritmo EM (Dempster et al., 1977).
Collegamento
Il metodo MODEL-BASED (Linkage) è stato calcolato con il pacchetto software Linkage.
Per le analisi, i valori attesi dell'effetto gene principale, l'associato
Frequenze per il QTL biallelico e varianze basate sulla popolazione nella distribuzione del
fenotipi utilizzati. I valori attesi dei tre modelli genetici sono nella Tabella 3
(p. 19), le frequenze alleliche del QTL biallelico sono riportate nella Tabella 2 (p. 19).
Merlino
Con il programma Merlin-regress, che fa parte del pacchetto software Merlin,
il metodo di Sham et al. (2002) calcolato (regresso Merlin). Come parametro di input
sono diventati i veri valori basati sulla popolazione per media (μ = 0), varianza (σ2 = 1) e
Passa l'ereditarietà in senso stretto (h2 = 0,5). Per evitare una possibile influenza del modello
Per determinare le specifiche errate, tutti i record erano inoltre sotto una varietà di uno
Errori di specificazione dei parametri per media (da -5 a 5), varianza (da 0,1 a 10) ed ereditabilità (0,05
a 0,95).
Il processo MERLIN-QTL è stato sviluppato utilizzando il programma Merlin dal pacchetto software Merlin
calcolato. Sono stati utilizzati entrambi gli approcci statistici del test di Whittemore e Halpern
(1994), così come la LQT secondo Kong e Cox (1997).
Mlbgh
Il programma Mlbgh è una modifica del programma Genehunter.
È stato utilizzato per la procedura MASSIMA PROBABILITÀ BINOMIALE.
Entrambe le analisi presupponevano una distribuzione normale standard dei fenotipi
(Mlbqt.NV), oltre a utilizzare una funzione step per definire le soglie
materiale e metodi
23
effettuato (Mlbqt.Kat). I valori soglia sono stati determinati dividendo la distribuzione del
Fenotipi definiti in decili empirici come suggerito da Alcaïs e Abel (1999).
SAGGIO.
Il pacchetto di programmi S.A.G.E. è stato utilizzato per convertire HASEMAN-ELSTON (Sage.HE) e the
Metodo REVISED HASEMAN-ELSTON (Sage.rHE) da applicare. L'analisi è stata condotta sotto
vengono eseguite le opzioni predefinite. Per il metodo REVISED HASEMAN-ELSTON
è stato utilizzato il vero valore basato sulla popolazione per la media (μ = 0).
Solare
Oltre al pacchetto software Genehunter, Solar era abituato
per calcolare i MODELLI COMPONENTI (Solar.VC). Sono stati utilizzati i parametri predefiniti.
3.2.2 Errore empirico di tipo I e potenza empirica
L'errore empirico di tipo I era basato sulle 100.000 simulazioni sotto l'ipotesi nulla
calcolato a un livello di errore nominale di tipo I del 5%, 1% e 0,1%. distribuzione normale standard
I punteggi Z o i punteggi LOD sono stati convertiti in valori p. Per convertire i punteggi LOD
si veda ad esempio Ziegler e König (2010, p. 159).
Inoltre, il grado di deviazione tra il tipo nominale ed empirico I
Errori per classificazione in sette categorie con un livello di errore nominale di tipo I dell'1%
calcolato. L'intervallo normale ( ) è stato determinato da un intervallo di confidenza di Clopper-Pearson al 95%.
vall corretto da una distribuzione binomiale con 100.000 prove e 1.000 successi Bonferroni
determinato per 36 modelli, mentre gli altri limiti sono arbitrari con una deviazione di
Fattore 1.333 e 2 relativo all'errore nominale di tipo I (vedi figura
1).
0,5% 0,750% 0,902% 1,105% 1,333% 2,0%
Figura 1: errore empirico di tipo I con un errore nominale di tipo I dell'1% diviso in sette
categorie. A denota un errore di tipo I conservatore e liberale.
La potenza empirica è stata calcolata come la probabilità che la statistica del test sia inferiore a
Ipotesi alternativa calcolata dalla distribuzione empirica sotto l'ipotesi nulla
supera la soglia di significatività dato un errore empirico di tipo I di 0,05.
materiale e metodi
24
3.3 Set di dati COAG Perth
Il set di dati del Consortium on Asthma Genetics: Perth study (COAG Perth data set), as
è stato messo a disposizione per il Laboratorio di Analisi Genetica 12 è stato utilizzato come esercitatore
Esempio di un'analisi di linkage con un tratto quantitativo selezionato (per a
per una descrizione dettagliata si veda: Palmer et al., 1998; Palmer et al., 2001). L'uso di questo
Dati per gentile concessione del dott. Palmer del Dipartimento di Pediatria
e Centro di immunologia e strumentazione molecolare, Università dell'Australia occidentale,
Pert, Australia.
Il set di dati originale consisteva in 123 famiglie per un totale di 583 persone che vivevano nell'area di Perth
(Australia) sono stati reclutati. Qui, 25 famiglie nucleari erano specifiche per quanto riguarda
Malattie di asma reclutate mentre 98 famiglie nucleari sono state selezionate in modo casuale. Per il
la ri-analisi è stata fatta ricorso alle 98 famiglie selezionate casualmente. per uno
Nella regione candidata sul cromosoma 5q31-33 c'erano due microsatelliti tipizzati accoppiati
Sono disponibili marcatori (D5S393 e D5S399) con la frequenza di ricombinazione di θ = 0,0006.
Dei fenotipi rilevanti per l'asma disponibili nel set di dati, il loga-
titolo aritmetico di IgE sieriche totali (ln IgE) e titolo logaritmico di IgE sieriche totali
aggiustato per età, sesso e titolo di IgE antigene-specifico (ln IgER) per l'accoppiamento
analisi utilizzate.
3.4 Ambiente informatico utilizzato
Tutti i calcoli e le simulazioni effettuate sono state effettuate su processori Intel© Dual Xeon©
con frequenza di clock di 2,8 GHz sotto il sistema operativo Suse Linux versione 8.1 o versione 8.2
(versione kernel Linux 2.4.21). I pacchetti software utilizzati erano, finora
disponibile, utilizzato direttamente in una versione compilata per Linux. Se un file precompilato
versione non era disponibile, i programmi erano autocompilati. Tutti i pro-
grammi sono stati controllati per la correttezza dei calcoli utilizzando i record dei dati di prova allegati
l'ambiente informatico utilizzato. Un elenco dei pacchetti software utilizzati
situato nel capitolo 7, sezione 1.
Risultati
25
4 risultati
Il capitolo Risultati è suddiviso in cinque sezioni. Innanzitutto, nella prima sezione, il
validazione sistematica esterna del software di simulazione Sibsim. questa sezione
è suddiviso in una panoramica in cui sono definiti i criteri target della validazione esterna;
Segue la presentazione dei risultati delle singole validazioni.
La sezione 2 fornisce una breve panoramica dei set di dati simulati e del calcolo del
statistiche di prova.
Le sezioni 3 e 4 presentano quindi il confronto qualitativo dei metodi di analisi dell'accoppiamento.
Nella sezione 3 i risultati del confronto degli errori empirici di tipo I con i
gli errori nominali di tipo I sono mostrati e spiegati separatamente per ogni singolo metodo. IL
I risultati del confronto di potenza empirico sono presentati nella Sezione 4. Nel primo sotto-
sezione è in primo luogo il potere empirico all'interno delle procedure sotto il diverso
scenari a confronto. Nella seconda sottosezione, all'interno di uno scenario,
rios ha confrontato i metodi direttamente tra loro. La terza sottosezione riassume i risultati
poi di nuovo a seconda della rispettiva procedura insieme.
Infine, nella Sezione 5, viene dettagliata l'analisi del dataset COAG Perth.
Particolare valore è stato dato all'implementazione pratica di una genetica
per illustrare la mappatura delle caratteristiche quantitative.
4.1 Validazione esterna del software di simulazione Sibsim
Come parte di questo lavoro, il pacchetto software Sibsim (Franke et al., 2006) è stato utilizzato dal Dr.
Franke e l'autore hanno creato. Prima di usarlo per la necessaria simulazione Monte Carlo
L'autore Sibsim lavora quindi con una sistematica procedura di validazione esterna
controllato. La convalida esterna sistematica è qui indicata come verifica esterna documentata
per l'uso specifico previsto in questo lavoro. Qui dovrebbe
È possibile garantire che i set di dati simulati creati con Sibsim soddisfino i requisiti richiesti
corrispondono ai parametri di simulazione.
Il pacchetto software Sibsim è stato quindi validato secondo i seguenti parametri:
- Corrisponde all'output di Sibsim in termini di strutture familiari, dimensioni e numeri
di famiglie per set di dati i parametri di simulazione?
- Corrispondere alle frequenze alleliche e al numero di alleli per i genotipi QTL e marcatori
i parametri di simulazione?
- I genotipi del QTL e dei genotipi marcatori dei bambini corrispondono al mendeliano
regole di eredità schen?
Risultati
26
- I fenotipi simulati corrispondono ai parametri di simulazione in termini di
-- media e varianza complessive,
-- Media e varianza della distribuzione dell'effetto del gene principale, termine di errore
e anche gli effetti familiari
-- la forma di distribuzione?
- I record di dati simulati selezionati corrispondono ai criteri di selezione?
A tale scopo, per il modello genetico dominante, additivo e recessivo sotto adatto
th parametri di simulazione con i fratelli dipendenti dalla struttura familiare
Simulazione creata con dieci set di dati. Sono state create un totale di otto simulazioni
Di seguito denominate simulazioni di convalida. I parametri di simulazione utilizzati
metri sono riportati in appendice, Tabella 22, pagina 66. Le simulazioni di validazione 1, 2 e 3
si basano su un modello genetico dominante, recessivo e additivo che ha un main
effetto di 2 e un termine di errore di 0,2. Non è stato simulato un effetto famiglia.
Le simulazioni di convalida 4 e 5 si basano su un modello genetico dominante che
aveva un effetto del gene principale di 4 e un termine di errore di 0,5. Nella simulazione 5, il
Termine di errore simulato da una distribuzione normale logaritmica. Le simulazioni di validazione 6,
7 e 8 si basano su un modello genetico dominante, recessivo e additivo
effetto gene principale di 2 e un effetto familiare di 0,2. Un termine di errore non lo era
simulato. Da questi dieci set di dati, è stato quindi creato per caso un set di dati per genetica
Modello selezionato per la convalida.
In sintesi, si può affermare che la sistematica validazione esterna non ha evidenziato alcuna anomalia.
dieci rivelato.
4.1.1 Strutture familiari, dimensioni e numero di famiglie per record
In tutti i set di dati delle simulazioni di convalida da uno a otto e in tutti nell'ambito di questi
I set di dati utilizzati per il confronto qualitativo erano le strutture familiari, le dimensioni e
controllato il numero di famiglie per record. I risultati concordano con quanto richiesto
parametri di simulazione (risultati non mostrati qui in dettaglio).
4.1.2 Regole di ereditarietà e frequenze alleliche per QTL e marker
Genotipo
Nella prima fase sono state determinate le frequenze alleliche per i genotipi QTL e marker
stimata e le regole di ereditarietà mendeliana verificate con il pacchetto software Pedcheck.
Per controllare le frequenze alleliche e le regole di ereditarietà dei genotipi QTL, il
Il pacchetto software Sibsim viene modificato a tale scopo in modo tale da contenere anche gli alleli del QTL biallelico
Risultati
27
spende I set di dati 10, 7 e 6 sono stati creati dalle simulazioni di convalida 1, 2 e 3
scelto a caso. I risultati delle frequenze alleliche stimate per il marcatore e il QTL
I genotipi mostrano solo lievi deviazioni che si verificano nell'ambito della distribuzione casuale
Confronto con i parametri di simulazione richiesti (risultati non mostrati in dettaglio qui). Esso
non sono state riscontrate violazioni delle regole di eredità mendeliane.
4.1.3 Simulazione dei fenotipi
4.1.3.1 Effetto genico principale e termine di errore
Sulla base delle simulazioni di convalida 1, 2 e 3, una delle 10
set di dati simulati per convalidare l'effetto del gene principale e il termine di errore.
Questi erano i set di dati 6, 7 e 4 delle simulazioni di convalida 1, 2 e 3. La distribuzione
Lo sviluppo dei fenotipi è mostrato in Figura 2.
Figura 2: Istogramma delle distribuzioni fenotipiche per simulazioni di convalida selezionate in un modello di ereditarietà dominante (a, simulazione 1, set di dati 6), recessivo (b, simulazione 2, set di dati 7) e additivo (c, simulazione 3, set di dati 4) con Main effetto genico e termine di errore.
I limiti sono stati fissati in base ai valori attesi dei due o tre principali effetti genici
definito, che dovrebbe distinguere le due o tre distribuzioni l'una dall'altra (vedi Tabella 6). Là
Se oltre all'effetto del gene principale è stato simulato anche un termine di errore, il risultato è basso
Risultati
28
Sovrapposizioni tra le distribuzioni. Le medie e le varianze del tutto
fenotipo, nonché le medie e le frequenze per l'effetto del gene principale e le varianze del
I termini di errore sono presentati nella Tabella 6. Ce ne sono solo di piccoli da spiegare per caso
riconoscere le differenze.
Tabella 6: mezzi osservati e attesi, varianze e frequenze per le simulazioni di convalida 1, 2 e 3 con i set di dati selezionati casualmente 6, 7 e 4 e i loro principali effetti genici per un modello con effetto genico principale e termine di errore.
< -0,817 ≥ 0,817 Totale < -1
≥ -1 e ≤ 1 > 1 totale < 0,817 ≥ 0,817 totale
Osservato: Media -2,477 0,824 0,025 -1,994 -0,001 1,993 -0,105 -0,840 2,413 0,001 Varianza 0,191 0,198 2,196 0,200 0,193 0,193 2,295 0,209 0,188 2.236 numero 581 1819 2400 703 1120 577 2400 1779 621 2400
Atteso: Media -2,45 0,816 0 -2 0 2 0 -0,817 2,45 0 Varianza 0,2 0,2 2,2 0,2 0,2 0,2 2,2 0,2 0,2 2, 2 numero 600 1800 2400 600 1200 600 2400 1800 6 00 2400
Dominante Additivo Recessivo
La distribuzione normale simulata o distribuzione normale logaritmica del termine di errore era
un grafico di distribuzione normale o un grafico di distribuzione normale logaritmica. Dal momento che il
distribuzione lognormale ma è distorta a destra, è stato confrontato l'effetto del gene principale
precedentemente incrementato nelle simulazioni di validazione per separare meglio le distribuzioni
can (simulazione di convalida 5). A tal fine, per il modello genetico dominante dal
Simulazioni di convalida 4 e 5 set di dati selezionati casualmente 9 e 3.
Figura 3: Grafico della distribuzione normale per la simulazione di convalida 4, set di dati 9 per verificare la distribuzione normale del termine di errore.
Risultati
29
Come in figura 3 e in figura
4 si può vedere, il seguente
Distribuzioni del termine di errore a
Normale o logaritmica
distribuzione normale. I risultati per
i modelli additivi e recessivi lo sono
comparabile, ma non extra qui
mostrato.
Figura 4: grafici di distribuzione log-normale per la simulazione di convalida 5 set di dati 3 per verificare la distribuzione log-normale del termine di errore.
Le medie e le varianze
dell'intero fenotipo e
i valori medi e
Frequenze per il
principali effetti genici e
sono varianze dei termini di errore
mostrato nella Tabella 7. Come
prima che solo quelli piccoli siano passati
la coincidenza da spiegare
riconoscere le differenze.
< -1,155 ≥ -1,155 Totale < 0 ≥ 0 Totale
Osservato: media -3,439 1,122 -0,091 -3,495 1,152 0,017 varianza 0,532 0,469 4,533 0,313 0,511 4,451 conteggio 635 1757 2400 586 1814 2400
Atteso: media -3,464 1,155 0 -3,464 1,155 0 varianza 0,5 0,5 4,5 0,5 0,5 4,5 conteggio 600 1800 2400 600 1800 2400
termine di errore di distribuzione normale
Termine di errore della distribuzione normale logaritmica
Tabella 7: Medie, varianze e frequenze osservate e attese per le simulazioni di convalida 4, 5 con i set di dati selezionati casualmente 9 e 3 e i loro principali effetti genici per un modello con effetto genico principale e termine di errore.
Risultati
30
4.1.3.2 Effetto famiglia
Per verificare l'effetto famiglia simulato, le simulazioni di validazione 6, 7
e 8 set di dati selezionati casualmente 10, 7 e 8, in cui solo un effetto del gene principale e uno
effetto famiglia sono stati simulati. Anche le medie e le varianze dell'intero fenotipo
le medie e le frequenze per l'effetto del gene principale e le varianze per gli effetti della famiglia
sono riportati nella Tabella 8. Ancora una volta, solo piccole differenze da spiegare per caso
per riconoscere.
Tabella 8: Medie, varianze e frequenze osservate e attese per le simulazioni di convalida 6, 7 e 8 con i set di dati selezionati casualmente 10, 7 e 8 e i loro principali effetti genici per un modello con gene principale e effetto familiare.
< -0,817 ≥ 0,817 Totale < -1
≥ -1 e ≤ 1 > 1 totale < 0,817 > 0,817 totale
Osservato: Media -2,446 0,801 0,013 -1,973 0,008 2,0118 0,007 -0,814 2,424 0,002 Varianza 0,205 0,209 2,145 0,191 0,181 0,177 2,227 0,200 0,226 2.184 numero 582 1818 2400 622 1164 614 2400 1795 605 2400
Media attesa -2,45 0,816 0 -2 0 2 0 -0,817 2,45 0 Varianza 0,2 0,2 2,2 0,2 0,2 0,2 2,2 0,2 0,2 2,2 Numero 600 1800 2400 600 1200 600 2400 1800 600 2400
Dominante Additivo Recessivo
Contrariamente al termine di errore, l'effetto famiglia è lo stesso per tutti i membri di una famiglia. Là
le simulazioni di validazione 6, 7 e 8 non contengono un termine di errore, ne consegue che lì
solo un massimo di due possibili fenotipi per il modello dominante o tre per il modello recessivo all'interno
mezza famiglia può dare. Anche questo è stato verificato nei tre set di dati.
4.1.4 Selezione delle famiglie
Per verificare la selezione delle famiglie, i set di dati simulati sono stati utilizzati per confrontare i
Metodi analitici di accoppiamento sotto ipotesi di distribuzione normale e indipendente
fratelli usati. Innanzitutto, sulla base di 30.000 fenotipici simulati
pen ha stimato i limiti del quartile empirico per i tre modelli sotto selezione casuale. Nel
il passaggio successivo è stato per un set di dati selezionato in modo casuale sotto selezione semplice
Massimo dei fenotipi dei bambini per famiglia determinato. Il minimo della famiglia
lienmaxima dovrebbe quindi essere vicino al limite del quartile superiore empirico precedentemente determinato
sono equivalenti a. Da un lato, questo conferma che tutte le famiglie soddisfano i semplici criteri di selezione
Risultati
31
rium, e dall'altro che le famiglie non sono selezionate a un livello più rigoroso
divenne.
I risultati sono riassunti nella Tabella 9. I risultati mostrano il dato al
Dimensioni del campione di 100 famiglie per set di dati selezionato Differenze attese.
Tabella 9: Convalida della selezione semplice per set di dati selezionati in modo casuale in base a un modello dominante, additivo e recessivo. Limiti stimati del quartile superiore e inferiore sotto selezione casuale e minimo dei massimi della famiglia sotto selezione semplice, ciascuno stimato nei figli.
Dominante Additivo Recessivo Limite del quartile superiore stimato 0,635 0,667 0,621
Limite quartile inferiore stimato -0,692 -0,676 -0,673Set di dati selezionato 46803 21050 4933
Minimo dei massimi familiari 0,631 0,674 0,649
Per verificare la doppia selezione, in ogni caso è stato utilizzato un set di dati selezionato a caso
determinato sotto doppia selezione per ogni famiglia, se una delle tre possibilità di
abbinare la doppia selezione. Inoltre, il minimo del quarto superiore
figli selezionati al di sopra del limite del quartile inferiore e il massimo di quelli selezionati al di sopra del limite del quartile inferiore
bambini individuati.
Tabella 10: Convalida della doppia selezione per set di dati selezionati casualmente in base a un modello dominante, additivo e recessivo. Vengono mostrati il numero di famiglie che corrispondono ad uno dei tre possibili criteri di selezione e il minimo/massimo di bambini selezionati tramite il limite superiore/inferiore del quartile. Q4 è il limite del quartile superiore, mentre Q1 è il limite del quartile inferiore.
Dominante Additivo RecessivoSet di dati selezionato 4989 28579 40900 Famiglie selezionate: 'Q4, Q4 42 43 53 'Q4, Q1 25 24 23 'Q1, Q1 46 41 31 Famiglie che soddisfano almeno uno dei criteri 100 99 100 Numero minimo di bambini selezionati sopra il quartile superiore limite 0 .636 0.675 0.624 Numero massimo di figli selezionati al di sopra del limite del quartile inferiore -0.693 -0.689 -0.678
I risultati nella Tabella 9 e nella Tabella 10 mostrano le dimensioni del campione fornite di
100 famiglie per set di dati selezionati si aspettavano differenze casuali.
4.2 Set di dati e calcolo delle statistiche dei test
La dimensione totale dei set di dati simulati era di 130 GB. Le strutture familiari, le dimensioni
e il numero di famiglie per set di dati sono stati verificati per tutti i set di dati e corrispondono a
Risultati
32
parametri di simulazione richiesti (non mostrati in dettaglio qui). Inoltre, l'eredità
le regole del marcatore genetico sono state verificate con il pacchetto software Pedcheck per tutti i set di dati.
Il calcolo di tutte le statistiche dei test ha richiesto circa due anni di processore su un processore Intel© Xeon©
Processore con clock a 2,8 GHz, i calcoli vengono eseguiti in parallelo su più processori
sono state effettuate. Le statistiche del test sono state calcolate utilizzando script bash
eseguito automaticamente. Allo stesso modo, il calcolo dell'errore empirico di tipo I e il
potere empirico tramite script bash e programmi R. La stazione di prova
Le statistiche e altri risultati intermedi hanno prodotto altri 4 GB di dati.
Risultati
33
4.3 Errori empirici di tipo I dei metodi
La rappresentazione degli errori empirici di tipo I delle procedure si basa su una tabella
Panoramica dell'errore empirico di tipo I del rispettivo metodo con un tipo I nominale
errore di 0,01. Inoltre, una divisione in sette categorie - come nel capitolo 3,
Descritto nella Sezione 2.2 – realizzato (da Tabella 11 a Tabella 18). Inoltre, il
Risultati empirici di errore di tipo I dato un errore nominale di tipo I di 0,05 e 0,001
nell'appendice della Tabella 24, pagina 67 alla Tabella 29, pagina 72.
Sotto ipotesi di distribuzione normale, fratelli indipendenti e selezione casuale
i MODELLI A COMPONENTI DELLA VARIANZA mostrano un errore di tipo I chiaramente troppo liberale durante il
Metodo MERLIN-QTL con la statistica test di Whittemore e Halpern e il MODEL-BASED
procedura mostra quasi sempre un errore conservativo di tipo I. Gli altri metodi lo sostengono
corretto livello di errore di tipo I. Ha una deviazione in una o più di queste tre ipotesi
spesso hanno un'influenza sull'errore di tipo I. Questo è per ogni singola procedura in
spiegato in dettaglio nelle sezioni seguenti.
Risultati
34
4.3.1 Metodo di Haseman-Elston
Il metodo HASEMAN-ELSTON mantiene l'errore di tipo I sotto normali ipotesi di distribuzione e
fratelli indipendenti per tutti e tre i disegni di studio.
Per i fratelli dipendenti, l'implementazione di Genehunter ne mostra solo uno minimo
aumento dell'errore di tipo I. Un errore di tipo I liberale più chiaro mostra il micro generalizzato
Regressione dei quadrati usata in S.A.G.E. è implementato.
Il metodo HASEMAN-ELSTON tende a violare le ipotesi della distribuzione normale
generalmente tendono a mostrare un errore di tipo I che è chiaramente troppo conservativo. Questo effetto è più forte di
l'effetto opposto dei fratelli a carico.
Non è possibile identificare un'influenza del disegno dello studio sull'errore di tipo I.
Tabella 11: Errore empirico di tipo I [in %] del metodo HASEMANN-ELSTON con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.
Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez
Sotto ipotesi di distribuzione normale: Gh.HE.Trad Indipendente 0,966 0,992 0,966 1,008 1,018 0,963 1,014 1,010 1,080
Salvia HE 0,963 0,967 0,948 0,991 0,985 0,940 1,006 0,988 1,060
Gh.HE.Trad Dipendente 1.063 1.080 1.103 1.088 1.122 1.094 1.092 1.075 1.036
Sage.HE 1.212 1.119 1.286 1.174 1.131 1.167 1.163 1.108 1.089
Violazione delle normali ipotesi di distribuzione: Gh.HE.Trad Indipendente 0,620 0,646 0,620 0,669 0,654 0,683 0,643 0,648 0,622
Salvia.HE 0,672 0,716 0,688 0,735 0,721 0,709 0,728 0,712 0,667
Gh.HE.Trad Dipendente 0,885 0,865 0,957 0,983 0,939 0,975 0,886 0,909 0,929
Salvia HE 1,108 0,955 1,137 0,732 0,682 0,781 1,169 0,975 1,104
Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia
Risultati
35
4.3.2 Metodo Haseman-Elston rivisto
Il metodo REVISED HASEMAN-ELSTON mantiene l'errore nominale di tipo I al di sotto del normale
ipotesi divise e fratelli indipendenti per tutti e tre i disegni di studio.
I fratelli a carico mostrano una marcata inflazione dell'errore di tipo I, che anche
è persino più forte della regressione dei minimi quadrati generalizzata per HASEMAN-ELSTON
Procedura.
In violazione dei presupposti della distribuzione normale, la REVISED HASEMAN-ELSTON tende
Metodo per diventare debolmente conservatore. Tuttavia, questo effetto sembra essere molto più debole
essere più pronunciato rispetto al processo HASEMAN-ELSTON.
Non è possibile identificare un'influenza del disegno dello studio sull'errore di tipo I.
Tabella 12: Errore empirico di tipo I [in %] del metodo REVISED HASEMANN-ELSTON con un errore nominale di tipo I di 0,01 in % e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.
Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez
Sotto ipotesi di distribuzione normale: rHE Indipendente 0,990 0,998 1,009 1,024 1,044 0,932 1,021 0,989 1,018
rHE Dipendente 1.662 1.531 1.452 1.356 1.342 1386 1.255 1.226 1.210
Violazione delle ipotesi di distribuzione normale: rHE Indipendente 0,971 0,879 0,895 0,914 0,915 0,907 0,971 0,920 0,946
rHE Dipendente 1.860 1.700 1.724 1.410 1.319 1.327 1.451 1.328 1.351
Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia
Risultati
36
4.3.3 Metodo di regressione di Merlin
MERLIN-REGRESS mantiene l'errore di tipo I sotto normali ipotesi di distribuzione e più indipendente
Fratelli per tutti e tre i disegni di studio.
Nei fratelli a carico, c'è una leggera inflazione dell'errore di tipo I.
Violando i presupposti della distribuzione normale, MERLIN-REGRESS ne mostra uno conservativo
Difetti di tipo I nei fratelli indipendenti ma non nei fratelli a carico
lavoro. Qui MERLIN-REGRESS mostra un errore liberale di tipo I della stessa entità.
Non è possibile identificare un'influenza del disegno dello studio sull'errore di tipo I.
Poiché l'applicazione di MERLIN-REGRESS stima la media basata sulla popolazione,
della varianza e dell'ereditabilità del fenotipo, anche l'effetto era uno
Controllo errore di specifica di un parametro. I risultati sono inclusi per chiarezza
mostrato in appendice (dalla Figura 6 alla Figura 8, da pag. 73 a 75). Nelle immagini è troppo
riconoscere che una specifica errata di un parametro si traduce solo in una perdita empirica di potere
porta, ma l'errore di tipo I non è interessato in tutti gli scenari.
Tabella 13: errore empirico di tipo I [in %] del metodo MERLIN-REGRESS con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.
Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez
Sotto ipotesi di distribuzione normale: Regresso Merlin Indipendente 0,958 0,970 0,963 1,029 1,014 0,961 0,994 1,007 0,988
Dipendente dal regresso Merlin 1.323 1.256 1.247 1.215 1.248 1.260 1.214 1.195 1.156
Violazione delle ipotesi di distribuzione normale: regresso di Merlin Indipendente 0,805 0,811 0,818 0,747 0,816 0,810 0,850 0,848 0,892
Regresso Merlin dipendente 1.293 1.230 1.250 1.185 1.193 1.214 1.212 1.197 1.200
Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia
Risultati
37
4.3.4 Modelli a componenti di varianza
I MODELLI A COMPONENTI DELLA VARIANZA mostrano un tipo corretto praticamente in nessuno degli scenari
sbaglio. Anche per un campione casuale sotto ipotesi di distribuzione normale e
fratelli indipendenti, l'errore di tipo I è chiaramente troppo liberale.
Il disegno dello studio della selezione singola e doppia mostra un'enorme influenza sulla
Errore di tipo I. Mentre con la semplice selezione i MODELLI A COMPONENTI DI VARIANZA a
mostra chiaramente a un enorme errore di tipo I troppo conservativo, l'errore di tipo I è doppio
Selezione massicciamente troppo liberale.
Se le ipotesi di distribuzione normale vengono violate, le deviazioni diventano ancora più drastiche.
Deviazioni di un fattore da tre a cinque dell'errore empirico di tipo I rispetto al tipo nominale I
Gli errori si verificano quasi sempre qui.
Il fattore di discrepanza appare nella situazione dei fratelli indipendenti
essere significativamente più forte che nei fratelli a carico.
Tabella 14: Errore empirico di tipo I [in %] dei MODELLI A COMPONENTI DELLA VARIANZA con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.
Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez
Sotto ipotesi di distribuzione normale: Gh.VC Indipendente 1,430 1,145 1,417 0,675 0,393 0,170 2,073 2,032 2,167
Solar.VC 1,414 1,142 1,417 0,678 0,391 0,173 2,052 2,027 2,157
Gh.VC dipendente 1.413 1.097 1.372 1.113 0.904 0.919 1.336 1.134 1.325
Solar.VC 1.375 1.057 1.345 1.105 0.895 0.911 1.293 1.111 1.306
Violazione delle normali ipotesi di distribuzione: Gh.VC Indipendente 6,260 5,749 5,163 0,365 0,256 0,100 5,486 5,685 4,880
Solar.VC 6,270 5,779 5,193 0,364 0,247 0,097 5,481 5,645 4,884
Gh.VC dipendente 4.764 4.130 3.979 1.525 1.432 1.060 3.947 3.748 3.427
Solar.VC 4.739 4.096 3.971 1.514 1.451 1.070 3.951 3.745 3.391
Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia
Risultati
38
4.3.5 Wilcoxon-Rangsumentetest
Il WILCOXON RANK SUM TEST interrompe l'errore di tipo I corretto in condizioni di distribuzione normale
nonché in violazione dei presupposti di distribuzione normale nel caso di indipendenti
Fratelli per tutti e tre i disegni di studio.
Nei fratelli a carico c'è una leggera ma significativa inflazione di tipo I.
errore.
Non è possibile identificare un'influenza del disegno dello studio sull'errore di tipo I.
Tabella 15: Errore empirico di tipo I [in %] del WILCOXON RANK SUM TEST con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel Capitolo 3, Sezione 2.2.
Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez
Sotto ipotesi di distribuzione normale: Npar Indipendente 0,989 0,961 0,929 0,972 0,954 1,075 0,978 0,969 0,967
Npar Dipendente 1.142 1.195 1.144 1.065 1.196 1.156 1.131 1.135 1.134
Violazione delle normali ipotesi di distribuzione: Npar Indipendente 0,989 0,961 0,929 0,972 0,954 1,075 0,978 0,969 0,967
Npar dipendente 1.106 1.179 1.116 1.208 1.142 1.218 1.132 1.080 1.118
Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia
Risultati
39
4.3.6 Procedura Merlin-QTL
La statistica del test di Kong e Cox (1997) del metodo MERLIN-QTL vale in tutte le simulazioni
il livello di errore di tipo I corretto. Non vi è alcuna influenza di selezione, ipotesi di distribuzione o
fratelli a carico per riconoscere l'errore di tipo I.
Il test statistico di Whittemore e Halpern (1994) del metodo MERLIN-QTL mostra tra tutti
Le simulazioni mostrano un errore di tipo I chiaramente troppo conservativo. Non è un'influenza della selezione,
Ipotesi di distribuzione o fratelli dipendenti per riconoscere l'errore di tipo I.
Tabella 16: errore empirico di tipo I [in %] del metodo MERLIN-QTL con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.
Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez
Sotto ipotesi di distribuzione normale: Merlin.K&C Indipendente 0,994 0,996 0,966 0,953 0,929 0,919 0,954 0,994 0,960
Merlin.W&H 0,674 0,690 0,688 0,644 0,643 0,610 0,649 0,690 0,664
Dipendente Merlin.K&C 0,954 1,022 0,938 0,930 0,995 0,979 0,930 0,999 0,908
Merlin.W&H 0,721 0,765 0,681 0,669 0,729 0,734 0,699 0,725 0,667
Violazione delle ipotesi normali: Merlin.K&C Indipendente 0,957 1,019 0,945 0,961 0,970 0,966 1,009 0,950 1,007
Merlin.W&H 0,666 0,704 0,634 0,665 0,649 0,673 0,711 0,629 0,687
Dipendente Merlin.K&C 0,941 0,971 0,946 0,938 0,927 0,945 0,946 0,997 1,011
Merlin.W&H 0,734 0,712 0,724 0,695 0,673 0,697 0,720 0,744 0,750
Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia
Risultati
40
4.3.7 Metodo binomiale di massima verosimiglianza
Il metodo MAXIMUM LIKELIHOOD BINOMIAL tiene entrambi utilizzando la normale
ipotesi di distribuzione, nonché utilizzando la funzione di distribuzione empirica
dieci categorie in tutte le simulazioni il livello di errore di tipo I corretto. Non è influenzato da
Selezione, ipotesi distributive o fratelli dipendenti verso l'errore di tipo I
riconoscere.
Tabella 17: errore empirico di tipo I [in %] del metodo MAXIMUM LIKELIHOOD BINOMIAL con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.
Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez
Sotto ipotesi di distribuzione normale: Mlbqt.NV Indipendente 1,065 1,134 1,056 1,058 1,063 0,956 1,018 1,086 1,033
Mlbqt.Kat 1.068 1.131 1.044 1.015 1.081 0.981 1.022 1.084 1.013
Mlbqt.NV Dipendente 0,989 0,986 0,970 0,987 1,011 1,037 0,932 0,996 0,949
Mlbqt.Kat 1.000 1.030 0.987 0.971 0.981 1.057 0.938 1.008 0.931
Violazione delle normali ipotesi di distribuzione: Mlbqt.NV Indipendente 1,044 1,053 1,082 1,077 1,008 0,986 1,037 0,967 1,055
Mlbqt.Kat 1,043 1,025 1,038 1,043 0,975 1,009 1,039 0,964 1,014
Mlbqt.NV Dipendente 0,983 0,966 1,049 0,985 0,996 0,985 1,024 0,978 1,007
Mlbqt.Kat 0,983 0,966 1,049 0,985 0,996 0,985 1,024 0,978 1,007
Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia
Risultati
41
4.3.8 Metodo basato su modelli
Il metodo MODEL-BASED completamente parametrizzato mostra una conservazione da significativa a massiccia
Errore di tipo I in quasi tutte le simulazioni anche in ipotesi di distribuzione normale e indipendente
fratelli giger per tutti e tre i progetti di studio.
L'effetto dei fratelli a carico e la violazione delle normali ipotesi di distribuzione
all'errore di tipo I non è chiaro.
Sotto selezione singola e doppia, l'errore di tipo I sembra essere
aumentare in caso di selezione casuale.
Tabella 18: Errore empirico di tipo I [in %] del metodo MODEL-BASED con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.
Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez
Sotto ipotesi di distribuzione normale: Linkage Indipendente 0,399 0,014 0,170 1,040 0,229 0,823 1,049 0,485 0,920
Dipendente dal collegamento 0,483 0,015 0,236 0,915 0,147 0,702 0,812 0,139 0,593
Violazione delle normali ipotesi di distribuzione: Linkage Independent 0,580 0,021 0,288 1,062 0,304 1,059 1,081 0,368 0,932
Dipendente dal collegamento 0,593 0,031 0,360 0,984 0,213 0,861 0,882 0,159 0,659
Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia
Risultati
42
4.4 Confronto empirico di potenza delle procedure
I risultati delle simulazioni Monte Carlo per determinare la potenza empirica sono nel
Tabella 19 per le simulazioni sotto ipotesi di distribuzione normale e Tabella 20 per
Simulazioni mostrate in violazione delle ipotesi di distribuzione normale.
In generale, si può vedere che il metodo MODEL-BASED completamente parametrizzato per
i modelli dominanti e recessivi mostrano la massima potenza. A causa del vero,
ma negli studi reali questo risultato era una specifica del modello per il QTL che era praticamente inestimabile
prevedibile (vedi capitolo 2, sezione 8, p. 17). Il metodo MODEL-BASED può quindi
essere inteso come una sorta di gold standard, ma di solito non è così negli studi reali
può essere utilizzata. Il metodo MODEL-BASED è quindi utilizzato nell'ulteriore
menti per il confronto di potenza non considerati ulteriormente.
Tabella 19: Potenza empirica [%] a un livello di errore empirico del 5% in condizioni di distribuzione normale.
Procedura Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 34.3 38.4 32.4 69.2 64.3 64.0 58.7 66.7 57.2Sage.HE 34.0 38.0 32.3 68.9 63.9 63.9 58.7 66.8 57.3rHE 24.0 27,6 26,4 59,6 55,9 60,2 62,7 59,7 62,4 Regressione Merlin 41,9 48,9 39.7 79.0 76.2 79.3 75.8 76.7 79.6Gh.VC 43.5 47.4 41.7 82.0 71.7 77.3 73.0 76.2 79.0Solar.VC 43.5 47.4 41.5 82.0 71.8 77.6 72. 9 76,7 78,9 Npar 20,9 27,2 22,7 60,1 57,9 57,9 36,2 44,1 37,6 Merlin.K&C 13,1 18,7 13,5 40,2 40,2 43,0 45.7 53.9 45.2 Merlin.W&H 15.1 20.4 14.5 43.1 42.2 44.1 46.8 55.8 47.1Mlbqt.N 21.6 23.6 20.9 46.1 46.0 44.3 51.3 54.4 51.2Mlb qt Cat. 21,0 22,7 18,7 43,5 45,3 41,2 49,1 54,1 48,5 Collegamento 69,0 40,5 57,8 94,4 65,5 89,8 91,7 70 .4 88.6Gh.HE.Trad Dipendente 39.6 43.4 35.8 65.2 59.7 57.1 51.4 56.3 47.8Sage.HE 43.6 45.3 40.7 70, 0 64.4 62.3 54.8 59.3 54.1rHE 35.8 4 1,5 39,2 64,0 57,4 58,5 52,0 56,7 52,3 Regressione Merlin 49,3 52, 3 47,1 77,4 71.9 72.1 62.8 66.2 64.2Gh.VC 52.0 53.9 48.8 77.8 70.2 72.6 63.0 65.6 64, 9Solar.VC 51.3 53.4 48.4 77.3 70.8 73.0 62.9 66.7 65 .0Npar 23,7 30,9 26,4 55,7 48,8 49,5 38, 7 43,4 36,8 Merlin.K&C 15,9 23,0 18,2 43,0 40,0 35.8 30.0 40.7 28.0 Merlin.W&H 18.6 25.4 19.6 46.9 42.3 39.0 32.2 43.9 30.0Mlbqt.N 22.5 28.6 22.5 45.2 43.9 35.7 34.8 41.7 32. 6Mlbqt.Cat 23.1 28 ,1 21.3 43.6 42.6 32.9 33.3 40.7 31.1 Collegamento 69.3 48.9 59.4 88.8 64.2 80.2 83.2 62,2 75,2
fratelli
Potenza empirica sotto ipotesi di distribuzione normaleSenza selezione Selezione singola Selezione doppia
Risultati
43
Tabella 20: Potenza empirica [%] a un livello di errore empirico del 5% che viola i presupposti della distribuzione normale.
Procedura Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 18.3 17.9 17.4 16.1 10.9 15.7 17.4 20.9 19.1Sage.HE 18.1 17.8 17.1 15.7 11.0 15.7 17.4 21.0 19.2rHE 28.0 31,5 28,7 59,5 47,3 55,1 41,7 29,4 46,8 Regressione Merlin 41,1 38,3 35.1 53.7 40.5 53.8 50.2 51.0 58.4Gh.VC 40.1 33.8 34.6 44.5 25.4 42.6 40.8 42.5 55.2Solar.VC 40.4 34.6 34.7 44.2 25.5 43.2 40. 7 42,3 55,2Npar 40,4 83,4 34,5 82,7 70,7 77,2 36,9 62,9 35,5Merlin.K&C 25,1 47,9 23,6 76,1 55,6 72,8 55.6 72.8 51.9Merlin.W&H 25.8 50.0 25 ,1 77.8 59.0 73.1 57.7 75.3 54.1Mlbqt.N 29.7 32.9 27.2 68.4 52.6 60.5 55.6 67.4 56.7Ml bqt Cat. 29,6 36,1 24,0 64,3 51,9 51,0 54,7 69,3 55,0 Collegamento 65,6 38,7 44,6 95,3 54,2 73,2 76,4 59 .6 69.0Gh.HE.Trad Dipendente 21.7 26.5 23.4 26.7 22.3 24.8 29.6 23.2 27.5Sage.HE 36.3 39.9 36.0 44, 4 36.8 44.5 45.8 39.2 43.8rHE 43.6 5 1,1 45,8 65,3 59,8 64,9 61,9 58,9 59,1 Regressione Merlin 49,5 54, 1 48,9 64,2 52.4 63.2 62.9 58.3 62.4Gh.VC 43.4 48.8 46.1 57.3 45.1 56.2 57.4 48.1 59, 2Solar.VC 43.4 49.8 46.4 57.6 45.0 56.6 57.9 48.6 58 .9Npar 42,5 86,2 40,7 81,0 86,9 74,7 61, 4 88,3 57,8 Merlin.K&C 24,7 51,8 24,5 65,5 71,9 58.8 48.1 64.2 41.8 Merlin.W&H 27.3 55.7 27.0 68.6 74.5 62.7 51.7 67.1 46.8Mlbqt.N 30.1 40.0 31.9 60.8 56.3 56.0 49.8 52.7 46. 8Mlbqt.Cat 30.0 43,2 29.0 59.3 57.0 48.7 48.0 54.2 42.9 Collegamento 66.3 51.1 51.1 89.1 61.8 71.5 81.3 57,2 67,0
fratelli
Potere empirico in violazione delle normali ipotesi di distribuzione
Senza selezione Selezione singola Selezione doppia
4.4.1 Confronto empirico del potere all'interno delle procedure
Tutti i metodi mostrano ipotesi di distribuzione normale con selezione singola o doppia
un potere empirico maggiore rispetto al campione basato sulla popolazione. D'altra parte mostra
se vengono violati i presupposti della distribuzione normale, solo il REVISED HASEMAN-ELSTON
Metodi, MERLIN REGRESS, WILCOXON RANGSUMTEST e allele sharing
Gli approcci MERLIN-QTL e il metodo MAXIMUM LIKELIHOOD BINOMIAL mostrano un valore empirico più elevato
potenza calorica rispetto al disegno dello studio basato sulla popolazione. A HASEMAN-ELSTON
metodo e il VARIANCE COMPONENT MODELS è, se non del tutto, solo sporadicamente
riconoscere un potere empirico superiore.
Il confronto diretto della potenza dei singoli metodi sotto normali ipotesi di distribuzione
i modelli altrimenti identici in violazione delle ipotesi di distribuzione normale producono a
quadro eterogeneo, che viene spiegato di seguito.
Nel metodo HASEMAN-ELSTON, in violazione delle ipotesi di distribuzione normale, a
un netto calo del potere empirico nel non basato sulla popolazione
Risultati
44
disegno dello studio significa anche che, rispetto alla selezione casuale, non c'è potere
il profitto è più riconoscibile. Durante la selezione casuale presso MERLIN-REGRESS e the
VARIANCE COMPONENT MODELS mostra che solo una potenza empirica leggermente inferiore è retta
con i MODELLI A COMPONENTI DI VARIANZA un netto calo di potenza nel non
disegni di studio basati sulla popolazione. Il metodo REVISED HASEMAN-ELSTON
mostra un potere molto robusto, cioè un'influenza, in violazione delle ipotesi di distribuzione normale
sul potere empirico non è evidente.
Il WILCOXON RANK SUM TEST e il metodo di condivisione degli alleli - MERLIN-QTL e il
Procedure BINOMIALI DI MASSIMA PROBABILITÀ - mostrano chiaramente a in tutti e tre i disegni di studio
potere empirico superiore.
4.4.2 Potere empirico dei metodi nel confronto diretto
In primo luogo, i risultati del confronto dei metodi sotto ipotesi di distribuzione normale
spiegato. MERLIN-REGRESS e i MODELLI A COMPONENTI DELLA VARIANZA generalmente mostrano un valore elevato
potere empirico. Gli altri due metodi basati sulla regressione, ovvero HASEMAN
ELSTON e il metodo REVISED HASEMAN-ELSTON seguono a netta distanza.
I metodi di condivisione degli alleli MERLIN-QTL e MAXIMUM raggiungono la potenza più bassa
Metodo BINOMIALE DI PROBABILITÀ e WILCOXON RANK SUM TEST. Quest'ordine
è lo stesso per tutti e tre i disegni di studio.
La regressione dei minimi quadrati generalizzata nel metodo HASEMAN-ELSTON mostra at
fratelli a carico hanno un potere empirico leggermente superiore, tuttavia, l'empirico
La potenza è ancora significativamente inferiore rispetto a MERLIN-REGRESS e VARIANCE-COMPO-
MODELLI NETTI.
Violando le normali ipotesi di distribuzione, i disegni dello studio risultano ad es. T
risultati diversi. Per questo motivo, i risultati di ogni metodo sono spiegati individualmente.
Il metodo HASEMAN-ELSTON mostra di gran lunga il più basso in tutti e tre i disegni di studio
potere empirico. La regressione dei minimi quadrati generalizzata del metodo HASEMAN-ELSTON
ren migliora il potere empirico nei fratelli dipendenti, in particolare in quello
disegno di studio basato sulla popolazione - ma il potere raggiunge il potere del solo in singoli casi
altre procedure.
Il metodo REVISED HASEMAN-ELSTON mostra una media stabile per tutti i modelli
potere empirico. Funziona significativamente meglio nei fratelli a carico.
I VARIANCE COMPONENT MODELS e MERLIN-REGRESS mostrano sotto la popolazione
studio basato progettare una potenza elevata. Tuttavia, sotto la selezione singola e doppia mostra
MERLIN-QTL e in particolare WILCOXON RANK SUM TEST hanno la potenza più alta. IL
Risultati
45
I MODELLI A COMPONENTI DI VARIAZIONE hanno un potere empirico inferiore tra tutti i modelli
als MERLIN-REGRESS.
Il WILCOXON RANK SUM TEST mostra quasi sempre la massima potenza. Uno sistematico
L'unica eccezione è la doppia selezione per i fratelli indipendenti
riconoscere.
È stato ottenuto un risultato medio per MERLIN-QTL e il metodo MAXIMUM LIKELIHOOD BINOMIAL
Potenza in un campione basato sulla popolazione, tuttavia, questi due metodi sono in
Disegno dello studio in fase di selezione in parte comparabile con l'elevata potenza del WILCOXON
TEST DELLA SOMMA DEL RANGO.
4.4.3 Riepilogo dei confronti empirici di potenza
Metodo HASEMAN-ELSTON
Sotto ipotesi di distribuzione normale, il metodo HASEMAN-ELSTON ha indipendente da
Studio di progettazione di media potenza. In violazione delle ipotesi di distribuzione normale, il
il drastico calo del potere empirico generalmente fa sì che mostri il minimo potere.
Nei fratelli a carico, il potere empirico in micro-
Regressione dei quadrati aumentati rispetto alla normale regressione dei minimi quadrati, questo ha
ma non ha alcuna influenza sulla classifica.
Per tutti gli scenari considerati, il metodo HASEMAN-ELSTON è inferiore a MERLIN-REGRESS.
Metodo HASEMAN-ELSTON REVISIONATO
Il metodo REVISED HASEMAN-ELSTON mostra, indipendentemente dal disegno o dalla distribuzione dello studio
presupposti di sviluppo consistentemente una robusta potenza media.
MERLIN-REGRESSO
Sotto ipotesi di distribuzione normale, MERLIN-REGRESS mostra a
elevata potenza empirica paragonabile ai MODELLI A COMPONENTI DI VARIAZIONE. sotto infortunio
zione delle ipotesi di distribuzione normale, invece, sono i MODELLI A COMPONENTI DELLA VARIANZA
prendere in considerazione. Anche qui la potenza è elevata, ma MERLIN-QTL e in particolare il
WILCOXON RANK SUM TEST particolarmente superiore alla selezione.
Tuttavia, una specifica errata di un parametro si traduce solo in una perdita empirica di potenza
l'errore di tipo I non è interessato in tutti gli scenari (da Figura 6 a Figura 8, pag. 73 a
75). La specifica errata della media ha mostrato il maggiore impatto sulla potenza. UN
Sopravvalutare la varianza ha un effetto più debole ma ancora forte, mentre a
Sottovalutare la varianza non sembra comportare una perdita di potenza. L'effetto dell'a
Risultati
46
l'errata specificazione moderata e realistica dell'ereditabilità è bassa; tuttavia, cresce
quando ci si avvicina ai limiti superiore e inferiore (0 e 1).
MODELLI A COMPONENTI DI VARIAZIONE
Sotto ipotesi di distribuzione normale, i MODELLI A COMPONENTI DELLA VARIANZA mostrano indipendentemente da
Studia il design insieme a MERLIN-REGRESS la massima potenza. In violazione del normale
ipotesi distributive, anche il potere per il disegno dello studio basato sulla popolazione è elevato,
tuttavia, sotto la selezione si può notare un netto calo di potenza. Il WILCOXON
RANK SUM TEST e i metodi di condivisione degli alleli hanno quindi generalmente un valore più elevato
Energia.
I risultati delle due implementazioni software considerate in Solar e Genehunter
non suggeriscono differenze nel potere empirico.
WILCOXON-RANGSUMMENTEST
Il WILCOXON RANK SUM TEST mostra ipotesi di distribuzione normale indipendenti da
disegno di studio un basso potere empirico. In violazione delle normali ipotesi di distribuzione
tuttavia, la situazione sta cambiando. Mentre sotto il disegno dello studio basato sulla popolazione, il Power
è paragonabile a quelli di MERLIN-REGRESS e VARIANCE COMPONENT MODELS,
è quasi sempre mostrato dal WILCOXON RANK SUM TEST tra i due disegni di studio selezionati
la massima potenza. Un'eccezione sistematica è solo in caso di doppia selezione
riconoscere fratelli indipendenti. Inoltre, vale la pena notare che sotto
Violazione delle normali ipotesi di distribuzione e selezione casuale della potenza nell'additivo
modello è significativamente più alto rispetto ai modelli dominante e recessivo.
Metodi MERLIN-QTL e MAXIMUM LIKELIHOOD BINOMIAL
Sotto ipotesi di distribuzione normale, entrambi i metodi mostrano a
basso potere empirico. Tuttavia, queste due procedure sono incluse nei disegni di studio
Selezione parzialmente paragonabile all'elevata potenza del WILCOXON RANK SUM TEST.
Risultati
47
4.5 Analisi del set di dati COAG Perth
I metodi analitici di accoppiamento utilizzati in questo lavoro devono ora essere sostituiti dal
Verrà illustrata l'applicazione a un set di dati reale. Questo è particolarmente importante
posato, la procedura pratica di mappatura genetica di un carattere quantitativo
per spiegare in modo più dettagliato.
A tale scopo, il set di dati "Consortium on Asthma Genetics: Perth study" (COAG Perth Daten-
frase) messo a disposizione per il Laboratorio di analisi genetica 12
analizzato.
Nella prima fase, i dati del set di dati originale sono stati preparati in modo tale da poterlo essere
quello del dott. È possibile utilizzare Franke e il software creato dall'autore Abi2Link
Potevo. La formattazione dei file di input si basa sul formato di output della maggior parte dei file
piattaforme di genotipizzazione. Ecco perché ci sono stati solo aggiustamenti minimi come il cambiamento
il nome del file è obbligatorio. I formati di input includono file di esempio nel pacchetto software
documentato e quindi non spiegato in dettaglio qui. Abi2Link è stato quindi utilizzato per l'automatico
creazione controllata da script dei file necessari nel formato dei dati di collegamento, che sono
sono stati utilizzati i seguenti. Il programma Abi2Link controlla automaticamente una serie
di errori logici nei dati e crea un registro. Errori di questo tipo possono essere ad es.
che i genotipi di un marcatore per una persona sono presenti più di una volta nel set di dati o
Le famiglie devono essere scritte nel formato di output di Linkage più di una volta. Abi2Link
serve anche come controllo iniziale dei dati per errori logici. Dai genitori
sono stati genotipizzati, le frequenze alleliche dei marcatori dei genitori potrebbero essere determinate con l'aiuto di
Abi2Link può essere stimato contemporaneamente e utilizzato successivamente per le analisi.
Quindi i genotipi contenuti nel set di dati sono stati controllati per ver-
errori di ereditarietà verificati (O'Connell e Weeks, 1998). Genotipi che mostrano le regole di ereditarietà
feriti sono stati esclusi da ulteriori indagini. C'era dovuto al
genotipi che violano le regole di ereditarietà nessuna evidenza di errori nelle strutture familiari, come
ad esempio mancano altri padri. Sono state identificate anche famiglie senza fenotipi o genotipi
Bambini esclusi dall'analisi in quanto non hanno alcun contributo all'analisi di linkage.
Pedcheck inoltre non ha trovato prove di una violazione dell'equilibrio di Hardy-Weinberg
dei due marcatori (risultati non mostrati in dettaglio qui).
Dopo il controllo di qualità, c'erano 82 famiglie delle 98 famiglie originarie con 195 bambini
disponibili che contenevano sia fenotipi che genotipi. Di questi, 56 sono passati
Famiglie composte da genitori e due figli, mentre le restanti 26 famiglie sono tra tre e quattro
avuto figli per famiglia.
Risultati
48
La figura 5 mostra la distribuzione dei fenotipi lnIge e lnIgeR dei bambini in uno
Istogramma. Sebbene entrambi gli istogrammi non mostrino valori anomali, appare nell'immagine
Confronto del fenotipo ln IgER per meglio corrispondere a una distribuzione normale. Il fenotipo lo farà
usato qui nella sua forma logaritmica perché si adatta meglio a una distribuzione normale
appare. Questa trasformazione dei dati è una pratica abbastanza comune.
Figura 5: Istogrammi dei bambini del set di dati COAG Perth per il titolo di IgE nel siero totale logaritmico (ln IgE) e il titolo di IgE nel siero totale logaritmico aggiustato (ln IgER).
Dopo il controllo di qualità e
i dati sono stati elaborati
ora gli otto metodi con l'in
Capitolo 3 Sezione 2.1 descritto-
n opzioni di analisi per a
Analisi del collegamento multipunto
applicato. Media, varianza e
i decili empirici erano qui,
ove necessario, dal
Fenotipi dei bambini stimati.
Per Merlin regresso, aggiuntivo
lich il parametro predefinito per il file
Ereditarietà di 0,5 utilizzata.
Per quanto possibile nel pacchetto software,
ulteriori valori p empirici sono stati determinati da 100.000 permutazioni.
L'applicazione dell'analisi di accoppiamento MODEL-BASED è stata omessa, poiché il
non è possibile la stima necessaria dei parametri dal set di dati. Allo stesso modo su quello
BINOMIALE DI PROBABILITÀ MASSIMA procedura sotto ipotesi di distribuzione normale omessa, poiché
Procedura D5S393 D5S399 D5S393 D5S399
Asymptotische p -Werte: Gh.HE.trad 0,0660 0,0751 0,0441 0,0126 Sage.HE 0,0648 0,0739 0,0310 0,0096 rHe 0,2831 0,3002 0,0047 0,0013 Merlin-Regress 0,0110 0,0300 0,0004 0,0004 Gh.VC 0,0151 0,0223 0,0032 0,0023 Solar.VC 0,0083 0,0084 0,0032 0,0023 Npar 0,0528 0 ,0544 0,0805 0,0540 Merlin.K&C 0,3632 0,3336 0,1239 0,0173 Merlin.W&H 0,1251 0,1003 0,1515 0,0314 Mlbqt.Kat 0,0379 0,0391 0,0062 0,0048
Valori p empirici: Sage.HE 0,0492 0,0599 0,0411 0,0121 rHE 0,3204 0,2982 0,0041 0,0008 Regresso Merlin 0,0201 0,0383 0,0018 0,0016
ln IgE ln IGER
Tabella 21: valori p asintotici ed empirici dell'applicazione dei metodi di analisi dell'accoppiamento al set di dati COAG Perth.
Risultati
49
almeno che il fenotipo ln IgER non segue una distribuzione normale standard. Nella tabella 21 sono
ha riassunto i risultati delle analisi di accoppiamento come una panoramica.
In generale, si può vedere che i valori p per età, sesso e antigene sono specifici
cal IgE titolo I titoli IgE logaritmici corretti sono inferiori rispetto a quelli non corretti
titolo logaritmico di IgE. Le differenze a volte enormi nei valori p nel
confronto metodologico. Mentre per il titolo di IgE logaritmico corretto il più alto asinto-
Tabella p-value al marcatore D5S393 utilizzando il metodo MERLIN-QTL con il
La statistica del test di Whittemore e Halpern è del 15%, il valore p asintotico più basso è dello 0,04%
e 0,16% come valore p empirico utilizzando MERLIN-REGRESS.
discussione
50
5 Discussione
Lo scopo di questo lavoro era un confronto completo della qualità dell'analisi di accoppiamento frequentemente utilizzata
Metodo per la mappatura genetica dei caratteri quantitativi. Per la prima volta il
Caratteristiche di qualità di questi metodi a tal punto sotto una varietà di realistico
Ipotesi e disegni di studio in un confronto diretto in una simulazione Monte Carlo
studio a confronto.
Nella prima sezione, viene discusso per primo il modello di simulazione selezionato. Nel
La sezione seguente descrive poi il software di simulazione Sibsim e le possibili applicazioni
esaminato più in dettaglio per ulteriori domande. La terza sezione esamina e discute il
Proprietà di qualità dei metodi analitici di accoppiamento, come determinato nel contesto di questo lavoro
è stato detto. I risultati della rianalisi sono poi presentati nelle ultime due sezioni
del set di dati COAG Perth e infine una prospettiva.
5.1 Modelli e metodi di simulazione selezionati
Per effettuare questo confronto, una simulazione per il QTL e il
Modello adatto ai fenotipi selezionati. Il modello additivo di Falconer e Mackay (1996)
sembrava essere il più adatto a causa del suo uso frequente. Va da
un effetto del gene principale definito da un QTL biallelico e tiene conto
inoltre un effetto ambientale, che è lo stesso di un effetto familiare per tutti i membri della famiglia, così come
un termine di errore.
È stato calcolato il contributo dell'effetto del gene principale alla varianza totale del carattere quantitativo
Fisso al 20% (ereditabilità di 0,2 in senso lato). Questo valore è realistico come numerosi
Suggerire stime nell'ambito delle analisi di segregazione. Ecco solo due esempi
del lavoro pratico dell'autore. Come parte di una mappatura genetica dell'essere umano
L'oncocercosi e un altro studio sulla mappatura genetica della malaria lieve hanno il
Autor e i suoi colleghi hanno stimato un'ereditabilità locus-specifica rispettivamente del 20% e del 38%.
(Timmann et al., 2007; Timmann et al., 2008).
La scelta delle strutture familiari e dei tre disegni di studio è stata già discussa nell'introduzione e
Materiale e metodi presentati in dettaglio. Pertanto non viene spiegato di nuovo qui
(vedi p. 2 e p. 20f). La dimensione del campione per set di dati era di 100 famiglie nucleari con due
fratelli o 300 famiglie nucleari da due a cinque fratelli (numero medio di
sorella era 3,04) anch'essa impostata su un valore comunemente utilizzato negli studi. Il già
Ad esempio, il suddetto studio sulla mappatura genetica della malaria lieve comprendeva 108 famiglie
discussione
51
un numero medio di 3,54 fratelli. In quello analizzato nuovamente nell'ambito di questo lavoro
Set di dati COAG Perth, sono state esaminate 98 famiglie con da due a quattro fratelli per famiglia.
Come marcatore per la mappatura genetica è stato scelto un marcatore di ripetizione tandem breve
L'informatività corrisponde a quella di un marcatore tipico (eterozigosi del 90%). Per un po 'di tempo
sono sempre più utilizzati array di marcatori di polimorfismo a singolo nucleotide cosiddetti array SNP
giri. Tipicamente, l'informazionalità nell'analisi multipunto è ancora un po'
superiore, ad esempio quando si utilizza l'array Affymetrix GeneChip Human Mapping 10K v2 nel
Il contenuto medio delle informazioni risiedeva nella già menzionata mappatura genetica della malaria lieve
a oltre il 95% (Timmann et al., 2007). Questa differenza è piccola e dovrebbe quindi essere solo una
hanno scarso impatto sui risultati di questo lavoro.
Alcune delle ipotesi del modello sopra descritte sono state utilizzate nella stessa forma o in una forma simile in altre
studi di simulazione utilizzati. Tuttavia, questo studio differisce dai suoi predecessori in
al seguente riguardo:
a) Mentre in altri studi l'effetto di violare le ipotesi di distribuzione normale attraverso
è stata esaminata una semplice trasformazione dell'intero fenotipo (Allison et al., 1999; Allison
et al., 2000; Sham et al., 2002; Cuenco et al., 2003; Szatkiewicz et al., 2003) rientra in questo ambito
lavoro è stato scelto un approccio diverso. Ecco il termine errato del Falconer e di Mackay
modello da un lato da una distribuzione normale e dall'altro da una distribuzione logaritmica
Distribuzione normale simulata. Ciò consente il gene principale e l'effetto familiare nel suo originale
forma, mentre il fenotipo risultante ha una forte curvatura e rigonfiamento
ha. Poiché i modelli differiscono solo nella forma di distribuzione del termine di errore,
è anche possibile effettuare un confronto diretto di potenza all'interno delle procedure tra queste
entrambi i modelli e quindi una dichiarazione sulla robustezza del potere dei metodi
da soddisfare come richiesto nella sezione Impostazione degli obiettivi (p. 5).
b) La maggior parte degli studi di simulazione utilizza 10.000 simulazioni sotto l'ipotesi nulla to
per stimare l'errore empirico di tipo I. Con un errore nominale di tipo I di 0,05 allora il
Intervallo di confidenza al 95% dell'errore empirico di tipo I circa 0,01. L'intervallo di confidenza
aumenta bruscamente per errori nominali di tipo I inferiori. Pertanto, a un valore nominale inferiore
Gli errori di tipo I hanno solo un leggero effetto sull'errore empirico di tipo I
sicurezza sono valutati. Negli studi sull'intero genoma, tuttavia, a causa del test multiplo
problemi a scegliere errori di tipo I di 0,001 e inferiori come criterio di significatività e quindi
di particolare interesse. Pertanto, qui sono state eseguite 100.000 simulazioni sotto l'ipotesi nulla per
ogni scenario scelto - un numero più alto sarebbe con i computer attuali per il tutto
La portata dello studio era praticamente imprevedibile nel prossimo futuro.
Per questo lavoro sono stati scelti otto metodi descritti in letteratura, che sono attualmente comuni
utilizzato per mappare i caratteri quantitativi nelle famiglie nucleari. L'uso frequente
discussione
52
Il motivo per cui vengono utilizzati i metodi è, tra l'altro, che questi metodi sono disponibili in pacchetti software disponibili gratuitamente
vengono implementati. Questi metodi sono quindi comuni nella letteratura e nelle revisioni
menzionato.
5.2 Pacchetto software Sibsim
Con il pacchetto software Sibsim è disponibile lo strumento richiesto, che
Simulazione di fenotipi quantitativi e genotipi in modo molto flessibile
consente come vengono utilizzati per determinare le proprietà di qualità dei metodi di analisi di accoppiamento
e per convalidare le implementazioni di nuovi metodi di mappatura nei pacchetti software
sono necessari (Franke et al., 2006). Rilasciato con licenza open source GPL
consente l'uso gratuito e l'ulteriore sviluppo da parte di chiunque.
Nella convalida esterna, tutti i parametri di simulazione per lo specifico previsto
Utilizzo testato e documentato. Dal momento che non ci sono indicazioni di errori o altri cospicui
proprietà, è quindi lecito concludere che le simulazioni nell'ambito di questo
lavoro corrispondono ai parametri di simulazione richiesti.
Tuttavia, l'applicazione di Sibsim non è limitata a questa applicazione. Oltre e oltre
Sibsim può anche aiutare con altri problemi come la determinazione dei valori p empirici
utilizzato per analizzare set di dati reali. Come parte di un'analisi di accoppiamento dell'intero genoma
lysis per la malaria lieve, Sibsim è stato utilizzato dai colleghi e dall'autore per
permutazioni necessarie per determinare i valori p empirici dell'accoppiamento
simulare metodi analitici (Timmann et al., 2007). A tale scopo, 100.000 volte a
marcatore genetico con un valore informativo comparabile ma la stessa struttura familiare
, ciascuno collegato ai fenotipi originali e basato su queste simulazioni
valori p empirici determinati (per i dettagli vedere la Sezione 4).
5.3 Confronto qualitativo dei metodi di analisi dell'accoppiamento
Poiché i risultati di questo lavoro sono solo generalizzati per le condizioni del modello di questo studio
possibile, le condizioni del modello erano quelle già descritte all'inizio di questo capitolo
scelto il più realisticamente possibile. Tuttavia, solo un'altra scelta di deviazioni da potrebbe
della distribuzione normale hanno un'influenza significativa sui risultati. diventare sotto
vengono ora discusse le determinate proprietà di qualità dei singoli metodi.
La potenza relativamente bassa del processo HASEMAN-ELSTON, soprattutto rispetto a
MERLIN-REGRESS e soprattutto in selezionati campioni casuali in connessione con il forte
L'influenza in violazione dei presupposti della distribuzione normale sull'errore di tipo I lo fa bene
inutile continuare a utilizzare questo metodo.
discussione
53
Il metodo REVISED HASEMAN-ELSTON mostra un errore di Tipo I corretto con indipendente
fratelli genici con una leggera tendenza, violando la normale distribuzione
ritenuto conservativo. Sfortunatamente, l'errore di tipo I è nei fratelli dipendenti
chiaramente troppo liberale. Un altro problema è la bassa potenza in condizioni di distribuzione normale
rispetto a MERLIN REGRESS. Una raccomandazione generale senza riserve per l'uso
del metodo REVISED HASEMAN-ELSTON può quindi essere derivato dai risultati di questo
non ricavare lavoro.
MERLIN-QTL con la statistica del test Whittemore e Halpern ha generalmente mostrato un netto aumento
errore conservativo di tipo I. Kong e Cox (1997) ne danno una possibile spiegazione
per la statistica del test di Whittemore e Halpern, un marcatore genetico non perfettamente informativo in
può risultare in un errore di tipo I eccessivamente conservativo. La statistica test di Whittemore e Halpern
approccio non dovrebbe quindi essere utilizzato. Le altre due procedure di condivisione degli alleli
MERLIN-QTL con la statistica del test di Kong e Cox e il BINOMIALE DI MASSIMA PROBABILITÀ
Le procedure hanno mostrato un errore di tipo I corretto e robusto tra tutti i modelli, ma il Power
è in violazione con eccezioni per i disegni di studio in singola e doppia selezione
delle ipotesi di distribuzione normale basse.
Lo stesso vale per il WILCOXON RANK SUM TEST. Tuttavia, il potere qui sembra migliore di
essere nel processo di condivisione degli alleli. La potenza notevolmente superiore del modello additivo
in violazione delle normali ipotesi di distribuzione e selezione casuale rispetto a
modello dominante e recessivo possono essere determinati scegliendo la funzione di centraggio IBD nel
Vengono spiegate le statistiche dei test utilizzate da Genehunter. Kruglyak e Lander
raccomandare la centratura utilizzata da Genehunter specificamente per i modelli genetici additivi
(Kruglyak und Lander, 1995a; Kruglyak und Lander, 1995b).
La potenza del metodo di condivisione degli alleli e del WILCOXON RANK SUM TEST è diminuita
Violazione delle normali ipotesi di distribuzione rispetto alle stesse simulazioni in condizioni normali
ipotesi di distribuzione. Con poche eccezioni, questo effetto era esattamente l'opposto per tutti gli altri
procedure indagate. La ragione di ciò potrebbe essere l'alto terzo momento della distribuzione del fenotipo
sviluppo in violazione delle ipotesi di distribuzione normale. La distribuzione del fenotipo in ciascuna delle
anche tre genotipi del QTL biallelico sono distorti a destra ma con gli stessi
Valori attesi come nelle normali ipotesi di distribuzione (vedi capitolo 3, sezione 1.1, p. 18f).
I metodi di condivisione degli alleli e WILCOXON RANK SUM TEST sembrano così migliori
poter usare.
In sintesi, tuttavia, si può dire che a causa della bassa potenza in condizioni normali
ipotesi, l'uso del metodo di condivisione degli alleli e il WILCOXON
RANK SUM TEST è consigliato solo in determinate circostanze. Negli studi speciali
discussione
54
disegni, ad esempio se il fenotipo è distribuito in modo ordinale, questi metodi – in particolare il
WILCOXON RANK SUM TEST - ma sii il metodo di scelta.
Il problema dell'utilizzo del metodo MODEL-BASED completamente parametrizzato è
citato più volte in questo lavoro. Pertanto non verrà ripetuto qui
discusso (vedi capitolo 2, sezione 8, p. 17). Tuttavia, a questo punto va detto che
che l'errore conservativo di tipo I era già stato descritto da Rao e colleghi (1978) per un gran numero di
studi empirici confrontando gli errori osservati con quelli nominali di tipo I
divenne.
I risultati dei MODELLI A COMPONENTI DELLA VARIANZA lo mostrano anche in condizioni di distribuzione normale
ipotesi e, con una dimensione del campione realistica, un tipo I sostanzialmente aumentato
risultati di errore. Due ragioni possono spiegare questo risultato inaspettato: Ferreira ha insistito
ha sottolineato che la matrice di varianza-covarianza da stimare contiene sei parametri (Ferreira,
2004). Tuttavia, quando questa procedura viene applicata alle famiglie nucleari, questi parametri lo sono
sottoidentificato. Ulteriori vincoli sono necessari per stimare questi parametri
Potere. Inoltre, gli errori standard di queste varianze sono momenti del quarto ordine. È
È noto che le statistiche basate sui momenti del quarto ordine sono relativamente piccole
Le dimensioni dei campioni tipiche degli studi reali sono instabili (vedi ad esempio Bentler e
Dudgeon, 1996).
In letteratura sono fornite alcune raccomandazioni per aumentare la robustezza dell'errore di tipo I
migliorare. Una raccomandazione comune è, per esempio, il fenotipo nella speranza che sia poi multi-
variata normalmente distribuita, utilizzando una funzione per trasformarla in modo che sembri essere una
segue la distribuzione normale. Sfortunatamente, da un lato, non vi è alcuna garanzia che tale funzione funzioni effettivamente
esiste. D'altra parte, l'apparente distribuzione normale del fenotipo non può essere utilizzata
concludere che il fenotipo segue realmente una distribuzione normale multivariata. Come esempio per il
Abbiamo solo bisogno dei fenotipi in violazione dei presupposti della distribuzione normale
considera come sono stati usati in questo lavoro. Non c'è alcuna funzione con
quali questi fenotipi possono essere trasformati in una distribuzione normale multivariata.
La seconda raccomandazione ripetutamente data è l'uso di stimatori robusti (Blangero
et al., 2000). Tuttavia, questo può portare a una riduzione della potenza. Come terza possibilità
soprattutto per l'uso su campioni selezionati, la probabilità di selezione
fattori nel calcolo della verosimiglianza. Ma questo può anche portare a a
riduzione di potenza e porterebbe al problema del sostanziale aumento dell'errore di tipo I
non può essere risolto sotto ipotesi di distribuzione normale e con una dimensione del campione realistica.
Se, come suggerito da alcuni altri autori (Sham et al., 2002; Yu et al., 2004) e i risultati
supportati anche in questo lavoro, i VARIANCE COMPONENT MODELS e MERLIN-REGRESS
mostrare potere simile, allora, per i motivi sopra esposti, non è più necessario
discussione
55
continuare a utilizzare i MODELLI A COMPONENTI DI VARIAZIONE. Rispetto al
VARIANCE COMPONENT MODELS, MERLIN-REGRESS mostra errori di tipo I molto robusti. Questo
inoltre non sono influenzati da campioni casuali selezionati. Inoltre, sotto
dimostrato in questo lavoro che l'errore di tipo I non è dovuto a un'errata specificazione di un parametro
essere colpiti. Ciò vale anche per la situazione più complessa di un campione casuale selezionato
Combinazione con una violazione delle normali ipotesi di distribuzione. Solo quello leggermente liberale
Errore di tipo I nella situazione del fratello dipendente - come mostrato in questo lavoro
è stato – è uno svantaggio.
Dalla potenza generalmente elevata e robusta combinata con il robusto errore di tipo I
una raccomandazione generale per utilizzare questo metodo per la mappatura quantitativa
tratti ativi in famiglie nucleari con fratelli indipendenti. Solo il
errori di tipo I leggermente aumentati nella situazione dei fratelli a carico più realistica
La dimensione è un leggero svantaggio. Una raccomandazione generale di applicazione alle famiglie nucleari con
fratelli a carico di qualsiasi dimensione, nonché alberi genealogici estesi
tuttavia, non può essere derivato. Ad esempio, Huang e colleghi (2007) sull'analisi genetica
Workshop 15 un errore di tipo I chiaramente liberale nell'applicare la procedura a
Terte alberi genealogici identificati.
Feingold (2002, p. 220) arriva in una recensione basata su Sham e colleghi in
proprietà mostrate nella pubblicazione originale alla conclusione che MERLIN-REGRESS
presenta molte delle proprietà desiderate ("Sham et al. forniscono ampi risultati di simulazione,
il che suggerisce che il metodo ha davvero molte delle proprietà che vorremmo.“). Morire
I risultati di questo lavoro supportano questa affermazione fino alla restrizione del tipo liberale I
errore nella situazione dei fratelli a carico solo supporto.
5.4 Analisi del set di dati COAG Perth
I risultati dell'analisi corrispondono essenzialmente ai risultati del potere
confrontare i diversi metodi sotto selezione casuale come descritto nel capitolo 4, sezione
4 sono stati presentati. Mentre VARIANCE COMPONENT MODELS e MERLIN-REGRESS
che mostrano i valori p più bassi sono i valori p del metodo HASEMAN-ELSTON e il
Metodi di condivisione allelica molto elevati rispetto agli altri.
Un secondo punto importante può essere visto nell'analisi del set di dati COAG Perth.
Valori p corretti per titolo IgE specifico per età, sesso e antigene
i titoli di IgE logaritmici sono inferiori rispetto al titolo di IgE logaritmico non corretto. Sotto
assumendo che la regione genetica esaminata sia realmente legata al QTL
la correzione del fenotipo - ad esempio tramite opportuni modelli di regressione - il p-value della genetica
discussione
56
analisi di mappatura cal, poiché aumenta la componente di varianza dell'effetto genetico
diventa. Anche per i già citati studi sull'oncocercosi umana e lieve
Prima dell'uso, i fenotipi sono stati testati rispetto alle covariate con malaria statisticamente significativa
influenza tem (Timmann et al., 2007; Timmann et al., 2008).
A questo punto dovrebbe essere affrontato un terzo punto importante, vale a dire la determinazione dei valori p empirici
località da citare. Quando si analizzano i set di dati, è sempre consigliabile utilizzare p-
Trovare e utilizzare i valori. Nei pacchetti software Merlin e S.A.G.E.
queste opzioni sono già implementate. In linea di principio, questi metodi sono tutti basati su
stessa idea: per permutazione di una variabile, l'accoppiamento del fenotipo e del genotipo
rialzato. Quindi la statistica del test viene calcolata con questo set di dati permutato. Questo
viene quindi ripetuto ad esempio 100.000 volte e quindi risulta nella distribuzione empirica della statistica del test
sotto l'ipotesi nulla, che a sua volta viene quindi utilizzata per determinare il valore p empirico
(vedi ad esempio anche Ziegler e König, 2010, capitolo 9).
LEGGENDA. permuta i fenotipi tra famiglie della stessa dimensione nel loro insieme. Questo
procedura è preferibile alla permutazione dei fenotipi all'interno della famiglia a causa del possibile
Le correlazioni residue tra fratelli sono conservate. Merlino va in un modo diverso
e permuta direttamente i vettori di ereditarietà IBD stimati. Una terza via con il software
pacchetto Sibsim, che non richiede alcun intervento nel codice sorgente del software, è già nel
precedentemente descritto nella sezione precedente e può quindi in linea di principio essere applicato a tutti
IL.
5.5 Prospettiva
Gli studi di associazione sull'intero genoma sono attualmente al centro dell'interesse. Comunque rimani
Analisi di accoppiamento, come recensite da Darpoux ed Elston (2007),
uno strumento importante per la mappatura genetica dei tratti.
Poiché una serie di importanti malattie e caratteristiche mostrano un'espressione quantitativa e
può quindi generalmente essere descritto più precisamente da una definizione quantitativa della caratteristica
la mappatura genetica dei caratteri quantitativi continuerà ad essere importante in futuro
svolgere un ruolo nell'epidemiologia genetica. I risultati di questo lavoro aiutano a
Scelta della procedura e disegno dello studio. Inoltre è disponibile il software Sibsim
strumento universale e flessibile disponibile per controllare le proprietà di qualità di
per confrontare i processi in una varietà di condizioni diverse e con corrispondenti
corrispondenti aggiustamenti nel codice sorgente per lavorare anche su altri problemi.
Per poter effettuare questo confronto qualitativo, è stato necessario analizzare gli scenari
limitare. Pertanto, effetti come l'eterogeneità genetica,
discussione
57
L'imprinting genomico, le interazioni gene-ambiente o gli errori nei dati non sono stati esaminati.
Tuttavia, il software di simulazione Sibsim si apre anche a questo con gli opportuni adattamenti
nel codice sorgente una possibilità efficiente per studi corrispondenti in futuro.
Infine, va discussa ancora l'analisi dello studio COAG Perth: In
il set di dati ha esaminato solo due marcatori genetici in una regione candidata. A
corrispondenti studi sull'intero genoma, in particolare quando si utilizzano array SNP
diverse 100.000 SNP, la necessità di supporto bioinformatico assume grandi proporzioni.
Ciò esemplifica la crescente necessità di cooperazione interdisciplinare
lavoro di esperti di varie discipline come informatica, statistica, genetica, medicina e
Biochimica soprattutto nell'area di ricerca dell'epidemiologia genetica.
Riepilogo
58
6 Sommario
In pratica, per chiarire malattie genetiche complesse, sempre più accoppiate
metodi analitici per fenotipi quantitativi utilizzando famiglie nucleari con due
o più fratelli usati. Negli ultimi anni è stato sviluppato un gran numero di nuovi metodi per
sviluppato queste domande, ma è ancora in gran parte poco chiaro come la qualità di questi
Il metodo si comporta in confronto diretto tra loro. Pertanto, nel contesto di questo lavoro,
uno studio di simulazione Monte Carlo, le proprietà di qualità di un totale di otto in pratica
metodi comunemente usati sotto diversi modelli e disegni di studio. Questo
Le procedure erano tre studi sotto tre modelli genetici (dominante, additivo, recessivo)
disegni (senza selezione, con selezione singola e doppia selezione) e due
Strutture familiari (famiglie nucleari con una coppia di fratelli e famiglie nucleari con uno
numero variabile da due a cinque fratelli). Inoltre, l'effetto è stato
Deviazione dalla distribuzione normale esaminata.
In una prima fase, il software di simulazione è stato creato e convalidato esternamente
(Sibsim), che è stato utilizzato per simulare i set di dati per i 36 scenari. Per i robusti
Sono state quindi eseguite 100.000 simulazioni sotto l'ipotesi nulla per ogni scenario
(nessun accoppiamento) e per il confronto di potenza 1.000 simulazioni sotto l'ipotesi alternativa
(accoppiamento completo) creato. Il confronto della robustezza è stato effettuato confrontando il
Deviazioni tra le proporzioni di errore di tipo I determinate empiricamente e il tipo nominale
I bug eseguiti a diversi livelli di test. L'elevato numero di simulazioni sotto il
L'ipotesi nulla ne abilita quindi un'ipotesi empirica sulla base di valori limite determinati empiricamente
Confronto di potenza sotto l'ipotesi alternativa.
L'applicazione dei vari metodi utilizzati in questo lavoro è stata quindi
illustrato nel Consortium on Asthma Genetics: Perth study dataset (Palmer et al., 1998;
Palmer et al., 2001), con particolare enfasi sull'illustrazione dell'approccio pratico
fu posta.
Nell'ambito di questo lavoro, sono state determinate per la prima volta le caratteristiche di qualità per un numero così elevato
di accoppiare metodi analitici per mappare caratteristiche quantitative tra una moltitudine
diversi presupposti realistici e disegni di studio determinati in un confronto diretto,
confrontati e discussi in dettaglio. I risultati di questo lavoro possono essere utilizzati come fonte preziosa
la selezione della procedura e il disegno dello studio per la mappatura degli studi quantitativi
servire la vernice. Inoltre, il software Sibsim è uno strumento universale e flessibile
a disposizione anche in futuro le caratteristiche di qualità delle procedure sotto una varietà
di diverse condizioni e con opportuni aggiustamenti nella sorgente
codice per lavorare anche su altri problemi.
Programmi per computer e bibliografia
59
7 pacchetti software e bibliografia
7.1 Pacchetti software
Il seguente elenco contiene i pacchetti software utilizzati in questo lavoro. specificato
se disponibile, l'anno di pubblicazione della versione utilizzata compreso il numero di versione,
Citazione della pubblicazione associata e della fonte su Internet (data dell'ultimo accesso:
01.06.2009).
La maggior parte dei programmi qui elencati sono già presenti al momento della pubblicazione di questo lavoro
versioni più recenti disponibili.
Abi2Link (2003) Versione 1.0
http://www.imbs-luebeck.de/imbs/de/software
Genehunter (2003) Versione 2.1_r4
(Kruglyak et al., 1996)
http://www.broadinstitute.org/ftp/distribution/software/genehunter/
Collegamento (1995) Versione 5.1
(Lathrop et al., 1984)
ftp://linkage.rockefeller.edu/software/linkage
Mega2 (2003) Un ambiente di manipolazione per analisi genetiche, versione 2.5
(Mukhopadhyay et al., 2005)
http://watson.hgen.pitt.edu/mega2.html
Merlin (2004) Analisi rapida di mappe genetiche dense utilizzando alberi di flusso genico sparsi,
Versione 0.10.2
(Abecasis et al., 2002; Sham et al., 2002)
http://www.sph.umich.edu/csg/abecasis/Merlin/download/
Mlbgh (1998) Binomiale di massima verosimiglianza GENEHUNTER, Versione 1.0
(Abel e Müller-Myhsok, 1998; Alcaïs e Abel, 1999)
http://genamics.com/software/downloads/mlbgh-1.0.tar.Z
Programmi per computer e bibliografia
60
Pedcheck (1998), versione 1.00
(O'Connell und Weeks, 1998)
http://watson.hgen.pitt.edu/register/soft_doc.html
R (2005) Ambiente software libero per calcolo statistico e grafica, versione 2.1.0
http://www.R-project.org
SAGGIO. (2003) Analisi statistica per l'epidemiologia genetica, versione 4.3
http://darwin.cwru.edu/sage/
Sibsim (2003) Versione 1.02
(Franke et al., 2006)
http://www.imbs-luebeck.de/imbs/de/software
Solar (2003) Sequential Oligogenic Linkage Analysis Routines, Versione 1.7.4
(Almasy e Blangero, 1998)
http://solar.sfbrgenetics.org/download.html
Programmi per computer e bibliografia
61
7.2 Bibliografia
Abecasis GR, Cherny SS, Cookson WO, Cardon LR (2002): Merlin-rapid analysis of dense genetic
mappe che utilizzano alberi di flusso genico sparsi. Nat Genet 30:97-101
Abel L, Alcaïs A, Mallet A (1998): Confronto di quattro metodi di collegamento di coppie di fratelli e sorelle per l'analisi
fratrie con più di due affetti: interesse del binomio di massima verosimiglianza
approccio. Genet Epidemiol 15:371-390
Abel L, Müller-Myhsok B (1998): Robustezza e potenza del binomio di massima verosimiglianza e
metodi di punteggio di massima verosimiglianza, nell'analisi di collegamento multipunto della fratria affetta
dati. Am J Hum Genet 63:638-647
Alcaïs A, Abel L (1999): metodo binomiale di massima verosimiglianza per il collegamento genetico senza modello
analisi dei caratteri quantitativi nelle fratrie. Genet Epidemiol 17:102-117
Allison DB, Fernández JR, Heo M, Beasley TM (2000): Testare la robustezza del nuovo
Procedura di mappatura dei loci dei tratti quantitativi di Haseman-Elston. Am J Hum Genet 67:249-252
Allison DB, Neale MC, Zannolli R, Schork NJ, Amos CI, Blangero J (1999): Testing the
robustezza del test del rapporto di verosimiglianza in un loci di tratto quantitativo componente di varianza
procedura di mappatura. Am J Hum Genet 65:531-544
Almasy L, Blangero J (1998): analisi del collegamento multipunto quantitativo-tratto nei pedigree generali.
Am J Hum Genet 62:1198-1211.
Amos CI (1994): Robusto approccio a componenti di varianza per valutare il legame genetico nei pedigree.
Am J Hum Genet 54:535-543
Amos CI, Elston RC (1989): Metodi robusti per la rilevazione del collegamento genetico per quantitativi
dati dai pedigree. Genet Epidemiol 6:349-360
Amos CI, Elston RC, Bonney GE, Keats BJ, Berenson GS (1990): Un metodo multivariato per
rilevamento del collegamento genetico, con applicazione a un pedigree con una lipoproteina avversa
fenotipo. Am J Hum Genet 47:247-254
Amos CI, Zhu DK, Boerwinkle E (1996): Valutazione del legame genetico e associazione con robusto
componenti degli approcci della varianza. Ann Hum Genet 60 (Pt 2):143-160
Bentler PM, Dudgeon P (1996): Analisi della struttura della covarianza: pratica statistica, teoria e
indicazioni. Annu Rev Psychol 47:563-592
Blackwelder WC, Elston RC (1985): un confronto tra i test di collegamento tra fratelli e sorelle per la malattia
loci di suscettibilità. Genet Epidemiol 2:85-97
Blangero J (2004): Localizzazione e identificazione dei loci dei tratti quantitativi umani: il raccolto del re ha
sicuramente vieni. Curr Opin Genet Dev 14:233-240
Blangero J, Williams JT, Almasy L (2000): Punteggi LOD robusti per la varianza basata su componenti
analisi di collegamento. Genet Epidemiol 19 Suppl 1:S8-14
Programmi per computer e bibliografia
62
Blangero J, Williams JT, Almasy L (2001): Metodi dei componenti della varianza per il rilevamento di complessi
tratto loci. Adv Genet 42:151-181.
Carey G, Williamson J (1991): Analisi di collegamento dei tratti quantitativi: aumento della potenza mediante l'utilizzo
campioni selezionati. Am J Hum Genet 49:786-796.
Clerget-Darpoux F, Elston RC (2007): L'analisi di collegamento e la raccolta di dati familiari sono morte?
Prospettive per gli studi familiari nell'era dell'associazione genome-wide. Hum Hered 64:91-96
Commenges D (1994): Robusta analisi del legame genetico basata su un test di punteggio di omogeneità: the
statistica di correlazione ponderata a coppie. Genet Epidemiol 11:189-200
Cuenco KT, Szatkiewicz JP, Feingold E (2003): Recenti progressi nel locus dei tratti quantitativi umani
mappatura: confronto di metodi per coppie di fratelli selezionati. Am J Hum Genet 73:863-873
Dempster AP, Laird NM, Rubin DB (1977): Massima verosimiglianza da dati incompleti tramite EM
algoritmo (con discussione). JRSS B 39:1-38
Dina C, Nemanov L, Gritsenko I, Rosolio N, Osher Y, Heresco-Levy U, Sariashvilli E, Bachner-
Melman R, Zohar AH, Benjamin J, Belmaker RH, Ebstein RP (2005): mappatura fine di un
regione sul cromosoma 8p fornisce la prova di un QTL che contribuisce alle differenze individuali
in un tratto di personalità correlato all'ansia: evitamento del danno TPQ. Am J Med Genet B
Neuropsichiatria Genet 132:104-108
Dolan CV, Boomsma DI (1998): selezione ottimale di coppie di fratelli e sorelle da campioni casuali per il collegamento
analisi di un QTL mediante il test EDAC. Behav Genet 28:197-206
Drigalenko E (1998): Come le coppie di fratelli e sorelle rivelano il collegamento. Am J Hum Genet 63:1242-1245
Duggirala R, Williams JT, Williams-Blangero S, Blangero J (1997): Una componente di varianza
approccio all'analisi del collegamento di tratto dicotomico utilizzando un modello di soglia. Genet Epidemiolo
14:987-992
Elston RC (1998): Collegamento e associazione. Genet Epidemiol 15:565-576
Elston RC, Buxbaum S, Jacobs KB, Olson JM (2000): Haseman ed Elston rivisitati. Genet
Epidemia 19:1-17
Falconer DS, Mackay TFC (1996): Introduzione alla genetica quantitativa. 4. Auflage, Longman,
Essex, Inghilterra
Feingold E (2002): Mappatura del locus dei tratti quantitativi basata sulla regressione nel 21° secolo. Sono J
Hum Genet 71:217-222.
Ferreira MA (2004): Analisi di linkage: principi e metodi per l'analisi dell'essere umano
tratti quantitativi. Doppia Ris 7:513-530
Fisher RA (1918): La correlazione tra parenti sulla supposizione di eredità mendeliana.
Trans Roy Soc 52:399-433
Forrest WF (2001): La ponderazione migliora il metodo "nuovo Haseman-Elston". Hum Hered 52:47-54
Programmi per computer e bibliografia
63
Franke D, Kleensang A, Ziegler A (2006): SIBSIM - simulazione quantitativa del fenotipo in esteso
pedigree. GMS Med Inform Biom Epidemiol 2:Doc4
Fulker DW, Cardon LR, DeFries JC, Kimberling WJ, Pennington BF, Smith SD (1991): Multiplo
analisi di regressione dei dati della coppia di fratelli e sorelle sulla lettura per rilevare i loci dei tratti quantitativi. Leggi Scrivi
Interdisciplinare G 3:299-313
Fulker DW, Cherny SS (1996): Un'analisi migliorata della coppia di fratelli multipunto dei tratti quantitativi.
Behav Genet 26:527-532
Gillham NW (2001): Evoluzione per salti: Francis Galton e William Bateson e il meccanismo
del cambiamento evolutivo. Genetica 159:1383-1392
Goate A , Chartier-Harlin MC , Mullan M , Brown J , Crawford F , Fidani L , Giuffra L , Haynes A ,
Irving N, James L, Mant R, Newton P, Rooke K, Roques P, Talbot C, Pericak-Vance M,
Roses A, Williamson R, Rossor M, Owen M, Hardy J (1991): Segregazione di un missenso
mutazione nel gene della proteina precursore dell'amiloide con malattia di Alzheimer familiare. Natura
349:704-706
Gu C, Todorov A, Rao DC (1996): Combinare coppie di fratelli estremamente concordanti con estremamente
discordant sibpairs fornisce un modo conveniente per collegare l'analisi del tratto quantitativo
loci. Genet Epidemiol 13:513-533
Haseman JK, Elston RC (1972): L'indagine sul collegamento tra un tratto quantitativo e a
luogo marcatore. Comporta Genet 2:3-19
Huang S, Ballard D, Zhao H (2007): Il ruolo dell'ereditarietà nella mappatura dell'espressione quantitativa
tratto loci. BMC Proc 1 Suppl 1:S86
Knoblauch H, Müller-Myhsok B, Busjahn A, Ben Avi L, Bähring S, Baron H, Heath SC, Uhlmann
R, Faulhaber HD, Shpitzen S, Aydin A, Reshef A, Rosenthal M, Eliav O, Mühl A, Lowe
LA, Schurr RE, Harats RE, Jeschke E, Friedlander Y, Schuster H, Luft FC, Leitersdorf E
(2000): Un gene che abbassa il colesterolo si mappa sul cromosoma 13q. Am J Hum Genet 66:157-
166
Kong A, Cox NJ (1997): Modelli di condivisione degli alleli: punteggi LOD e test di collegamento accurati. Sono J Hum
Genet 61:1179-1188
Korstanje R, Paigen B (2002): Dal QTL al gene: inizia la raccolta. Nat Genet 31:235-236
Kruglyak L, Daly MJ, Reeve-Daly MP, Lander ES (1996): collegamento parametrico e non parametrico
analisi: un approccio multipunto unificato. Am J Hum Genet 58:1347-1363.
Kruglyak L, Lander ES (1995a): Analisi completa multipunto della coppia di fratelli e sorelle di qualitativa e
tratti quantitativi. Am J Hum Genet 57:439-454.
Kruglyak L, Lander ES (1995b): Un approccio non parametrico per mappare i loci dei tratti quantitativi.
Genetica 139:1421-1428.
Programmi per computer e bibliografia
64
Lathrop GM, Lalouel JM, Julier C, Ott J (1984): Strategie per l'analisi del collegamento multilocus in
umani. Proc Natl Acad Sci U S A 81:3443-3446
Mukhopadhyay N, Almasy L, Schroeder M, Mulvihill WP, Weeks DE (2005): Mega2: dati-
manipolazione per facilitare il legame genetico e le analisi di associazione. Bioinformatica 21:2556-
2557
O'Connell JR, Weeks DE (1998): PedCheck: un programma per l'identificazione del genotipo
incompatibilità nell'analisi di linkage. Am J Hum Genet 63:259-266
Palmer LJ, Cookson WO, Deichmann KA, Holloway JW, Laitinen T (2001): collegamento a regione singola
analisi dell'asma: descrizione dei set di dati. Genet Epidemiol 21 Supplemento 1:S9-15
Palmer LJ, Daniels SE, Rye PJ, Gibson NA, Tay GK, Cookson WO, Goldblatt J, Burton PR,
LeSouef PN (1998): Collegamento dei marcatori genici del cromosoma 5q e 11q all'asma-
tratti quantitativi associati nei bambini australiani. Am J Respir Crit Care Med 158:1825-
1830
Palmer LJ, Jacobs KB, Elston RC (2000): Haseman ed Elston rivisitati: gli effetti di
accertamento e correlazioni familiari residue sul potere di rilevare il collegamento. Genet
Epidemiolo 19:456-460
Perola M, Sammalisto S, Hiekkalinna T, Martin NG, Visscher PM, Montgomery GW, Benyamin
B, Harris JR, Boomsma D, Willemsen G, Hottenga JJ, Christensen K, Kyvik KO, Sorensen
TI, Pedersen NL, Magnusson PK, Spector TD, Widen E, Silventoinen K, Kaprio J, Palotie
A, Peltonen L (2007): Scansioni combinate del genoma per la statura corporea in 6.602 gemelli europei:
evidenza di loci caucasici comuni. PLoS Genet 3:e97
Rankinen T, Zuberi A, Chagnon YC, Weisnagel SJ, Argyropoulos G, Walts B, Perusse L,
Bouchard C (2006): La mappa del gene dell'obesità umana: l'aggiornamento del 2005. Obesità (Argento
Primavera) 14:529-644
Rao DC, Keats BJ, Morton NE, Yee S, Lew R (1978): Variabilità dei dati di collegamento umano. Sono J
Hum Genet 30:516-529
Risch N, Zhang H (1995): coppie di fratelli e sorelle estremamente discordanti per la mappatura di loci di tratti quantitativi in
umani. Scienza 268:1584-1589
Sham PC, Purcell S (2001): Equivalenza tra Haseman-Elston e componenti della varianza
analisi di linkage per coppie di fratelli e sorelle. Am J Hum Genet 68:1527-1532.
Sham PC, Purcell S, Cherny SS, Abecasis GR (2002): potente tratto quantitativo basato sulla regressione
analisi di linkage di alberi genealogici generali. Am J Hum Genet 71:238-253.
Single RM, Finch SJ (1995): Guadagno in efficienza dall'utilizzo dei minimi quadrati generalizzati in
Test di Haseman-Elston. Genet Epidemiol 12:889-894
Speer MC, Terwilliger JD, Ott J (1995): Simulazione dei dati per i problemi GAW9 1 e 2. Genet
Epidemiolo 12:561-564
Programmi per computer e bibliografia
65
Streeten EA, McBride DJ, Pollin TI, Ryan K, Shapiro J, Ott S, Mitchell BD, Shuldiner AR,
O'Connell JR (2006): Loci tratto quantitativo per BMD identificato dal collegamento a livello di autosoma
scansione ai cromosomi 7q e 21q negli uomini dall'Amish Family Osteoporosis Study. J
Minatore di ossa Res 21: 1433-1442
Szatkiewicz JP, K TC, Feingold E (2003): Recenti progressi nel locus dei tratti quantitativi umani
mappatura: confronto di metodi per coppie di fratelli discordanti. Am J Hum Genet 73:874-
885
Terwilliger JD, Goring HH (2000): Mappatura genica nel XX e XXI secolo: statistica
metodi, analisi dei dati e progettazione sperimentale. Hum Biol 72:63-132
Terwilliger JD, Ott J (1994): Manuale di collegamento genetico umano. Stampa della Johns Hopkins University,
Baltimore, USA
Timmann C, Evans JA, König IR, Kleensang A, Rüschendorf F, Lenzen J, Sievertsen J, Becker C,
Enuameh Y, Kwakye KO, Opoku E, Browne EN, Ziegler A, Norimberga P, Horstmann RD
(2007): analisi di collegamento dell'intero genoma dell'intensità dell'infezione da malaria e della malattia lieve.
PLoS Genet 3:e48
Timmann C, van der Kamp E, Kleensang A, König IR, Thye T, Büttner DW, Hamelmann C, Marfo
Y, Vens M, Brattig N, Ziegler A, Horstmann RD (2008): Resistenza genetica umana a
Onchocerca volvulus: evidenza di collegamento al cromosoma 2p da un autosoma esteso
scansione. J Infettare Dis 198:427-433
Whittemore AS, Halpern J (1994): una classe di test per il collegamento che utilizza membri del pedigree affetti.
Biometria 50:118-127
Williams JT, Blangero J (1999): Confronto tra componenti della varianza e approcci basati su sibpair
all'analisi quantitativa del legame dei tratti in campioni non selezionati. Genet Epidemiol 16:113-134
Wright FA (1997): la differenza fenotipica scarta le informazioni sul collegamento QTL della coppia sib. Sono J
Hum Genet 60:740-742
Yu X, Knott SA, Visscher PM (2004): Potere teorico ed empirico di regressione e
metodi di massima verosimiglianza per mappare i loci dei tratti quantitativi nei pedigree generali. Sono J
Hum Genet 75:17-26
Ziegler A (2001): Il nuovo metodo Haseman-Elston e la statistica di correlazione a coppie ponderata
sono variazioni sullo stesso tema. Giornale biometrico 43:697-702
Ziegler A, König IR (2010): Un approccio statistico all'epidemiologia genetica: concetti e
applicazioni. 2a edizione, Wiley-VCH, Weinheim
Zmuda JM, Sheu YT, Moffett SP (2006): La ricerca dei geni dell'osteoporosi umana. J
Interazione neuronale muscoloscheletrica 6:3-15
Attaccamento
66
8 allegati
8.1 Parametri di simulazione Simulazioni di validazione Sibsim
Tabella 22: Parametri di simulazione utilizzati per validare il pacchetto software Sibsim.
Simulazioni di validazione 1 2 4 5 6 7 8 Numero iniziale 62634 73615 30614 17350 97423 31065 67802Modello genetico DOM Add Rez Dom Dom Dom Dom Add Rezvarianza Genitali principali 2.0 4.0 4.0 2.0 2.0 2.0varianza effetto famiglia 0 0 0 0 0 0 .2 0.2 0.2varianza termine errore 0.2 0.2 0.2 0.5 0.5 0 0 0distribution error term NV NV NV NV log NV --- --- --- Uguale per tutte le simulazioni: frequenza dell'allele alto 0.5 numero di famiglie 600 marcatore genetico 10 alleli con frequenza 10%
8.2 Numeri casuali di partenza per simulazioni Monte Carlo
Tabella 23: Numeri casuali iniziali utilizzati per creare le simulazioni Monte Carlo con il programma Sibsim.
Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez
Ipotesi di distribuzione normale: ipotesi nulla indipendente 13092 71060 33132 80703 63003 53203 85197 59650 42067
dipendente 44133 44167 74211 66986 70009 22965 54273 58064 53890 ipotesi alternativa 16408 81953 47498 00770 41548 64933 15178 20910 95588
21199 72163 81651 88048 32466 54955 46808 57167 57515
Violazione delle normali ipotesi di distribuzione: ipotesi nulla 45799 52390 22164 63282 42579 52667 86458 69155 67788
12426 56302 06116 14631 91178 85961 48853 81636 56344Ipotesi alternativa 49323 15059 85900 50993 44488 38646 23703 46829 06683
28225 34925 68335 83867 64361 22644 49044 75470 12293
Doppia selezioneSelezione sempliceSenza selezioneFratelli
Attaccamento
67
8.3 Errori empirici di tipo I
8.3.1 Sotto ipotesi di distribuzione normale
Tabella 24: Errore empirico di tipo I [%] a un livello di errore nominale del 5% in condizioni di distribuzione normale.
Fratello Procedure Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 5.14 5.09 5.08 5.14 5.10 5.02 5.07 5.06 5.12Sage.HE 5.09 5.02 4.99 5.07 5.02 4.96 5.00 4.99 5.05rHE 4 .91 4.99 5.05 5.15 5.08 4.90 4.92 4.89 5, 01 Regresso Merlin 5.03 5.00 5.11 5.18 5.08 4.84 5.04 4.97 5.06Gh.VC 6.14 5.44 6.10 5.18 4.04 2.86 7.53 7.38 7.52Solar.VC 6.10 5.40 6.07 5.12 4.0 5 2,84 7,52 7,35 7,47Npar 5,07 4,94 5,03 4,97 5,06 4,99 4,91 5,02 5,00Merlin.K&C 4,62 4,56 4,45 4,51 4.57 4.42 4.41 4.37 4.52Merlin.W&H 3.65 3 .71 3.57 3.62 3.64 3.61 3.54 3.53 3.60Mlbqt.NV 5.21 5.24 5.13 5.17 5.19 5.09 4.91 4.90 5 .05Mlbqt.Cat 5.14 5.29 5.13 5.15 5.17 5.07 4.94 4.91 5.01 Collegamento 4.92 1.96 4.01 5.24 4.32 5.16 5 .14 4.89 5.24Gh.HE.Trad Dipendente 5.21 5.20 5.26 5.19 5.25 5.30 5.22 5.23 5.17Sage.HE 5.31 5.28 5, 36 5.07 5.23 5.21 5.15 5.09 5.17rHE 5.97 5.90 5.90 5.68 5.52 5.71 5.27 5.25 5.18 Regressione Merlin 5 , 47 5.45 5.40 5.30 5.40 5.51 5.27 5.25 5.24Gh.VC 5.98 5.28 5.93 5.38 4.91 5.18 5.78 5, 32 5.76Solar.VC 5.94 5.20 5.89 5.35 4. 88 5.16 5.69 5.28 5.72 Npar 5.21 5.27 5.23 5.13 5.24 5, 26 5.27 5.15 5.20 Merlin. K&C 4.53 4.64 4.52 4.45 4.63 4.60 4.47 4.56 4.51 Merlin.W&H 3.79 3.87 3.82 3.72 3.85 3.85 3.71 3.76 3.76Mlbqt.NV 5.03 5.02 4.94 4.85 4.97 5.09 4.89 4.86 4.90Mlbqt.Cat 4 .95 5.07 4.95 4.84 4.98 5.05 4.91 4.90 4.92 Collegamento 4.62 1,98 3,84 5,04 3,69 4,91 5,05 3,60 4,90
Errore empirico di tipo I sotto ipotesi di distribuzione normale Senza selezione Selezione singola Selezione doppia
Attaccamento
68
Tabella 25: Errore empirico di tipo I [%] a un livello di errore nominale dell'1% in condizioni di distribuzione normale.
Procedure di pari livello Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 0,966 0,992 0,966 1,008 1,018 0,963 1,014 1,010 1,080Sage.HE 0,963 0,967 0,948 0,991 0,985 0,940 1, 006 0.988 1.060rHE 0.990 0.998 1.009 1.024 1.044 0.932 1.021 0.989 1.018 Merlino -Regresso 0,958 0,970 0,963 1,029 1,014 0,961 0,994 1,007 0,988Gh.VC 1,430 1,145 1,417 0,675 0,393 0,170 2,073 2,032 2,167Solare.VC 1, 414 1.142 1.417 0.678 0.391 0.173 2.052 2.027 2.157Npar 1.041 0.990 1.034 0.989 0.948 0.972 0.959 0.988 0.966Merlin.K&C 0.994 0, 996 0.966 0.953 0.929 0.919 0.954 0.994 0.960Merlin.W&H 0.674 0.690 0.688 0.644 0.643 0.610 0.649 0.690 0.664Mlbqt. NV 1.065 1.134 1.056 1.058 1.063 0.956 1.018 1.086 1.033Mlbqt.Cat 1.068 1.131 1.044 1.015 1.081 0.981 1.022 1.084 1.013 Linkage 0.3 99 0,014 0,170 1,040 0,229 0,823 1,049 0,485 0,920 Dipendente da Gh.HE.Trad 1,063 1,080 1,103 1,088 1,122 1,094 1,092 1,075 1,036Sage.HE 1,212 1,119 1.286 1.174 1.131 1.167 1 .163 1.108 1.089rHE 1.662 1.531 1.452 1.356 1.342 1386 1.255 1.226 1.210 Regresso Merlin 1.323 1.256 1.247 1.215 1.248 1.260 1.214 1.195 1.156Gh.VC 1.413 1.097 1.372 1.113 0.904 0.919 1.336 1.134 1.325Solar.VC 1.375 1.057 1.345 1.105 0.895 0.911 1.293 1.111 1.306Npar 1.142 1.195 1.144 1.065 1.196 1.156 1.131 1.135 1.134 Merlin.K&C 0.954 1.022 0.938 0.930 0,995 0,979 0,930 0,999 0,908 Merlin NV 0,989 0,986 0,970 0,987 1,011 1,037 0,932 0,996 0,949Mlbqt .Cat 1,000 1,030 0,987 0,971 0,981 1,057 0,938 1,008 0,931 Collegamento 0,483 0,015 0,236 0,915 0,147 0,702 0,812 0,139 0,593
Errore empirico di tipo I sotto ipotesi di distribuzione normale Senza selezione Selezione singola Selezione doppia
Attaccamento
69
Tabella 26: Errore empirico di tipo I [%] a un livello di errore nominale dello 0,1% in condizioni di distribuzione normale.
Procedure di pari livello Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 0,087 0,103 0,101 0,101 0,094 0,090 0,117 0,097 0,110Sage.HE 0,083 0,098 0,097 0,099 0,089 0,088 0, 115 0,092 0,104rHE 0,089 0,092 0,099 0,072 0,098 0,089 0,114 0,102 0,113 Merlino -Regresso 0,071 0,087 0,088 0,101 0,088 0,090 0,102 0,110 0,107Gh.VC 0,170 0,128 0,166 0,023 0,004 0,001 0,353 0,336 0,342Solare.VC 0, 168 0,127 0,161 0,023 0,004 0,001 0,355 0,329 0,335Npar 0,088 0,107 0,106 0,103 0,089 0,099 0,113 0,096 0,119Merlin.K&C 0.095 0, 099 0.094 0.102 0.108 0.080 0.088 0.102 0.106Merlin.W&H 0.056 0.059 0.050 0.059 0.060 0.039 0.043 0.062 0.057Mlbqt. NV 0.108 0.114 0.102 0.092 0.105 0.104 0.092 0.112 0.104Mlbqt.Cat 0.105 0.114 0.106 0.095 0.107 0.109 0.092 0.106 0.092 Collegamento 0.0 02 0.000 0,000 0,056 0,002 0,011 0,069 0,001 0,036Dipendente da Gh.HE.Trad 0,116 0,135 0,124 0,126 0,121 0,150 0,123 0,119 0,109Sage.HE 0,170 0,154 0,179 0,150 0,139 0,167 0 0,148 0,144 0,120rHE 0,293 0,256 0,279 0,238 0,211 0,234 0,194 0,191 0,149 Regressione Merlin 0,177 0,140 0,170 0,169 0,166 0,161 0,165 0,149 0,146Gh.VC 0,180 0,115 0,159 0,105 0,050 0,050 0,167 0,139 0,152Solar.VC 0,165 0,103 0,161 0,102 0,050 0,049 0,167 0,131 0,146Npar 0,141 0,113 0,138 0,115 0,127 0,144 0,129 0,134 0,131 Merlin.K&C 0,103 0,101 0,106 0,079 0,100 0,101 0,099 0,115 0,089 Merlin NV 0,100 0,095 0,099 0,082 0,098 0,091 0,095 0,111 0,072Mlbqt .Cat 0,096 0,092 0,097 0,074 0,106 0,089 0,089 0,104 0,076 Collegamento 0,008 0,000 0,000 0,039 0,000 0,019 0,018 0,000 0,007
Errore empirico di tipo I sotto ipotesi di distribuzione normale Senza selezione Selezione singola Selezione doppia
Attaccamento
70
8.3.2 In violazione delle ipotesi di distribuzione normale
Tabella 27: Errore empirico di tipo I [%] a un livello di errore nominale del 5% che viola le ipotesi della distribuzione normale.
Procedure tra fratelli Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 5.00 5.16 5.07 5.01 5.07 4.99 5.19 5.13 5.07Sage.HE 4.94 5.09 5.01 4.95 5.00 4.90 4.90 5.11 5.07 5.01rHE 5 .04 4.93 4.86 4.96 5.00 4.97 5.20 4.93 4, 96 Regresso Merlin 5.00 4.98 5.01 4.97 4.85 4.94 5.18 5.02 4.98Gh.VC 14.08 13.29 12.67 3.51 2.80 1.62 12.86 12.97 11.97Solar.VC 14.07 13.30 12.65 3,48 2,79 1,60 12,79 13,00 11,94Npar 4,93 4,98 5,02 5,13 4,91 5,13 4,96 5,09 5,00Merlin.K&C 4,47 4,49 4,63 4,59 4.60 4.45 4.61 4.59 4.54Merlin.W&H 3.60 3 .63 3.68 3.65 3.73 3.56 3.69 3.72 3.62Mlbqt.NV 5.26 5.29 5.22 5.13 5.16 5.09 5.16 5.09 4 .99Mlbqt.Cat 5.13 5.22 5.12 4.99 5.12 5.03 5.08 5.07 4.99 Collegamento 5.27 2.12 4.79 5.27 4.68 5.58 5 .32 4.74 5.61 Dipendente da Gh.HE.Trad 5.17 5.15 5.27 5.29 5.21 5.33 5.21 5.17 5.20Sage.HE 4.48 4.16 4, 68 3.55 3.36 3.68 4.56 4.24 4.67rHE 6.22 6.08 6.15 5.57 5.44 5.43 5.65 5.44 5.44 Regresso Merlin 5, 53 5.51 5.54 5.50 5.40 5.50 5.53 5.46 5.47 Gh.VC 11.31 10.57 10.49 6.70 6.56 5.65 10.11 9, 78 9.44Solar.VC 11.28 10.55 10.42 6.70 6.51 5.57 10.09 9.71 9.43Npar 5.27 5.25 5.19 5.30 5.16 5, 25 5.25 5.19 5.17 Merlin.K&C 4.49 4.50 4.49 4.52 4.52 4.49 4.57 4.56 4.63 Merlin.W&H 3.76 3.76 3.75 3.75 3.78 3.70 3.85 3.81 3.92Mlbqt.NV 5.05 5.02 5.10 4.96 5. 09 5.02 4.90 4.98 5.05Mlbqt.Cat 4 .88 4.99 4.98 4.94 5.06 4.95 4.77 4.97 5.03 Collegamento 4.80 2.02 4.49 5.15 3.86 5.44 5.15 3.41 5:13
Selezione semplice
Errore empirico di tipo I che viola i presupposti della distribuzione normale
Senza selezione Doppia selezione
Attaccamento
71
Tabella 28: Errore empirico di tipo I [%] a un livello di errore nominale dell'1% che viola le ipotesi della distribuzione normale.
Procedure di pari livello Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 0,620 0,646 0,620 0,669 0,654 0,683 0,643 0,648 0,622Sage.HE 0,672 0,716 0,688 0,735 0,721 0,709 0, 728 0,712 0,667rHE 0,971 0,879 0,895 0,914 0,915 0,907 0,971 0,920 0,946 Merlino -Regresso 0,805 0,811 0,818 0,747 0,816 0,810 0,850 0,848 0,892Gh.VC 6,260 5,749 5,163 0,365 0,256 0,100 5,486 5,685 4,880Solare.VC 6, 270 5,779 5,193 0,364 0,247 0,097 5,481 5,645 4,884Npar 0,989 0,961 0,929 0,972 0,954 1,075 0,978 0,969 0,967Merlin.K&C 0.957 1, 019 0.945 0.961 0.970 0.966 1.009 0.950 1.007Merlin.W&H 0.666 0.704 0.634 0.665 0.649 0.673 0.711 0.629 0.687Mlbqt. NV 1.044 1.053 1.082 1.077 1.008 0.986 1.037 0.967 1.055Mlbqt.Cat 1.043 1.025 1.038 1.043 0.975 1.009 1.039 0.964 1.014 Collegamento 0.5 80 0,021 0,288 1,062 0,304 1,059 1,081 0,368 0,932Dipendente da Gh.HE.Trad 0,885 0,865 0,957 0,983 0,939 0,975 0,886 0,909 0,929Sage.HE 1,108 0,955 1.137 0.732 0.682 0.781 1° .169 0.975 1.104rHE 1.860 1.700 1.724 1.410 1.319 1.327 1.451 1.328 1.351 Regresso Merlin 1.293 1.230 1.250 1.185 1.193 1.214 1.212 Solare 3.391Npar 1.106 1.179 1.116 1.208 1.142 1.218 1.132 1.080 1.118 Merlin.K&C 0.941 0.971 0.946 0.93 8 0,927 0,945 0,946 0,997 1,011 Merlin NV 0,983 0,966 1,049 0,985 0,996 0,985 1,024 0,978 1,007Mlbqt .Cat 0,971 0,969 1,019 0,961 1,021 0,972 0,984 1,003 0,997 Collegamento 0,593 0,031 0,360 0,984 0,213 0,861 0,882 0,159 0,659
Errore empirico di tipo I che viola i presupposti della distribuzione normale
Senza selezione Selezione singola Selezione doppia
Attaccamento
72
Tabella 29: Errore empirico di tipo I [%] a un livello di errore nominale dello 0,1% che viola le ipotesi della distribuzione normale.
Procedure di pari livello Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 0,030 0,028 0,050 0,029 0,043 0,041 0,040 0,047 0,031Sage.HE 0,028 0,028 0,049 0,029 0,040 0,035 0, 037 0,045 0,028rHE 0,096 0,077 0,093 0,088 0,074 0,072 0,076 0,088 0,078 Merlino -Regresso 0,061 0,053 0,058 0,067 0,049 0,059 0,058 0,074 0,064Gh.VC 2,009 1,801 1,330 0,019 0,019 0,012 1,821 2,014 1,399Solare.VC 2, 007 1,799 1,328 0,018 0,018 0,012 1,817 2,008 1,389Npar 0,107 0,094 0,104 0,081 0,099 0,089 0,081 0,088 0,103Merlin.K&C 0.098 0, 102 0.113 0.113 0.084 0.089 0.097 0.079 0.106Merlin.W&H 0.050 0.053 0.067 0.067 0.046 0.053 0.058 0.038 0.062Mlbqt. NV 0,103 0,105 0,108 0,100 0,100 0,113 0,109 0,069 0,121 Mlbqt.Cat 0,109 0,087 0,101 0,094 0,091 0,105 0,105 0,067 0,120 Collegamento 0,0 03 0.000 0,001 0,058 0,002 0,045 0,055 0,001 0,029 Dipendente da Gh.HE.Trad 0,073 0,059 0,094 0,081 0,094 0,098 0,090 0,096 0,089Sage.HE 0,199 0,163 0,195 0,087 0,106 0,102 0 0,191 0,162 0,182rHE 0,376 0,380 0,370 0,238 0,189 0,214 0,272 0,237 0,209 Regressione Merlin 0,143 0,166 0,169 0,144 0,126 0,142 0,158 0,128 0,165Gh.VC 1,430 1,187 0,991 0,171 0,144 0,104 1,254 1,242 0,946Solare.VC 1,434 1,191 0,981 0,166 0,141 0,105 1,239 1,237 0,927Npar 0,125 0,134 0,136 0,150 0,141 0,149 0,128 0,126 0,130 Merlin.K&C 0,104 0,087 0,091 0,091 0,086 0,098 0,098 0,088 0,098 Merlin NV 0,084 0,088 0,085 0,098 0,103 0,083 0,112 0,105 0,102Mlbqt .Cat 0,075 0,099 0,093 0,088 0,104 0,083 0,097 0,106 0,092 Collegamento 0,006 0,000 0,002 0,043 0,000 0,017 0,033 0,000 0,014
Selezione singola Selezione doppiaSenza selezione
Errore empirico di tipo I che viola i presupposti della distribuzione normale
Attaccamento
73
8.4 Errori empirici di tipo I e potere in caso di errata specificazione del
Parametri del modello per la regressione di Merlin
Figura 6: Effetto dell'errata specificazione del modello sull'errore empirico di tipo I e sul potere per un modello genetico dominante in (a) ipotesi di distribuzione normale e (b) violazione delle ipotesi di distribuzione normale per il metodo MERLIN-REGRESS. L'errore empirico di tipo I è stato calcolato con un errore nominale di tipo I di 0,01, mentre la potenza è stata calcolata con un errore empirico di tipo I di 0,01. Le linee continue indicano fratelli indipendenti mentre le linee tratteggiate indicano fratelli dipendenti. Vengono mostrati tre schemi di selezione: selezione casuale, selezione singola, selezione doppia. Il vero modello basato sulla popolazione viene tracciato con le linee tratteggiate verticali.
Attaccamento
74
Figura 7: Effetto dell'errata specificazione del modello sull'errore empirico di tipo I e sulla potenza per un modello genetico additivo in (a) ipotesi di distribuzione normale e (b) violazione delle ipotesi di distribuzione normale per il metodo MERLIN-REGRESS. L'errore empirico di tipo I è stato calcolato con un errore nominale di tipo I di 0,01, mentre la potenza è stata calcolata con un errore empirico di tipo I di 0,01. Le linee continue indicano fratelli indipendenti mentre le linee tratteggiate indicano fratelli dipendenti. Vengono mostrati tre schemi di selezione: selezione casuale, selezione singola, selezione doppia. Il vero modello basato sulla popolazione viene tracciato con le linee tratteggiate verticali.
Attaccamento
75
Figura 8: Effetto dell'errata specificazione del modello sull'errore empirico di tipo I e sul potere per un modello genetico recessivo in (a) ipotesi di distribuzione normale e (b) violazione delle ipotesi di distribuzione normale per la procedura MERLIN-REGRESS. L'errore empirico di tipo I è stato calcolato con un errore nominale di tipo I di 0,01, mentre la potenza è stata calcolata con un errore empirico di tipo I di 0,01. Le linee continue indicano fratelli indipendenti mentre le linee tratteggiate indicano fratelli dipendenti. Vengono mostrati tre schemi di selezione: selezione casuale, selezione singola, selezione doppia. Il vero modello basato sulla popolazione viene tracciato con le linee tratteggiate verticali.
Grazie
76
9 grazie
Innanzitutto, i miei più sentiti ringraziamenti vanno al Prof. Dr. Rif. Ovviamente Ziegler per gli impegnati
Finanziamento del mio progetto di dottorato e supervisione del mio lavoro scientifico
all'IMBS. Gli sono debitore per i preziosi suggerimenti, senza i quali questo lavoro non sarebbe stato possibile.
A nome di tutti i colleghi di IMBS, vorrei ringraziare il Dr. Rif. ronzio. biol. re a cui piaccio
numerosi altri dipendenti dell'istituto erano sempre disponibili con consigli e azioni. IL
atmosfera collegiale all'IMBS e le discussioni che ho avuto con i miei colleghi lì
argomenti tecnici hanno contribuito in modo significativo al successo di questo lavoro.
Dott. Ringrazio Palmer per il set di dati COAG Perth analizzato nuovamente in questo lavoro.
Inoltre, i miei ringraziamenti speciali vanno al Dott. Rif. ronzio. biol. Franke, quello con me
pacchetto software Sibsim creato.
Infine, vorrei anche che il Dr. legale Grazie per il duro lavoro di
ha assunto la correzione di bozze.
CV
77
10 CV
Nome Andre Kleensang
Indirizzo Pastorenstr. 7, 20459 Amburgo
Data e luogo di nascita 24 gennaio 1974 ad Amburgo
Stato civile Celibe
Nazionalità: tedesca
1985-1990 Formazione presso la scuola secondaria Richard-Linde-Weg di Amburgo
1990 diploma di scuola superiore
1990-1994 Istruzione scolastica presso la scuola professionale statale per chimica, farmacia, agricoltura e scuola comprensiva Bergedorf ad Amburgo
1994 Abilitazione generale all'ammissione all'università
1994 Assistente tecnico-chimico abilitato dallo Stato
1994-1995 Servizio militare di base come soldato di ricognizione NBC / soldato di servizio di stato maggiore Battaglione di difesa NBC 610 ad Albersdorf
1995-2001 Studi in biochimica presso l'Università di Amburgo
1998 Borsa di studio del programma Erasmus/Socrates per studiare biochimica all'Università di Berna, Svizzera
2001 Completamento degli studi di biochimica per diventare un biochimico qualificato
2001 Ricercatore associato presso l'Istituto Bernhard Nocht per la medicina tropicale di Amburgo, Dipartimento di parassitologia molecolare (con il Dr. med. Klaus Erttmann)
2002 Ricercatore associato presso il Bernhard Nocht Institute for Tropical Medicine di Amburgo, Bioinformatics Research Lab (con il Dr. med. Bertram Müller-Myhsok)
2003-2007 Research Associate presso l'Institute for Medical Biometry and Statistics, University Medical Center Schleswig-Holstein / Campus Lübeck (con il Prof. Dr. rer. nat. Andreas Ziegler)
Dal 2003 studi di dottorato in biologia umana presso l'Università di Lubecca
Dal 2004 studi post-laurea in economia per diventare un chimico aziendale qualificato presso la Fernuniversität Hagen (diploma intermedio 2006)
Dal 2007 Agente a Contratto presso la Commissione Europea, Centro Comune di Ricerca, Istituto per la Salute e la Tutela dei Consumatori, Ispra, Italia
Elenco pubblicazioni
78
11 Elenco delle pubblicazioni (al 01.02.2010)
Le pubblicazioni risultanti da questa dissertazione sono contrassegnate da un asterisco.
* Kleensang A, Franke D, Alcaïs A, Abel L, Müller-Myhsok B, Ziegler A (2010): An Wide
Confronto dei metodi di mappatura quantitativa dei loci dei tratti. Hum Hered (im Druck)
Ziegler A, Ewhida A, Brendel M, Kleensang A (2008): Condivisione di aplotipi più potente di
Contabilità per la modalità di eredità. Genet Epidemiol 33(3):228-36
Timmann C, van der Kamp E, Kleensang A, König I K, Thye T, Büttner DW, Hamelmann C,
Marfo Y, Vens M, Brattig N, Ziegler A, Horstmann RD (2008): genetica umana
Resistenza a Onchocerca volvulus: prove per il collegamento al cromosoma 2p da an
Scansione a livello di autosoma. J Infect Dis 198(3):427-33
Lohmann-Hedrich K, Neumann A, Kleensang A, Lohnau T, Muhle H, Djarmati A, König IR,
Pramstaller PP, Schwinger E, Kramer PL, Ziegler A, Stephani U, Klein C (2008): Prove
per il collegamento della sindrome delle gambe senza riposo al cromosoma 9p: ci sono due loci distinti?
Neurologia 70(9):686-94
Kleensang A, Pahlke F, Ziegler A (2007): Family Studies in Genetic Epidemiology: A
Panoramica. In Freyer G, Biebler KE (a cura di): Aspetti biometrici dell'analisi del genoma III,
Shaker Verlag, Aquisgrana, Germania, 3-20
Timmann C, Evans JA, König IR, Kleensang A, Rüschendorf F, Lenzen J, Sievertsen J, Becker C,
Enuameh Y, Kwakye KO, Opoku E, Browne ENL, Ziegler A, Norimberga P, Horstmann RD
(2007): Genome-Wide Linkage Analysis of Malaria Infection Intensity and Mild Malaria
Malattia. PLoS Genet 3(3):e48
Schulte-Körne G, Ziegler A, Deimel W, Schumacher J, Plume E, Bachmann C, Kleensang A,
Propping P, Nöthen MM, Warnke A, Remschmidt H, König IR (2007): Interrelazione
e familiarità delle misure quantitative relative alla dislessia. Ann Hum Genet 71 (Pt 2): 160-75
* Franke D, Kleensang A, Ziegler A (2006): SIBSIM - simulazione quantitativa del fenotipo in
pedigree estesi. GMS Med Inform Biom Epidemiol 2(1):Doc04
Schumacher J, Konig IR, Plume E, Propping P, Warnke A, Manthey M, Duell M, Kleensang A,
Repsilber RE, Preis M, Remschmidt H, Ziegler A, Nothen MM, Schulte-Körne G (2006):
Elenco pubblicazioni
79
Analisi di linkage della regione cromosomica 18q11-q12 nella dislessia. J Trasm. neurale
113(3):417-23
Kleensang A, Franke D, König IR, Ziegler A (2005): Analisi della condivisione dell'aplotipo per l'alcol
dipendenza basata su caratteri quantitativi e statistica di Mantel. BMC Genetics 6 (Suppl
1): S75
Franke D, Kleensang A, Elston RC, Ziegler AZ (2005): Haseman-Elston pesato dal marcatore
informatività. BMC Genetics 6(Supplemento 1):S50
Erttmann KD, Kleensang A, Schneider E, Hammerschmidt S, Büttner DW, Gallin M (2005):
Clonazione, caratterizzazione e immunizzazione del DNA di un Onchocerca volvulus
gliceraldeide-3-fosfato deidrogenasi (Ov-GAPDH). Biochim Biophys Acta
1741:85-94
Mossner R, Kingo K, Kleensang A, Krüger U, König IR, Silm H, Westphal GA, Reich K (2005):
Associazione dei polimorfismi del promotore del TNF -238 e -308 con psoriasi volgare e
Artrite psoriasica ma non con pustolosi palmoplantare. JInvest Dermatol 124: 282-284
Ziegler A, König IR, Deimel W, Plume E, Nöthen MM, Propping P, Kleensang A, Müller-Myhsok
B, Warnke A, Remschmidt H, Schulte-Körne G (2005): Dislessia evolutiva-
stime del rischio di recidiva da uno studio bicentrico tedesco che utilizza la singola coppia di fratelli probando
progetto. Hum Hered 59:136-143
Kleensang A, König IR (2004): Una nuova implementazione di un approccio basato su una componente di varianza robusta
esemplificato usando SOLAR. Genet Epidemiol 27:280
Hennies CH, Kleensang A, Blech H, Meyer B, Schmidt S, Ziegler A, McElwee K, Hoffmann R
(2004): Mappatura genetica nell'alopecia areata. G Deut Dermatol Ges 2:496
König IR, Ziegler A, Schumacher J, Nöthen MM, Plume E, Kleensang A, Warnke A, Propping P,
Remschmidt H, Schulte-Körne G (2004): analisi di collegamento sulle regioni cromosomiche 15q21
e 18p11 nella dislessia - risultati dello studio bicentrico tedesco. Genet Epidemiol 27:281
König IR, Repsilber D, Dahmen G, Kleensang A, Ziegler A (2004): Più orientato all'applicazione
Formazione nella parte "Biometrics medica" della materia interdisciplinare Q1 mediante incorporamento
di concetti di medicina basata sull'evidenza - un rapporto sul campo dopo il passaggio a
la nuova ÄAppO. Informare Biome Epidemiol Med Biol 35(4):220-228