Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (2023)

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (1)

Dall'Istituto di Biometria Medica e Statistica

presso l'Università di Lubecca

Direttore: prof. Dott. ri. notte. Andrea Ziegler

Mappatura genetica dei tratti quantitativi -

Un confronto qualitativo dei metodi di analisi dell'accoppiamento

Dissertazione inaugurale

al

conseguimento del dottorato

presso l'Università di Lubecca

- Dalla Facoltà di Medicina -

presentato da

André Kleensang di Amburgo

Lubecca 2010

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (2)

ii

1. Relatore: prof. dott. Rif. Ovviamente Andrea Ziegler

2. Relatore: prof. dott. medico Gabriele Gillessen-Kaesbach

Data della prova orale: 05.07.2010

approvato per la stampa. Lubecca, 5 luglio 2010

Vedere prof. dott. con. Werner Solbach

- Preside della Facoltà di Medicina -

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (3)

Sommario

iii

1. Introduzione ................................................ ................................................ 1

1.1 Mappatura genetica dei caratteri quantitativi................................................... ............ ....1

1.2 Obiettivo ................................................... ..... ............................................. ..... ..........5

2 Metodi per la mappatura genetica dei caratteri quantitativi .......... 7

2.1 Metodo di Haseman-Elston ............................................. . ....................................7

2.2 Metodo Haseman-Elston rivisto ............................................. ..................9

2.3 Metodo di regressione di Merlin ............................................. .. .................................. 10

2.4 Modelli a componenti di varianza................................................ ... ....................... 12

2.5 Procedura Merlin-QTL................................................ .... ............................................. 13

2.6 Metodo binomiale di massima verosimiglianza................................................ .... ........... 14

2.7 Wilcoxon-Rangsummentest .............................................. ................................ 16

2.8 Procedura basata su modello................................................ .... .................................... 17

3 Materiali e Metodi................................................................ ... ............................. 18

3.1 Simulazioni Monte Carlo ............................................. .. .................................. 18 3.1.1 QTL e fenotipi........ .. .................................................. .. ..................................18 3.1.2 Strutture familiari.................. .................................................. ....................................20 3.1.3 Marcatore genetico ......... .................................................. ........................................20 3.1.4 Disegno dello studio: selezione delle famiglie ... .. .................................................. .. ........20 3.1.5 Simulazione dei set di dati .............................. .................................................................. .......21

3.2 Confronto qualitativo ...................................... .......... ........................................ ... 21 3.2.1 Metodi applicati di analisi di accoppiamento .................................. ........ ....21 3.2.2 Errore empirico di tipo I e potenza empirica ........................ ........... ............23

3.3 Set di dati COAG Perth................................................ .................................................... 24

3.4 Ambiente informatico utilizzato ............................................. ... ...................... 24

4 Risultati .................................................. ............................................. 25

4.1 Validazione esterna del software di simulazione Sibsim ........................................ 25 4.1.1 Famiglia strutture, - dimensioni e numero di famiglie per set di dati .................26 4.1.2 Regole di ereditarietà e frequenze alleliche per i genotipi QTL e marcatori.26 4.1.3 Simulazione di i fenotipi ..... ............................................. ....... ...........................27 4.1.4 Selezione delle famiglie ........ .................. ........................................ .................. ........................30

4.2 Set di dati e calcolo delle statistiche di prova................................................ 31

4.3 Errori empirici di tipo I nelle procedure ............................................. ... ................. 33 4.3.1 Metodo Haseman-Elston........................ ... ............................................. ... .......34 4.3.2 Metodo di Haseman-Elston rivisto.................................. ................................35

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (4)

Sommario

iv

4.3.3 Metodo di regressione Merlin ................................................ ..... ............................................. ...36 4.3.4 Modelli a componenti di varianza .................................... ...........................................37 4.3.5 Test della somma dei ranghi di Wilcoxon . .................. ................................. .................. ..............38 4.3.6 Procedura Merlin-QTL ......... .................. ................................. .................. ..............39 4.3.7 Metodo binomiale di massima verosimiglianza........... .................. ................................. 40 4.3.8 Procedura basata su modello ................... .............................. .................... ........................41

4.4 Confronto empirico della potenza dei processi................................................ .... ......... 42 4.4.1 Confronto empirico del potere all'interno delle procedure .......................... ........ ........43 4.4.2 Potere empirico dei metodi nel confronto diretto ...................... ....... ......44 4.4.3 Riepilogo dei confronti empirici di potenza .................. .............. ...45

4.5 Analisi del set di dati COAG Perth................................................ ....... .................. 47

5 Discussione................................................. ....................................... 50

5.1 Modelli e metodi di simulazione selezionati ........................................ 50

5.2 Pacchetto software Sibsim ............................................. ........................................ 52

5.3 Confronto qualitativo dei metodi di analisi dell'accoppiamento ................................ 52

5.4 Analisi del set di dati COAG Perth................................................ ....... .................. 55

5.5 Prospettive ................................................ ..... ............................................. ..... ............ 56

6 Sommario.............................................. ................ ....................... 58

7 Pacchetti software e bibliografia ............................................. 59

7.1 Pacchetti software................................................ .................................................. 59

7.2 Bibliografia ................................................... ..... ....................................... 61

8 Appendici ..................................... ......... ........................................ 66

8.1 Simulazioni di validazione dei parametri di simulazione Sibsim ............................. 66

8.2 Numeri casuali di partenza per le simulazioni Monte-Carlo ............................................. 66

8.3 Errori empirici di tipo I ............................................. . ....................................... 67 8.3.1 Sotto ipotesi di distribuzione normale... . .................................................. . ...............67 8.3.2 In violazione dei presupposti della distribuzione normale ........................ .................70

8.4 Errori empirici di tipo I e potenza quando i parametri del modello sono specificati in modo errato

per il regresso di Merlino ................................................ .................................................. 73

9 Ringraziamenti................................................... ....................................... 76

10 Curriculum Vitae ........................................ .......... .................................. 77

11 Elenco delle pubblicazioni (al 01.02.2010).................................... .. ....... 78

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (5)

Elenco delle abbreviazioni

v

'Trasposto

add Additivo (codominante)

Consorzio COAG sulla genetica dell'asma

cm Centi Morgan

g effetto del gene principale

Effetto poligene G

dom Dominante

Massimizzazione delle aspettative EM

e Fehlerterm

ESP Doppia selezione di coppie di fratelli o estrema

Approcci di coppia di fratelli

Gh.HE.Trad Metodo HASEMAN-ELSTON, implementazione in Genehunter

Gh.VC VARIANZKOMPONENTENMODELLE, Implementazione in Genehunter

Il metodo HASEMAN-ELSTON

IBD Identico per discendenza

IMBS Institute for Medical Biometry and Statistics of the Medical University

ità a Lubecca

Processo di collegamento MODEL-BASED utilizzando il pacchetto software Linkage

Frazione lipoproteica LDL a bassa densità (lipoproteine ​​a densità leggera)

log NV Distribuzione normale logaritmica

Test del rapporto di verosimiglianza LQT

Metodo Merlin.K&C MERLIN-QTL, statistiche test secondo Kong e Cox (1997)

Metodo Merlin.W&H MERLIN-QTL, statistiche test secondo Whittemore e Halpern (1994)

Metodo MERLIN-REGRESS di Sham et al. (2002)

Procedura BINOMIALE MASSIMA PROBABILITÀ MLB

Metodo MLBQT MAXIMUM LIKELIHOOD BINOMIAL per fenotipi quantitativi

Metodo MLBQT.Kat MAXIMUM LIKELIHOOD BINOMIAL per fenotipi quantitativi

utilizzando i decili empirici della distribuzione basata sulla popolazione

sviluppo dei fenotipi

Metodo MLBQT.NV MAXIMUM LIKELIHOOD BINOMIAL per fenotipi quantitativi

assumendo una distribuzione normale standard della distribuzione dei fenotipi

Npar WILCOXON-RANGSUMMENTEST

Distribuzione normale NV

QTL Loci tratto quantitativo, locus fenotipo quantitativo

rez recessivo

rHE REVISED HASEMAN-ELSTON metodo

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (6)

Elenco delle abbreviazioni

VI

RSP Coppia di fratelli casuali, coppie di fratelli selezionati casualmente

Metodo Sage.HE HASEMAN-ELSTON, regressione dei minimi quadrati generalizzata,

Implementazione in S.A.G.E.

SPSP singola coppia di fratelli probando, semplice selezione di coppie di fratelli o

approcci estremi del soggetto di prova

θ frequenza di ricombinazione

MODELLI A COMPONENTI DI VARIAZIONE VC

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (7)

introduzione

1

1. Introduzione

1.1 Mappatura genetica dei caratteri quantitativi

Caratteri quantitativi il cui modello di ereditarietà suggerisce una componente genetica

senza seguire una chiara eredità mendeliana non solo recentemente hanno eccitato questo

particolare interesse per la genetica umana. Già all'inizio del XX secolo il

comunità scientifica violentemente l'apparente incompatibilità dell'appena riscoperto

Il lavoro di Gregor Mendel con la nuova teoria emergente della biometria, il cui soggetto

a quel tempo la misurazione delle caratteristiche quantitative degli esseri viventi e la loro analisi statistica

guerra.

Seguaci mendeliani, in particolare William Bateson, e in particolare von

Il lavoro di Sir Francis Galton ha ispirato i discepoli della biometria, in particolare WFR Weldon

e più tardi Karl Pearson, hanno discusso vigorosamente e parzialmente le questioni coinvolte

decisamente emotivo (per una discussione dettagliata vedi ad esempio Gilham, 2001). La biometria ha gettato

della teoria di Mendel, soprattutto, che può essere applicata solo in misura molto limitata. La maggior parte delle funzionalità

sono di natura quantitativa; ma questo non può essere conciliato con l'insegnamento di Mendel.

Tuttavia, anche le voci di mediazione si fecero presto sentire: già nel 1918, R. A.

Fisher un lavoro scientifico, che, tra l'altro, la teoria mendeliana con il

ha tentato di riconciliare la teoria biometrica (Fisher, 1918). Fisher lo ha dimostrato lui stesso

caratteri quantitativi e le loro aumentate correlazioni all'interno delle famiglie, come il

La biometria descrive, può benissimo essere spiegata sulla base degli insegnamenti di Mendel, vale a dire

con l'influenza di diversi fattori mendeliani indipendenti. I lavori guidati da Fisher

oltre ad altri falconieri e sviluppò il modello della polige-

una teoria dei tratti quantitativi (Falconer e Mackay, 1996).

Dal lavoro fondamentale di Fisher e Falconer, la mappatura genetica è stata utilizzata

fenotipi attivi nell'uomo mappano centinaia di regioni cromosomiche associate a a

Varietà di caratteristiche o malattie come il peso corporeo (Rankinen et al., 2006),

Altezza (Perola et al., 2007), densità ossea (Streeten et al., 2006; Zmuda et al., 2006; Perola

et al., 2007) o malaria (Timmann et al., 2007). Per la prima volta nel 1991

mappato e identificato con successo un gene utilizzando un tratto quantitativo

(Goate et al., 1991). Nel frattempo, numerosi geni sono stati resi più quantitativi attraverso l'uso di

Caratteristiche identificate direttamente o indirettamente (Korstanje e Paigen, 2002). Blangero (2004)

ha descritto il successo della mappatura genetica dei tratti quantitativi nel titolo di una pubblicazione

chung giustamente con le parole: "[...] il raccolto del re è sicuramente arrivato".

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (8)

introduzione

2

Molte malattie o caratteristiche possono essere misurate indirettamente su scala quantitativa come intermedie

fenotipi del diario o direttamente come quantitativi

Misurare le caratteristiche (vedi Tabella 1). IL

fenotipi intermedi quantitativi

possibile in generale una più precisa

Definizione della malattia o caratteristica

come caratteristiche dicotomiche, ad es

può essere definito un intervallo di riferimento (Duggirala et

al., 1997). Inoltre, metodi statistici basati su caratteristiche quantitative

le caratteristiche sono basate, generalmente hanno un potere statistico (potenza) superiore a quello statistico

Metodi in cui la dimensione quantitativa è ridotta a una variabile dicotomica.

Nella mappatura genetica dei caratteri quantitativi, particolare attenzione è rivolta al

Dirigere il disegno dello studio e la selezione dei metodi di accoppiamento-analitici (Terwilliger e

Göring, 2000).

Solitamente, per la mappatura genetica di caratteri quantitativi, famiglie nucleari, ad es.

genitori e i loro figli, reclutati. Ciò si basa sulla considerazione che forse il feno-

Effetti ambientali che influenzano il tipo come nutrizione, educazione, condizioni di vita generali e

altri possibili fattori di influenza dell'ambiente possono essere relativamente forti nei fratelli

Dovrebbe. Le famiglie sono casuali (RSP, random sib-pair), basate su a

fratelli fenotipicamente estremi (SPSP, single proband sib-pair) o due fratelli fenotipicamente

fratelli estremi (ESP, coppia di fratelli estremi). Una panoramica dei disegni di studio è

ad esempio in Ziegler e König (2010, capitolo 9).

Già nel 1985, Blackwelder ed Elston ipotizzarono che il potere fosse statistico

metodo di taglio per l'analisi di accoppiamento potrebbe essere aumentato se si analizza

Coppie di fratelli limitate in cui almeno un fratello ha un fenotipo estremo

espressione (Blackwelder e Elston, 1985). Numerosi su queste riflessioni

Indagini basate hanno dimostrato essenzialmente che con la stessa dimensione del campione

La potenza statistica può essere maggiore se le famiglie vengono selezionate tramite valori estremi dei fenotipi

studiato che in campioni non selezionati (vedi ad esempio Carey e Williamson, 1991;

Fulker et al., 1991; Risch e Zhang, 1995). Ne consegue che quando si utilizza unselected

I campioni della maggior parte delle famiglie hanno dato solo un contributo molto piccolo all'analisi di linkage

consegna. Pertanto, avrebbe senso utilizzare campioni con famiglie selezionate da cui

si prevede che forniranno un contributo importante all'analisi di accoppiamento.

Negli ultimi 15 anni è stato il risultato di un crescente interesse per la mappatura genetica

di caratteristiche con caratteristiche quantitative ad uno sviluppo quasi esplosivo

metodi di analisi di accoppiamento per la mappatura genetica di fenotipi quantitativi (cfr

Tabella 1: Esempi di malattie e caratteristiche quantitative come fenotipi clinicamente rilevanti.

Malattia Caratteri quantitativiAterosclerosi Colesterolo, lipoproteineAsma IgEPressione alta Pressione sanguignaDislessia AlfabetizzazioneOsteoporosi Densità osseaSovrappeso Indice di massa corporea

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (9)

introduzione

3

Capitolo 2 o Elston, 1998; Ferreira, 2004). Queste procedure dispensano dall'assunzione di a

specifico modello genetico di ereditarietà (ad esempio dominante o recessiva) e sono quindi

indicato come senza modello. Al contrario, i metodi basati su modelli lo sono

le capacità di derivare un modello genetico di ereditarietà da tratti quantitativi sono problematiche

e quindi poco comune (vedi Capitolo 2, Sezione 8).

La letteratura cita più volte una classe di metodi, ovvero quella della VARIANZA

MODELLI A COMPONENTI (vedi Capitolo 2, Sezione 4), menzionati come metodo di scelta (vedi ad es.

Blangero, 2004). Il motivo addotto è la possibilità di stimare la varianza individuale

componenti, e soprattutto la potenza statistica rispetto ad altri metodi

chiamato. Tuttavia, un prerequisito essenziale per l'applicazione del metodo è il

distribuzione normale multivariata del fenotipo. Se manca questo prerequisito, il

MODELLI A COMPONENTI DELLA VARIANZA Deviazioni parzialmente massicce dall'errore nominale di tipo I.

Allison et al. (1999) hanno ad esempio per uno specifico modello genetico in violazione del

Ipotesi di distribuzione normale mediante simulazioni Monte Carlo un errore empirico di tipo I di

18% indicato con un errore nominale del 5%. Quindi l'errore empirico di tipo I supera

l'errore nominale di tipo I di oltre il 300%. Questo è importante perché come disegno di studio

non viene utilizzato solo RSP, ma vengono spesso utilizzati anche campioni casuali selezionati. Questo

Il disegno dello studio di solito viola i presupposti della distribuzione normale (Dolan e Boomsma, 1998).

Non tutti i metodi sviluppati possono quindi essere utilizzati con ogni progetto di studio o distribuzione

utilizzare la forma dei fenotipi. Questa realizzazione porta alla domanda su quali

criteri sistematici la qualità di una procedura accoppiamento-analitica alla genetica

Dovrebbe essere valutata la mappatura dei fenotipi quantitativi.

Secondo Feingold (2002), per questo dovrebbero essere assunti tre criteri principali. Il primo

Il criterio è la potenza del metodo in condizioni ideali quando il tipo nominale I

l'errore viene mantenuto corretto. Nel caso dei fenotipi quantitativi, ciò significa che il

I confronti di potenza si basano su campioni simulati basati sulla popolazione (non selezionati).

cui il fenotipo è distribuito approssimativamente normalmente. Il secondo criterio è la robustezza del tipo

sbaglio. Riguarda se in condizioni ideali così come in condizioni diverse

altre condizioni, ad esempio con fenotipi non distribuiti normalmente o campioni casuali selezionati

il livello di errore di tipo I viene mantenuto correttamente. Feingold nomina la robustezza come terzo criterio

il potere, cioè la domanda fino a che punto, ad esempio, fenotipi non distribuiti normalmente o dati selezionati

influenzare la potenza di un processo. Oltre ai tre criteri principali,

Feingold dovrebbe essere considerata l'influenza dei fratelli a carico sull'errore di tipo I, ad es.

se sono state reclutate famiglie con più di due fratelli. Anche questo deve essere preso in considerazione

perché pochi metodi sono stati originariamente progettati per essere applicati ai fratelli a carico

sono stati sviluppati o ulteriormente sviluppati.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (10)

introduzione

4

Confronti di qualità basati sui criteri menzionati tra diverse analisi di accoppiamento

metodi cal sono stati eseguiti solo in misura limitata.

Nella maggior parte dei confronti di qualità, uno o pochi altri sono stati aggiunti al processo da valutare

Vengono confrontati metodi basati su simulazioni Monte Carlo (Alcaïs e Abel, 1999;

Allison et al., 2000; Sham e Purcell, 2001; Sham et al., 2002; Yu et al., 2004). Solo due in su

I confronti basati su simulazioni Monte Carlo rientravano nella classe di regressione

Procedure per la progettazione di SPSP ed ESP eseguite (Cuenco et al., 2003; Szatkiewicz et al.,

2003). Per una discussione dettagliata dei confronti di qualità, fare riferimento alla presentazione a questo punto

delle singole procedure di cui al capitolo 2.

Anche le considerazioni analitiche sono state effettuate solo in misura limitata. Questo

i confronti algebrici si basano solitamente su presupposti notevolmente semplificati. Quindi esisti-

ren considerazioni teoriche per confrontare il metodo HASEMAN-ELSTON (vedi Capitolo 2,

Sezione 1) con i VARIATION COMPONENT MODELS (Sham e Purcell, 2001) e a

Confronto tra il metodo HASEMAN-ELSTON e il metodo WPC (Commenges, 1994; Ziegler,

2001). Per il disegno dello studio ESP, il metodo MAXIMUM LIKELIHOOD BINOMIAL (cfr

Capitolo 2, Sezione 6) con il metodo di Risch e Zhang (1995) e l'EDAC

metodi (Gu et al., 1996). Perché questi confronti di qualità si basano su presupposti diversi

esauriti, sono difficili da confrontare o combinare. Per alcune procedure-

infine il metodo MERLIN-QTL (Abecasis et al., 2002, vedi Capitolo 2, Sezione 5) e

il WILCOXON RANK SUM TEST (Kruglyak e Lander, 1995b, vedi Capitolo 2, Sezione 7)

finora non sono stati effettuati confronti qualitativi. Inoltre, solo per una parte

dei metodi noti come deviazioni dalla distribuzione normale o dall'analisi

i campioni selezionati influenzano la robustezza e la potenza.

È stato sottolineato in letteratura che sono necessari ulteriori studi

Proprietà di qualità rispetto ad altri metodi e tra gli altri

identificare e confrontare le ipotesi del modello e i disegni di studio (Allison et al., 1999, p. 541;

Allison et al., 2000, S.252; Feingold, 2002, S. 220-221; Cuenco et al., 2003, S.872; Szatkiewicz e

al., 2003, p. 884).

In sintesi, si può dire che finora è mancato un confronto esaustivo della qualità, quello

varietà di metodi di analisi dell'accoppiamento per la mappatura genetica dei tratti quantitativi,

in varie condizioni che sono importanti nella pratica, come le deviazioni dal normale

distribuzione, diversi disegni di studio (RSP, SPSP, ESP) e influenza della dipendenza

Fratelli - considerati in uno studio.

Nella sezione seguente, basandosi su questa sezione, verrà ora discusso l'obiettivo

definito in questo lavoro. Il capitolo 2 descrive quindi i più importanti metodi di analisi dell'accoppiamento

per la mappatura genetica di fenotipi quantitativi spiegati in dettaglio e derivati.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (11)

introduzione

5

Le proprietà qualitative note dalla letteratura e, se note, le

Confronto di questo con le altre procedure discusse.

1.2 Obiettivi

Sulla base delle considerazioni preliminari presentate, l'obiettivo di questi

il lavoro è delineato in modo più dettagliato. In pratica, per chiarire genetiche più complesse

Le malattie utilizzano sempre più metodi di analisi dell'accoppiamento per fenotipi quantitativi

Utilizzo di nuclei familiari con due o più fratelli. Negli ultimi anni

un gran numero di nuovi metodi sono stati sviluppati per queste domande. Ma così lontano

Non è quindi chiaro come la qualità di questi metodi si comporti in confronto diretto l'uno con l'altro.

Pertanto, nell'ambito di questo lavoro, in uno studio di simulazione Monte Carlo, la qualità

tes una varietà di procedure diverse sotto diversi modelli e disegni di studio

rispetto.

Vengono presi in considerazione otto processi, sei dei quali sono per uso non commerciale

sono disponibili pacchetti software approvati. Queste procedure sono sotto tre genetica

modelli (dominante, additivo, recessivo) tre disegni di studio (senza selezione [RSP], con semplice

selezione [SPSP] e doppia selezione [ESP]) e due strutture familiari (famiglie nucleari con

una coppia di fratelli e nuclei familiari con un numero variabile da due a cinque

fratelli) esaminati. Inoltre, l'effetto della deviazione dalla distribuzione normale

esaminato. Vengono presi in considerazione un totale di 36 diversi scenari di simulazione. Qui

i tre criteri secondo Feingold (2002) sono descritti più dettagliatamente nella sezione precedente,

utilizzato per confrontare i processi:

1. Potenza in condizioni di distribuzione normale quando viene mantenuto il livello di errore

2. Robustezza dell'errore di tipo I rispetto a una violazione della distribuzione normale

presupposti e sotto diversi disegni di studio

3. Robustezza del potere

Inoltre, come raccomandato da Feingold, l'influenza dei fratelli a carico

considerato.

In una prima fase viene creato un software di simulazione (Sibsim) basato su

cui devono essere simulati i set di dati per i 36 scenari. Attraverso una validazione esterna

i set di dati vengono quindi creati in diversi scenari e i singoli pacchetti di simulazione

metro su simulazioni selezionate casualmente per le deviazioni.

Per il confronto della robustezza, vengono quindi utilizzate 100.000 simulazioni per ogni scenario di simulazione

sotto l'ipotesi nulla e per il confronto di potenza 1.000 simulazioni sotto l'ipotesi alternativa

tesi da creare.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (12)

introduzione

6

Il confronto della robustezza viene effettuato confrontando le deviazioni tra l'empirico

determinate proporzioni di errore di tipo I e l'errore nominale di tipo I a diversi livelli di test

eseguito. L'elevato numero di simulazioni sotto l'ipotesi nulla consente quindi

Sulla base di valori limite determinati empiricamente, un confronto di potenza empirico sotto l'alternativa

ipotesi, come suggerito da Yu et al. (2004) sul confronto di potenza dei metodi per la genetica

Mappatura proposta di caratteristiche quantitative.

Viene quindi discussa l'applicazione dei vari metodi utilizzati in questo lavoro

sul dataset "Consortium on Asthma Genetics: Perth study" (COAG Perth dataset)

illustrato (Palmer et al., 1998; Palmer et al., 2001).

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (13)

Metodo per la mappatura genetica di fenotipi quantitativi

7

2 Metodi per la mappatura genetica dei caratteri quantitativi

I più importanti metodi di analisi dell'accoppiamento per la mappatura genetica sono descritti di seguito

i fenotipi quantitativi sono spiegati e derivati ​​in dettaglio. Inoltre, quelli del

Vengono discusse le proprietà di qualità note dalla letteratura e, se disponibili, anche il confronto

analizzati tra questi metodi e gli altri metodi.

Innanzitutto, viene spiegato il modello genetico insieme al metodo HASEMAN-ELSTON.

Seguono le estensioni fino al metodo MERLIN-REGRESS. Dopo di che, prima il

MODELLI A COMPONENTI DELLA VARIANZA e il metodo di condivisione degli alleli MERLIN-QTL e così via

Spiegazione della procedura MASSIMA-PROBABILITÀ-BINOMIALE. Infine, il non parametrico

sche WILLCOXON RANK SUM TEST e l'analisi di accoppiamento MODEL-BASED sono spiegati.

2.1 Metodo di Haseman-Elston

Nel 1972 Haseman ed Elston hanno presentato un metodo analitico di accoppiamento senza modello

mappatura genetica di fenotipi quantitativi basata su un modello di regressione

(Haseman e Elston, 1972). Rappresenta il punto di partenza per la mappatura genetica quantitativa

tive fenotipi ed è una delle opere più frequentemente citate in connessione con il

Analisi di linkage di fenotipi quantitativi. Il metodo HASEMAN-ELSTON viene utilizzato a causa della sua

Semplicità ancora ampiamente utilizzata oggi.

Si basa sulla seguente idea: due fratelli si assomigliano fenotipicamente e lo faranno

l'espressione del fenotipo è in gran parte determinata da un locus genetico (che è

si chiama QTL) allora anche i due individui in quel locus dovrebbero corrispondere

geneticamente simili. Il metodo richiede quindi che le prime misure per la genetica e la

si può definire la somiglianza fenotipica.

Per la somiglianza genetica della coppia di fratelli m in un albero genealogico, gli alleli

identico per discendenza (IBD) può essere utilizzato come parametro di riferimento. Questo significa il numero di alleli

quale due persone in un albero genealogico dalla stessa origine sono state ereditate insieme. Per

Fratelli, il punteggio IBD può essere 0, 1 o 2. Nel metodo HASEMAN-ELSTON, invece

la proporzione di alleli IBD τ considerati. Per i valori IBP 0, 1 o 2 quindi risultato per il

Proporzione di alleli IBD i valori 0, ½, 1.

Come misura della somiglianza fenotipica, il metodo HASEMAN-ELSTON utilizza il

differenza fenotipica al quadrato y, cioè la distanza euclidea.

Per derivare il modello di regressione, Haseman ed Elston ne considerano uno semplice additivo

Modello. Dove x1m e x2m denotano i fenotipi osservati della mesima coppia di fratelli

allora il modello additivo è dato da:

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (14)

Metodo per la mappatura genetica di fenotipi quantitativi

8

1 1 1

2 2 2

mmm

mmm

x µ gx µ g

Unione Europea

=++=++

Dove µ è la media generale, gim è l'effetto del gene principale e εim è la dimensione residua

della persona i è designata dalla m-esima coppia di fratelli. Effetti poligenici ed effetti ambientali

sono inclusi nella quantità residua εim. L'effetto gene principale è quindi da un locus biallelico

determinato con gli alleli A1 e A2.

Supponendo che non vi sia alcun effetto dominante, questo è quello di Haseman ed Elston

(1972) hanno quindi proposto il modello di regressione come segue:

m mio α βτ= +

dove ym è la differenza fenotipica al quadrato e i coefficienti di regressione α e β

sono dati da: 2 2

2

2

2gr

G

facile

b pag

= +

= -

Quindi se β è uno stimatore di β, allora ˆ1 2β− è uno stimatore di 22 gσ .

Se i genotipi dei genitori sono determinati e inclusi nell'analisi, allora come

Amos et al. (1989) hanno mostrato - la trascuratezza di un possibile termine dominante (cfr

Il Capitolo 3, Sezione 1.1) non conduce a uno stimatore distorto. Saranno i genotipi dei genitori

indeterminato e se è presente una componente dominante, allora β è uno stimatore distorto per

beta. In generale, tuttavia, questo pregiudizio è trascurabile (Amos et al., 1990). In realtà lo farà

quindi un possibile termine dominante viene solitamente trascurato.

Il collegamento tra un locus marcatore e un fenotipo quantitativo è presente quando il

il coefficiente di regressione stimato β è significativamente inferiore a 0. Nel caso in cui il marcatore

locus e il fenotipo quantitativo non sono collegati, β = 0. Il test statistico su

L'accoppiamento è quindi un test t unilaterale sul parametro β.

Il metodo HASEMAN-ELSTON è inizialmente per nuclei familiari con una coppia di fratelli

stato derivato. Tuttavia, con un numero maggiore di fratelli, le coppie di fratelli lo sono

non più indipendente; ciò può comportare la sovrastima del valore p. L'HASEMAN

La procedura di ELSTON tende ad essere liberale con un numero maggiore di fratelli

(vedi ad esempio Williams e Blangero, 1999). Due possibili soluzioni sono discusse qui brevemente

da introdurre. Da un lato, solo le coppie di fratelli strettamente indipendenti possono farlo

visualizzazione. Ma questo trascura parte delle informazioni esistenti, cosa

porta inevitabilmente ad una perdita di potenza. Un'altra possibilità è usare un generale

utilizzare la regressione dei minimi quadrati, che fornisce una correlazione tra i quadrati

differenze fenotipiche consentite. Ciò rende possibile per tutte le possibili coppie di fratelli e sorelle

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (15)

Metodo per la mappatura genetica di fenotipi quantitativi

9

utilizzare tutte le informazioni disponibili. Prima era questo

Idea descritta da Single e Finch (1995). Gli autori hanno dimostrato che quando più di due

Fratelli che utilizzano una regressione dei minimi quadrati generalizzata rispetto a

L'analisi delle coppie di fratelli indipendenti porta a un aumento significativo del potere.

Elstone et al. avere nella presentazione del metodo REVISED HASEMAN-ELSTON (vedi

Capitolo 2, Sezione 2) questa idea per l'applicazione a ulteriori covariate e QTL multipli

ampliato e incorporato questo approccio nel pacchetto software S.A.G.E. implementato (Elston et al., 2000).

Inoltre, il metodo HASEMAN-ELSTON è implementato in una varietà di pacchetti software

la già citata S.A.G.E. per esempio anche nell'uso frequente

Programma Genehunter.

2.2 Metodo Haseman-Elston rivisto

Il classico processo HASEMAN-ELSTON è stato modificato molte volte nel corso del tempo

allargato. Il metodo originale è stato criticato soprattutto per il fatto che, a seguito dell'uso

il calcolo della differenza fenotipica al quadrato non rappresenta il totale presente nei dati

le informazioni vengono sfruttate (Fulker e Cherny, 1996; Wright, 1997; Drigalenko, 1998).

Wright ha mostrato nel 1997 che è possibile ottenere un guadagno di potere che non dovrebbe essere sottovalutato

se viene utilizzata anche l'informazione della somma fenotipica.

Ciò ha portato, tra le altre cose, al metodo REVISED HASEMAN-ELSTON proposto da Elston

è stato proposto nel 2000 (Elston et al., 2000).

Basato sulla differenza al quadrato dei fenotipi centrati della mesima coppia di fratelli

( ) ( )( )2, 1 2m D m my x µ x µ= − − −

e la somma al quadrato dei fenotipi centrati, vale a dire

( ) ( )( )2, 1 2m S m my x xμ μ= − + −

come suggerito da Wright (1997), queste due informazioni possono essere

considerazione della differenza tra le due grandezze ym,S – ym,D.

La differenza ym,S – ym,D è identica a 4 volte il prodotto incrociato centrato

( )( ), , 1 24m S m D m mio y x µ x µ− = − − ,

che nel metodo REVISED HASEMAN-ELSTON come variabile dipendente per la regressione

si usa.

Elston (2000) ha dimostrato attraverso simulazioni che nelle famiglie con due figli il tipo I

il livello di errore può essere meglio controllato.

Anche se vengono violate le ipotesi di normale distribuzione dei fenotipi, con forte residuo

relazione di fratelli e nella condizione di famiglie selezionate in cui un fratello

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (16)

Metodo per la mappatura genetica di fenotipi quantitativi

10

ha origine dal decile inferiore e/o superiore della distribuzione diventa il livello di errore di tipo I

tenuto correttamente (Allison et al., 2000).

Il processo REVISED HASEMAN-ELSTON è migliorato rispetto all'originale HASEMAN

Il metodo ELSTON ha un potere maggiore quando la correlazione tra fratelli è piccola, ma a

potenza inferiore quando la correlazione tra fratelli è alta (Palmer et al., 2000; Forrest,

2001).

Il metodo REVISED HASEMAN-ELSTON è incluso nel pacchetto software S.A.G.E. strumento

animali.

2.3 Metodo di regressione di Merlin

Nel 2002, Sham et al. (2002) un nuovo metodo basato sulla regressione per la genetica

Mappatura di fenotipi quantitativi (di seguito denominata MERLIN-REGRESS).

L'idea di base di questo metodo è di invertire il metodo HASEMAN-ELSTON. A proposito

Inoltre, gli autori usano non solo quadrato come misura della somiglianza fenotipica

differenza ma anche la somma al quadrato in una regressione multivariata. Un altro

progresso significativo di questo metodo rispetto a HASEMAN-ELSTON o al

Il metodo REVISED HASEMAN-ELSTON è che non solo coppie di fratelli, ma coppie

di tutti i gradi di relazione possono essere inclusi nel calcolo delle statistiche del test.

Gli autori hanno dimostrato attraverso simulazioni che il loro metodo riduce il livello di errore di tipo I a entrambi

in condizioni di distribuzione normale nonché in violazione delle normali ipotesi di distribuzione e

nelle famiglie con fratelli a carico. Inoltre, Sham et al. aggiuntivo

chiaramente dimostrato che il livello di errore di tipo I anche con ESP concordanti o discordi

viene mantenuto il disegno dello studio. MERLIN-REGRESS è quindi apparentemente molto robusto e anche attivo

set di dati selezionati e fenotipi non normalmente distribuiti. Il potere dovrebbe

dichiarazione degli autori per essere confrontabile con l'elevata potenza dei modelli a componenti di varianza.

In contrasto con gli altri metodi qui presentati, l'uso di MERLIN

Tuttavia, REGRESS stima la media, la varianza e l'ereditarietà basate sulla popolazione

bilità avanti. Tuttavia, la stima di questi parametri può essere effettuata nel caso di insiemi di dati selezionati

o, nel caso di fenotipi non distribuiti normalmente, essere difficili e portare a stime distorte.

Nel caso di set di dati non selezionati e fenotipi normalmente distribuiti, Sham et al.

dimostrato da simulazioni che parametri errati portano solo a una perdita di potenza e

non hanno alcuna influenza sull'errore di tipo I. Se queste affermazioni si applicano anche a famiglie selezionate

e/o trasferito a fenotipi non normalmente distribuiti non è ancora chiaro.

Per derivare il metodo, vengono prima definiti due vettori S e D, che

somma al quadrato del fenotipo yjk,S e differenza al quadrato del fenotipo yjk,D per tutte le coppie di

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (17)

Metodo per la mappatura genetica di fenotipi quantitativi

11

Contengono le persone j e k con j ≠ k di un albero genealogico. Inoltre, sia Π un vettore che

Stimatore per la proporzione centrata degli alleli IBD ˆ jkτ di tutte le coppie di persone j e k con j ≠ k

contiene.

Tuttavia, per le famiglie con più di quattro componenti, ci sono colinearità tra S e D.

Pertanto, per rimuovere queste colinearità, il vettore D viene arbitrariamente ridotto al numero di

Membri della famiglia abbreviati, con ogni individuo che appare almeno una volta. Dal momento che il

gli elementi cancellati di D sono combinazioni lineari degli elementi mantenuti di S e D,

risulta dalla riduzione secondo Sham et al. (2002) nessuna perdita di informazioni. Il vettore troncato

di D è indicato con D*. I due vettori S e D* diventano quindi il vettore '[ , ]= *

MRY SD riassunto. In modo che la procedura MERLIN-REGRESS si applichi anche a selezionati

applicabile al campionamento, YMR e Π sono centrati:

( )E= −C,MR MR MRY Y Y

( )ˆ ˆ ˆE= −CP Π Π

La regressione multivariata di ˆCΠ su YC,MR è quindi data da

ˆˆ = +

MRMR

' -1C Y C,MRY PP S S Y e ,

dove ˆ MRY ΠΣ è la matrice di covarianza tra YMR e Π , e Σ

MRY la matrice di covarianza di

YMR è. ε denota il residuo.

La matrice ˆMRY ΠΣ può essere scomposta in ΠQΣ H , dove Q è una matrice diagonale con

valori è 2gσ. La matrice H è quindi una matrice orizzontale a blocchi, dove il primo blocco è a

matrice diagonale quadrata con valori costanti 2 e la seconda matrice a blocchi uno

matrice diagonale con valori costanti -2. ΠΣ è la matrice di covarianza della stima

azioni centrate IBD. La stima di ΠΣ e MRYΣ è fornita in Sham et al. (2002) e

non verrà presentato in dettaglio qui.

Se -1Y MRHΣ Y è indicato con B nel seguito, allora secondo Sham et al. l'ottimale

stimatori ponderati per 2gσ per famiglia

ˆ

ˆ'

C

Pi

B ΠB Σ B

o per tutte le famiglie in un campione

2

ˆ

ˆ[ ' ]ˆ

[ ' ]gσ = ∑∑

C

Pi

B ΠB Σ B

dato.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (18)

Metodo per la mappatura genetica di fenotipi quantitativi

12

La statistica del test può quindi essere formulata come segue: 2 ˆˆ [ ' ]gT σ= ∑ CB Π

Sotto l'ipotesi nulla, T χ2 è distribuito con un grado di libertà. Poiché solo valori positivi di 2gσ

Per avere un senso, gli autori raccomandano di impostare T a zero quando 2ˆgσ è negativo. La statistica del test

quindi segue sotto l'ipotesi nulla una miscela 50:50 di 0 e una distribuzione χ2 con uno

grado di libertà.

Il metodo di Sham et al. è implementato nel pacchetto software Merlin.

2.4 Modelli a componenti di varianza

A metà degli anni '90, i VARIANCE COMPONENT MODELS hanno offerto per la prima volta un'importante alternativa

sul metodo HASEMAN-ELSTON (Amos, 1994; Almasy e Blangero, 1998).

I modelli dei componenti della varianza si basano su un'estensione del modello additivo, ad esempio

era precedentemente utilizzato per derivare il metodo HASEMAN-ELSTON: '

1m m m m mx g G uμ β ε= + + + +

Il modello additivo è esteso qui da due termini aggiuntivi. Gm è un poligenico casuale

Effetto della coppia di fratelli di mezzo. Quindi Gm non è usato come nel metodo HASEMAN-ELSTON in

della dimensione residua ma come termine separato. Oltre alle variabili genetiche

possono essere p covariabili raggruppate in un ordine vettoriale p × 1 nel modello

essere incluso. L'effetto delle covariate è dato dal vettore dei parametri p × 1 β1

descritto.

A causa del modello additivo, la varianza dei fenotipi è data dalla somma 2 2 2 2a d G εσ σ σ σ+ + + ,

dove 2aσ è la varianza additiva e 2

dσ è la varianza di dominanza dell'effetto del gene principale.

La stima delle quattro componenti della varianza 2aσ , 2

Gσ , 2εσ e 2

dσ può essere calcolato utilizzando il

è possibile applicare il metodo della massima verosimiglianza. Viene chiamato il test statistico per il collegamento

LQT sotto un modello non vincolato (in cui 2aσ , 2nd

Gσ , 2εσ e 2

dσ e un possibile θ

essere stimato) e un modello limitato sotto il vincolo 2 0aσ =

porta: 2 2 2 2

2 2 2 2

ˆˆ ˆ ˆ( 0, , , , , )ˆˆ ˆ ˆ ˆ( , , , , )

un sol d

un sol d

LLQTL

e

e

s s s s s s s s

==

Secondo la classica teoria LQT, -2ln LQT è asintoticamente χ2-distribuito con un grado di libertà.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (19)

Metodo per la mappatura genetica di fenotipi quantitativi

13

Mentre il metodo HASEMAN-ELSTON nella sua forma originale si applica solo ai fratelli

è applicabile, i modelli della componente di varianza possono essere utilizzati per qualsiasi albero genealogico

diventare. Un altro vantaggio è che i modelli dei componenti della varianza non sono solo

consentono di effettuare un test per l'accoppiamento, ma anche la varianza individuale

apprezzare i componenti.

Numerosi studi di simulazione hanno dimostrato che i modelli di componenti della varianza

potenza molto più elevata rispetto al metodo HASEMAN-ELSTON (vedi ad esempio Amos et al., 1996). Lei

mostrare, tuttavia, quando vengono violate le ipotesi di distribuzione normale multivariata sottostanti

a volte un errore di tipo I inaccettabilmente liberale (vedi ad esempio Allison et al., 1999). Blangero et al.

sospettare che un errore liberale di tipo I si riferisca principalmente a un rigonfiamento positivo della relazione fenotipica

divisione (4° momento di distribuzione) (Blangero et al., 2001). Se il rigonfiamento

della distribuzione del fenotipo è maggiore di 1,5, quindi Blangero et al. alternativa più robusta

metodi da utilizzare. In alternativa Blangero propone, ad esempio, la stima della componente di varianza

previsto da metodi robusti come la stima della pseudo-massima verosimiglianza (Amos,

1994).

Le ipotesi di distribuzione normale multivariata sottostanti sono - come già nel

Citato nell'introduzione – violato anche dall'analisi di dataset selezionati (Dolan e

Boomma, 1998). In pratica vengono selezionati anche i MODELLI A COMPONENTI DELLA VARIANZA

Tuttavia, i set di dati vengono spesso utilizzati senza tener conto di questo fatto.

I modelli dei componenti della varianza sono disponibili nei pacchetti software Genehunter,

Merlin e Solar implementati.

2.5 Procedura Merlin-QTL

La base del processo MERLIN-QTL sono i due lavori di Whittemore e Halpern

(1994) e Kong e Cox (1997) sulle statistiche di condivisione degli alleli, il cui scopo è l'analisi

fenotipo binario. Tuttavia, come descritto da Ferreira (2004), questo metodo è stato

Abecasis (2002) adattato per l'uso di fenotipi quantitativi.

MERLIN-QTL definisce una funzione S(w) per la mappatura genetica di fenotipi quantitativi,

che descrive ogni possibile vettore di ereditarietà w per un dato pedigree in termini di its

Prove di collegamento valutate. Più alto è il punteggio di S per una data eredità

vettore w, maggiore è l'evidenza di collegamento per quel vettore di ereditarietà.

La funzione di punteggio S(w) utilizzata da MERLIN-QTL è 2( ) a

aS w S= ∑ ,

con ( )a ii

S y µ= −∑ .

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (20)

Metodo per la mappatura genetica di fenotipi quantitativi

14

Il punteggio per ogni vettore di ereditarietà w in una famiglia viene quindi calcolato sommando il

punteggi al quadrato di tutti gli alleli fondatori a (inglese: alleli fondatori) calcolati in

sono presenti nel vettore di ereditarietà. Il punteggio per ciascun allele fondatore (Sa) nel file

Il vettore di ereditarietà w viene calcolato sommando le deviazioni dei fenotipi dal popolare

media basata sulla zione calcolata per tutte le persone i che portano questo allele fondatore.

Sulla base del lavoro di Whittemore e Halpern (1994), le valutazioni di tutti

Alberi genealogici convertiti in z-score. Inoltre, come suggerito da Kong e Cox (1997),

colpito, ha formulato un LQT.

Il processo MERLIN-QTL è implementato nel pacchetto software Merlin.

2.6 Metodo binomiale di massima verosimiglianza

Il metodo MAXIMUM LIKELIHOOD BINOMIAL per fenotipi quantitativi (Alcaïs e Abel,

1999) è un'estensione del metodo MAXIMUM LIKELIHOOD BINOMIAL per i dati fenotipici binari

penna (Abel et al., 1998; Abel e Müller-Myhsok, 1998).

Il metodo MAXIMUM LIKELIHOOD BINOMIAL si basa sull'idea di distribuzione binomiale

Trasmissione di alleli parentali alla prole. Se non c'è accoppiamento, non ha luogo

trasmissione preferenziale di un allele. Tuttavia, se i marcatori e la malattia sono accoppiati, a

trasmissione che si discosta dallo 0,5 previsto.

Consideriamo una famiglia nucleare con n fratelli. 1 2( )nx ,x ,...,x '=X Sia il vettore n × 1 di

fenotipi e 11 12 1 2( , ,..., , ) 'n nm m m m=M sia il vettore 2n × 1 degli alleli dei fratelli am

Markerlocus.

Per costruire un LQT, abbiamo prima bisogno della verosimiglianza del marcatore osservato

Alleli dati i fenotipi dei bambini: P(M|X)

A tale scopo viene dapprima introdotta una variabile binaria latente, che contiene le informazioni di accoppiamento

tra il QTL e il marcatore. Sia dunque 1 2( , ,..., ) 'nb b b=B il vettore di questi

variabili binarie per i fratelli di una famiglia. Poiché bi non è osservabile, l'introduzione

zione di B in P(M|X) per sommatoria dei 2n possibili vettori B, perché per definizione

è M e X, dato B, condizionalmente indipendente.

( | ) ( | ) * ( | , ) ( | ) ( | )n n

P P P P P= = ⋅∑ ∑M X B X M B X B X M B

La formulazione della verosimiglianza P(M|X) presuppone quindi P(B|X) e P(M|B).

Formulazione di P(B|X)

Poiché la variabile binaria latente dell'i-esimo fratello bi dipende solo da xi, quella comune è

distribuzione condizionale di B dato X il prodotto delle distribuzioni univariate:

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (21)

Metodo per la mappatura genetica di fenotipi quantitativi

15

1

( | ) ( | )n

io ii

P P b x=

= ∏BX

La definizione di P(bi|xi) si basa sulla seguente considerazione: maggiore è il valore di xi

cioè, maggiore dovrebbe essere P(bi = 1|xi). Teoricamente, qualsiasi funzione di distribuzione può essere

selezionare come funzione di connessione. Il metodo BINOMIALE DI MASSIMA PROBABILITÀ può essere

quindi sia nell'ipotesi di una distribuzione (classicamente nell'ipotesi di a

distribuzione normale) e senza presupposti sul tipo di distribuzione. Nel secondo caso

la distribuzione è quindi determinata da una funzione di distribuzione empirica come funzione a gradino sulla

frequenze cumulative definite (ad esempio utilizzando il metodo empirico basato sulla popolazione

Di giorni).

Formulazione di P(M|B)

La definizione di P(M|B) si basa sull'idea che l'ereditarietà degli alleli parentali

segue i figli di una distribuzione binomiale.

Sotto l'ipotesi nulla (nessun collegamento), ogni fratello eredita con una probabilità

di 0,5 l'allele marcatore A (o B) dei genitori eterozigoti con genotipo AB.

S è il numero di fratelli con bi = 0 per il dato vettore B. Inoltre, sia α la probabilità

probabilità che i fratelli con bi = 1 portino l'allele A da un genitore con genotipo AB

avere ricevuto. Di conseguenza, 1-α è la probabilità per i fratelli con bi = 0. If

Inoltre, se i genitori sono indicati con j, allora la verosimiglianza della famiglia è 2

1

( | ) ( )jj

Pgα=

= ∏M B ,

dove gj(α) è la probabilità di un fratello per il genitore j. Il contributo a

La probabilità gj(α) di un fratello con bi = k è quindi data da αk(1 - α)1-k o α1-k(1 - α)k,

se il fratello ha ereditato l'allele A o B. Nel caso in cui la fase di

Se questo non è noto, non sappiamo da una famiglia all'altra quale allele marcatore

di ereditarietà ha probabilità α e che ha probabilità 1-α. Qualsiasi di questi

Le possibilità hanno una probabilità pre-test di 0,5. Pertanto gj(α) può allora essere il seguente

essere formulato: (1) (1)(1) (0) (0) (1) (0) (0)( ) 0.5 (1 ) (1 ) 0.5 (1 ) (1 )a aA A A A A An nS n n S n n S n n S n n

jg α α α α α α α α α− − − − − −⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤= − − + − −⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦

Qui nA(k) è il numero di fratelli con bi = k, portatori dell'allele A dall'eterozigote

genitori con genotipo AB.

Ora la funzione di verosimiglianza per la famiglia f con due genitori e n figli può essere scritta come

formulare come segue:

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (22)

Metodo per la mappatura genetica di fenotipi quantitativi

16

2

1 1

( ) ( | ) ( )n

f io io jn io j

L P b x gα α= =

= ∑∏ ∏

La verosimiglianza dell'intero set di dati L(α) con famiglie F è quindi il prodotto su F

Famiglie di Lf(α).

Sia a lo stimatore di massima verosimiglianza per α, allora il test per l'accoppiamento è dato come LQT

Attraverso

( 0.5)ˆ( )mlb

LL ala

==

=.

Secondo la classica teoria LQT -2ln λmlb è asintoticamente χ2-distribuito con una libertà

grad.Il test dovrebbe essere sempre eseguito unilateralmente.

Per famiglie con un numero diverso di fratelli, Alcaïs e Abel (1999)

dimostrato dalle simulazioni che il livello di errore di tipo I viene mantenuto così come quello

Il metodo MAXIMUM LIKELIHOOD BINOMIAL ha generalmente una potenza maggiore rispetto all'HASEMAN

Il metodo ELSTON mostra.

Utilizzando una funzione di distribuzione empirica, il MASSIMO

Procedura BINOMIALE DI PROBABILITÀ per famiglie selezionate e non distribuite normalmente

Applicare i fenotipi in modo appropriato (Alcaïs e Abel, 1999). Per fratelli estremamente discordanti-

Alcaïs e Abel hanno dimostrato analiticamente che il MASSIMO BINOMIALE DI PROBABILITÀ

procedura ha una potenza maggiore rispetto al test proposto da Risch e Zhang (1995). In

avere dati contenenti coppie di fratelli estremamente concordanti e discordanti

Alcaïs e Abel hanno mostrato attraverso simulazioni che il BINOMIO DI MASSIMA PROBABILITÀ

Il metodo ha almeno la stessa potenza statistica del metodo EDAC di Gu et al. (1996)

cappello.

La procedura MAXIMUM LIKELIHOOD BINOMIAL è stata storicamente paragonata a

i metodi popolari come VARIANCE COMPONENT MODELS o HASEMAN-ELSTON

Procedura usata relativamente raramente. Knobloc et al. (2000) hanno utilizzato la PROBABILITÀ MASSIMA

BINOMIALE Procedura per mappare un QTL sul braccio lungo del cromosoma 13 che contiene il

Concentrazione sierica di LDL interessata. Dina et al. avere nel 2005 sul braccio corto di Chromo-

som 8 ha mappato un QTL all'ansia abituale (Dina et al., 2005).

Solo il pacchetto software Mlbgh è attualmente disponibile per l'utilizzo di MLB QT. Incluso

È una modifica del pacchetto software Genehunter.

2.7 Wilcoxon-Rangsumentetest

Nel 1995, Kruglyak e Lander hanno presentato un metodo di accoppiamento non parametrico senza modello per

fenotipi quantitativi basati su WILCOXON RANK SUM TEST. Il WILCOXON

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (23)

Metodo per la mappatura genetica di fenotipi quantitativi

17

RANK SUM TEST è applicabile a qualsiasi distribuzione di fenotipi ed è quindi utilizzato

dagli autori in particolare per analisi di linkage in fenotipi non normalmente distribuiti

proposto (Kruglyak e Lander, 1995b).

Come nel metodo di HASEMAN E ELSTON, il punto di partenza è il fenotipico al quadrato

Differenza di n coppie di fratelli. Nella prima fase, questi vengono assegnati in base ai loro ranghi

ordinato, dove rm è il rango della m-esima coppia di fratelli. Inoltre, i valori IBD

centrato sulla funzione f: f assume rispettivamente i valori -1, 0 e 1, quando i valori IBD sono 0, 1 e 2

Sono. La statistica della somma dei ranghi proposta da Kruglyak e Lander è quindi data da

1( )

N

mm

Trfm=

= ⋅∑

Per il teorema del limite centrale, T è distribuito asintoticamente normalmente, sotto H0 con aspettativa

valore E(T) = 0 e varianza ( 1)(2 1)Var( )12

n n nT + += . Con un numero sufficiente di

Un test z asintotico a una coda può quindi essere applicato a coppie di fratelli.

Il WILCOXON RANK SUM TEST è disponibile nei programmi Mapmaker/Sibs (Kruglyak e

Lander, 1995a) e Genehunter (Kruglyak et al., 1996).

2.8 Metodo basato su modelli

Oltre ai metodi senza modello, esiste anche la possibilità di un LQT completamente parametrizzato

analisi come metodo MODEL-BASED (Lathrop et al., 1984). In pratica sono

Metodi analitici di accoppiamento MODEL-BASED per la mappatura genetica di quantitativa

Fenotipi poco diffusi. Ciò è principalmente dovuto all'uso di un file dettagliato

Specifica del modello richiesta. Il calcolo basato sul modello presuppone una genetica

modello di ereditarietà cal e una specifica esatta dei parametri di ereditarietà. Per il

Il presunto QTL deve quindi includere le frequenze alleliche e i valori attesi associati

dell'effetto del gene principale può essere definito insieme alla varianza del fenotipo. Quanto a questo

Parametrizzazione non sono disponibili metodi di stima significativi ei risultati

i parametri impostati arbitrariamente sono difficilmente interpretabili, è quindi utilizzato più comunemente nelle applicazioni

sono preferiti metodi analitici di accoppiamento saggi e privi di modello.

Il metodo basato su modello è implementato nel pacchetto software Linkage.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (24)

materiale e metodi

18

3 Materiali e Metodi

In questo capitolo, prima le simulazioni Monte Carlo compreso il sottostante

le ipotesi ei modelli sottostanti sono presentati in dettaglio (sezione 1). Questa sarà la prima cosa da fare

modello necessario per la simulazione del QTL e dei fenotipi secondo Falconer e Mackay

(1996) ha introdotto e spiegato. Successivamente, quindi anche nell'ambito di questo lavoro

strutture familiari utilizzate così come la selezione delle famiglie e il calcestruzzo simulato

modelli definiti. Infine, la creazione dei set di dati simulati con il file

Spiegazione del software di simulazione Sibsim.

La sezione due fornisce una panoramica degli otto metodi di analisi dell'accoppiamento da confrontare qui.

cal, le loro implementazioni software e quelle specifiche utilizzate

Parametri di analisi utilizzati per analizzare le simulazioni Monte Carlo. collegamento

È quindi necessario il calcolo dell'errore empirico di tipo I richiesto per il confronto qualitativo

così come il potere empirico.

Infine, viene presentato il set di dati COAG Perth, così come l'ultima sezione

ambiente informatico utilizzato.

3.1 Simulazioni Monte Carlo

3.1.1 QTL e fenotipi

Un additivo è servito come base per la simulazione del QTL e dei fenotipi associati

Modello con un gene maggiore mendeliano biallelico secondo Falconer e Mackay (1996). Qui

è il fenotipo xim della persona i nella famiglia m scomposto in modo additivo in una media generale

μ, un effetto genico principale gim determinato dal genotipo di un QTL biallelico

Effetto ambientale Gm simulato come effetto famiglia e termine di errore εim:

im im m imx ​​µ g sol ε= + + +

Si assume inoltre che gim, Gm e εim non siano correlati. Poi risulta essere

Varianza per il fenotipo: 2 2 2 2x g G εσ σ σ σ= + +

L'effetto del gene della pelle è caratterizzato da un locus biallelico insieme alla sua specifica

modello ereditario determinato. Gli alleli del gene principale sono A1 e A2 con frequenze p

e q = 1 - p. La frequenza p è indicata di seguito come la frequenza dell'allele alto.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (25)

materiale e metodi

19

L'effetto del gene principale è stato quindi modellato come segue:

1 1

1 2

2 2

per una persona con un genotipo per una persona con un genotipo per una persona con un genotipo

IO

a LA Ag d LA A

un A A

⎧⎪= ⎨⎪−⎩

I seguenti modelli sono stati considerati come parte di questo lavoro: Il modello dominante (con a = d),

il modello additivo (con d = 0) e il modello recessivo (con d = -a). Un modello con sottodominio

nance (con d < -a) o overdominance (con d > a) non è stata considerata.

Tuttavia, i valori attesi dei genotipi dell'effetto gene principale sono stati utilizzati per la simulazione del

Record spostati dalle frequenze p e q del locus biallelico e the

da simulare la varianza dell'effetto del gene principale un valore atteso per l'effetto del gene principale di

E(gik) = 0 (vedi Ziegler e König, 2010, p. 160). L'effetto ambientale è stato considerato una famiglia

perfettamente simulato in cui ad ogni membro della famiglia m viene assegnato lo stesso valore casuale.

Al fine di poter valutare l'effetto della violazione delle normali ipotesi di distribuzione, il

Termine di errore εim del modello additivo da un lato da una distribuzione normale e dall'altro da

simulato con una distribuzione normale logaritmica. Per utilizzare una distribuzione normale logaritmica

Per ottenere la media e la varianza date, è stata prima considerata la distribuzione normale standard

argomento di exp( ), quindi la media del logaritmico da simulare

Distribuzione normale sottratta e infine divisa per la deviazione standard da simulare

diviso per la distribuzione log-normale.

In totale, sono stati considerati tre modelli genetici e due distribuzioni. La tavola 2

e la Tabella 3 fornisce una panoramica dei modelli simulati dei fenotipi.

Tabella 2: Panoramica dei tre modelli genetici simulati.

Dominante 0,05 0 0,2 0,3 0,5 0,754 0,754Additiv 0,2 0 0,2 0,3 0,5 0,474 0Rezessiv 0,3 0 0,2 0,3 0,5 0,782 -0,782

un modello genetico

Frequenza "allele alto" µ

2gd 2

Piano terra 2 vani

Come si può vedere dalla tabella 2, si applica a

tutti i modelli di fenotipi µ = 0, uno

varianza di 1 ed ereditabilità di 0,2

in senso lato e di 0,5 in senso stretto

Là.

Modello genetico E(A1,A1) E(A1,A2) E(A2,A2) Dominante 1.361 1.361 -0.147 Additivo 1.265 0.474 -0.316 Recessivo 1.422 -0.141 -0.141

Tabella 3: Valori attesi dell'effetto genico principale per i tre modelli genetici utilizzati.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (26)

materiale e metodi

20

3.1.2 Strutture familiari

I set di dati simulati sono stati simulati sulla base di due diverse strutture familiari.

Il punto di partenza è stata la struttura di una famiglia nucleare con una coppia di fratelli

scelto. Questo termine significa uno

Pedigree con la struttura di a

Genitori come fondatori nel primo

generazione e una coppia di fratelli

come discendenti. Poiché c'è solo una coppia di fratelli per famiglia, le coppie di fratelli lo sono

indipendente. La seconda struttura familiare dovrebbe essere una famiglia nucleare con fratelli a carico

essere considerato, cioè un miscuglio di nuclei familiari con uno diverso

Numero di fratelli come discendenti. La miscela dovrebbe essere realistica

distribuzione nei paesi industrializzati. Pertanto, la distribuzione della famiglia

le strutture del set di dati simulato sono state utilizzate per il Genetic Analysis Workshop 9 (Speer et

al., 1995). Questa struttura familiare è indicata di seguito come una famiglia nucleare con fratelli a carico

riferito a. La composizione esatta è mostrata nella Tabella 4.

Per ogni set di dati, 300 famiglie sono state classificate sotto la struttura familiare nucleare con un fratello

tercoppia e 100 famiglie sotto la struttura familiare nucleare con multiplo

Fratelli simulati. I fenotipi e i genotipi sono stati registrati per tutti i membri della famiglia

simulato.

3.1.3 Marcatore genetico

Un marcatore genetico con dieci alleli è stato identificato per ogni set di dati all'interno di una simulazione

simulato con la stessa frequenza. Sotto l'ipotesi nulla, il marcatore genetico era associato a a

Distanza di θ = 0,5 dal QTL e nell'ipotesi alternativa con una distanza di θ = 0

simulato al QTL.

3.1.4 Disegno dello studio: selezione delle famiglie

Per poter valutare l'effetto della selezione delle famiglie, tre diversi studi

sono stati utilizzati disegni di servizio: da un lato, famiglie sotto selezione casuale, famiglie con

almeno un figlio nel quartile superiore della distribuzione fenotipica (selezione semplice, corrisponde a

un disegno SPSP) e famiglie con due figli nel quartile superiore, due figli nel

quartile inferiore o un figlio nel quartile superiore e un figlio nel quartile inferiore di feno-

distribuzione del tipo (doppia selezione, corrisponde a un progetto ESP). La simulazione di

I set di dati sono stati continuati con la selezione fino a 100.000 set di dati con il mutuo zero

tesi e 1.000 set di dati sono stati simulati sotto l'ipotesi alternativa, che

soddisfare i criteri di selezione.

Numero di fratelli 2 3 4 5 Proporzione 40% 30% 18% 12%

Tabella 4: Distribuzione dei fratelli tra i fratelli a carico della struttura familiare.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (27)

materiale e metodi

21

3.1.5 Simulazione dei set di dati

Il programma Sibsim, creato presso IMBS, è stato utilizzato per creare i set di dati simulati

Versione 1.02 utilizzata (Franke et al., 2006). I record erano in formato di dati di collegamento

creato e, se necessario, per i programmi di analisi utilizzati con il software Mega2 in das

convertito nel formato dati richiesto (Mukhopadhyay et al., 2005). Per la definizione di

Formato dei dati di collegamento vedere ad esempio Terdlinger e Ott (1994, capitolo 2).

Una simulazione consisteva in 100.000 set di dati sotto l'ipotesi nulla (θ = 0,5) e

1.000 set di dati nell'ipotesi alternativa (θ = 0).

Un totale di 36 diversi modelli (3 modelli genetici × 2 distribuzioni × 2

strutture familiari × 3 schemi di selezione) simulati come descritto in precedenza.

I numeri casuali iniziali per il pacchetto software Sibsim sono documentati nella Tabella 23 in appendice.

3.2 Confronto qualitativo

3.2.1 Metodi applicati di analisi di accoppiamento

Per analizzare le simulazioni sono stati utilizzati un totale di otto diversi metodi analitici di accoppiamento.

ren implementato in sei pacchetti software. Tutti i pacchetti software utilizzati erano

liberamente disponibile per uso non commerciale al momento della pubblicazione di quest'opera. Quelli usati

Versioni e fonti dei pacchetti software sono disponibili nell'Appendice, Capitolo 7, Sezione 1. Nel

La tabella seguente mostra i pacchetti software utilizzati per l'analisi dell'accoppiamento

procedura a confronto. Il metodo HASEMAN-ELSTON e la COMPOSIZIONE DELLA VARIANZA

NET MODELS sono stati utilizzati per confrontare l'implementazione con due diversi

programmi calcolati.

Tabella 5: Panoramica dei metodi di analisi dell'accoppiamento utilizzati, delle abbreviazioni utilizzate e dei pacchetti software associati.

Programma del metodo analitico di accoppiamento Abbreviazioni utilizzate Metodo Genehunter HASEMAN-ELSTON

WILCOXON RANK SUM TEST VARIANCE COMPONENT MODELS

Gh.HE.Trad Npar Gh.VC

Linkage LINKAGE (metodo BASATO SU MODELLO) Linkage Merlin MERLIN-REGRESS

MERLIN-QTL Merlin-Regresso Merlin.K&C, Merlin.W&H

Mlbgh Metodo MAXIMUM LIKELIHOOD BINOMIAL per fenotipi quantitativi

MLBQT.NV, MLBQT.Kat

LEGGENDA. Procedura HASEMAN-ELSTON Procedura HASEMAN-ELSTON REVISIONATA

Salvia.HE rHE

Solar VARIANTE COMPONENTE MODELLI Solar.VC

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (28)

materiale e metodi

22

Di seguito si riportano i programmi utilizzati ei parametri di analisi utilizzati

metro spiegato in ordine alfabetico.

Genehunter

Con il programma Genehunter, il metodo HASEMAN-ELSTON (Gh.HE.Trad), il

WILCOXON RANK SUM TEST (Npar) e VARIANCE COMPONENT MODELS (Gh.VC)

previsto. Per tutte le analisi è stata utilizzata l'opzione tutti i fratelli senza peso ("tutte le coppie

non ponderato"). I MODELLI DELLA COMPONENTE DELLA VARIANZA sono stati calcolati senza termini di dominanza. Là

i genotipi parentali sono noti, il metodo HASEMAN-ELSTON

Calcoli eseguiti senza applicazione dell'algoritmo EM (Dempster et al., 1977).

Collegamento

Il metodo MODEL-BASED (Linkage) è stato calcolato con il pacchetto software Linkage.

Per le analisi, i valori attesi dell'effetto gene principale, l'associato

Frequenze per il QTL biallelico e varianze basate sulla popolazione nella distribuzione del

fenotipi utilizzati. I valori attesi dei tre modelli genetici sono nella Tabella 3

(p. 19), le frequenze alleliche del QTL biallelico sono riportate nella Tabella 2 (p. 19).

Merlino

Con il programma Merlin-regress, che fa parte del pacchetto software Merlin,

il metodo di Sham et al. (2002) calcolato (regresso Merlin). Come parametro di input

sono diventati i veri valori basati sulla popolazione per media (μ = 0), varianza (σ2 = 1) e

Passa l'ereditarietà in senso stretto (h2 = 0,5). Per evitare una possibile influenza del modello

Per determinare le specifiche errate, tutti i record erano inoltre sotto una varietà di uno

Errori di specificazione dei parametri per media (da -5 a 5), ​​varianza (da 0,1 a 10) ed ereditabilità (0,05

a 0,95).

Il processo MERLIN-QTL è stato sviluppato utilizzando il programma Merlin dal pacchetto software Merlin

calcolato. Sono stati utilizzati entrambi gli approcci statistici del test di Whittemore e Halpern

(1994), così come la LQT secondo Kong e Cox (1997).

Mlbgh

Il programma Mlbgh è una modifica del programma Genehunter.

È stato utilizzato per la procedura MASSIMA PROBABILITÀ BINOMIALE.

Entrambe le analisi presupponevano una distribuzione normale standard dei fenotipi

(Mlbqt.NV), oltre a utilizzare una funzione step per definire le soglie

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (29)

materiale e metodi

23

effettuato (Mlbqt.Kat). I valori soglia sono stati determinati dividendo la distribuzione del

Fenotipi definiti in decili empirici come suggerito da Alcaïs e Abel (1999).

SAGGIO.

Il pacchetto di programmi S.A.G.E. è stato utilizzato per convertire HASEMAN-ELSTON (Sage.HE) e the

Metodo REVISED HASEMAN-ELSTON (Sage.rHE) da applicare. L'analisi è stata condotta sotto

vengono eseguite le opzioni predefinite. Per il metodo REVISED HASEMAN-ELSTON

è stato utilizzato il vero valore basato sulla popolazione per la media (μ = 0).

Solare

Oltre al pacchetto software Genehunter, Solar era abituato

per calcolare i MODELLI COMPONENTI (Solar.VC). Sono stati utilizzati i parametri predefiniti.

3.2.2 Errore empirico di tipo I e potenza empirica

L'errore empirico di tipo I era basato sulle 100.000 simulazioni sotto l'ipotesi nulla

calcolato a un livello di errore nominale di tipo I del 5%, 1% e 0,1%. distribuzione normale standard

I punteggi Z o i punteggi LOD sono stati convertiti in valori p. Per convertire i punteggi LOD

si veda ad esempio Ziegler e König (2010, p. 159).

Inoltre, il grado di deviazione tra il tipo nominale ed empirico I

Errori per classificazione in sette categorie con un livello di errore nominale di tipo I dell'1%

calcolato. L'intervallo normale ( ) è stato determinato da un intervallo di confidenza di Clopper-Pearson al 95%.

vall corretto da una distribuzione binomiale con 100.000 prove e 1.000 successi Bonferroni

determinato per 36 modelli, mentre gli altri limiti sono arbitrari con una deviazione di

Fattore 1.333 e 2 relativo all'errore nominale di tipo I (vedi figura

1).

0,5% 0,750% 0,902% 1,105% 1,333% 2,0%

Figura 1: errore empirico di tipo I con un errore nominale di tipo I dell'1% diviso in sette

categorie. A denota un errore di tipo I conservatore e liberale.

La potenza empirica è stata calcolata come la probabilità che la statistica del test sia inferiore a

Ipotesi alternativa calcolata dalla distribuzione empirica sotto l'ipotesi nulla

supera la soglia di significatività dato un errore empirico di tipo I di 0,05.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (30)

materiale e metodi

24

3.3 Set di dati COAG Perth

Il set di dati del Consortium on Asthma Genetics: Perth study (COAG Perth data set), as

è stato messo a disposizione per il Laboratorio di Analisi Genetica 12 è stato utilizzato come esercitatore

Esempio di un'analisi di linkage con un tratto quantitativo selezionato (per a

per una descrizione dettagliata si veda: Palmer et al., 1998; Palmer et al., 2001). L'uso di questo

Dati per gentile concessione del dott. Palmer del Dipartimento di Pediatria

e Centro di immunologia e strumentazione molecolare, Università dell'Australia occidentale,

Pert, Australia.

Il set di dati originale consisteva in 123 famiglie per un totale di 583 persone che vivevano nell'area di Perth

(Australia) sono stati reclutati. Qui, 25 famiglie nucleari erano specifiche per quanto riguarda

Malattie di asma reclutate mentre 98 famiglie nucleari sono state selezionate in modo casuale. Per il

la ri-analisi è stata fatta ricorso alle 98 famiglie selezionate casualmente. per uno

Nella regione candidata sul cromosoma 5q31-33 c'erano due microsatelliti tipizzati accoppiati

Sono disponibili marcatori (D5S393 e D5S399) con la frequenza di ricombinazione di θ = 0,0006.

Dei fenotipi rilevanti per l'asma disponibili nel set di dati, il loga-

titolo aritmetico di IgE sieriche totali (ln IgE) e titolo logaritmico di IgE sieriche totali

aggiustato per età, sesso e titolo di IgE antigene-specifico (ln IgER) per l'accoppiamento

analisi utilizzate.

3.4 Ambiente informatico utilizzato

Tutti i calcoli e le simulazioni effettuate sono state effettuate su processori Intel© Dual Xeon©

con frequenza di clock di 2,8 GHz sotto il sistema operativo Suse Linux versione 8.1 o versione 8.2

(versione kernel Linux 2.4.21). I pacchetti software utilizzati erano, finora

disponibile, utilizzato direttamente in una versione compilata per Linux. Se un file precompilato

versione non era disponibile, i programmi erano autocompilati. Tutti i pro-

grammi sono stati controllati per la correttezza dei calcoli utilizzando i record dei dati di prova allegati

l'ambiente informatico utilizzato. Un elenco dei pacchetti software utilizzati

situato nel capitolo 7, sezione 1.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (31)

Risultati

25

4 risultati

Il capitolo Risultati è suddiviso in cinque sezioni. Innanzitutto, nella prima sezione, il

validazione sistematica esterna del software di simulazione Sibsim. questa sezione

è suddiviso in una panoramica in cui sono definiti i criteri target della validazione esterna;

Segue la presentazione dei risultati delle singole validazioni.

La sezione 2 fornisce una breve panoramica dei set di dati simulati e del calcolo del

statistiche di prova.

Le sezioni 3 e 4 presentano quindi il confronto qualitativo dei metodi di analisi dell'accoppiamento.

Nella sezione 3 i risultati del confronto degli errori empirici di tipo I con i

gli errori nominali di tipo I sono mostrati e spiegati separatamente per ogni singolo metodo. IL

I risultati del confronto di potenza empirico sono presentati nella Sezione 4. Nel primo sotto-

sezione è in primo luogo il potere empirico all'interno delle procedure sotto il diverso

scenari a confronto. Nella seconda sottosezione, all'interno di uno scenario,

rios ha confrontato i metodi direttamente tra loro. La terza sottosezione riassume i risultati

poi di nuovo a seconda della rispettiva procedura insieme.

Infine, nella Sezione 5, viene dettagliata l'analisi del dataset COAG Perth.

Particolare valore è stato dato all'implementazione pratica di una genetica

per illustrare la mappatura delle caratteristiche quantitative.

4.1 Validazione esterna del software di simulazione Sibsim

Come parte di questo lavoro, il pacchetto software Sibsim (Franke et al., 2006) è stato utilizzato dal Dr.

Franke e l'autore hanno creato. Prima di usarlo per la necessaria simulazione Monte Carlo

L'autore Sibsim lavora quindi con una sistematica procedura di validazione esterna

controllato. La convalida esterna sistematica è qui indicata come verifica esterna documentata

per l'uso specifico previsto in questo lavoro. Qui dovrebbe

È possibile garantire che i set di dati simulati creati con Sibsim soddisfino i requisiti richiesti

corrispondono ai parametri di simulazione.

Il pacchetto software Sibsim è stato quindi validato secondo i seguenti parametri:

- Corrisponde all'output di Sibsim in termini di strutture familiari, dimensioni e numeri

di famiglie per set di dati i parametri di simulazione?

- Corrispondere alle frequenze alleliche e al numero di alleli per i genotipi QTL e marcatori

i parametri di simulazione?

- I genotipi del QTL e dei genotipi marcatori dei bambini corrispondono al mendeliano

regole di eredità schen?

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (32)

Risultati

26

- I fenotipi simulati corrispondono ai parametri di simulazione in termini di

-- media e varianza complessive,

-- Media e varianza della distribuzione dell'effetto del gene principale, termine di errore

e anche gli effetti familiari

-- la forma di distribuzione?

- I record di dati simulati selezionati corrispondono ai criteri di selezione?

A tale scopo, per il modello genetico dominante, additivo e recessivo sotto adatto

th parametri di simulazione con i fratelli dipendenti dalla struttura familiare

Simulazione creata con dieci set di dati. Sono state create un totale di otto simulazioni

Di seguito denominate simulazioni di convalida. I parametri di simulazione utilizzati

metri sono riportati in appendice, Tabella 22, pagina 66. Le simulazioni di validazione 1, 2 e 3

si basano su un modello genetico dominante, recessivo e additivo che ha un main

effetto di 2 e un termine di errore di 0,2. Non è stato simulato un effetto famiglia.

Le simulazioni di convalida 4 e 5 si basano su un modello genetico dominante che

aveva un effetto del gene principale di 4 e un termine di errore di 0,5. Nella simulazione 5, il

Termine di errore simulato da una distribuzione normale logaritmica. Le simulazioni di validazione 6,

7 e 8 si basano su un modello genetico dominante, recessivo e additivo

effetto gene principale di 2 e un effetto familiare di 0,2. Un termine di errore non lo era

simulato. Da questi dieci set di dati, è stato quindi creato per caso un set di dati per genetica

Modello selezionato per la convalida.

In sintesi, si può affermare che la sistematica validazione esterna non ha evidenziato alcuna anomalia.

dieci rivelato.

4.1.1 Strutture familiari, dimensioni e numero di famiglie per record

In tutti i set di dati delle simulazioni di convalida da uno a otto e in tutti nell'ambito di questi

I set di dati utilizzati per il confronto qualitativo erano le strutture familiari, le dimensioni e

controllato il numero di famiglie per record. I risultati concordano con quanto richiesto

parametri di simulazione (risultati non mostrati qui in dettaglio).

4.1.2 Regole di ereditarietà e frequenze alleliche per QTL e marker

Genotipo

Nella prima fase sono state determinate le frequenze alleliche per i genotipi QTL e marker

stimata e le regole di ereditarietà mendeliana verificate con il pacchetto software Pedcheck.

Per controllare le frequenze alleliche e le regole di ereditarietà dei genotipi QTL, il

Il pacchetto software Sibsim viene modificato a tale scopo in modo tale da contenere anche gli alleli del QTL biallelico

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (33)

Risultati

27

spende I set di dati 10, 7 e 6 sono stati creati dalle simulazioni di convalida 1, 2 e 3

scelto a caso. I risultati delle frequenze alleliche stimate per il marcatore e il QTL

I genotipi mostrano solo lievi deviazioni che si verificano nell'ambito della distribuzione casuale

Confronto con i parametri di simulazione richiesti (risultati non mostrati in dettaglio qui). Esso

non sono state riscontrate violazioni delle regole di eredità mendeliane.

4.1.3 Simulazione dei fenotipi

4.1.3.1 Effetto genico principale e termine di errore

Sulla base delle simulazioni di convalida 1, 2 e 3, una delle 10

set di dati simulati per convalidare l'effetto del gene principale e il termine di errore.

Questi erano i set di dati 6, 7 e 4 delle simulazioni di convalida 1, 2 e 3. La distribuzione

Lo sviluppo dei fenotipi è mostrato in Figura 2.

Figura 2: Istogramma delle distribuzioni fenotipiche per simulazioni di convalida selezionate in un modello di ereditarietà dominante (a, simulazione 1, set di dati 6), recessivo (b, simulazione 2, set di dati 7) e additivo (c, simulazione 3, set di dati 4) con Main effetto genico e termine di errore.

I limiti sono stati fissati in base ai valori attesi dei due o tre principali effetti genici

definito, che dovrebbe distinguere le due o tre distribuzioni l'una dall'altra (vedi Tabella 6). Là

Se oltre all'effetto del gene principale è stato simulato anche un termine di errore, il risultato è basso

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (34)

Risultati

28

Sovrapposizioni tra le distribuzioni. Le medie e le varianze del tutto

fenotipo, nonché le medie e le frequenze per l'effetto del gene principale e le varianze del

I termini di errore sono presentati nella Tabella 6. Ce ne sono solo di piccoli da spiegare per caso

riconoscere le differenze.

Tabella 6: mezzi osservati e attesi, varianze e frequenze per le simulazioni di convalida 1, 2 e 3 con i set di dati selezionati casualmente 6, 7 e 4 e i loro principali effetti genici per un modello con effetto genico principale e termine di errore.

< -0,817 ≥ 0,817 Totale < -1

≥ -1 e ≤ 1 > 1 totale < 0,817 ≥ 0,817 totale

Osservato: Media -2,477 0,824 0,025 -1,994 -0,001 1,993 -0,105 -0,840 2,413 0,001 Varianza 0,191 0,198 2,196 0,200 0,193 0,193 2,295 0,209 0,188 2.236 numero 581 1819 2400 703 1120 577 2400 1779 621 2400

Atteso: Media -2,45 0,816 0 -2 0 2 0 -0,817 2,45 0 Varianza 0,2 0,2 ​​2,2 0,2 ​​0,2 ​​0,2 ​​2,2 0,2 ​​0,2 ​​2, 2 numero 600 1800 2400 600 1200 600 2400 1800 6 00 2400

Dominante Additivo Recessivo

La distribuzione normale simulata o distribuzione normale logaritmica del termine di errore era

un grafico di distribuzione normale o un grafico di distribuzione normale logaritmica. Dal momento che il

distribuzione lognormale ma è distorta a destra, è stato confrontato l'effetto del gene principale

precedentemente incrementato nelle simulazioni di validazione per separare meglio le distribuzioni

can (simulazione di convalida 5). A tal fine, per il modello genetico dominante dal

Simulazioni di convalida 4 e 5 set di dati selezionati casualmente 9 e 3.

Figura 3: Grafico della distribuzione normale per la simulazione di convalida 4, set di dati 9 per verificare la distribuzione normale del termine di errore.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (35)

Risultati

29

Come in figura 3 e in figura

4 si può vedere, il seguente

Distribuzioni del termine di errore a

Normale o logaritmica

distribuzione normale. I risultati per

i modelli additivi e recessivi lo sono

comparabile, ma non extra qui

mostrato.

Figura 4: grafici di distribuzione log-normale per la simulazione di convalida 5 set di dati 3 per verificare la distribuzione log-normale del termine di errore.

Le medie e le varianze

dell'intero fenotipo e

i valori medi e

Frequenze per il

principali effetti genici e

sono varianze dei termini di errore

mostrato nella Tabella 7. Come

prima che solo quelli piccoli siano passati

la coincidenza da spiegare

riconoscere le differenze.

< -1,155 ≥ -1,155 Totale < 0 ≥ 0 Totale

Osservato: media -3,439 1,122 -0,091 -3,495 1,152 0,017 varianza 0,532 0,469 4,533 0,313 0,511 4,451 conteggio 635 1757 2400 586 1814 2400

Atteso: media -3,464 1,155 0 -3,464 1,155 0 varianza 0,5 0,5 4,5 0,5 0,5 4,5 conteggio 600 1800 2400 600 1800 2400

termine di errore di distribuzione normale

Termine di errore della distribuzione normale logaritmica

Tabella 7: Medie, varianze e frequenze osservate e attese per le simulazioni di convalida 4, 5 con i set di dati selezionati casualmente 9 e 3 e i loro principali effetti genici per un modello con effetto genico principale e termine di errore.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (36)

Risultati

30

4.1.3.2 Effetto famiglia

Per verificare l'effetto famiglia simulato, le simulazioni di validazione 6, 7

e 8 set di dati selezionati casualmente 10, 7 e 8, in cui solo un effetto del gene principale e uno

effetto famiglia sono stati simulati. Anche le medie e le varianze dell'intero fenotipo

le medie e le frequenze per l'effetto del gene principale e le varianze per gli effetti della famiglia

sono riportati nella Tabella 8. Ancora una volta, solo piccole differenze da spiegare per caso

per riconoscere.

Tabella 8: Medie, varianze e frequenze osservate e attese per le simulazioni di convalida 6, 7 e 8 con i set di dati selezionati casualmente 10, 7 e 8 e i loro principali effetti genici per un modello con gene principale e effetto familiare.

< -0,817 ≥ 0,817 Totale < -1

≥ -1 e ≤ 1 > 1 totale < 0,817 > 0,817 totale

Osservato: Media -2,446 0,801 0,013 -1,973 0,008 2,0118 0,007 -0,814 2,424 0,002 Varianza 0,205 0,209 2,145 0,191 0,181 0,177 2,227 0,200 0,226 2.184 numero 582 1818 2400 622 1164 614 2400 1795 605 2400

Media attesa -2,45 0,816 0 -2 0 2 0 -0,817 2,45 0 Varianza 0,2 0,2 ​​2,2 0,2 ​​0,2 ​​0,2 ​​2,2 0,2 ​​0,2 ​​2,2 Numero 600 1800 2400 600 1200 600 2400 1800 600 2400

Dominante Additivo Recessivo

Contrariamente al termine di errore, l'effetto famiglia è lo stesso per tutti i membri di una famiglia. Là

le simulazioni di validazione 6, 7 e 8 non contengono un termine di errore, ne consegue che lì

solo un massimo di due possibili fenotipi per il modello dominante o tre per il modello recessivo all'interno

mezza famiglia può dare. Anche questo è stato verificato nei tre set di dati.

4.1.4 Selezione delle famiglie

Per verificare la selezione delle famiglie, i set di dati simulati sono stati utilizzati per confrontare i

Metodi analitici di accoppiamento sotto ipotesi di distribuzione normale e indipendente

fratelli usati. Innanzitutto, sulla base di 30.000 fenotipici simulati

pen ha stimato i limiti del quartile empirico per i tre modelli sotto selezione casuale. Nel

il passaggio successivo è stato per un set di dati selezionato in modo casuale sotto selezione semplice

Massimo dei fenotipi dei bambini per famiglia determinato. Il minimo della famiglia

lienmaxima dovrebbe quindi essere vicino al limite del quartile superiore empirico precedentemente determinato

sono equivalenti a. Da un lato, questo conferma che tutte le famiglie soddisfano i semplici criteri di selezione

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (37)

Risultati

31

rium, e dall'altro che le famiglie non sono selezionate a un livello più rigoroso

divenne.

I risultati sono riassunti nella Tabella 9. I risultati mostrano il dato al

Dimensioni del campione di 100 famiglie per set di dati selezionato Differenze attese.

Tabella 9: Convalida della selezione semplice per set di dati selezionati in modo casuale in base a un modello dominante, additivo e recessivo. Limiti stimati del quartile superiore e inferiore sotto selezione casuale e minimo dei massimi della famiglia sotto selezione semplice, ciascuno stimato nei figli.

Dominante Additivo Recessivo Limite del quartile superiore stimato 0,635 0,667 0,621

Limite quartile inferiore stimato -0,692 -0,676 -0,673Set di dati selezionato 46803 21050 4933

Minimo dei massimi familiari 0,631 0,674 0,649

Per verificare la doppia selezione, in ogni caso è stato utilizzato un set di dati selezionato a caso

determinato sotto doppia selezione per ogni famiglia, se una delle tre possibilità di

abbinare la doppia selezione. Inoltre, il minimo del quarto superiore

figli selezionati al di sopra del limite del quartile inferiore e il massimo di quelli selezionati al di sopra del limite del quartile inferiore

bambini individuati.

Tabella 10: Convalida della doppia selezione per set di dati selezionati casualmente in base a un modello dominante, additivo e recessivo. Vengono mostrati il ​​numero di famiglie che corrispondono ad uno dei tre possibili criteri di selezione e il minimo/massimo di bambini selezionati tramite il limite superiore/inferiore del quartile. Q4 è il limite del quartile superiore, mentre Q1 è il limite del quartile inferiore.

Dominante Additivo RecessivoSet di dati selezionato 4989 28579 40900 Famiglie selezionate: 'Q4, Q4 42 43 53 'Q4, Q1 25 24 23 'Q1, Q1 46 41 31 Famiglie che soddisfano almeno uno dei criteri 100 99 100 Numero minimo di bambini selezionati sopra il quartile superiore limite 0 .636 0.675 0.624 Numero massimo di figli selezionati al di sopra del limite del quartile inferiore -0.693 -0.689 -0.678

I risultati nella Tabella 9 e nella Tabella 10 mostrano le dimensioni del campione fornite di

100 famiglie per set di dati selezionati si aspettavano differenze casuali.

4.2 Set di dati e calcolo delle statistiche dei test

La dimensione totale dei set di dati simulati era di 130 GB. Le strutture familiari, le dimensioni

e il numero di famiglie per set di dati sono stati verificati per tutti i set di dati e corrispondono a

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (38)

Risultati

32

parametri di simulazione richiesti (non mostrati in dettaglio qui). Inoltre, l'eredità

le regole del marcatore genetico sono state verificate con il pacchetto software Pedcheck per tutti i set di dati.

Il calcolo di tutte le statistiche dei test ha richiesto circa due anni di processore su un processore Intel© Xeon©

Processore con clock a 2,8 GHz, i calcoli vengono eseguiti in parallelo su più processori

sono state effettuate. Le statistiche del test sono state calcolate utilizzando script bash

eseguito automaticamente. Allo stesso modo, il calcolo dell'errore empirico di tipo I e il

potere empirico tramite script bash e programmi R. La stazione di prova

Le statistiche e altri risultati intermedi hanno prodotto altri 4 GB di dati.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (39)

Risultati

33

4.3 Errori empirici di tipo I dei metodi

La rappresentazione degli errori empirici di tipo I delle procedure si basa su una tabella

Panoramica dell'errore empirico di tipo I del rispettivo metodo con un tipo I nominale

errore di 0,01. Inoltre, una divisione in sette categorie - come nel capitolo 3,

Descritto nella Sezione 2.2 – realizzato (da Tabella 11 a Tabella 18). Inoltre, il

Risultati empirici di errore di tipo I dato un errore nominale di tipo I di 0,05 e 0,001

nell'appendice della Tabella 24, pagina 67 alla Tabella 29, pagina 72.

Sotto ipotesi di distribuzione normale, fratelli indipendenti e selezione casuale

i MODELLI A COMPONENTI DELLA VARIANZA mostrano un errore di tipo I chiaramente troppo liberale durante il

Metodo MERLIN-QTL con la statistica test di Whittemore e Halpern e il MODEL-BASED

procedura mostra quasi sempre un errore conservativo di tipo I. Gli altri metodi lo sostengono

corretto livello di errore di tipo I. Ha una deviazione in una o più di queste tre ipotesi

spesso hanno un'influenza sull'errore di tipo I. Questo è per ogni singola procedura in

spiegato in dettaglio nelle sezioni seguenti.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (40)

Risultati

34

4.3.1 Metodo di Haseman-Elston

Il metodo HASEMAN-ELSTON mantiene l'errore di tipo I sotto normali ipotesi di distribuzione e

fratelli indipendenti per tutti e tre i disegni di studio.

Per i fratelli dipendenti, l'implementazione di Genehunter ne mostra solo uno minimo

aumento dell'errore di tipo I. Un errore di tipo I liberale più chiaro mostra il micro generalizzato

Regressione dei quadrati usata in S.A.G.E. è implementato.

Il metodo HASEMAN-ELSTON tende a violare le ipotesi della distribuzione normale

generalmente tendono a mostrare un errore di tipo I che è chiaramente troppo conservativo. Questo effetto è più forte di

l'effetto opposto dei fratelli a carico.

Non è possibile identificare un'influenza del disegno dello studio sull'errore di tipo I.

Tabella 11: Errore empirico di tipo I [in %] del metodo HASEMANN-ELSTON con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.

Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez

Sotto ipotesi di distribuzione normale: Gh.HE.Trad Indipendente 0,966 0,992 0,966 1,008 1,018 0,963 1,014 1,010 1,080

Salvia HE 0,963 0,967 0,948 0,991 0,985 0,940 1,006 0,988 1,060

Gh.HE.Trad Dipendente 1.063 1.080 1.103 1.088 1.122 1.094 1.092 1.075 1.036

Sage.HE 1.212 1.119 1.286 1.174 1.131 1.167 1.163 1.108 1.089

Violazione delle normali ipotesi di distribuzione: Gh.HE.Trad Indipendente 0,620 0,646 0,620 0,669 0,654 0,683 0,643 0,648 0,622

Salvia.HE 0,672 0,716 0,688 0,735 0,721 0,709 0,728 0,712 0,667

Gh.HE.Trad Dipendente 0,885 0,865 0,957 0,983 0,939 0,975 0,886 0,909 0,929

Salvia HE 1,108 0,955 1,137 0,732 0,682 0,781 1,169 0,975 1,104

Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (41)

Risultati

35

4.3.2 Metodo Haseman-Elston rivisto

Il metodo REVISED HASEMAN-ELSTON mantiene l'errore nominale di tipo I al di sotto del normale

ipotesi divise e fratelli indipendenti per tutti e tre i disegni di studio.

I fratelli a carico mostrano una marcata inflazione dell'errore di tipo I, che anche

è persino più forte della regressione dei minimi quadrati generalizzata per HASEMAN-ELSTON

Procedura.

In violazione dei presupposti della distribuzione normale, la REVISED HASEMAN-ELSTON tende

Metodo per diventare debolmente conservatore. Tuttavia, questo effetto sembra essere molto più debole

essere più pronunciato rispetto al processo HASEMAN-ELSTON.

Non è possibile identificare un'influenza del disegno dello studio sull'errore di tipo I.

Tabella 12: Errore empirico di tipo I [in %] del metodo REVISED HASEMANN-ELSTON con un errore nominale di tipo I di 0,01 in % e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.

Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez

Sotto ipotesi di distribuzione normale: rHE Indipendente 0,990 0,998 1,009 1,024 1,044 0,932 1,021 0,989 1,018

rHE Dipendente 1.662 1.531 1.452 1.356 1.342 1386 1.255 1.226 1.210

Violazione delle ipotesi di distribuzione normale: rHE Indipendente 0,971 0,879 0,895 0,914 0,915 0,907 0,971 0,920 0,946

rHE Dipendente 1.860 1.700 1.724 1.410 1.319 1.327 1.451 1.328 1.351

Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (42)

Risultati

36

4.3.3 Metodo di regressione di Merlin

MERLIN-REGRESS mantiene l'errore di tipo I sotto normali ipotesi di distribuzione e più indipendente

Fratelli per tutti e tre i disegni di studio.

Nei fratelli a carico, c'è una leggera inflazione dell'errore di tipo I.

Violando i presupposti della distribuzione normale, MERLIN-REGRESS ne mostra uno conservativo

Difetti di tipo I nei fratelli indipendenti ma non nei fratelli a carico

lavoro. Qui MERLIN-REGRESS mostra un errore liberale di tipo I della stessa entità.

Non è possibile identificare un'influenza del disegno dello studio sull'errore di tipo I.

Poiché l'applicazione di MERLIN-REGRESS stima la media basata sulla popolazione,

della varianza e dell'ereditabilità del fenotipo, anche l'effetto era uno

Controllo errore di specifica di un parametro. I risultati sono inclusi per chiarezza

mostrato in appendice (dalla Figura 6 alla Figura 8, da pag. 73 a 75). Nelle immagini è troppo

riconoscere che una specifica errata di un parametro si traduce solo in una perdita empirica di potere

porta, ma l'errore di tipo I non è interessato in tutti gli scenari.

Tabella 13: errore empirico di tipo I [in %] del metodo MERLIN-REGRESS con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.

Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez

Sotto ipotesi di distribuzione normale: Regresso Merlin Indipendente 0,958 0,970 0,963 1,029 1,014 0,961 0,994 1,007 0,988

Dipendente dal regresso Merlin 1.323 1.256 1.247 1.215 1.248 1.260 1.214 1.195 1.156

Violazione delle ipotesi di distribuzione normale: regresso di Merlin Indipendente 0,805 0,811 0,818 0,747 0,816 0,810 0,850 0,848 0,892

Regresso Merlin dipendente 1.293 1.230 1.250 1.185 1.193 1.214 1.212 1.197 1.200

Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (43)

Risultati

37

4.3.4 Modelli a componenti di varianza

I MODELLI A COMPONENTI DELLA VARIANZA mostrano un tipo corretto praticamente in nessuno degli scenari

sbaglio. Anche per un campione casuale sotto ipotesi di distribuzione normale e

fratelli indipendenti, l'errore di tipo I è chiaramente troppo liberale.

Il disegno dello studio della selezione singola e doppia mostra un'enorme influenza sulla

Errore di tipo I. Mentre con la semplice selezione i MODELLI A COMPONENTI DI VARIANZA a

mostra chiaramente a un enorme errore di tipo I troppo conservativo, l'errore di tipo I è doppio

Selezione massicciamente troppo liberale.

Se le ipotesi di distribuzione normale vengono violate, le deviazioni diventano ancora più drastiche.

Deviazioni di un fattore da tre a cinque dell'errore empirico di tipo I rispetto al tipo nominale I

Gli errori si verificano quasi sempre qui.

Il fattore di discrepanza appare nella situazione dei fratelli indipendenti

essere significativamente più forte che nei fratelli a carico.

Tabella 14: Errore empirico di tipo I [in %] dei MODELLI A COMPONENTI DELLA VARIANZA con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.

Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez

Sotto ipotesi di distribuzione normale: Gh.VC Indipendente 1,430 1,145 1,417 0,675 0,393 0,170 2,073 2,032 2,167

Solar.VC 1,414 1,142 1,417 0,678 0,391 0,173 2,052 2,027 2,157

Gh.VC dipendente 1.413 1.097 1.372 1.113 0.904 0.919 1.336 1.134 1.325

Solar.VC 1.375 1.057 1.345 1.105 0.895 0.911 1.293 1.111 1.306

Violazione delle normali ipotesi di distribuzione: Gh.VC Indipendente 6,260 5,749 5,163 0,365 0,256 0,100 5,486 5,685 4,880

Solar.VC 6,270 5,779 5,193 0,364 0,247 0,097 5,481 5,645 4,884

Gh.VC dipendente 4.764 4.130 3.979 1.525 1.432 1.060 3.947 3.748 3.427

Solar.VC 4.739 4.096 3.971 1.514 1.451 1.070 3.951 3.745 3.391

Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (44)

Risultati

38

4.3.5 Wilcoxon-Rangsumentetest

Il WILCOXON RANK SUM TEST interrompe l'errore di tipo I corretto in condizioni di distribuzione normale

nonché in violazione dei presupposti di distribuzione normale nel caso di indipendenti

Fratelli per tutti e tre i disegni di studio.

Nei fratelli a carico c'è una leggera ma significativa inflazione di tipo I.

errore.

Non è possibile identificare un'influenza del disegno dello studio sull'errore di tipo I.

Tabella 15: Errore empirico di tipo I [in %] del WILCOXON RANK SUM TEST con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel Capitolo 3, Sezione 2.2.

Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez

Sotto ipotesi di distribuzione normale: Npar Indipendente 0,989 0,961 0,929 0,972 0,954 1,075 0,978 0,969 0,967

Npar Dipendente 1.142 1.195 1.144 1.065 1.196 1.156 1.131 1.135 1.134

Violazione delle normali ipotesi di distribuzione: Npar Indipendente 0,989 0,961 0,929 0,972 0,954 1,075 0,978 0,969 0,967

Npar dipendente 1.106 1.179 1.116 1.208 1.142 1.218 1.132 1.080 1.118

Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (45)

Risultati

39

4.3.6 Procedura Merlin-QTL

La statistica del test di Kong e Cox (1997) del metodo MERLIN-QTL vale in tutte le simulazioni

il livello di errore di tipo I corretto. Non vi è alcuna influenza di selezione, ipotesi di distribuzione o

fratelli a carico per riconoscere l'errore di tipo I.

Il test statistico di Whittemore e Halpern (1994) del metodo MERLIN-QTL mostra tra tutti

Le simulazioni mostrano un errore di tipo I chiaramente troppo conservativo. Non è un'influenza della selezione,

Ipotesi di distribuzione o fratelli dipendenti per riconoscere l'errore di tipo I.

Tabella 16: errore empirico di tipo I [in %] del metodo MERLIN-QTL con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.

Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez

Sotto ipotesi di distribuzione normale: Merlin.K&C Indipendente 0,994 0,996 0,966 0,953 0,929 0,919 0,954 0,994 0,960

Merlin.W&H 0,674 0,690 0,688 0,644 0,643 0,610 0,649 0,690 0,664

Dipendente Merlin.K&C 0,954 1,022 0,938 0,930 0,995 0,979 0,930 0,999 0,908

Merlin.W&H 0,721 0,765 0,681 0,669 0,729 0,734 0,699 0,725 0,667

Violazione delle ipotesi normali: Merlin.K&C Indipendente 0,957 1,019 0,945 0,961 0,970 0,966 1,009 0,950 1,007

Merlin.W&H 0,666 0,704 0,634 0,665 0,649 0,673 0,711 0,629 0,687

Dipendente Merlin.K&C 0,941 0,971 0,946 0,938 0,927 0,945 0,946 0,997 1,011

Merlin.W&H 0,734 0,712 0,724 0,695 0,673 0,697 0,720 0,744 0,750

Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (46)

Risultati

40

4.3.7 Metodo binomiale di massima verosimiglianza

Il metodo MAXIMUM LIKELIHOOD BINOMIAL tiene entrambi utilizzando la normale

ipotesi di distribuzione, nonché utilizzando la funzione di distribuzione empirica

dieci categorie in tutte le simulazioni il livello di errore di tipo I corretto. Non è influenzato da

Selezione, ipotesi distributive o fratelli dipendenti verso l'errore di tipo I

riconoscere.

Tabella 17: errore empirico di tipo I [in %] del metodo MAXIMUM LIKELIHOOD BINOMIAL con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.

Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez

Sotto ipotesi di distribuzione normale: Mlbqt.NV Indipendente 1,065 1,134 1,056 1,058 1,063 0,956 1,018 1,086 1,033

Mlbqt.Kat 1.068 1.131 1.044 1.015 1.081 0.981 1.022 1.084 1.013

Mlbqt.NV Dipendente 0,989 0,986 0,970 0,987 1,011 1,037 0,932 0,996 0,949

Mlbqt.Kat 1.000 1.030 0.987 0.971 0.981 1.057 0.938 1.008 0.931

Violazione delle normali ipotesi di distribuzione: Mlbqt.NV Indipendente 1,044 1,053 1,082 1,077 1,008 0,986 1,037 0,967 1,055

Mlbqt.Kat 1,043 1,025 1,038 1,043 0,975 1,009 1,039 0,964 1,014

Mlbqt.NV Dipendente 0,983 0,966 1,049 0,985 0,996 0,985 1,024 0,978 1,007

Mlbqt.Kat 0,983 0,966 1,049 0,985 0,996 0,985 1,024 0,978 1,007

Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (47)

Risultati

41

4.3.8 Metodo basato su modelli

Il metodo MODEL-BASED completamente parametrizzato mostra una conservazione da significativa a massiccia

Errore di tipo I in quasi tutte le simulazioni anche in ipotesi di distribuzione normale e indipendente

fratelli giger per tutti e tre i progetti di studio.

L'effetto dei fratelli a carico e la violazione delle normali ipotesi di distribuzione

all'errore di tipo I non è chiaro.

Sotto selezione singola e doppia, l'errore di tipo I sembra essere

aumentare in caso di selezione casuale.

Tabella 18: Errore empirico di tipo I [in %] del metodo MODEL-BASED con un errore nominale di tipo I di 0,01 e ulteriormente suddiviso in sette categorie come descritto nel capitolo 3, sezione 2.2.

Procedura Fratelli Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez

Sotto ipotesi di distribuzione normale: Linkage Indipendente 0,399 0,014 0,170 1,040 0,229 0,823 1,049 0,485 0,920

Dipendente dal collegamento 0,483 0,015 0,236 0,915 0,147 0,702 0,812 0,139 0,593

Violazione delle normali ipotesi di distribuzione: Linkage Independent 0,580 0,021 0,288 1,062 0,304 1,059 1,081 0,368 0,932

Dipendente dal collegamento 0,593 0,031 0,360 0,984 0,213 0,861 0,882 0,159 0,659

Errore empirico di tipo I in %Senza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (48)

Risultati

42

4.4 Confronto empirico di potenza delle procedure

I risultati delle simulazioni Monte Carlo per determinare la potenza empirica sono nel

Tabella 19 per le simulazioni sotto ipotesi di distribuzione normale e Tabella 20 per

Simulazioni mostrate in violazione delle ipotesi di distribuzione normale.

In generale, si può vedere che il metodo MODEL-BASED completamente parametrizzato per

i modelli dominanti e recessivi mostrano la massima potenza. A causa del vero,

ma negli studi reali questo risultato era una specifica del modello per il QTL che era praticamente inestimabile

prevedibile (vedi capitolo 2, sezione 8, p. 17). Il metodo MODEL-BASED può quindi

essere inteso come una sorta di gold standard, ma di solito non è così negli studi reali

può essere utilizzata. Il metodo MODEL-BASED è quindi utilizzato nell'ulteriore

menti per il confronto di potenza non considerati ulteriormente.

Tabella 19: Potenza empirica [%] a un livello di errore empirico del 5% in condizioni di distribuzione normale.

Procedura Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 34.3 38.4 32.4 69.2 64.3 64.0 58.7 66.7 57.2Sage.HE 34.0 38.0 32.3 68.9 63.9 63.9 58.7 66.8 57.3rHE 24.0 27,6 26,4 59,6 55,9 60,2 62,7 59,7 62,4 Regressione Merlin 41,9 48,9 39.7 79.0 76.2 79.3 75.8 76.7 79.6Gh.VC 43.5 47.4 41.7 82.0 71.7 77.3 73.0 76.2 79.0Solar.VC 43.5 47.4 41.5 82.0 71.8 77.6 72. 9 76,7 78,9 Npar 20,9 27,2 22,7 60,1 57,9 57,9 36,2 44,1 37,6 Merlin.K&C 13,1 18,7 13,5 40,2 40,2 43,0 45.7 53.9 45.2 Merlin.W&H 15.1 20.4 14.5 43.1 42.2 44.1 46.8 55.8 47.1Mlbqt.N 21.6 23.6 20.9 46.1 46.0 44.3 51.3 54.4 51.2Mlb qt ​​Cat. 21,0 22,7 18,7 43,5 45,3 41,2 49,1 54,1 48,5 Collegamento 69,0 40,5 57,8 94,4 65,5 89,8 91,7 70 .4 88.6Gh.HE.Trad Dipendente 39.6 43.4 35.8 65.2 59.7 57.1 51.4 56.3 47.8Sage.HE 43.6 45.3 40.7 70, 0 64.4 62.3 54.8 59.3 54.1rHE 35.8 4 1,5 39,2 64,0 57,4 58,5 52,0 56,7 52,3 Regressione Merlin 49,3 52, 3 47,1 77,4 71.9 72.1 62.8 66.2 64.2Gh.VC 52.0 53.9 48.8 77.8 70.2 72.6 63.0 65.6 64, 9Solar.VC 51.3 53.4 48.4 77.3 70.8 73.0 62.9 66.7 65 .0Npar 23,7 30,9 26,4 55,7 48,8 49,5 38, 7 43,4 36,8 Merlin.K&C 15,9 23,0 18,2 43,0 40,0 35.8 30.0 40.7 28.0 Merlin.W&H 18.6 25.4 19.6 46.9 42.3 39.0 32.2 43.9 30.0Mlbqt.N 22.5 28.6 22.5 45.2 43.9 35.7 34.8 41.7 32. 6Mlbqt.Cat 23.1 28 ,1 21.3 43.6 42.6 32.9 33.3 40.7 31.1 Collegamento 69.3 48.9 59.4 88.8 64.2 80.2 83.2 62,2 75,2

fratelli

Potenza empirica sotto ipotesi di distribuzione normaleSenza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (49)

Risultati

43

Tabella 20: Potenza empirica [%] a un livello di errore empirico del 5% che viola i presupposti della distribuzione normale.

Procedura Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 18.3 17.9 17.4 16.1 10.9 15.7 17.4 20.9 19.1Sage.HE 18.1 17.8 17.1 15.7 11.0 15.7 17.4 21.0 19.2rHE 28.0 31,5 28,7 59,5 47,3 55,1 41,7 29,4 46,8 Regressione Merlin 41,1 38,3 35.1 53.7 40.5 53.8 50.2 51.0 58.4Gh.VC 40.1 33.8 34.6 44.5 25.4 42.6 40.8 42.5 55.2Solar.VC 40.4 34.6 34.7 44.2 25.5 43.2 40. 7 42,3 55,2Npar 40,4 83,4 34,5 82,7 70,7 77,2 36,9 62,9 35,5Merlin.K&C 25,1 47,9 23,6 76,1 55,6 72,8 55.6 72.8 51.9Merlin.W&H 25.8 50.0 25 ,1 77.8 59.0 73.1 57.7 75.3 54.1Mlbqt.N 29.7 32.9 27.2 68.4 52.6 60.5 55.6 67.4 56.7Ml bqt Cat. 29,6 36,1 24,0 64,3 51,9 51,0 54,7 69,3 55,0 Collegamento 65,6 38,7 44,6 95,3 54,2 73,2 76,4 59 .6 69.0Gh.HE.Trad Dipendente 21.7 26.5 23.4 26.7 22.3 24.8 29.6 23.2 27.5Sage.HE 36.3 39.9 36.0 44, 4 36.8 44.5 45.8 39.2 43.8rHE 43.6 5 1,1 45,8 65,3 59,8 64,9 61,9 58,9 59,1 Regressione Merlin 49,5 54, 1 48,9 64,2 52.4 63.2 62.9 58.3 62.4Gh.VC 43.4 48.8 46.1 57.3 45.1 56.2 57.4 48.1 59, 2Solar.VC 43.4 49.8 46.4 57.6 45.0 56.6 57.9 48.6 58 .9Npar 42,5 86,2 40,7 81,0 86,9 74,7 61, 4 88,3 57,8 Merlin.K&C 24,7 51,8 24,5 65,5 71,9 58.8 48.1 64.2 41.8 Merlin.W&H 27.3 55.7 27.0 68.6 74.5 62.7 51.7 67.1 46.8Mlbqt.N 30.1 40.0 31.9 60.8 56.3 56.0 49.8 52.7 46. 8Mlbqt.Cat 30.0 43,2 29.0 59.3 57.0 48.7 48.0 54.2 42.9 Collegamento 66.3 51.1 51.1 89.1 61.8 71.5 81.3 57,2 67,0

fratelli

Potere empirico in violazione delle normali ipotesi di distribuzione

Senza selezione Selezione singola Selezione doppia

4.4.1 Confronto empirico del potere all'interno delle procedure

Tutti i metodi mostrano ipotesi di distribuzione normale con selezione singola o doppia

un potere empirico maggiore rispetto al campione basato sulla popolazione. D'altra parte mostra

se vengono violati i presupposti della distribuzione normale, solo il REVISED HASEMAN-ELSTON

Metodi, MERLIN REGRESS, WILCOXON RANGSUMTEST e allele sharing

Gli approcci MERLIN-QTL e il metodo MAXIMUM LIKELIHOOD BINOMIAL mostrano un valore empirico più elevato

potenza calorica rispetto al disegno dello studio basato sulla popolazione. A HASEMAN-ELSTON

metodo e il VARIANCE COMPONENT MODELS è, se non del tutto, solo sporadicamente

riconoscere un potere empirico superiore.

Il confronto diretto della potenza dei singoli metodi sotto normali ipotesi di distribuzione

i modelli altrimenti identici in violazione delle ipotesi di distribuzione normale producono a

quadro eterogeneo, che viene spiegato di seguito.

Nel metodo HASEMAN-ELSTON, in violazione delle ipotesi di distribuzione normale, a

un netto calo del potere empirico nel non basato sulla popolazione

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (50)

Risultati

44

disegno dello studio significa anche che, rispetto alla selezione casuale, non c'è potere

il profitto è più riconoscibile. Durante la selezione casuale presso MERLIN-REGRESS e the

VARIANCE COMPONENT MODELS mostra che solo una potenza empirica leggermente inferiore è retta

con i MODELLI A COMPONENTI DI VARIANZA un netto calo di potenza nel non

disegni di studio basati sulla popolazione. Il metodo REVISED HASEMAN-ELSTON

mostra un potere molto robusto, cioè un'influenza, in violazione delle ipotesi di distribuzione normale

sul potere empirico non è evidente.

Il WILCOXON RANK SUM TEST e il metodo di condivisione degli alleli - MERLIN-QTL e il

Procedure BINOMIALI DI MASSIMA PROBABILITÀ - mostrano chiaramente a in tutti e tre i disegni di studio

potere empirico superiore.

4.4.2 Potere empirico dei metodi nel confronto diretto

In primo luogo, i risultati del confronto dei metodi sotto ipotesi di distribuzione normale

spiegato. MERLIN-REGRESS e i MODELLI A COMPONENTI DELLA VARIANZA generalmente mostrano un valore elevato

potere empirico. Gli altri due metodi basati sulla regressione, ovvero HASEMAN

ELSTON e il metodo REVISED HASEMAN-ELSTON seguono a netta distanza.

I metodi di condivisione degli alleli MERLIN-QTL e MAXIMUM raggiungono la potenza più bassa

Metodo BINOMIALE DI PROBABILITÀ e WILCOXON RANK SUM TEST. Quest'ordine

è lo stesso per tutti e tre i disegni di studio.

La regressione dei minimi quadrati generalizzata nel metodo HASEMAN-ELSTON mostra at

fratelli a carico hanno un potere empirico leggermente superiore, tuttavia, l'empirico

La potenza è ancora significativamente inferiore rispetto a MERLIN-REGRESS e VARIANCE-COMPO-

MODELLI NETTI.

Violando le normali ipotesi di distribuzione, i disegni dello studio risultano ad es. T

risultati diversi. Per questo motivo, i risultati di ogni metodo sono spiegati individualmente.

Il metodo HASEMAN-ELSTON mostra di gran lunga il più basso in tutti e tre i disegni di studio

potere empirico. La regressione dei minimi quadrati generalizzata del metodo HASEMAN-ELSTON

ren migliora il potere empirico nei fratelli dipendenti, in particolare in quello

disegno di studio basato sulla popolazione - ma il potere raggiunge il potere del solo in singoli casi

altre procedure.

Il metodo REVISED HASEMAN-ELSTON mostra una media stabile per tutti i modelli

potere empirico. Funziona significativamente meglio nei fratelli a carico.

I VARIANCE COMPONENT MODELS e MERLIN-REGRESS mostrano sotto la popolazione

studio basato progettare una potenza elevata. Tuttavia, sotto la selezione singola e doppia mostra

MERLIN-QTL e in particolare WILCOXON RANK SUM TEST hanno la potenza più alta. IL

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (51)

Risultati

45

I MODELLI A COMPONENTI DI VARIAZIONE hanno un potere empirico inferiore tra tutti i modelli

als MERLIN-REGRESS.

Il WILCOXON RANK SUM TEST mostra quasi sempre la massima potenza. Uno sistematico

L'unica eccezione è la doppia selezione per i fratelli indipendenti

riconoscere.

È stato ottenuto un risultato medio per MERLIN-QTL e il metodo MAXIMUM LIKELIHOOD BINOMIAL

Potenza in un campione basato sulla popolazione, tuttavia, questi due metodi sono in

Disegno dello studio in fase di selezione in parte comparabile con l'elevata potenza del WILCOXON

TEST DELLA SOMMA DEL RANGO.

4.4.3 Riepilogo dei confronti empirici di potenza

Metodo HASEMAN-ELSTON

Sotto ipotesi di distribuzione normale, il metodo HASEMAN-ELSTON ha indipendente da

Studio di progettazione di media potenza. In violazione delle ipotesi di distribuzione normale, il

il drastico calo del potere empirico generalmente fa sì che mostri il minimo potere.

Nei fratelli a carico, il potere empirico in micro-

Regressione dei quadrati aumentati rispetto alla normale regressione dei minimi quadrati, questo ha

ma non ha alcuna influenza sulla classifica.

Per tutti gli scenari considerati, il metodo HASEMAN-ELSTON è inferiore a MERLIN-REGRESS.

Metodo HASEMAN-ELSTON REVISIONATO

Il metodo REVISED HASEMAN-ELSTON mostra, indipendentemente dal disegno o dalla distribuzione dello studio

presupposti di sviluppo consistentemente una robusta potenza media.

MERLIN-REGRESSO

Sotto ipotesi di distribuzione normale, MERLIN-REGRESS mostra a

elevata potenza empirica paragonabile ai MODELLI A COMPONENTI DI VARIAZIONE. sotto infortunio

zione delle ipotesi di distribuzione normale, invece, sono i MODELLI A COMPONENTI DELLA VARIANZA

prendere in considerazione. Anche qui la potenza è elevata, ma MERLIN-QTL e in particolare il

WILCOXON RANK SUM TEST particolarmente superiore alla selezione.

Tuttavia, una specifica errata di un parametro si traduce solo in una perdita empirica di potenza

l'errore di tipo I non è interessato in tutti gli scenari (da Figura 6 a Figura 8, pag. 73 a

75). La specifica errata della media ha mostrato il maggiore impatto sulla potenza. UN

Sopravvalutare la varianza ha un effetto più debole ma ancora forte, mentre a

Sottovalutare la varianza non sembra comportare una perdita di potenza. L'effetto dell'a

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (52)

Risultati

46

l'errata specificazione moderata e realistica dell'ereditabilità è bassa; tuttavia, cresce

quando ci si avvicina ai limiti superiore e inferiore (0 e 1).

MODELLI A COMPONENTI DI VARIAZIONE

Sotto ipotesi di distribuzione normale, i MODELLI A COMPONENTI DELLA VARIANZA mostrano indipendentemente da

Studia il design insieme a MERLIN-REGRESS la massima potenza. In violazione del normale

ipotesi distributive, anche il potere per il disegno dello studio basato sulla popolazione è elevato,

tuttavia, sotto la selezione si può notare un netto calo di potenza. Il WILCOXON

RANK SUM TEST e i metodi di condivisione degli alleli hanno quindi generalmente un valore più elevato

Energia.

I risultati delle due implementazioni software considerate in Solar e Genehunter

non suggeriscono differenze nel potere empirico.

WILCOXON-RANGSUMMENTEST

Il WILCOXON RANK SUM TEST mostra ipotesi di distribuzione normale indipendenti da

disegno di studio un basso potere empirico. In violazione delle normali ipotesi di distribuzione

tuttavia, la situazione sta cambiando. Mentre sotto il disegno dello studio basato sulla popolazione, il Power

è paragonabile a quelli di MERLIN-REGRESS e VARIANCE COMPONENT MODELS,

è quasi sempre mostrato dal WILCOXON RANK SUM TEST tra i due disegni di studio selezionati

la massima potenza. Un'eccezione sistematica è solo in caso di doppia selezione

riconoscere fratelli indipendenti. Inoltre, vale la pena notare che sotto

Violazione delle normali ipotesi di distribuzione e selezione casuale della potenza nell'additivo

modello è significativamente più alto rispetto ai modelli dominante e recessivo.

Metodi MERLIN-QTL e MAXIMUM LIKELIHOOD BINOMIAL

Sotto ipotesi di distribuzione normale, entrambi i metodi mostrano a

basso potere empirico. Tuttavia, queste due procedure sono incluse nei disegni di studio

Selezione parzialmente paragonabile all'elevata potenza del WILCOXON RANK SUM TEST.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (53)

Risultati

47

4.5 Analisi del set di dati COAG Perth

I metodi analitici di accoppiamento utilizzati in questo lavoro devono ora essere sostituiti dal

Verrà illustrata l'applicazione a un set di dati reale. Questo è particolarmente importante

posato, la procedura pratica di mappatura genetica di un carattere quantitativo

per spiegare in modo più dettagliato.

A tale scopo, il set di dati "Consortium on Asthma Genetics: Perth study" (COAG Perth Daten-

frase) messo a disposizione per il Laboratorio di analisi genetica 12

analizzato.

Nella prima fase, i dati del set di dati originale sono stati preparati in modo tale da poterlo essere

quello del dott. È possibile utilizzare Franke e il software creato dall'autore Abi2Link

Potevo. La formattazione dei file di input si basa sul formato di output della maggior parte dei file

piattaforme di genotipizzazione. Ecco perché ci sono stati solo aggiustamenti minimi come il cambiamento

il nome del file è obbligatorio. I formati di input includono file di esempio nel pacchetto software

documentato e quindi non spiegato in dettaglio qui. Abi2Link è stato quindi utilizzato per l'automatico

creazione controllata da script dei file necessari nel formato dei dati di collegamento, che sono

sono stati utilizzati i seguenti. Il programma Abi2Link controlla automaticamente una serie

di errori logici nei dati e crea un registro. Errori di questo tipo possono essere ad es.

che i genotipi di un marcatore per una persona sono presenti più di una volta nel set di dati o

Le famiglie devono essere scritte nel formato di output di Linkage più di una volta. Abi2Link

serve anche come controllo iniziale dei dati per errori logici. Dai genitori

sono stati genotipizzati, le frequenze alleliche dei marcatori dei genitori potrebbero essere determinate con l'aiuto di

Abi2Link può essere stimato contemporaneamente e utilizzato successivamente per le analisi.

Quindi i genotipi contenuti nel set di dati sono stati controllati per ver-

errori di ereditarietà verificati (O'Connell e Weeks, 1998). Genotipi che mostrano le regole di ereditarietà

feriti sono stati esclusi da ulteriori indagini. C'era dovuto al

genotipi che violano le regole di ereditarietà nessuna evidenza di errori nelle strutture familiari, come

ad esempio mancano altri padri. Sono state identificate anche famiglie senza fenotipi o genotipi

Bambini esclusi dall'analisi in quanto non hanno alcun contributo all'analisi di linkage.

Pedcheck inoltre non ha trovato prove di una violazione dell'equilibrio di Hardy-Weinberg

dei due marcatori (risultati non mostrati in dettaglio qui).

Dopo il controllo di qualità, c'erano 82 famiglie delle 98 famiglie originarie con 195 bambini

disponibili che contenevano sia fenotipi che genotipi. Di questi, 56 sono passati

Famiglie composte da genitori e due figli, mentre le restanti 26 famiglie sono tra tre e quattro

avuto figli per famiglia.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (54)

Risultati

48

La figura 5 mostra la distribuzione dei fenotipi lnIge e lnIgeR dei bambini in uno

Istogramma. Sebbene entrambi gli istogrammi non mostrino valori anomali, appare nell'immagine

Confronto del fenotipo ln IgER per meglio corrispondere a una distribuzione normale. Il fenotipo lo farà

usato qui nella sua forma logaritmica perché si adatta meglio a una distribuzione normale

appare. Questa trasformazione dei dati è una pratica abbastanza comune.

Figura 5: Istogrammi dei bambini del set di dati COAG Perth per il titolo di IgE nel siero totale logaritmico (ln IgE) e il titolo di IgE nel siero totale logaritmico aggiustato (ln IgER).

Dopo il controllo di qualità e

i dati sono stati elaborati

ora gli otto metodi con l'in

Capitolo 3 Sezione 2.1 descritto-

n opzioni di analisi per a

Analisi del collegamento multipunto

applicato. Media, varianza e

i decili empirici erano qui,

ove necessario, dal

Fenotipi dei bambini stimati.

Per Merlin regresso, aggiuntivo

lich il parametro predefinito per il file

Ereditarietà di 0,5 utilizzata.

Per quanto possibile nel pacchetto software,

ulteriori valori p empirici sono stati determinati da 100.000 permutazioni.

L'applicazione dell'analisi di accoppiamento MODEL-BASED è stata omessa, poiché il

non è possibile la stima necessaria dei parametri dal set di dati. Allo stesso modo su quello

BINOMIALE DI PROBABILITÀ MASSIMA procedura sotto ipotesi di distribuzione normale omessa, poiché

Procedura D5S393 D5S399 D5S393 D5S399

Asymptotische p -Werte: Gh.HE.trad 0,0660 0,0751 0,0441 0,0126 Sage.HE 0,0648 0,0739 0,0310 0,0096 rHe 0,2831 0,3002 0,0047 0,0013 Merlin-Regress 0,0110 0,0300 0,0004 0,0004 Gh.VC 0,0151 0,0223 0,0032 0,0023 Solar.VC 0,0083 0,0084 0,0032 0,0023 Npar 0,0528 0 ,0544 0,0805 0,0540 Merlin.K&C 0,3632 0,3336 0,1239 0,0173 Merlin.W&H 0,1251 0,1003 0,1515 0,0314 Mlbqt.Kat 0,0379 0,0391 0,0062 0,0048

Valori p empirici: Sage.HE 0,0492 0,0599 0,0411 0,0121 rHE 0,3204 0,2982 0,0041 0,0008 Regresso Merlin 0,0201 0,0383 0,0018 0,0016

ln IgE ln IGER

Tabella 21: valori p asintotici ed empirici dell'applicazione dei metodi di analisi dell'accoppiamento al set di dati COAG Perth.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (55)

Risultati

49

almeno che il fenotipo ln IgER non segue una distribuzione normale standard. Nella tabella 21 sono

ha riassunto i risultati delle analisi di accoppiamento come una panoramica.

In generale, si può vedere che i valori p per età, sesso e antigene sono specifici

cal IgE titolo I titoli IgE logaritmici corretti sono inferiori rispetto a quelli non corretti

titolo logaritmico di IgE. Le differenze a volte enormi nei valori p nel

confronto metodologico. Mentre per il titolo di IgE logaritmico corretto il più alto asinto-

Tabella p-value al marcatore D5S393 utilizzando il metodo MERLIN-QTL con il

La statistica del test di Whittemore e Halpern è del 15%, il valore p asintotico più basso è dello 0,04%

e 0,16% come valore p empirico utilizzando MERLIN-REGRESS.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (56)

discussione

50

5 Discussione

Lo scopo di questo lavoro era un confronto completo della qualità dell'analisi di accoppiamento frequentemente utilizzata

Metodo per la mappatura genetica dei caratteri quantitativi. Per la prima volta il

Caratteristiche di qualità di questi metodi a tal punto sotto una varietà di realistico

Ipotesi e disegni di studio in un confronto diretto in una simulazione Monte Carlo

studio a confronto.

Nella prima sezione, viene discusso per primo il modello di simulazione selezionato. Nel

La sezione seguente descrive poi il software di simulazione Sibsim e le possibili applicazioni

esaminato più in dettaglio per ulteriori domande. La terza sezione esamina e discute il

Proprietà di qualità dei metodi analitici di accoppiamento, come determinato nel contesto di questo lavoro

è stato detto. I risultati della rianalisi sono poi presentati nelle ultime due sezioni

del set di dati COAG Perth e infine una prospettiva.

5.1 Modelli e metodi di simulazione selezionati

Per effettuare questo confronto, una simulazione per il QTL e il

Modello adatto ai fenotipi selezionati. Il modello additivo di Falconer e Mackay (1996)

sembrava essere il più adatto a causa del suo uso frequente. Va da

un effetto del gene principale definito da un QTL biallelico e tiene conto

inoltre un effetto ambientale, che è lo stesso di un effetto familiare per tutti i membri della famiglia, così come

un termine di errore.

È stato calcolato il contributo dell'effetto del gene principale alla varianza totale del carattere quantitativo

Fisso al 20% (ereditabilità di 0,2 in senso lato). Questo valore è realistico come numerosi

Suggerire stime nell'ambito delle analisi di segregazione. Ecco solo due esempi

del lavoro pratico dell'autore. Come parte di una mappatura genetica dell'essere umano

L'oncocercosi e un altro studio sulla mappatura genetica della malaria lieve hanno il

Autor e i suoi colleghi hanno stimato un'ereditabilità locus-specifica rispettivamente del 20% e del 38%.

(Timmann et al., 2007; Timmann et al., 2008).

La scelta delle strutture familiari e dei tre disegni di studio è stata già discussa nell'introduzione e

Materiale e metodi presentati in dettaglio. Pertanto non viene spiegato di nuovo qui

(vedi p. 2 e p. 20f). La dimensione del campione per set di dati era di 100 famiglie nucleari con due

fratelli o 300 famiglie nucleari da due a cinque fratelli (numero medio di

sorella era 3,04) anch'essa impostata su un valore comunemente utilizzato negli studi. Il già

Ad esempio, il suddetto studio sulla mappatura genetica della malaria lieve comprendeva 108 famiglie

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (57)

discussione

51

un numero medio di 3,54 fratelli. In quello analizzato nuovamente nell'ambito di questo lavoro

Set di dati COAG Perth, sono state esaminate 98 famiglie con da due a quattro fratelli per famiglia.

Come marcatore per la mappatura genetica è stato scelto un marcatore di ripetizione tandem breve

L'informatività corrisponde a quella di un marcatore tipico (eterozigosi del 90%). Per un po 'di tempo

sono sempre più utilizzati array di marcatori di polimorfismo a singolo nucleotide cosiddetti array SNP

giri. Tipicamente, l'informazionalità nell'analisi multipunto è ancora un po'

superiore, ad esempio quando si utilizza l'array Affymetrix GeneChip Human Mapping 10K v2 nel

Il contenuto medio delle informazioni risiedeva nella già menzionata mappatura genetica della malaria lieve

a oltre il 95% (Timmann et al., 2007). Questa differenza è piccola e dovrebbe quindi essere solo una

hanno scarso impatto sui risultati di questo lavoro.

Alcune delle ipotesi del modello sopra descritte sono state utilizzate nella stessa forma o in una forma simile in altre

studi di simulazione utilizzati. Tuttavia, questo studio differisce dai suoi predecessori in

al seguente riguardo:

a) Mentre in altri studi l'effetto di violare le ipotesi di distribuzione normale attraverso

è stata esaminata una semplice trasformazione dell'intero fenotipo (Allison et al., 1999; Allison

et al., 2000; Sham et al., 2002; Cuenco et al., 2003; Szatkiewicz et al., 2003) rientra in questo ambito

lavoro è stato scelto un approccio diverso. Ecco il termine errato del Falconer e di Mackay

modello da un lato da una distribuzione normale e dall'altro da una distribuzione logaritmica

Distribuzione normale simulata. Ciò consente il gene principale e l'effetto familiare nel suo originale

forma, mentre il fenotipo risultante ha una forte curvatura e rigonfiamento

ha. Poiché i modelli differiscono solo nella forma di distribuzione del termine di errore,

è anche possibile effettuare un confronto diretto di potenza all'interno delle procedure tra queste

entrambi i modelli e quindi una dichiarazione sulla robustezza del potere dei metodi

da soddisfare come richiesto nella sezione Impostazione degli obiettivi (p. 5).

b) La maggior parte degli studi di simulazione utilizza 10.000 simulazioni sotto l'ipotesi nulla to

per stimare l'errore empirico di tipo I. Con un errore nominale di tipo I di 0,05 allora il

Intervallo di confidenza al 95% dell'errore empirico di tipo I circa 0,01. L'intervallo di confidenza

aumenta bruscamente per errori nominali di tipo I inferiori. Pertanto, a un valore nominale inferiore

Gli errori di tipo I hanno solo un leggero effetto sull'errore empirico di tipo I

sicurezza sono valutati. Negli studi sull'intero genoma, tuttavia, a causa del test multiplo

problemi a scegliere errori di tipo I di 0,001 e inferiori come criterio di significatività e quindi

di particolare interesse. Pertanto, qui sono state eseguite 100.000 simulazioni sotto l'ipotesi nulla per

ogni scenario scelto - un numero più alto sarebbe con i computer attuali per il tutto

La portata dello studio era praticamente imprevedibile nel prossimo futuro.

Per questo lavoro sono stati scelti otto metodi descritti in letteratura, che sono attualmente comuni

utilizzato per mappare i caratteri quantitativi nelle famiglie nucleari. L'uso frequente

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (58)

discussione

52

Il motivo per cui vengono utilizzati i metodi è, tra l'altro, che questi metodi sono disponibili in pacchetti software disponibili gratuitamente

vengono implementati. Questi metodi sono quindi comuni nella letteratura e nelle revisioni

menzionato.

5.2 Pacchetto software Sibsim

Con il pacchetto software Sibsim è disponibile lo strumento richiesto, che

Simulazione di fenotipi quantitativi e genotipi in modo molto flessibile

consente come vengono utilizzati per determinare le proprietà di qualità dei metodi di analisi di accoppiamento

e per convalidare le implementazioni di nuovi metodi di mappatura nei pacchetti software

sono necessari (Franke et al., 2006). Rilasciato con licenza open source GPL

consente l'uso gratuito e l'ulteriore sviluppo da parte di chiunque.

Nella convalida esterna, tutti i parametri di simulazione per lo specifico previsto

Utilizzo testato e documentato. Dal momento che non ci sono indicazioni di errori o altri cospicui

proprietà, è quindi lecito concludere che le simulazioni nell'ambito di questo

lavoro corrispondono ai parametri di simulazione richiesti.

Tuttavia, l'applicazione di Sibsim non è limitata a questa applicazione. Oltre e oltre

Sibsim può anche aiutare con altri problemi come la determinazione dei valori p empirici

utilizzato per analizzare set di dati reali. Come parte di un'analisi di accoppiamento dell'intero genoma

lysis per la malaria lieve, Sibsim è stato utilizzato dai colleghi e dall'autore per

permutazioni necessarie per determinare i valori p empirici dell'accoppiamento

simulare metodi analitici (Timmann et al., 2007). A tale scopo, 100.000 volte a

marcatore genetico con un valore informativo comparabile ma la stessa struttura familiare

, ciascuno collegato ai fenotipi originali e basato su queste simulazioni

valori p empirici determinati (per i dettagli vedere la Sezione 4).

5.3 Confronto qualitativo dei metodi di analisi dell'accoppiamento

Poiché i risultati di questo lavoro sono solo generalizzati per le condizioni del modello di questo studio

possibile, le condizioni del modello erano quelle già descritte all'inizio di questo capitolo

scelto il più realisticamente possibile. Tuttavia, solo un'altra scelta di deviazioni da potrebbe

della distribuzione normale hanno un'influenza significativa sui risultati. diventare sotto

vengono ora discusse le determinate proprietà di qualità dei singoli metodi.

La potenza relativamente bassa del processo HASEMAN-ELSTON, soprattutto rispetto a

MERLIN-REGRESS e soprattutto in selezionati campioni casuali in connessione con il forte

L'influenza in violazione dei presupposti della distribuzione normale sull'errore di tipo I lo fa bene

inutile continuare a utilizzare questo metodo.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (59)

discussione

53

Il metodo REVISED HASEMAN-ELSTON mostra un errore di Tipo I corretto con indipendente

fratelli genici con una leggera tendenza, violando la normale distribuzione

ritenuto conservativo. Sfortunatamente, l'errore di tipo I è nei fratelli dipendenti

chiaramente troppo liberale. Un altro problema è la bassa potenza in condizioni di distribuzione normale

rispetto a MERLIN REGRESS. Una raccomandazione generale senza riserve per l'uso

del metodo REVISED HASEMAN-ELSTON può quindi essere derivato dai risultati di questo

non ricavare lavoro.

MERLIN-QTL con la statistica del test Whittemore e Halpern ha generalmente mostrato un netto aumento

errore conservativo di tipo I. Kong e Cox (1997) ne danno una possibile spiegazione

per la statistica del test di Whittemore e Halpern, un marcatore genetico non perfettamente informativo in

può risultare in un errore di tipo I eccessivamente conservativo. La statistica test di Whittemore e Halpern

approccio non dovrebbe quindi essere utilizzato. Le altre due procedure di condivisione degli alleli

MERLIN-QTL con la statistica del test di Kong e Cox e il BINOMIALE DI MASSIMA PROBABILITÀ

Le procedure hanno mostrato un errore di tipo I corretto e robusto tra tutti i modelli, ma il Power

è in violazione con eccezioni per i disegni di studio in singola e doppia selezione

delle ipotesi di distribuzione normale basse.

Lo stesso vale per il WILCOXON RANK SUM TEST. Tuttavia, il potere qui sembra migliore di

essere nel processo di condivisione degli alleli. La potenza notevolmente superiore del modello additivo

in violazione delle normali ipotesi di distribuzione e selezione casuale rispetto a

modello dominante e recessivo possono essere determinati scegliendo la funzione di centraggio IBD nel

Vengono spiegate le statistiche dei test utilizzate da Genehunter. Kruglyak e Lander

raccomandare la centratura utilizzata da Genehunter specificamente per i modelli genetici additivi

(Kruglyak und Lander, 1995a; Kruglyak und Lander, 1995b).

La potenza del metodo di condivisione degli alleli e del WILCOXON RANK SUM TEST è diminuita

Violazione delle normali ipotesi di distribuzione rispetto alle stesse simulazioni in condizioni normali

ipotesi di distribuzione. Con poche eccezioni, questo effetto era esattamente l'opposto per tutti gli altri

procedure indagate. La ragione di ciò potrebbe essere l'alto terzo momento della distribuzione del fenotipo

sviluppo in violazione delle ipotesi di distribuzione normale. La distribuzione del fenotipo in ciascuna delle

anche tre genotipi del QTL biallelico sono distorti a destra ma con gli stessi

Valori attesi come nelle normali ipotesi di distribuzione (vedi capitolo 3, sezione 1.1, p. 18f).

I metodi di condivisione degli alleli e WILCOXON RANK SUM TEST sembrano così migliori

poter usare.

In sintesi, tuttavia, si può dire che a causa della bassa potenza in condizioni normali

ipotesi, l'uso del metodo di condivisione degli alleli e il WILCOXON

RANK SUM TEST è consigliato solo in determinate circostanze. Negli studi speciali

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (60)

discussione

54

disegni, ad esempio se il fenotipo è distribuito in modo ordinale, questi metodi – in particolare il

WILCOXON RANK SUM TEST - ma sii il metodo di scelta.

Il problema dell'utilizzo del metodo MODEL-BASED completamente parametrizzato è

citato più volte in questo lavoro. Pertanto non verrà ripetuto qui

discusso (vedi capitolo 2, sezione 8, p. 17). Tuttavia, a questo punto va detto che

che l'errore conservativo di tipo I era già stato descritto da Rao e colleghi (1978) per un gran numero di

studi empirici confrontando gli errori osservati con quelli nominali di tipo I

divenne.

I risultati dei MODELLI A COMPONENTI DELLA VARIANZA lo mostrano anche in condizioni di distribuzione normale

ipotesi e, con una dimensione del campione realistica, un tipo I sostanzialmente aumentato

risultati di errore. Due ragioni possono spiegare questo risultato inaspettato: Ferreira ha insistito

ha sottolineato che la matrice di varianza-covarianza da stimare contiene sei parametri (Ferreira,

2004). Tuttavia, quando questa procedura viene applicata alle famiglie nucleari, questi parametri lo sono

sottoidentificato. Ulteriori vincoli sono necessari per stimare questi parametri

Potere. Inoltre, gli errori standard di queste varianze sono momenti del quarto ordine. È

È noto che le statistiche basate sui momenti del quarto ordine sono relativamente piccole

Le dimensioni dei campioni tipiche degli studi reali sono instabili (vedi ad esempio Bentler e

Dudgeon, 1996).

In letteratura sono fornite alcune raccomandazioni per aumentare la robustezza dell'errore di tipo I

migliorare. Una raccomandazione comune è, per esempio, il fenotipo nella speranza che sia poi multi-

variata normalmente distribuita, utilizzando una funzione per trasformarla in modo che sembri essere una

segue la distribuzione normale. Sfortunatamente, da un lato, non vi è alcuna garanzia che tale funzione funzioni effettivamente

esiste. D'altra parte, l'apparente distribuzione normale del fenotipo non può essere utilizzata

concludere che il fenotipo segue realmente una distribuzione normale multivariata. Come esempio per il

Abbiamo solo bisogno dei fenotipi in violazione dei presupposti della distribuzione normale

considera come sono stati usati in questo lavoro. Non c'è alcuna funzione con

quali questi fenotipi possono essere trasformati in una distribuzione normale multivariata.

La seconda raccomandazione ripetutamente data è l'uso di stimatori robusti (Blangero

et al., 2000). Tuttavia, questo può portare a una riduzione della potenza. Come terza possibilità

soprattutto per l'uso su campioni selezionati, la probabilità di selezione

fattori nel calcolo della verosimiglianza. Ma questo può anche portare a a

riduzione di potenza e porterebbe al problema del sostanziale aumento dell'errore di tipo I

non può essere risolto sotto ipotesi di distribuzione normale e con una dimensione del campione realistica.

Se, come suggerito da alcuni altri autori (Sham et al., 2002; Yu et al., 2004) e i risultati

supportati anche in questo lavoro, i VARIANCE COMPONENT MODELS e MERLIN-REGRESS

mostrare potere simile, allora, per i motivi sopra esposti, non è più necessario

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (61)

discussione

55

continuare a utilizzare i MODELLI A COMPONENTI DI VARIAZIONE. Rispetto al

VARIANCE COMPONENT MODELS, MERLIN-REGRESS mostra errori di tipo I molto robusti. Questo

inoltre non sono influenzati da campioni casuali selezionati. Inoltre, sotto

dimostrato in questo lavoro che l'errore di tipo I non è dovuto a un'errata specificazione di un parametro

essere colpiti. Ciò vale anche per la situazione più complessa di un campione casuale selezionato

Combinazione con una violazione delle normali ipotesi di distribuzione. Solo quello leggermente liberale

Errore di tipo I nella situazione del fratello dipendente - come mostrato in questo lavoro

è stato – è uno svantaggio.

Dalla potenza generalmente elevata e robusta combinata con il robusto errore di tipo I

una raccomandazione generale per utilizzare questo metodo per la mappatura quantitativa

tratti ativi in ​​famiglie nucleari con fratelli indipendenti. Solo il

errori di tipo I leggermente aumentati nella situazione dei fratelli a carico più realistica

La dimensione è un leggero svantaggio. Una raccomandazione generale di applicazione alle famiglie nucleari con

fratelli a carico di qualsiasi dimensione, nonché alberi genealogici estesi

tuttavia, non può essere derivato. Ad esempio, Huang e colleghi (2007) sull'analisi genetica

Workshop 15 un errore di tipo I chiaramente liberale nell'applicare la procedura a

Terte alberi genealogici identificati.

Feingold (2002, p. 220) arriva in una recensione basata su Sham e colleghi in

proprietà mostrate nella pubblicazione originale alla conclusione che MERLIN-REGRESS

presenta molte delle proprietà desiderate ("Sham et al. forniscono ampi risultati di simulazione,

il che suggerisce che il metodo ha davvero molte delle proprietà che vorremmo.“). Morire

I risultati di questo lavoro supportano questa affermazione fino alla restrizione del tipo liberale I

errore nella situazione dei fratelli a carico solo supporto.

5.4 Analisi del set di dati COAG Perth

I risultati dell'analisi corrispondono essenzialmente ai risultati del potere

confrontare i diversi metodi sotto selezione casuale come descritto nel capitolo 4, sezione

4 sono stati presentati. Mentre VARIANCE COMPONENT MODELS e MERLIN-REGRESS

che mostrano i valori p più bassi sono i valori p del metodo HASEMAN-ELSTON e il

Metodi di condivisione allelica molto elevati rispetto agli altri.

Un secondo punto importante può essere visto nell'analisi del set di dati COAG Perth.

Valori p corretti per titolo IgE specifico per età, sesso e antigene

i titoli di IgE logaritmici sono inferiori rispetto al titolo di IgE logaritmico non corretto. Sotto

assumendo che la regione genetica esaminata sia realmente legata al QTL

la correzione del fenotipo - ad esempio tramite opportuni modelli di regressione - il p-value della genetica

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (62)

discussione

56

analisi di mappatura cal, poiché aumenta la componente di varianza dell'effetto genetico

diventa. Anche per i già citati studi sull'oncocercosi umana e lieve

Prima dell'uso, i fenotipi sono stati testati rispetto alle covariate con malaria statisticamente significativa

influenza tem (Timmann et al., 2007; Timmann et al., 2008).

A questo punto dovrebbe essere affrontato un terzo punto importante, vale a dire la determinazione dei valori p empirici

località da citare. Quando si analizzano i set di dati, è sempre consigliabile utilizzare p-

Trovare e utilizzare i valori. Nei pacchetti software Merlin e S.A.G.E.

queste opzioni sono già implementate. In linea di principio, questi metodi sono tutti basati su

stessa idea: per permutazione di una variabile, l'accoppiamento del fenotipo e del genotipo

rialzato. Quindi la statistica del test viene calcolata con questo set di dati permutato. Questo

viene quindi ripetuto ad esempio 100.000 volte e quindi risulta nella distribuzione empirica della statistica del test

sotto l'ipotesi nulla, che a sua volta viene quindi utilizzata per determinare il valore p empirico

(vedi ad esempio anche Ziegler e König, 2010, capitolo 9).

LEGGENDA. permuta i fenotipi tra famiglie della stessa dimensione nel loro insieme. Questo

procedura è preferibile alla permutazione dei fenotipi all'interno della famiglia a causa del possibile

Le correlazioni residue tra fratelli sono conservate. Merlino va in un modo diverso

e permuta direttamente i vettori di ereditarietà IBD stimati. Una terza via con il software

pacchetto Sibsim, che non richiede alcun intervento nel codice sorgente del software, è già nel

precedentemente descritto nella sezione precedente e può quindi in linea di principio essere applicato a tutti

IL.

5.5 Prospettiva

Gli studi di associazione sull'intero genoma sono attualmente al centro dell'interesse. Comunque rimani

Analisi di accoppiamento, come recensite da Darpoux ed Elston (2007),

uno strumento importante per la mappatura genetica dei tratti.

Poiché una serie di importanti malattie e caratteristiche mostrano un'espressione quantitativa e

può quindi generalmente essere descritto più precisamente da una definizione quantitativa della caratteristica

la mappatura genetica dei caratteri quantitativi continuerà ad essere importante in futuro

svolgere un ruolo nell'epidemiologia genetica. I risultati di questo lavoro aiutano a

Scelta della procedura e disegno dello studio. Inoltre è disponibile il software Sibsim

strumento universale e flessibile disponibile per controllare le proprietà di qualità di

per confrontare i processi in una varietà di condizioni diverse e con corrispondenti

corrispondenti aggiustamenti nel codice sorgente per lavorare anche su altri problemi.

Per poter effettuare questo confronto qualitativo, è stato necessario analizzare gli scenari

limitare. Pertanto, effetti come l'eterogeneità genetica,

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (63)

discussione

57

L'imprinting genomico, le interazioni gene-ambiente o gli errori nei dati non sono stati esaminati.

Tuttavia, il software di simulazione Sibsim si apre anche a questo con gli opportuni adattamenti

nel codice sorgente una possibilità efficiente per studi corrispondenti in futuro.

Infine, va discussa ancora l'analisi dello studio COAG Perth: In

il set di dati ha esaminato solo due marcatori genetici in una regione candidata. A

corrispondenti studi sull'intero genoma, in particolare quando si utilizzano array SNP

diverse 100.000 SNP, la necessità di supporto bioinformatico assume grandi proporzioni.

Ciò esemplifica la crescente necessità di cooperazione interdisciplinare

lavoro di esperti di varie discipline come informatica, statistica, genetica, medicina e

Biochimica soprattutto nell'area di ricerca dell'epidemiologia genetica.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (64)

Riepilogo

58

6 Sommario

In pratica, per chiarire malattie genetiche complesse, sempre più accoppiate

metodi analitici per fenotipi quantitativi utilizzando famiglie nucleari con due

o più fratelli usati. Negli ultimi anni è stato sviluppato un gran numero di nuovi metodi per

sviluppato queste domande, ma è ancora in gran parte poco chiaro come la qualità di questi

Il metodo si comporta in confronto diretto tra loro. Pertanto, nel contesto di questo lavoro,

uno studio di simulazione Monte Carlo, le proprietà di qualità di un totale di otto in pratica

metodi comunemente usati sotto diversi modelli e disegni di studio. Questo

Le procedure erano tre studi sotto tre modelli genetici (dominante, additivo, recessivo)

disegni (senza selezione, con selezione singola e doppia selezione) e due

Strutture familiari (famiglie nucleari con una coppia di fratelli e famiglie nucleari con uno

numero variabile da due a cinque fratelli). Inoltre, l'effetto è stato

Deviazione dalla distribuzione normale esaminata.

In una prima fase, il software di simulazione è stato creato e convalidato esternamente

(Sibsim), che è stato utilizzato per simulare i set di dati per i 36 scenari. Per i robusti

Sono state quindi eseguite 100.000 simulazioni sotto l'ipotesi nulla per ogni scenario

(nessun accoppiamento) e per il confronto di potenza 1.000 simulazioni sotto l'ipotesi alternativa

(accoppiamento completo) creato. Il confronto della robustezza è stato effettuato confrontando il

Deviazioni tra le proporzioni di errore di tipo I determinate empiricamente e il tipo nominale

I bug eseguiti a diversi livelli di test. L'elevato numero di simulazioni sotto il

L'ipotesi nulla ne abilita quindi un'ipotesi empirica sulla base di valori limite determinati empiricamente

Confronto di potenza sotto l'ipotesi alternativa.

L'applicazione dei vari metodi utilizzati in questo lavoro è stata quindi

illustrato nel Consortium on Asthma Genetics: Perth study dataset (Palmer et al., 1998;

Palmer et al., 2001), con particolare enfasi sull'illustrazione dell'approccio pratico

fu posta.

Nell'ambito di questo lavoro, sono state determinate per la prima volta le caratteristiche di qualità per un numero così elevato

di accoppiare metodi analitici per mappare caratteristiche quantitative tra una moltitudine

diversi presupposti realistici e disegni di studio determinati in un confronto diretto,

confrontati e discussi in dettaglio. I risultati di questo lavoro possono essere utilizzati come fonte preziosa

la selezione della procedura e il disegno dello studio per la mappatura degli studi quantitativi

servire la vernice. Inoltre, il software Sibsim è uno strumento universale e flessibile

a disposizione anche in futuro le caratteristiche di qualità delle procedure sotto una varietà

di diverse condizioni e con opportuni aggiustamenti nella sorgente

codice per lavorare anche su altri problemi.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (65)

Programmi per computer e bibliografia

59

7 pacchetti software e bibliografia

7.1 Pacchetti software

Il seguente elenco contiene i pacchetti software utilizzati in questo lavoro. specificato

se disponibile, l'anno di pubblicazione della versione utilizzata compreso il numero di versione,

Citazione della pubblicazione associata e della fonte su Internet (data dell'ultimo accesso:

01.06.2009).

La maggior parte dei programmi qui elencati sono già presenti al momento della pubblicazione di questo lavoro

versioni più recenti disponibili.

Abi2Link (2003) Versione 1.0

http://www.imbs-luebeck.de/imbs/de/software

Genehunter (2003) Versione 2.1_r4

(Kruglyak et al., 1996)

http://www.broadinstitute.org/ftp/distribution/software/genehunter/

Collegamento (1995) Versione 5.1

(Lathrop et al., 1984)

ftp://linkage.rockefeller.edu/software/linkage

Mega2 (2003) Un ambiente di manipolazione per analisi genetiche, versione 2.5

(Mukhopadhyay et al., 2005)

http://watson.hgen.pitt.edu/mega2.html

Merlin (2004) Analisi rapida di mappe genetiche dense utilizzando alberi di flusso genico sparsi,

Versione 0.10.2

(Abecasis et al., 2002; Sham et al., 2002)

http://www.sph.umich.edu/csg/abecasis/Merlin/download/

Mlbgh (1998) Binomiale di massima verosimiglianza GENEHUNTER, Versione 1.0

(Abel e Müller-Myhsok, 1998; Alcaïs e Abel, 1999)

http://genamics.com/software/downloads/mlbgh-1.0.tar.Z

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (66)

Programmi per computer e bibliografia

60

Pedcheck (1998), versione 1.00

(O'Connell und Weeks, 1998)

http://watson.hgen.pitt.edu/register/soft_doc.html

R (2005) Ambiente software libero per calcolo statistico e grafica, versione 2.1.0

http://www.R-project.org

SAGGIO. (2003) Analisi statistica per l'epidemiologia genetica, versione 4.3

http://darwin.cwru.edu/sage/

Sibsim (2003) Versione 1.02

(Franke et al., 2006)

http://www.imbs-luebeck.de/imbs/de/software

Solar (2003) Sequential Oligogenic Linkage Analysis Routines, Versione 1.7.4

(Almasy e Blangero, 1998)

http://solar.sfbrgenetics.org/download.html

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (67)

Programmi per computer e bibliografia

61

7.2 Bibliografia

Abecasis GR, Cherny SS, Cookson WO, Cardon LR (2002): Merlin-rapid analysis of dense genetic

mappe che utilizzano alberi di flusso genico sparsi. Nat Genet 30:97-101

Abel L, Alcaïs A, Mallet A (1998): Confronto di quattro metodi di collegamento di coppie di fratelli e sorelle per l'analisi

fratrie con più di due affetti: interesse del binomio di massima verosimiglianza

approccio. Genet Epidemiol 15:371-390

Abel L, Müller-Myhsok B (1998): Robustezza e potenza del binomio di massima verosimiglianza e

metodi di punteggio di massima verosimiglianza, nell'analisi di collegamento multipunto della fratria affetta

dati. Am J Hum Genet 63:638-647

Alcaïs A, Abel L (1999): metodo binomiale di massima verosimiglianza per il collegamento genetico senza modello

analisi dei caratteri quantitativi nelle fratrie. Genet Epidemiol 17:102-117

Allison DB, Fernández JR, Heo M, Beasley TM (2000): Testare la robustezza del nuovo

Procedura di mappatura dei loci dei tratti quantitativi di Haseman-Elston. Am J Hum Genet 67:249-252

Allison DB, Neale MC, Zannolli R, Schork NJ, Amos CI, Blangero J (1999): Testing the

robustezza del test del rapporto di verosimiglianza in un loci di tratto quantitativo componente di varianza

procedura di mappatura. Am J Hum Genet 65:531-544

Almasy L, Blangero J (1998): analisi del collegamento multipunto quantitativo-tratto nei pedigree generali.

Am J Hum Genet 62:1198-1211.

Amos CI (1994): Robusto approccio a componenti di varianza per valutare il legame genetico nei pedigree.

Am J Hum Genet 54:535-543

Amos CI, Elston RC (1989): Metodi robusti per la rilevazione del collegamento genetico per quantitativi

dati dai pedigree. Genet Epidemiol 6:349-360

Amos CI, Elston RC, Bonney GE, Keats BJ, Berenson GS (1990): Un metodo multivariato per

rilevamento del collegamento genetico, con applicazione a un pedigree con una lipoproteina avversa

fenotipo. Am J Hum Genet 47:247-254

Amos CI, Zhu DK, Boerwinkle E (1996): Valutazione del legame genetico e associazione con robusto

componenti degli approcci della varianza. Ann Hum Genet 60 (Pt 2):143-160

Bentler PM, Dudgeon P (1996): Analisi della struttura della covarianza: pratica statistica, teoria e

indicazioni. Annu Rev Psychol 47:563-592

Blackwelder WC, Elston RC (1985): un confronto tra i test di collegamento tra fratelli e sorelle per la malattia

loci di suscettibilità. Genet Epidemiol 2:85-97

Blangero J (2004): Localizzazione e identificazione dei loci dei tratti quantitativi umani: il raccolto del re ha

sicuramente vieni. Curr Opin Genet Dev 14:233-240

Blangero J, Williams JT, Almasy L (2000): Punteggi LOD robusti per la varianza basata su componenti

analisi di collegamento. Genet Epidemiol 19 Suppl 1:S8-14

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (68)

Programmi per computer e bibliografia

62

Blangero J, Williams JT, Almasy L (2001): Metodi dei componenti della varianza per il rilevamento di complessi

tratto loci. Adv Genet 42:151-181.

Carey G, Williamson J (1991): Analisi di collegamento dei tratti quantitativi: aumento della potenza mediante l'utilizzo

campioni selezionati. Am J Hum Genet 49:786-796.

Clerget-Darpoux F, Elston RC (2007): L'analisi di collegamento e la raccolta di dati familiari sono morte?

Prospettive per gli studi familiari nell'era dell'associazione genome-wide. Hum Hered 64:91-96

Commenges D (1994): Robusta analisi del legame genetico basata su un test di punteggio di omogeneità: the

statistica di correlazione ponderata a coppie. Genet Epidemiol 11:189-200

Cuenco KT, Szatkiewicz JP, Feingold E (2003): Recenti progressi nel locus dei tratti quantitativi umani

mappatura: confronto di metodi per coppie di fratelli selezionati. Am J Hum Genet 73:863-873

Dempster AP, Laird NM, Rubin DB (1977): Massima verosimiglianza da dati incompleti tramite EM

algoritmo (con discussione). JRSS B 39:1-38

Dina C, Nemanov L, Gritsenko I, Rosolio N, Osher Y, Heresco-Levy U, Sariashvilli E, Bachner-

Melman R, Zohar AH, Benjamin J, Belmaker RH, Ebstein RP (2005): mappatura fine di un

regione sul cromosoma 8p fornisce la prova di un QTL che contribuisce alle differenze individuali

in un tratto di personalità correlato all'ansia: evitamento del danno TPQ. Am J Med Genet B

Neuropsichiatria Genet 132:104-108

Dolan CV, Boomsma DI (1998): selezione ottimale di coppie di fratelli e sorelle da campioni casuali per il collegamento

analisi di un QTL mediante il test EDAC. Behav Genet 28:197-206

Drigalenko E (1998): Come le coppie di fratelli e sorelle rivelano il collegamento. Am J Hum Genet 63:1242-1245

Duggirala R, Williams JT, Williams-Blangero S, Blangero J (1997): Una componente di varianza

approccio all'analisi del collegamento di tratto dicotomico utilizzando un modello di soglia. Genet Epidemiolo

14:987-992

Elston RC (1998): Collegamento e associazione. Genet Epidemiol 15:565-576

Elston RC, Buxbaum S, Jacobs KB, Olson JM (2000): Haseman ed Elston rivisitati. Genet

Epidemia 19:1-17

Falconer DS, Mackay TFC (1996): Introduzione alla genetica quantitativa. 4. Auflage, Longman,

Essex, Inghilterra

Feingold E (2002): Mappatura del locus dei tratti quantitativi basata sulla regressione nel 21° secolo. Sono J

Hum Genet 71:217-222.

Ferreira MA (2004): Analisi di linkage: principi e metodi per l'analisi dell'essere umano

tratti quantitativi. Doppia Ris 7:513-530

Fisher RA (1918): La correlazione tra parenti sulla supposizione di eredità mendeliana.

Trans Roy Soc 52:399-433

Forrest WF (2001): La ponderazione migliora il metodo "nuovo Haseman-Elston". Hum Hered 52:47-54

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (69)

Programmi per computer e bibliografia

63

Franke D, Kleensang A, Ziegler A (2006): SIBSIM - simulazione quantitativa del fenotipo in esteso

pedigree. GMS Med Inform Biom Epidemiol 2:Doc4

Fulker DW, Cardon LR, DeFries JC, Kimberling WJ, Pennington BF, Smith SD (1991): Multiplo

analisi di regressione dei dati della coppia di fratelli e sorelle sulla lettura per rilevare i loci dei tratti quantitativi. Leggi Scrivi

Interdisciplinare G 3:299-313

Fulker DW, Cherny SS (1996): Un'analisi migliorata della coppia di fratelli multipunto dei tratti quantitativi.

Behav Genet 26:527-532

Gillham NW (2001): Evoluzione per salti: Francis Galton e William Bateson e il meccanismo

del cambiamento evolutivo. Genetica 159:1383-1392

Goate A , Chartier-Harlin MC , Mullan M , Brown J , Crawford F , Fidani L , Giuffra L , Haynes A ,

Irving N, James L, Mant R, Newton P, Rooke K, Roques P, Talbot C, Pericak-Vance M,

Roses A, Williamson R, Rossor M, Owen M, Hardy J (1991): Segregazione di un missenso

mutazione nel gene della proteina precursore dell'amiloide con malattia di Alzheimer familiare. Natura

349:704-706

Gu C, Todorov A, Rao DC (1996): Combinare coppie di fratelli estremamente concordanti con estremamente

discordant sibpairs fornisce un modo conveniente per collegare l'analisi del tratto quantitativo

loci. Genet Epidemiol 13:513-533

Haseman JK, Elston RC (1972): L'indagine sul collegamento tra un tratto quantitativo e a

luogo marcatore. Comporta Genet 2:3-19

Huang S, Ballard D, Zhao H (2007): Il ruolo dell'ereditarietà nella mappatura dell'espressione quantitativa

tratto loci. BMC Proc 1 Suppl 1:S86

Knoblauch H, Müller-Myhsok B, Busjahn A, Ben Avi L, Bähring S, Baron H, Heath SC, Uhlmann

R, Faulhaber HD, Shpitzen S, Aydin A, Reshef A, Rosenthal M, Eliav O, Mühl A, Lowe

LA, Schurr RE, Harats RE, Jeschke E, Friedlander Y, Schuster H, Luft FC, Leitersdorf E

(2000): Un gene che abbassa il colesterolo si mappa sul cromosoma 13q. Am J Hum Genet 66:157-

166

Kong A, Cox NJ (1997): Modelli di condivisione degli alleli: punteggi LOD e test di collegamento accurati. Sono J Hum

Genet 61:1179-1188

Korstanje R, Paigen B (2002): Dal QTL al gene: inizia la raccolta. Nat Genet 31:235-236

Kruglyak L, Daly MJ, Reeve-Daly MP, Lander ES (1996): collegamento parametrico e non parametrico

analisi: un approccio multipunto unificato. Am J Hum Genet 58:1347-1363.

Kruglyak L, Lander ES (1995a): Analisi completa multipunto della coppia di fratelli e sorelle di qualitativa e

tratti quantitativi. Am J Hum Genet 57:439-454.

Kruglyak L, Lander ES (1995b): Un approccio non parametrico per mappare i loci dei tratti quantitativi.

Genetica 139:1421-1428.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (70)

Programmi per computer e bibliografia

64

Lathrop GM, Lalouel JM, Julier C, Ott J (1984): Strategie per l'analisi del collegamento multilocus in

umani. Proc Natl Acad Sci U S A 81:3443-3446

Mukhopadhyay N, Almasy L, Schroeder M, Mulvihill WP, Weeks DE (2005): Mega2: dati-

manipolazione per facilitare il legame genetico e le analisi di associazione. Bioinformatica 21:2556-

2557

O'Connell JR, Weeks DE (1998): PedCheck: un programma per l'identificazione del genotipo

incompatibilità nell'analisi di linkage. Am J Hum Genet 63:259-266

Palmer LJ, Cookson WO, Deichmann KA, Holloway JW, Laitinen T (2001): collegamento a regione singola

analisi dell'asma: descrizione dei set di dati. Genet Epidemiol 21 Supplemento 1:S9-15

Palmer LJ, Daniels SE, Rye PJ, Gibson NA, Tay GK, Cookson WO, Goldblatt J, Burton PR,

LeSouef PN (1998): Collegamento dei marcatori genici del cromosoma 5q e 11q all'asma-

tratti quantitativi associati nei bambini australiani. Am J Respir Crit Care Med 158:1825-

1830

Palmer LJ, Jacobs KB, Elston RC (2000): Haseman ed Elston rivisitati: gli effetti di

accertamento e correlazioni familiari residue sul potere di rilevare il collegamento. Genet

Epidemiolo 19:456-460

Perola M, Sammalisto S, Hiekkalinna T, Martin NG, Visscher PM, Montgomery GW, Benyamin

B, Harris JR, Boomsma D, Willemsen G, Hottenga JJ, Christensen K, Kyvik KO, Sorensen

TI, Pedersen NL, Magnusson PK, Spector TD, Widen E, Silventoinen K, Kaprio J, Palotie

A, Peltonen L (2007): Scansioni combinate del genoma per la statura corporea in 6.602 gemelli europei:

evidenza di loci caucasici comuni. PLoS Genet 3:e97

Rankinen T, Zuberi A, Chagnon YC, Weisnagel SJ, Argyropoulos G, Walts B, Perusse L,

Bouchard C (2006): La mappa del gene dell'obesità umana: l'aggiornamento del 2005. Obesità (Argento

Primavera) 14:529-644

Rao DC, Keats BJ, Morton NE, Yee S, Lew R (1978): Variabilità dei dati di collegamento umano. Sono J

Hum Genet 30:516-529

Risch N, Zhang H (1995): coppie di fratelli e sorelle estremamente discordanti per la mappatura di loci di tratti quantitativi in

umani. Scienza 268:1584-1589

Sham PC, Purcell S (2001): Equivalenza tra Haseman-Elston e componenti della varianza

analisi di linkage per coppie di fratelli e sorelle. Am J Hum Genet 68:1527-1532.

Sham PC, Purcell S, Cherny SS, Abecasis GR (2002): potente tratto quantitativo basato sulla regressione

analisi di linkage di alberi genealogici generali. Am J Hum Genet 71:238-253.

Single RM, Finch SJ (1995): Guadagno in efficienza dall'utilizzo dei minimi quadrati generalizzati in

Test di Haseman-Elston. Genet Epidemiol 12:889-894

Speer MC, Terwilliger JD, Ott J (1995): Simulazione dei dati per i problemi GAW9 1 e 2. Genet

Epidemiolo 12:561-564

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (71)

Programmi per computer e bibliografia

65

Streeten EA, McBride DJ, Pollin TI, Ryan K, Shapiro J, Ott S, Mitchell BD, Shuldiner AR,

O'Connell JR (2006): Loci tratto quantitativo per BMD identificato dal collegamento a livello di autosoma

scansione ai cromosomi 7q e 21q negli uomini dall'Amish Family Osteoporosis Study. J

Minatore di ossa Res 21: 1433-1442

Szatkiewicz JP, K TC, Feingold E (2003): Recenti progressi nel locus dei tratti quantitativi umani

mappatura: confronto di metodi per coppie di fratelli discordanti. Am J Hum Genet 73:874-

885

Terwilliger JD, Goring HH (2000): Mappatura genica nel XX e XXI secolo: statistica

metodi, analisi dei dati e progettazione sperimentale. Hum Biol 72:63-132

Terwilliger JD, Ott J (1994): Manuale di collegamento genetico umano. Stampa della Johns Hopkins University,

Baltimore, USA

Timmann C, Evans JA, König IR, Kleensang A, Rüschendorf F, Lenzen J, Sievertsen J, Becker C,

Enuameh Y, Kwakye KO, Opoku E, Browne EN, Ziegler A, Norimberga P, Horstmann RD

(2007): analisi di collegamento dell'intero genoma dell'intensità dell'infezione da malaria e della malattia lieve.

PLoS Genet 3:e48

Timmann C, van der Kamp E, Kleensang A, König IR, Thye T, Büttner DW, Hamelmann C, Marfo

Y, Vens M, Brattig N, Ziegler A, Horstmann RD (2008): Resistenza genetica umana a

Onchocerca volvulus: evidenza di collegamento al cromosoma 2p da un autosoma esteso

scansione. J Infettare Dis 198:427-433

Whittemore AS, Halpern J (1994): una classe di test per il collegamento che utilizza membri del pedigree affetti.

Biometria 50:118-127

Williams JT, Blangero J (1999): Confronto tra componenti della varianza e approcci basati su sibpair

all'analisi quantitativa del legame dei tratti in campioni non selezionati. Genet Epidemiol 16:113-134

Wright FA (1997): la differenza fenotipica scarta le informazioni sul collegamento QTL della coppia sib. Sono J

Hum Genet 60:740-742

Yu X, Knott SA, Visscher PM (2004): Potere teorico ed empirico di regressione e

metodi di massima verosimiglianza per mappare i loci dei tratti quantitativi nei pedigree generali. Sono J

Hum Genet 75:17-26

Ziegler A (2001): Il nuovo metodo Haseman-Elston e la statistica di correlazione a coppie ponderata

sono variazioni sullo stesso tema. Giornale biometrico 43:697-702

Ziegler A, König IR (2010): Un approccio statistico all'epidemiologia genetica: concetti e

applicazioni. 2a edizione, Wiley-VCH, Weinheim

Zmuda JM, Sheu YT, Moffett SP (2006): La ricerca dei geni dell'osteoporosi umana. J

Interazione neuronale muscoloscheletrica 6:3-15

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (72)

Attaccamento

66

8 allegati

8.1 Parametri di simulazione Simulazioni di validazione Sibsim

Tabella 22: Parametri di simulazione utilizzati per validare il pacchetto software Sibsim.

Simulazioni di validazione 1 2 4 5 6 7 8 Numero iniziale 62634 73615 30614 17350 97423 31065 67802Modello genetico DOM Add Rez Dom Dom Dom Dom Add Rezvarianza Genitali principali 2.0 4.0 4.0 2.0 2.0 2.0varianza effetto famiglia 0 0 0 0 0 0 .2 0.2 0.2varianza termine errore 0.2 0.2 0.2 0.5 0.5 0 0 0distribution error term NV NV NV NV log NV --- --- --- Uguale per tutte le simulazioni: frequenza dell'allele alto 0.5 numero di famiglie 600 marcatore genetico 10 alleli con frequenza 10%

8.2 Numeri casuali di partenza per simulazioni Monte Carlo

Tabella 23: Numeri casuali iniziali utilizzati per creare le simulazioni Monte Carlo con il programma Sibsim.

Dom Aggiungi Rez Dom Aggiungi Rez Dom Aggiungi Rez

Ipotesi di distribuzione normale: ipotesi nulla indipendente 13092 71060 33132 80703 63003 53203 85197 59650 42067

dipendente 44133 44167 74211 66986 70009 22965 54273 58064 53890 ipotesi alternativa 16408 81953 47498 00770 41548 64933 15178 20910 95588

21199 72163 81651 88048 32466 54955 46808 57167 57515

Violazione delle normali ipotesi di distribuzione: ipotesi nulla 45799 52390 22164 63282 42579 52667 86458 69155 67788

12426 56302 06116 14631 91178 85961 48853 81636 56344Ipotesi alternativa 49323 15059 85900 50993 44488 38646 23703 46829 06683

28225 34925 68335 83867 64361 22644 49044 75470 12293

Doppia selezioneSelezione sempliceSenza selezioneFratelli

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (73)

Attaccamento

67

8.3 Errori empirici di tipo I

8.3.1 Sotto ipotesi di distribuzione normale

Tabella 24: Errore empirico di tipo I [%] a un livello di errore nominale del 5% in condizioni di distribuzione normale.

Fratello Procedure Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 5.14 5.09 5.08 5.14 5.10 5.02 5.07 5.06 5.12Sage.HE 5.09 5.02 4.99 5.07 5.02 4.96 5.00 4.99 5.05rHE 4 .91 4.99 5.05 5.15 5.08 4.90 4.92 4.89 5, 01 Regresso Merlin 5.03 5.00 5.11 5.18 5.08 4.84 5.04 4.97 5.06Gh.VC 6.14 5.44 6.10 5.18 4.04 2.86 7.53 7.38 7.52Solar.VC 6.10 5.40 6.07 5.12 4.0 5 2,84 7,52 7,35 7,47Npar 5,07 4,94 5,03 4,97 5,06 4,99 4,91 5,02 5,00Merlin.K&C 4,62 4,56 4,45 4,51 4.57 4.42 4.41 4.37 4.52Merlin.W&H 3.65 3 .71 3.57 3.62 3.64 3.61 3.54 3.53 3.60Mlbqt.NV 5.21 5.24 5.13 5.17 5.19 5.09 4.91 4.90 5 .05Mlbqt.Cat 5.14 5.29 5.13 5.15 5.17 5.07 4.94 4.91 5.01 Collegamento 4.92 1.96 4.01 5.24 4.32 5.16 5 .14 4.89 5.24Gh.HE.Trad Dipendente 5.21 5.20 5.26 5.19 5.25 5.30 5.22 5.23 5.17Sage.HE 5.31 5.28 5, 36 5.07 5.23 5.21 5.15 5.09 5.17rHE 5.97 5.90 5.90 5.68 5.52 5.71 5.27 5.25 5.18 Regressione Merlin 5 , 47 5.45 5.40 5.30 5.40 5.51 5.27 5.25 5.24Gh.VC 5.98 5.28 5.93 5.38 4.91 5.18 5.78 5, 32 5.76Solar.VC 5.94 5.20 5.89 5.35 4. 88 5.16 5.69 5.28 5.72 Npar 5.21 5.27 5.23 5.13 5.24 5, 26 5.27 5.15 5.20 Merlin. K&C 4.53 4.64 4.52 4.45 4.63 4.60 4.47 4.56 4.51 Merlin.W&H 3.79 3.87 3.82 3.72 3.85 3.85 3.71 3.76 3.76Mlbqt.NV 5.03 5.02 4.94 4.85 4.97 5.09 4.89 4.86 4.90Mlbqt.Cat 4 .95 5.07 4.95 4.84 4.98 5.05 4.91 4.90 4.92 Collegamento 4.62 1,98 3,84 5,04 3,69 4,91 5,05 3,60 4,90

Errore empirico di tipo I sotto ipotesi di distribuzione normale Senza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (74)

Attaccamento

68

Tabella 25: Errore empirico di tipo I [%] a un livello di errore nominale dell'1% in condizioni di distribuzione normale.

Procedure di pari livello Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 0,966 0,992 0,966 1,008 1,018 0,963 1,014 1,010 1,080Sage.HE 0,963 0,967 0,948 0,991 0,985 0,940 1, 006 0.988 1.060rHE 0.990 0.998 1.009 1.024 1.044 0.932 1.021 0.989 1.018 Merlino -Regresso 0,958 0,970 0,963 1,029 1,014 0,961 0,994 1,007 0,988Gh.VC 1,430 1,145 1,417 0,675 0,393 0,170 2,073 2,032 2,167Solare.VC 1, 414 1.142 1.417 0.678 0.391 0.173 2.052 2.027 2.157Npar 1.041 0.990 1.034 0.989 0.948 0.972 0.959 0.988 0.966Merlin.K&C 0.994 0, 996 0.966 0.953 0.929 0.919 0.954 0.994 0.960Merlin.W&H 0.674 0.690 0.688 0.644 0.643 0.610 0.649 0.690 0.664Mlbqt. NV 1.065 1.134 1.056 1.058 1.063 0.956 1.018 1.086 1.033Mlbqt.Cat 1.068 1.131 1.044 1.015 1.081 0.981 1.022 1.084 1.013 Linkage 0.3 99 0,014 0,170 1,040 0,229 0,823 1,049 0,485 0,920 Dipendente da Gh.HE.Trad 1,063 1,080 1,103 1,088 1,122 1,094 1,092 1,075 1,036Sage.HE 1,212 1,119 1.286 1.174 1.131 1.167 1 .163 1.108 1.089rHE 1.662 1.531 1.452 1.356 1.342 1386 1.255 1.226 1.210 Regresso Merlin 1.323 1.256 1.247 1.215 1.248 1.260 1.214 1.195 1.156Gh.VC 1.413 1.097 1.372 1.113 0.904 0.919 1.336 1.134 1.325Solar.VC 1.375 1.057 1.345 1.105 0.895 0.911 1.293 1.111 1.306Npar 1.142 1.195 1.144 1.065 1.196 1.156 1.131 1.135 1.134 Merlin.K&C 0.954 1.022 0.938 0.930 0,995 0,979 0,930 0,999 0,908 Merlin NV 0,989 0,986 0,970 0,987 1,011 1,037 0,932 0,996 0,949Mlbqt .Cat 1,000 1,030 0,987 0,971 0,981 1,057 0,938 1,008 0,931 Collegamento 0,483 0,015 0,236 0,915 0,147 0,702 0,812 0,139 0,593

Errore empirico di tipo I sotto ipotesi di distribuzione normale Senza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (75)

Attaccamento

69

Tabella 26: Errore empirico di tipo I [%] a un livello di errore nominale dello 0,1% in condizioni di distribuzione normale.

Procedure di pari livello Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 0,087 0,103 0,101 0,101 0,094 0,090 0,117 0,097 0,110Sage.HE 0,083 0,098 0,097 0,099 0,089 0,088 0, 115 0,092 0,104rHE 0,089 0,092 0,099 0,072 0,098 0,089 0,114 0,102 0,113 Merlino -Regresso 0,071 0,087 0,088 0,101 0,088 0,090 0,102 0,110 0,107Gh.VC 0,170 0,128 0,166 0,023 0,004 0,001 0,353 0,336 0,342Solare.VC 0, 168 0,127 0,161 0,023 0,004 0,001 0,355 0,329 0,335Npar 0,088 0,107 0,106 0,103 0,089 0,099 0,113 0,096 0,119Merlin.K&C 0.095 0, 099 0.094 0.102 0.108 0.080 0.088 0.102 0.106Merlin.W&H 0.056 0.059 0.050 0.059 0.060 0.039 0.043 0.062 0.057Mlbqt. NV 0.108 0.114 0.102 0.092 0.105 0.104 0.092 0.112 0.104Mlbqt.Cat 0.105 0.114 0.106 0.095 0.107 0.109 0.092 0.106 0.092 Collegamento 0.0 02 0.000 0,000 0,056 0,002 0,011 0,069 0,001 0,036Dipendente da Gh.HE.Trad 0,116 0,135 0,124 0,126 0,121 0,150 0,123 0,119 0,109Sage.HE 0,170 0,154 0,179 0,150 0,139 0,167 0 0,148 0,144 0,120rHE 0,293 0,256 0,279 0,238 0,211 0,234 0,194 0,191 0,149 Regressione Merlin 0,177 0,140 0,170 0,169 0,166 0,161 0,165 0,149 0,146Gh.VC 0,180 0,115 0,159 0,105 0,050 0,050 0,167 0,139 0,152Solar.VC 0,165 0,103 0,161 0,102 0,050 0,049 0,167 0,131 0,146Npar 0,141 0,113 0,138 0,115 0,127 0,144 0,129 0,134 0,131 Merlin.K&C 0,103 0,101 0,106 0,079 0,100 0,101 0,099 0,115 0,089 Merlin NV 0,100 0,095 0,099 0,082 0,098 0,091 0,095 0,111 0,072Mlbqt .Cat 0,096 0,092 0,097 0,074 0,106 0,089 0,089 0,104 0,076 Collegamento 0,008 0,000 0,000 0,039 0,000 0,019 0,018 0,000 0,007

Errore empirico di tipo I sotto ipotesi di distribuzione normale Senza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (76)

Attaccamento

70

8.3.2 In violazione delle ipotesi di distribuzione normale

Tabella 27: Errore empirico di tipo I [%] a un livello di errore nominale del 5% che viola le ipotesi della distribuzione normale.

Procedure tra fratelli Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 5.00 5.16 5.07 5.01 5.07 4.99 5.19 5.13 5.07Sage.HE 4.94 5.09 5.01 4.95 5.00 4.90 4.90 5.11 5.07 5.01rHE 5 .04 4.93 4.86 4.96 5.00 4.97 5.20 4.93 4, 96 Regresso Merlin 5.00 4.98 5.01 4.97 4.85 4.94 5.18 5.02 4.98Gh.VC 14.08 13.29 12.67 3.51 2.80 1.62 12.86 12.97 11.97Solar.VC 14.07 13.30 12.65 3,48 2,79 1,60 12,79 13,00 11,94Npar 4,93 4,98 5,02 5,13 4,91 5,13 4,96 5,09 5,00Merlin.K&C 4,47 4,49 4,63 4,59 4.60 4.45 4.61 4.59 4.54Merlin.W&H 3.60 3 .63 3.68 3.65 3.73 3.56 3.69 3.72 3.62Mlbqt.NV 5.26 5.29 5.22 5.13 5.16 5.09 5.16 5.09 4 .99Mlbqt.Cat 5.13 5.22 5.12 4.99 5.12 5.03 5.08 5.07 4.99 Collegamento 5.27 2.12 4.79 5.27 4.68 5.58 5 .32 4.74 5.61 Dipendente da Gh.HE.Trad 5.17 5.15 5.27 5.29 5.21 5.33 5.21 5.17 5.20Sage.HE 4.48 4.16 4, 68 3.55 3.36 3.68 4.56 4.24 4.67rHE 6.22 6.08 6.15 5.57 5.44 5.43 5.65 5.44 5.44 Regresso Merlin 5, 53 5.51 5.54 5.50 5.40 5.50 5.53 5.46 5.47 Gh.VC 11.31 10.57 10.49 6.70 6.56 5.65 10.11 9, 78 9.44Solar.VC 11.28 10.55 10.42 6.70 6.51 5.57 10.09 9.71 9.43Npar 5.27 5.25 5.19 5.30 5.16 5, 25 5.25 5.19 5.17 Merlin.K&C 4.49 4.50 4.49 4.52 4.52 4.49 4.57 4.56 4.63 Merlin.W&H 3.76 3.76 3.75 3.75 3.78 3.70 3.85 3.81 3.92Mlbqt.NV 5.05 5.02 5.10 4.96 5. 09 5.02 4.90 4.98 5.05Mlbqt.Cat 4 .88 4.99 4.98 4.94 5.06 4.95 4.77 4.97 5.03 Collegamento 4.80 2.02 4.49 5.15 3.86 5.44 5.15 3.41 5:13

Selezione semplice

Errore empirico di tipo I che viola i presupposti della distribuzione normale

Senza selezione Doppia selezione

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (77)

Attaccamento

71

Tabella 28: Errore empirico di tipo I [%] a un livello di errore nominale dell'1% che viola le ipotesi della distribuzione normale.

Procedure di pari livello Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 0,620 0,646 0,620 0,669 0,654 0,683 0,643 0,648 0,622Sage.HE 0,672 0,716 0,688 0,735 0,721 0,709 0, 728 0,712 0,667rHE 0,971 0,879 0,895 0,914 0,915 0,907 0,971 0,920 0,946 Merlino -Regresso 0,805 0,811 0,818 0,747 0,816 0,810 0,850 0,848 0,892Gh.VC 6,260 5,749 5,163 0,365 0,256 0,100 5,486 5,685 4,880Solare.VC 6, 270 5,779 5,193 0,364 0,247 0,097 5,481 5,645 4,884Npar 0,989 0,961 0,929 0,972 0,954 1,075 0,978 0,969 0,967Merlin.K&C 0.957 1, 019 0.945 0.961 0.970 0.966 1.009 0.950 1.007Merlin.W&H 0.666 0.704 0.634 0.665 0.649 0.673 0.711 0.629 0.687Mlbqt. NV 1.044 1.053 1.082 1.077 1.008 0.986 1.037 0.967 1.055Mlbqt.Cat 1.043 1.025 1.038 1.043 0.975 1.009 1.039 0.964 1.014 Collegamento 0.5 80 0,021 0,288 1,062 0,304 1,059 1,081 0,368 0,932Dipendente da Gh.HE.Trad 0,885 0,865 0,957 0,983 0,939 0,975 0,886 0,909 0,929Sage.HE 1,108 0,955 1.137 0.732 0.682 0.781 1° .169 0.975 1.104rHE 1.860 1.700 1.724 1.410 1.319 1.327 1.451 1.328 1.351 Regresso Merlin 1.293 1.230 1.250 1.185 1.193 1.214 1.212 Solare 3.391Npar 1.106 1.179 1.116 1.208 1.142 1.218 1.132 1.080 1.118 Merlin.K&C 0.941 0.971 0.946 0.93 8 0,927 0,945 0,946 0,997 1,011 Merlin NV 0,983 0,966 1,049 0,985 0,996 0,985 1,024 0,978 1,007Mlbqt .Cat 0,971 0,969 1,019 0,961 1,021 0,972 0,984 1,003 0,997 Collegamento 0,593 0,031 0,360 0,984 0,213 0,861 0,882 0,159 0,659

Errore empirico di tipo I che viola i presupposti della distribuzione normale

Senza selezione Selezione singola Selezione doppia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (78)

Attaccamento

72

Tabella 29: Errore empirico di tipo I [%] a un livello di errore nominale dello 0,1% che viola le ipotesi della distribuzione normale.

Procedure di pari livello Dom Add Rez Dom Add Rez Dom Add RezGh.HE.Trad Indipendente 0,030 0,028 0,050 0,029 0,043 0,041 0,040 0,047 0,031Sage.HE 0,028 0,028 0,049 0,029 0,040 0,035 0, 037 0,045 0,028rHE 0,096 0,077 0,093 0,088 0,074 0,072 0,076 0,088 0,078 Merlino -Regresso 0,061 0,053 0,058 0,067 0,049 0,059 0,058 0,074 0,064Gh.VC 2,009 1,801 1,330 0,019 0,019 0,012 1,821 2,014 1,399Solare.VC 2, 007 1,799 1,328 0,018 0,018 0,012 1,817 2,008 1,389Npar 0,107 0,094 0,104 0,081 0,099 0,089 0,081 0,088 0,103Merlin.K&C 0.098 0, 102 0.113 0.113 0.084 0.089 0.097 0.079 0.106Merlin.W&H 0.050 0.053 0.067 0.067 0.046 0.053 0.058 0.038 0.062Mlbqt. NV 0,103 0,105 0,108 0,100 0,100 0,113 0,109 0,069 0,121 Mlbqt.Cat 0,109 0,087 0,101 0,094 0,091 0,105 0,105 0,067 0,120 Collegamento 0,0 03 0.000 0,001 0,058 0,002 0,045 0,055 0,001 0,029 Dipendente da Gh.HE.Trad 0,073 0,059 0,094 0,081 0,094 0,098 0,090 0,096 0,089Sage.HE 0,199 0,163 0,195 0,087 0,106 0,102 0 0,191 0,162 0,182rHE 0,376 0,380 0,370 0,238 0,189 0,214 0,272 0,237 0,209 Regressione Merlin 0,143 0,166 0,169 0,144 0,126 0,142 0,158 0,128 0,165Gh.VC 1,430 1,187 0,991 0,171 0,144 0,104 1,254 1,242 0,946Solare.VC 1,434 1,191 0,981 0,166 0,141 0,105 1,239 1,237 0,927Npar 0,125 0,134 0,136 0,150 0,141 0,149 0,128 0,126 0,130 Merlin.K&C 0,104 0,087 0,091 0,091 0,086 0,098 0,098 0,088 0,098 Merlin NV 0,084 0,088 0,085 0,098 0,103 0,083 0,112 0,105 0,102Mlbqt .Cat 0,075 0,099 0,093 0,088 0,104 0,083 0,097 0,106 0,092 Collegamento 0,006 0,000 0,002 0,043 0,000 0,017 0,033 0,000 0,014

Selezione singola Selezione doppiaSenza selezione

Errore empirico di tipo I che viola i presupposti della distribuzione normale

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (79)

Attaccamento

73

8.4 Errori empirici di tipo I e potere in caso di errata specificazione del

Parametri del modello per la regressione di Merlin

Figura 6: Effetto dell'errata specificazione del modello sull'errore empirico di tipo I e sul potere per un modello genetico dominante in (a) ipotesi di distribuzione normale e (b) violazione delle ipotesi di distribuzione normale per il metodo MERLIN-REGRESS. L'errore empirico di tipo I è stato calcolato con un errore nominale di tipo I di 0,01, mentre la potenza è stata calcolata con un errore empirico di tipo I di 0,01. Le linee continue indicano fratelli indipendenti mentre le linee tratteggiate indicano fratelli dipendenti. Vengono mostrati tre schemi di selezione: selezione casuale, selezione singola, selezione doppia. Il vero modello basato sulla popolazione viene tracciato con le linee tratteggiate verticali.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (80)

Attaccamento

74

Figura 7: Effetto dell'errata specificazione del modello sull'errore empirico di tipo I e sulla potenza per un modello genetico additivo in (a) ipotesi di distribuzione normale e (b) violazione delle ipotesi di distribuzione normale per il metodo MERLIN-REGRESS. L'errore empirico di tipo I è stato calcolato con un errore nominale di tipo I di 0,01, mentre la potenza è stata calcolata con un errore empirico di tipo I di 0,01. Le linee continue indicano fratelli indipendenti mentre le linee tratteggiate indicano fratelli dipendenti. Vengono mostrati tre schemi di selezione: selezione casuale, selezione singola, selezione doppia. Il vero modello basato sulla popolazione viene tracciato con le linee tratteggiate verticali.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (81)

Attaccamento

75

Figura 8: Effetto dell'errata specificazione del modello sull'errore empirico di tipo I e sul potere per un modello genetico recessivo in (a) ipotesi di distribuzione normale e (b) violazione delle ipotesi di distribuzione normale per la procedura MERLIN-REGRESS. L'errore empirico di tipo I è stato calcolato con un errore nominale di tipo I di 0,01, mentre la potenza è stata calcolata con un errore empirico di tipo I di 0,01. Le linee continue indicano fratelli indipendenti mentre le linee tratteggiate indicano fratelli dipendenti. Vengono mostrati tre schemi di selezione: selezione casuale, selezione singola, selezione doppia. Il vero modello basato sulla popolazione viene tracciato con le linee tratteggiate verticali.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (82)

Grazie

76

9 grazie

Innanzitutto, i miei più sentiti ringraziamenti vanno al Prof. Dr. Rif. Ovviamente Ziegler per gli impegnati

Finanziamento del mio progetto di dottorato e supervisione del mio lavoro scientifico

all'IMBS. Gli sono debitore per i preziosi suggerimenti, senza i quali questo lavoro non sarebbe stato possibile.

A nome di tutti i colleghi di IMBS, vorrei ringraziare il Dr. Rif. ronzio. biol. re a cui piaccio

numerosi altri dipendenti dell'istituto erano sempre disponibili con consigli e azioni. IL

atmosfera collegiale all'IMBS e le discussioni che ho avuto con i miei colleghi lì

argomenti tecnici hanno contribuito in modo significativo al successo di questo lavoro.

Dott. Ringrazio Palmer per il set di dati COAG Perth analizzato nuovamente in questo lavoro.

Inoltre, i miei ringraziamenti speciali vanno al Dott. Rif. ronzio. biol. Franke, quello con me

pacchetto software Sibsim creato.

Infine, vorrei anche che il Dr. legale Grazie per il duro lavoro di

ha assunto la correzione di bozze.

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (83)

CV

77

10 CV

Nome Andre Kleensang

Indirizzo Pastorenstr. 7, 20459 Amburgo

Data e luogo di nascita 24 gennaio 1974 ad Amburgo

Stato civile Celibe

Nazionalità: tedesca

1985-1990 Formazione presso la scuola secondaria Richard-Linde-Weg di Amburgo

1990 diploma di scuola superiore

1990-1994 Istruzione scolastica presso la scuola professionale statale per chimica, farmacia, agricoltura e scuola comprensiva Bergedorf ad Amburgo

1994 Abilitazione generale all'ammissione all'università

1994 Assistente tecnico-chimico abilitato dallo Stato

1994-1995 Servizio militare di base come soldato di ricognizione NBC / soldato di servizio di stato maggiore Battaglione di difesa NBC 610 ad Albersdorf

1995-2001 Studi in biochimica presso l'Università di Amburgo

1998 Borsa di studio del programma Erasmus/Socrates per studiare biochimica all'Università di Berna, Svizzera

2001 Completamento degli studi di biochimica per diventare un biochimico qualificato

2001 Ricercatore associato presso l'Istituto Bernhard Nocht per la medicina tropicale di Amburgo, Dipartimento di parassitologia molecolare (con il Dr. med. Klaus Erttmann)

2002 Ricercatore associato presso il Bernhard Nocht Institute for Tropical Medicine di Amburgo, Bioinformatics Research Lab (con il Dr. med. Bertram Müller-Myhsok)

2003-2007 Research Associate presso l'Institute for Medical Biometry and Statistics, University Medical Center Schleswig-Holstein / Campus Lübeck (con il Prof. Dr. rer. nat. Andreas Ziegler)

Dal 2003 studi di dottorato in biologia umana presso l'Università di Lubecca

Dal 2004 studi post-laurea in economia per diventare un chimico aziendale qualificato presso la Fernuniversität Hagen (diploma intermedio 2006)

Dal 2007 Agente a Contratto presso la Commissione Europea, Centro Comune di Ricerca, Istituto per la Salute e la Tutela dei Consumatori, Ispra, Italia

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (84)

Elenco pubblicazioni

78

11 Elenco delle pubblicazioni (al 01.02.2010)

Le pubblicazioni risultanti da questa dissertazione sono contrassegnate da un asterisco.

* Kleensang A, Franke D, Alcaïs A, Abel L, Müller-Myhsok B, Ziegler A (2010): An Wide

Confronto dei metodi di mappatura quantitativa dei loci dei tratti. Hum Hered (im Druck)

Ziegler A, Ewhida A, Brendel M, Kleensang A (2008): Condivisione di aplotipi più potente di

Contabilità per la modalità di eredità. Genet Epidemiol 33(3):228-36

Timmann C, van der Kamp E, Kleensang A, König I K, Thye T, Büttner DW, Hamelmann C,

Marfo Y, Vens M, Brattig N, Ziegler A, Horstmann RD (2008): genetica umana

Resistenza a Onchocerca volvulus: prove per il collegamento al cromosoma 2p da an

Scansione a livello di autosoma. J Infect Dis 198(3):427-33

Lohmann-Hedrich K, Neumann A, Kleensang A, Lohnau T, Muhle H, Djarmati A, König IR,

Pramstaller PP, Schwinger E, Kramer PL, Ziegler A, Stephani U, Klein C (2008): Prove

per il collegamento della sindrome delle gambe senza riposo al cromosoma 9p: ci sono due loci distinti?

Neurologia 70(9):686-94

Kleensang A, Pahlke F, Ziegler A (2007): Family Studies in Genetic Epidemiology: A

Panoramica. In Freyer G, Biebler KE (a cura di): Aspetti biometrici dell'analisi del genoma III,

Shaker Verlag, Aquisgrana, Germania, 3-20

Timmann C, Evans JA, König IR, Kleensang A, Rüschendorf F, Lenzen J, Sievertsen J, Becker C,

Enuameh Y, Kwakye KO, Opoku E, Browne ENL, Ziegler A, Norimberga P, Horstmann RD

(2007): Genome-Wide Linkage Analysis of Malaria Infection Intensity and Mild Malaria

Malattia. PLoS Genet 3(3):e48

Schulte-Körne G, Ziegler A, Deimel W, Schumacher J, Plume E, Bachmann C, Kleensang A,

Propping P, Nöthen MM, Warnke A, Remschmidt H, König IR (2007): Interrelazione

e familiarità delle misure quantitative relative alla dislessia. Ann Hum Genet 71 (Pt 2): 160-75

* Franke D, Kleensang A, Ziegler A (2006): SIBSIM - simulazione quantitativa del fenotipo in

pedigree estesi. GMS Med Inform Biom Epidemiol 2(1):Doc04

Schumacher J, Konig IR, Plume E, Propping P, Warnke A, Manthey M, Duell M, Kleensang A,

Repsilber RE, Preis M, Remschmidt H, Ziegler A, Nothen MM, Schulte-Körne G (2006):

Dall'Istituto di biometria medica e statistica ... · Dall'Istituto di biometria medica e statistica dell'Università di Lubecca Direttore: Prof. Dr. Rif. nat - [Documento PDF] (85)

Elenco pubblicazioni

79

Analisi di linkage della regione cromosomica 18q11-q12 nella dislessia. J Trasm. neurale

113(3):417-23

Kleensang A, Franke D, König IR, Ziegler A (2005): Analisi della condivisione dell'aplotipo per l'alcol

dipendenza basata su caratteri quantitativi e statistica di Mantel. BMC Genetics 6 (Suppl

1): S75

Franke D, Kleensang A, Elston RC, Ziegler AZ (2005): Haseman-Elston pesato dal marcatore

informatività. BMC Genetics 6(Supplemento 1):S50

Erttmann KD, Kleensang A, Schneider E, Hammerschmidt S, Büttner DW, Gallin M (2005):

Clonazione, caratterizzazione e immunizzazione del DNA di un Onchocerca volvulus

gliceraldeide-3-fosfato deidrogenasi (Ov-GAPDH). Biochim Biophys Acta

1741:85-94

Mossner R, Kingo K, Kleensang A, Krüger U, König IR, Silm H, Westphal GA, Reich K (2005):

Associazione dei polimorfismi del promotore del TNF -238 e -308 con psoriasi volgare e

Artrite psoriasica ma non con pustolosi palmoplantare. JInvest Dermatol 124: 282-284

Ziegler A, König IR, Deimel W, Plume E, Nöthen MM, Propping P, Kleensang A, Müller-Myhsok

B, Warnke A, Remschmidt H, Schulte-Körne G (2005): Dislessia evolutiva-

stime del rischio di recidiva da uno studio bicentrico tedesco che utilizza la singola coppia di fratelli probando

progetto. Hum Hered 59:136-143

Kleensang A, König IR (2004): Una nuova implementazione di un approccio basato su una componente di varianza robusta

esemplificato usando SOLAR. Genet Epidemiol 27:280

Hennies CH, Kleensang A, Blech H, Meyer B, Schmidt S, Ziegler A, McElwee K, Hoffmann R

(2004): Mappatura genetica nell'alopecia areata. G Deut Dermatol Ges 2:496

König IR, Ziegler A, Schumacher J, Nöthen MM, Plume E, Kleensang A, Warnke A, Propping P,

Remschmidt H, Schulte-Körne G (2004): analisi di collegamento sulle regioni cromosomiche 15q21

e 18p11 nella dislessia - risultati dello studio bicentrico tedesco. Genet Epidemiol 27:281

König IR, Repsilber D, Dahmen G, Kleensang A, Ziegler A (2004): Più orientato all'applicazione

Formazione nella parte "Biometrics medica" della materia interdisciplinare Q1 mediante incorporamento

di concetti di medicina basata sull'evidenza - un rapporto sul campo dopo il passaggio a

la nuova ÄAppO. Informare Biome Epidemiol Med Biol 35(4):220-228

References

Top Articles
Latest Posts
Article information

Author: Carlyn Walter

Last Updated: 11/07/2023

Views: 5285

Rating: 5 / 5 (70 voted)

Reviews: 93% of readers found this page helpful

Author information

Name: Carlyn Walter

Birthday: 1996-01-03

Address: Suite 452 40815 Denyse Extensions, Sengermouth, OR 42374

Phone: +8501809515404

Job: Manufacturing Technician

Hobby: Table tennis, Archery, Vacation, Metal detecting, Yo-yoing, Crocheting, Creative writing

Introduction: My name is Carlyn Walter, I am a lively, glamorous, healthy, clean, powerful, calm, combative person who loves writing and wants to share my knowledge and understanding with you.