Sammanfattning
Det finns flera statistiska metoder för time-to-event analysis, bland vilka är Cox proportional hazards modell som är vanligast. När den absoluta riskförändringen, i stället för riskkvoten, är av primärt intresse eller när det proportionella faroantagandet för Cox proportional hazards-modellen bryts, kan en additiv riskregressionsmodell vara lämpligare., I detta dokument ger vi en översikt över detta tillvägagångssätt och tillämpar sedan en semiparametrisk såväl som en icke-parametrisk additivmodell till en datauppsättning från en studie av den naturliga historien om humant papillomavirus (HPV) hos HIV-positiva och HIV-negativa kvinnor., Resultaten från den semiparametriska modellen indikerade i genomsnitt ytterligare 14 onkogena HPV-infektioner per 100 kvinnoår relaterade till CD4-antal < 200 i förhållande till HIV-negativa kvinnor, och de från den icke-parametriska tillsatsmodellen visade ytterligare 40 onkogena HPV-infektioner per 100 kvinnor över 5 års uppföljning, medan det uppskattade riskförhållandet i Cox-modellen var 3,82. Även om Cox-modellen kan ge en bättre förståelse för exponeringssjukdomsförbundet, är tillsatsmodellen ofta mer användbar för folkhälsoplanering och intervention.
1., Inledning
Time-to-event-analys används ofta för att studera de riskfaktorer som är förknippade med förekomsten av kliniska händelser . Till exempel används tid-till-sjukdomsutveckling, tid-till-sjukhusvistelse, tid-till-återfall/återkommande och tid-till-död som endpoints. Det finns dock flera olika modeller för att mäta förhållandet mellan tid till händelse data med riskfaktorer, inklusive parametriska, semiparametriska och icke-parametriska modeller. I parametriska modeller antas en fördelning för tid till händelse (t. ex., en exponentiell, gamma, eller Weibull distribution), och det antas vidare att det finns ett linjärt förhållande mellan logaritmen av tid till händelse och kovariaten i modellen. Styrkan i föreningen beräknas sedan med hjälp av den maximala sannolikheten tillvägagångssätt. I semiparametriska modeller, främst Cox proportionella riskregressionsmodeller , antas farofunktionen vara multiplikativt relaterad till kovariaten, med en ospecificerad baslinjefarofunktion, och den maximala partiella sannolikhetsmetoden används för att uppskatta parametrarna., I icke-parametriska modeller, framför allt Kaplan-Meier-metoden, görs inga antaganden om sambandet mellan sjukdomsrisken och kovariaten. Istället beräknas överlevnadsfunktionen för varje skikt av kovariaten med empiriska metoder, och log-rank-testet och andra icke-parametriska test används vanligtvis för att testa effekterna av dessa kovariater.
en välkänd men mindre ofta använd metod för att analysera data från tid till händelse är en additiv riskregressionsmodell ., Till skillnad från den proportionella farlighetsmodell som uppskattar farokvoter, uppskattar en additiv modell skillnaden i faror: förändringen i farofunktionen på grund av exponering av intresse eller mer enkelt den absoluta skillnaden i den momentana felfrekvensen per enhet av förändring i exponeringsvariabeln. Baserat på uppskattningen av skillnader i faror kan man ytterligare uppskatta förändringen i kumulativ incidens: när den kumulativa faran är liten (t. ex.,, sällsynta händelser), förändringen i kumulativ fara approximerar skillnaden i risk för sjukdom på grund av exponering, det vill säga den hänförliga risken på grund av exponering. När den hänförliga risken är av primärt intresse eller det proportionella faroantagandet bryts kan därför en additiv riskregressionsmodell vara lämpligare. Eftersom den icke-parametriska tillsatsmodellen ursprungligen föreslogs av Aalen har det förekommit omfattande undersökningar om ämnet ., De additiva riskregressionsmodellerna förblir dock underutnyttjade inom folkhälsa och medicinsk forskning, främst på grund av bristande kännedom om modellerna och brist på kunskap om hur man implementerar modellerna med befintlig programvara. I det här dokumentet ger vi ett exempel för att illustrera tillämpningen av två tillsatsmodeller med hjälp av befintlig statistisk programvara (programkoder tillhandahålls).
motiverande exempel på detta dokument var en studie av naturhistoria av humant papillomvirus (HPV) infektion bland human-immunbrist-virus – (HIV-) positiva och HIV-negativa kvinnor., I den tidigare analysen av denna datamängd användes Cox proportional hazard model för att bedöma förhållandet mellan incident HPV-detektion med värdimmunstatus mätt med HIV-serostatus och CD4-tal . I detta dokument analyserade vi en uppdaterad version av samma datauppsättning med fyra års ytterligare uppföljning, med hjälp av additiva riskregressionsmodeller för att uppskatta den hänförliga risken för HPV-infektion relaterad till förändringar i immunstatus och kontrasterade sedan dessa resultat med resultat med hjälp av Cox-modellen.
2. Metoder
2.1., Data
data erhölls från Kvinnors Interagency HIV-studie (WIHS), en stor pågående flerinstitutionell observationsstudie med halvårsvisa kliniska uppföljningsbesök som inkluderar insamling av exfolierade cervixceller för HPV-DNA-testning och Pap-test. Det fanns 3766 kvinnor (2791 HIV+, 975 HIV−), varav två tredjedelar var inskrivna 1994-1995 och återstoden 2001-2002. Uppgifter om studiens inskrivning och metoder har tidigare rapporterats ., Efter att ha uteslutit de kvinnor som hade HIV-serokonversion under uppföljningen, hade hysterektomi före inskrivning i WIHS, saknade HPV-data under uppföljning eller testade positivt för onkogen HPV vid baslinjen, var antalet kvinnor tillgängliga för den aktuella analysen av incidentupptäckningen av onkogen HPV 2386 (1672 HIV+, 714 HIV -). De onkogena HPV-typerna inkluderade HPV16, 18, 31, 33, 35, 39, 45, 51, 52, 56, 58, 59, och 68., Vi studerade också incidentdetekteringen av alla HPV där fler kvinnor uteslöts på grund av att de påvisades positiva för alla typer av HPV vid baslinjen; motsvarande antal kvinnor var 1733 (1116 HIV+, 617 HIV−). Denna datauppsättning representerar en uppdatering från med 8 ytterligare besök (4 ytterligare år av uppföljning).
time-to-incident detection av HPV uppskattades med hjälp av mittinterval mellan det senaste HPV-negativa besöket och det första HPV-positiva besöket. Tid till incident upptäckt av onkogen eller någon HPV analyserades separat., Den primära exponeringsvariabeln var värd immunstatus som kännetecknas av HIV-status och CD4-antal: HIV-negativ, HIV-positiv med ett CD4-tal större än 500, CD4-tal mellan 200 och 500 och CD4-tal mindre än 200. De extra kovariaten inkluderade ålder (<30, 30-34, 35-39, 40-44, ≥45 år), ras (Vit, svart, spansktalande, annat), rökning (aldrig, tidigare, nuvarande) och antalet manliga sexpartner under de senaste 6 månaderna (0, 1, 2, ≥3).
2.2. Statistiska metoder
två additiva faromodeller beaktades., Den första modellen var den semiparametriska additiv hazard model där är den villkorliga hazard rate för ett givet ämne med covariate är antalet kovariater, är den okända baslinjen hazard function, och är den okända tid oberoende koefficienter. I denna studie ansåg vi bara de tidsoberoende kovariaten, alla vid baslinjen. Mer allmänna former av modellen (1) med tidsberoende kovariater har studerats i , vilket visade att uppskattningarna av och är konsekventa och asymptotiskt normala., Observera att modellen (1) har en liknande form som Cox proportional hazard regression model: båda modellerna har en ospecificerad baseline hazard function och time-independent coefficients, även om Cox-modellen definieras på en multiplikativ skala medan additive hazard model definieras på en additiv skala. Till skillnad från Cox proportionella riskregressionsmodell som kräver numeriska iterationer vid uppskattning av regressionsparametrarna har den tidigare nämnda semiparametriska additiv hazard regressionsmodellen sluten formlösning för att uppskatta regressionsparametrarna., Vi kan uppskatta den absoluta riskförändringen i stället för relativ riskförändring med modellen (1). SAS-koden i användes för att passa modellen, vilket ger uppskattningen för dess standardfel och varians-kovariansmatris. Värdena beräknades under normalt antagande. Ytterligare SAS-kod skrevs för att beräkna uppskattningen av kumulativ baseline hazard och dess standardfel baserat på . De kumulativa farofunktionsuppskattningarna uppskattades utifrån modellen (1). Cox-Snells restvärde utvärderades för varje försöksperson vid den observerade överlevnadstiden., Specifikt , för ett ämne med observerad överlevnadstid , händelseindikator och kovariat, uppskattas resterande av . Om modellen (1) är korrekt, bör s följa en enhet exponentiell fördelning med rätt censurering . Eftersom enhetsexponentiell fördelning har egenskapen att dess kumulativa farofunktion är identitetsfunktionen, kan man använda den här egenskapen för att kontrollera godheten av passform för tillsatsmodellen. Vi beräknade därför Nelson-Aalen-uppskattningarna av kumulativa faror på data för alla ämnen., I SAS kan detta erhållas genom att använda proc phreg med baseline statement och method=ch option i uttalandet (kod finns i online-Material). Plottet av de uppskattade kumulativa farorna på residualerna jämfört med residualerna genererades, där en nära 45 graders linje förväntas om modellen (1) är sann.
Modell (1) förutsätter att effekten av kovariaten är konstant på farofunktionen, men i själva verket kan den generaliseras till någon känd parametrisk form som eventuellt är tidsberoende., Vi ansåg också en mer allmän additiv riskmodell som gör att kovariatens koefficienter kan vara tidsberoende och nonparametrisk, var . Till skillnad från modell (1) Gör den nya modellen inget antagande om formen av . Den asymptotiska teorin om denna modell studerades i . Ett SAS-makro som tillhandahölls användes för att passa modellen, vilket ger uppskattningar av och deras standardfeluppskattningar. Uppskattningarna för kvantiteter har slutna formlösningar., är den kumulativa utgångsrisken och är de överskjutande kumulativa farorna vid tidpunkten, vilka definieras från tid 0 till den maximala tid då konstruktionsmatrisen baserad på kovariaten och de observerade tiderna är full rang . Om är en indikator (0/1) för vissa, ger uppskattningen av den ytterligare kumulativa farouppskattningen vid tidpunkten för att vara i gruppen medan du justerar för de andra kovariaten. Den icke-parametriska riskmodellen för additiv justerades för samma kovariater som i den semiparametriska riskmodellen för additiv., Liknande Cox-Snell restplot som i den semiparametriska modellen genererades med skillnaden att alla residualer för den icke-parametriska tillsatsmodellen censurerades vid maximal tid .
traditionella Cox proportionella faromodeller för incident detektion av onkogena och alla HPV, som innehåller samma kovariater som tidigare nämnts, kördes för jämförelse med tillsatsmodellerna. Alla statistiska analyser genomfördes med hjälp av SAS 9.1.3, och tomterna genererades med r 2.9.2. Datorkoden kan laddas ner på https://sites.google.com/site/samxiepage/Additive_Model_Pkg.zip?attredirects=0&d=1.
3., Resultat
Cox proportional hazard modell för händelsen upptäckt av onkogena HPV visade att HIV-positiva kvinnor med CD4 > 500 hade en hazard ratio (HR) 1.62 med 95% konfidensintervall (CI) 1.31 till 2,00 i förhållande till HIV-negativa kvinnor. Motsvarande timmar och 95% CIs som jämförde HIV-positiva kvinnor med CD4 200-500 och CD4< 200, med HIV-negativa kvinnor som referensgrupp, var 2, 49 (CI: 2, 04–3, 03) respektive 3, 82 (CI: 3, 01–4, 86)., För trenden beräknades genom att behandla HIV / CD4-gruppen som en ordinär variabel med fyra nivåer (0 till 3) och var mycket signifikant (). Dessutom var ålder negativt associerad, och rökning var positivt associerad, med incidentdetektering av onkogen HPV. I modeller för incidentupptäckning av HPV var HRs och 95% CIs för HIV-positiva kvinnor med CD4 > 500, CD4 200-500 och CD4 < 200 1,65 (CI: 1,39–1,96), 2,76 (CI: 2,33–3,27) respektive 3,40 (ci: 2,66–4,34). För trenden var mindre än 0.0001., Liknande signifikanta faktorer som i incidenten onkogen HPV hittades med de ytterligare resultaten att afroamerikanska kvinnor hade högre förekomst av någon HPV än kaukasiska kvinnor, och antalet manliga sexuella partners under de senaste 6 månaderna var positivt associerad med incidentdetektering av någon HPV.
dessa riskförhållanden gällde dock inte det absoluta antalet nya HPV-infektioner som skulle upptäckas med en minskning av antalet CD4., Kontroll av proportionalitetsantagandet för Cox-modellerna visar vidare att proportionaliteten hos riskfunktionen inte höll för HIV-positiv med CD4 < 200 i onkogen HPV-analys () och för antalet manliga sexuella partner under de senaste 6 månaderna ≥3 i någon HPV-analys (). Av dessa skäl tillämpade vi additive hazards regression-modellerna på denna datauppsättning.
den semiparametriska tillsatsrisken för onkogen HPV var monterad och resultaten anges i Tabell 1., HIV-positiva kvinnor med CD4 > 500 hade en ytterligare risk på 0,03 än de HIV-negativa kvinnorna, vilket innebär att det i genomsnitt fanns 3 ytterligare onkogena HPV-infektionsfall per 100 HIV-positiva kvinnor per år med CD4 > 500 jämfört med HIV-negativa kvinnor; HIV-positiva kvinnor med CD4 200-500 hade en ökning av risken 0,08; HIV-positiva kvinnor med CD4 < 200 hade en ökning av risk 0, 14., Alla ökningar i förhållande till HIV-negativa kvinnor var statistiskt signifikanta (), och den ökande trenden med avseende på HIV/CD4-gruppen var signifikant med värdet < 0, 0001. Effekterna av ålder, ras, rökning och antal manliga sexpartner under de senaste 6 månaderna överens med dem från motsvarande Cox-modell.
de uppskattade överlevnads sannolikheterna för de fyra HIV / CD4-lagren justerade för andra kovariater från den semiparametriska tillsatsmodellen anges i Figur 1 a. Det visar att lägre CD4-tal var associerat med ökad detektering av onkogen HPV.,/p>
(a)
(b)
(a)
(b)
Estimates of survival probabilities of oncogenic HPV and any HPV for the HIV/CD4 strata from semiparametric and nonparametric additive hazard model fitting with the other covariates held at reference values: age < 30, race is white, never smoked, and one male sexual partner in past 6 months: (a) oncogenic HPV; (b) any HPV., Från topp till botten för varje resultat och varje modell passar: HIV -, CD4 >500, CD4: 200-500 och CD4< 200.
den icke-parametriska riskmodellen för additiv var också anpassad till uppgifterna. Variablerna i den icke-parametriska additiva riskregressionsmodellen hade liknande statistisk betydelse som de i den semiparametriska tillsatsmodellen och även de i Cox proportionella riskregressionsmodellen med samma kovariater., Figur 1 A visar uppskattningarna av överlevnadssannolikheter för onkogen HPV för de fyra HIV / CD4-grupperna:,, för HIV-negativa kvinnor, HIV-positiva kvinnor med CD4 > 500, CD4 200-500 och CD4 < 200, justerat för andra kovariater, var är den uppskattade kumulativa baslinjefara och är den uppskattade kumulativa överskottsfara som är associerad för varje CD4-stratum. Figur 1 A visar att den semiparametriska modellen (modell 1) och de icke-parametriska modellerna (modell 2) i allmänhet gav liknande uppskattningar av kumulativa riskfunktioner., I synnerhet är avstånden mellan kurvorna likartade, vilket indikerar att dessa två modeller gav nära uppskattningar av CD4-effekten.
i denna analys baserad på modell (2), den uppskattade överlevnadssannolikheten för onkogen HPV över 5 års uppföljning bland HIV-negativa kvinnor med en ålder < 30, av kaukasisk ras, som var icke-rökare, och hade bara en manlig sexpartner under de senaste 6 månaderna, var 0,80., Den motsvarande kumulativa incidensen var, vilket innebär att över 5 års uppföljning 20% av HIV-negativa kvinnor med de tidigare nämnda egenskaperna hade minst ett positivt test för onkogen HPV; den kumulativa incidensen med 5 års uppföljning var 0.33, 0.47 och 0.60 för CD4 > 500, CD4 200-500 och CD4 < 200 grupper., För varje 100 kvinnor med CD4< 200 var det 40 fler onkogena HPV-infektioner år 5 jämfört med varje 100 HIV-negativa kvinnor, vilket är en signifikant ökning av antalet infektioner. Både de semiparametriska och icke-parametriska tillsatsmodellerna passar data väl baserat på Cox-Snells återstående tomter (Figur 2): de uppskattade kumulativa riskkurvorna följer ungefär 45 graders linjer.
samma analyser utfördes för alla HPV (Tabell 1)., Effekten uppskattningar för HIV-positiva kvinnor med CD4> 500, CD4 200-500, CD4< 200 var 0,09, 0,23, 0,30, respektive, med värden mindre än 0,0001 ( för trend< 0,0001). Från den icke-parametriska tillsatsmodellen (Figur 1(B)) var skillnaden i överlevnad för någon HPV mellan CD4 200-500 och CD4 < 200-gruppen inte lika signifikant som för överlevnad av onkogen HPV. Den kumulativa incidensen av någon HPV vid 5 år var 0, 40, 0, 63, 0, 77, 0.,För HIV-negativa kvinnor, HIV-positiva kvinnor med CD4> 500, CD4 200-500, CD4< 200. De additiva riskmodellerna för alla HPV passar också in i databrunnen (Figur 3).
4. Slutsats
denna studie tillämpade två typer av additiva riskregressionsmodeller: de semiparametriska och de icke-parametriska additiva riskregressionsmodellerna och en Cox-proportionell riskmodell för analys av HPV-incidensdetekteringsdata hos HIV-positiva och HIV-negativa kvinnor och kontrasterade de effektuppskattningar som erhållits med hjälp av varje statistisk metod., Alla modeller fann mycket signifikanta kopplingar mellan värd immunstatus och risk för incident HPV-upptäckt. Den semiparametriska tillsatsmodellen visade att det i genomsnitt fanns ytterligare 14 onkogena HPV-infektionsfall per 100 kvinnoår relaterade till CD4-antal < 200 i förhållande till HIV-negativa kvinnor; och den icke-parametriska modellen visade ytterligare 40 onkogena HPV-infektioner per 100 kvinnor efter 5 års uppföljning.,
medan tillsatsmodellerna som förväntat hade mycket lägre effektuppskattningar än Cox-modellen, behandlar de två tillvägagångssätten olika frågor. det vill säga Cox-modellen ger uppskattningar av relativ fara (i en multiplikativ skala), medan tillsatsmodellerna ger ungefärliga uppskattningar av den hänförliga risken (dvs. den absoluta skillnaden i händelsehastigheten per förändringsenhet i exponeringsvariabeln) under antagande om sällsynta händelser., Den hänförliga risken kan användas för att bestämma den absoluta ökningen av antalet fall, det vill säga antalet extra fall av HPV-infektion som inträffade på grund av exponering av intresse. De relativa faror som uppskattas av Cox-modeller kan vara särskilt användbara för att förstå associationens storlek, vilket kan vara viktigt vetenskapligt. det vill säga när sjukdomsrisken vid baslinjen är låg kan det absoluta antalet ytterligare fall relaterade till exponering vara små, men den relativa risken kan fortfarande vara stark., Den absoluta risken kan dock vara särskilt användbar för folkhälsoplanering och folkhälsointervention, när det faktiska antalet ytterligare fall av en sjukdom är av intresse.
vi ansåg en semiparametrisk och en nonparametric additive hazard modeller. Jämfört med den semiparametriska tillsatsmodellen för riskregression gör den icke-parametriska tillsatsmodellen att kovariateffekterna kan variera över tiden nonparametriskt och ger därmed en mer robust uppskattning av den kumulativa farofunktionen än den semiparametriska tillsatsmodellen., De icke-parametriska modellerna använder emellertid också mer statistiska frihetsgrader. Om de genomsnittliga kovariata effektiva uppskattningarna är av primärt intresse kan därför den semiparametriska riskmodellen för tillsatser användas, men om man vill undersöka om vissa kovariata effekter varierar över tiden eller om den kumulativa farofunktionen (eller den kumulativa incidensen) är av primärt intresse, kan den icke-parametriska riskmodellen för tillsatser föredras.
vi noterar att den modell som föreslagits av Lin och Ying har utvidgats till att omfatta både additiva och multiplikativa kovariateffekter ., Denna modell kan vara nödvändig, till exempel när vissa kovariater i en Cox proportionell riskmodell uppfyller proportionella risker antagandet och andra inte. Tolkningen av denna modell är dock inte lika enkel som antingen Cox-modellen eller tillsatsmodellerna.
Sammanfattningsvis, även om den teoretiska grunden för additiva faromodeller är väl etablerad och datorkoder för montering av dessa modeller är tillgängliga, har de använts mindre ofta än andra metoder för analys av tid till händelse., Detta kan delvis återspegla en viss bristande kunskap om dessa modeller i det allmänna forskarsamhället. Fortsatta ansträngningar för att öka medvetenheten om dessa statistiska metoder behövs och bör övervägas av biostatistiker och epidemiologer som är involverade i att undervisa nästa generation forskare.
bekräftelser
detta arbete stöddes delvis av NCI Grants 5R01CA085178, 1r21ca139388 och ett bidrag från Lupus Foundation of America., Data i denna uppsats har samlats in av Kvinnors Interagency HIV Studie (WIHS); Collaborative Study Group med centra (principal investigator) vid New York/Manhattan Consortium (Kathryn Anastos); Brooklyn, NY (Howard Minkoff); Washington DC Metropolitan Consortium (Mary Young); Connie Wofsy Studie Konsortium av Norra Kalifornien (Ruth Greenblatt); Los Angeles Län/Södra Kalifornien Consortium (Alexandra Levine); Chicago Consortium (Mardge Cohen), Data Samordna Center (Stephen Gange)., Den WIHS är finansierad av National Institute of Allergy and Infectious Diseases (UO1-AI-35004, UO1-AI-31834, UO1-AI-34994, UO1-AI-34989, UO1-AI-34993, och UO1-AI-42590) och av Eunice Kennedy Shriver National Institute of Child Health and Human Development (UO1-HD-32632). Studien samfinansieras av National Cancer Institute, National Institute on Drug Abuse och National Institute on Deafness and Other Communication Disorders. Också finansiering från National Center for Research Resources (UCSF-CTSI Bidrag nr. UL1 RR024131)., Innehållet i denna publikation är endast författarnas ansvar och representerar inte nödvändigtvis de nationella Hälsoinstitutens officiella åsikter. Ytterligare stöd gavs av Einstein-Montefiore Center för AIDS-Forskning (P30-AI-51519), Institutet för Klinisk och Translationell Forskning (UL1RR025750), och Albert Einstein Cancer Center.