Additive Hazard Regression Models: an Application to the Natural History of Human Papillomavirus

Abstract

Il existe plusieurs méthodes statistiques pour l’analyse time-to-event, parmi lesquelles le modèle de risques proportionnels de Cox qui est le plus couramment utilisé. Toutefois, lorsque la variation absolue du risque, au lieu du rapport de risque, est d’intérêt primaire ou lorsque l’hypothèse de danger proportionnel pour le modèle de risques proportionnels de Cox est violée, un modèle de régression des risques additifs peut être plus approprié., Dans cet article, nous donnons un aperçu de cette approche et appliquons ensuite un modèle additif semi-paramétrique et non paramétrique à un ensemble de données provenant d’une étude de l’histoire naturelle du virus du papillome humain (VPH) chez les femmes séropositives et séronégatives., Les résultats du modèle semi-paramétrique indiquaient en moyenne 14 infections oncogènes à HPV supplémentaires pour 100 femmes-années liées au nombre de CD4 < 200 par rapport aux femmes séronégatives, et ceux du modèle additif non paramétrique montraient 40 infections oncogènes à HPV supplémentaires pour 100 femmes sur 5 ans de suivi, alors que le rapport de risque estimé dans le modèle de Cox était de 3,82. Bien que le modèle de Cox puisse fournir une meilleure compréhension de l’Association des maladies d’exposition, le modèle additif est souvent plus utile pour la planification et l’intervention en santé publique.

1., Introduction

l’analyse du temps avant événement est couramment utilisée pour étudier les facteurs de risque associés à l’incidence des événements cliniques . Par exemple, le délai de développement de la maladie, le délai d’hospitalisation, le délai de rechute/récidive et le délai de décès sont fréquemment utilisés comme paramètres. Cependant, il existe plusieurs modèles différents pour mesurer la relation des données temps-événement avec les facteurs de risque, y compris les modèles paramétriques, semi-paramétriques et non paramétriques. Dans les modèles paramétriques, une distribution est supposée pour le temps à l’événement (par exemple,, une distribution exponentielle, gamma ou Weibull), et on suppose en outre qu’il existe une relation linéaire entre le logarithme du temps à l’événement et les covariables du modèle. La force de l’association est ensuite estimée à l’aide de l’approche du maximum de vraisemblance. Dans les modèles semi-péramétriques, plus particulièrement les modèles de régression proportionnelle des dangers de Cox , la fonction des dangers est supposée être multiplicativement liée aux covariables, avec une fonction de danger de base non spécifiée, et la méthode de vraisemblance partielle maximale est utilisée pour estimer les paramètres., Dans les modèles non paramétriques, notamment l’approche de Kaplan-Meier, aucune hypothèse n’est faite quant à la relation entre le risque de maladie et les covariables. Au lieu de cela, la fonction de survie pour chaque strate des covariables est estimée à l’aide de méthodes empiriques, et le test log-rank et d’autres tests non paramétriques sont généralement utilisés pour tester les effets de ces covariables.

un modèle de régression des risques additifs est une méthode bien connue, mais moins souvent utilisée pour analyser les données sur le temps avant l’événement ., Contrairement au modèle proportionnel des risques qui estime les rapports de danger, un modèle additif estime la différence des dangers: le changement de la fonction de danger dû à l’exposition d’intérêt ou, plus simplement, la différence absolue du taux de défaillance instantané par unité de changement de la variable d’exposition. Sur la base de l’estimation de la différence des dangers, on peut estimer davantage le changement de l’incidence cumulative: lorsque le danger cumulatif est faible (p. ex.,, événements rares), la variation du risque cumulatif se rapproche de la différence de risque de maladie due à l’exposition, c’est-à-dire du risque attribuable à l’exposition. Par conséquent, lorsque le risque attribuable est d’intérêt primaire ou que l’hypothèse du danger proportionnel est violée, un modèle de régression du risque additif peut être plus approprié. Depuis que le modèle additif non paramétrique a été initialement proposé par Aalen , il y a eu des recherches approfondies sur le sujet ., Cependant, les modèles de régression des risques additifs demeurent sous-utilisés en santé publique et en recherche médicale, principalement en raison du manque de familiarité avec les modèles et du manque de connaissances sur la façon de mettre en œuvre les modèles à l’aide des logiciels existants. Dans cet article, nous fournissons un exemple pour illustrer l’application de deux modèles additifs à l’aide de logiciels statistiques existants (des codes de programme sont fournis).

l’exemple motivant de cet article était une étude de l’histoire naturelle de l’infection par le virus du papillome humain (VPH) chez les femmes séropositives et séronégatives du virus de l’immunodéficience humaine (VIH)., L’analyse antérieure de cet ensemble de données a utilisé le modèle de risque proportionnel de Cox pour évaluer la relation entre la détection incidente du VPH et le statut immunitaire de l’hôte mesuré par le sérostat VIH et le nombre de CD4 . Dans cet article, nous avons analysé une version mise à jour de ce même ensemble de données avec quatre années de suivi supplémentaire, en utilisant des modèles de régression des dangers additifs pour estimer le risque attribuable d’infection par le VPH lié aux changements de l’état immunitaire, puis nous avons comparé ces résultats avec les résultats du modèle de Cox.

2. Méthodes

2.1., Données

Les données ont été obtenues à partir de L’étude interinstitutionnelle sur le VIH chez les femmes (WIHS), une vaste étude observationnelle multiinstitutionnelle en cours avec des visites de suivi clinique semestrielles qui comprennent la collecte de cellules cervicales exfoliées pour les tests D’ADN du VPH et les tests Pap. Il y avait 3766 femmes (2791 séropositives+, 975 séropositives−); les deux tiers d’entre elles étaient inscrites en 1994-1995 et le reste en 2001-2002. Des détails sur l’inscription et les méthodes de l’étude ont été précédemment rapportés ., Après avoir exclu les femmes qui avaient une séroconversion pour le VIH pendant le suivi, qui avaient subi une hystérectomie avant d’être admises au WIHS, qui manquaient de données sur le VPH pendant le suivi ou qui avaient été testées positives pour le VPH oncogène à l’inclusion, le nombre de femmes disponibles pour l’analyse actuelle de la détection des incidents de VPH oncogène était de 2386 (1672 VIH+, 714 VIH−). Les types de VPH oncogènes comprenaient le VPH16, 18, 31, 33, 35, 39, 45, 51, 52, 56, 58, 59, et 68., Nous avons également étudié la détection incidente de tout HPV dans lequel plus de femmes ont été exclues parce qu’elles avaient été détectées positives pour tous les types de HPV à l’inclusion; le nombre correspondant de femmes était de 1733 (1116 VIH+, 617 VIH−). Cet ensemble de données représente une mise à jour de avec 8 visites supplémentaires (4 années supplémentaires de suivi).

Le temps de détection du VPH jusqu’à l’incident a été estimé en utilisant midinterval entre la dernière visite négative au VPH et la première visite positive au VPH. La détection de l’oncogène ou de tout HPV dans le temps avant l’incident a été analysée séparément., La principale variable d’exposition était le statut immunitaire de l’hôte caractérisé par le statut VIH et le nombre de CD4: séronégatif, séropositif avec un nombre de CD4 supérieur à 500, un nombre de CD4 compris entre 200 et 500 et un nombre de CD4 inférieur à 200. Les covariables supplémentaires comprenaient l’âge (<30, 30-34, 35-39, 40-44, ≥45 années), race (Blanc, Noir, Hispanique, autre), tabagisme (jamais, ancien, actuel), et le nombre de partenaire sexuel masculin au cours des 6 derniers mois (0, 1, 2, ≥3).

2.2. Méthodes statistiques

deux modèles de danger additif ont été considérés., Le premier modèle était le modèle de danger additif semi-paramétrique où est le taux de danger conditionnel d’un sujet donné avec la covariable est le nombre de covariables, est la fonction de danger de base inconnue, et est les coefficients inconnus indépendants du temps. Dans cette étude, nous n’avons pris en compte que les covariables indépendantes du temps, toutes à la base. Des formes plus générales du modèle (1) avec des covariables dépendantes du temps ont été étudiées dans , qui a montré que les estimations de et sont cohérentes et asymptotiquement normales., Notez que le modèle (1) a une forme similaire au modèle de régression des risques proportionnels de Cox: les deux modèles ont une fonction de danger de base non spécifiée et des coefficients indépendants du temps, bien que le modèle de Cox soit défini sur une échelle multiplicative tandis que le modèle de risque additif est défini sur une échelle additive. Contrairement au modèle de régression des risques proportionnels de Cox qui nécessite des itérations numériques pour estimer les paramètres de régression, le modèle de régression des risques additifs semi-paramétriques mentionné précédemment a une solution de forme fermée pour estimer les paramètres de régression., Nous sommes en mesure d’estimer la variation absolue du risque au lieu de la variation relative du risque avec le modèle (1). Le code SAS a été utilisé pour adapter le modèle, qui produit l’estimation , son erreur-type et sa matrice variance-covariance. Les valeurs ont été calculées selon l’hypothèse normale. Un code SAS supplémentaire a été écrit pour calculer l’estimation du risque de référence cumulatif et ses erreurs types sur la base . Les estimations de la fonction de danger cumulatif ont été estimées à partir du modèle (1). Le résidu de Cox-Snell a été évalué pour chaque sujet au moment de sa survie observée., Plus précisément, pour un sujet avec le temps de survie observé , l’indicateur d’événement et la covariable , le résidu est estimé par . Si le modèle (1) est correct, le ’s doit suivre une distribution exponentielle unitaire avec une censure correcte . Étant donné que la distribution exponentielle unitaire a la propriété que sa fonction de risque cumulatif est la fonction d’identité, on peut utiliser cette propriété pour vérifier la qualité de l’Ajustement pour le modèle additif. Nous avons donc calculé les estimations Nelson-Aalen des dangers cumulatifs sur les données de tous les sujets., Dans SAS, cela peut être obtenu en utilisant proc phreg avec l’instruction de base et l’option method=ch dans l’Instruction (le code est fourni dans les documents en ligne). Le graphique des dangers cumulatifs estimés sur les résidus par rapport aux résidus a été généré, dans lequel une ligne proche de la ligne de 45 degrés est attendue si le modèle (1) est vrai.

le modèle (1) suppose que l’effet de la covariable est constant sur la fonction de danger, mais en fait, il peut être généralisé à toute forme paramétrique connue qui dépend peut-être du temps., Nous avons également considéré un modèle de risque additif plus général qui permet aux coefficients de la covariable d’être dépendants du temps et non paramétriques, où . Contrairement au modèle (1), le nouveau modèle ne fait aucune hypothèse concernant la forme de . La théorie asymptotique de ce modèle a été étudiée dans . Une macro SAS fournie a été utilisée pour ajuster le modèle, qui donne les estimations et leurs estimations d’erreur type. Les estimations des quantités ont des solutions de forme fermée., est le danger cumulatif de référence et sont les dangers cumulatifs excédentaires au moment, qui sont définis du temps 0 au moment maximal auquel la matrice de conception basée sur les covariables et les temps observés est de rang complet . If est un indicateur (0/1) pour certains , , l’estimation de donne l’estimation additionnelle du risque cumulatif au moment d’être dans le groupe tout en ajustant pour les autres covariables. Le modèle de danger additif non paramétrique a été ajusté pour tenir compte des mêmes covariables que dans le modèle de danger additif semi-paramétrique., Un diagramme résiduel de Cox-Snell similaire à celui du modèle semi-paramétrique a été généré, à la différence que tous les résidus du modèle additif non paramétrique ont été censurés au moment maximal .

Les modèles traditionnels de risque proportionnel de Cox pour la détection incidente de l’oncogène et de tout HPV, incorporant les mêmes covariables que celles mentionnées précédemment, ont été exécutés pour comparaison avec les modèles additifs. Toutes les analyses statistiques ont été effectuées en utilisant SAS 9.1.3, et les graphiques ont été générés avec R 2.9.2. Le code informatique peut être téléchargé sur https://sites.google.com/site/samxiepage/Additive_Model_Pkg.zip?attredirects=0&d=1.

3., Résultats

le modèle de risque proportionnel de Cox pour la détection des incidents de VPH oncogène a montré que les femmes séropositives avec CD4> 500 avaient un rapport de risque (HR) de 1,62 avec un intervalle de confiance à 95% (IC) de 1,31 à 2,00 par rapport aux femmes séronégatives. Les HRs et les IC à 95% correspondants comparant les femmes séropositives aux CD4 200-500 et CD4 < 200, utilisant les femmes séronégatives comme groupe de référence, étaient respectivement de 2,49 (IC: 2,04-3,03) et de 3,82 (IC: 3,01-4,86)., La tendance for a été calculée en traitant le groupe VIH / CD4 comme une variable ordinale à quatre niveaux (0 à 3) et était très significative (). En outre, l’âge était associé négativement et le tabagisme était associé positivement à la détection incidente du VPH oncogène. Dans les modèles de détection d’incident de tout VPH, les HRs et IC 95% pour les femmes séropositives avec CD4 > 500, CD4 200-500 et CD4 < 200 étaient de 1,65 (IC: 1,39-1,96), 2,76 (IC: 2,33–3,27), et 3,40 (IC: 2,66–4,34), respectivement. La tendance for était inférieure à 0,0001., Des facteurs significatifs similaires à ceux de l « incident du VPH oncogène ont été trouvés avec les résultats supplémentaires selon lesquels les femmes afro-américaines avaient une incidence plus élevée de tout VPH que les femmes caucasiennes, et le nombre de partenaires sexuels masculins au cours des 6 derniers mois était positivement associé à la détection d » incident de tout VPH.

cependant, ces rapports de danger ne tiennent pas compte du nombre absolu de nouvelles infections à VPH qui seraient détectées avec une diminution du nombre de CD4., En outre, la vérification de l’hypothèse de proportionnalité pour les modèles de Cox montre que la proportionnalité de la fonction de risque n’a pas tenu pour les séropositifs avec CD4 < 200 dans l’analyse du VPH oncogène () et pour le nombre de partenaires sexuels masculins au cours des 6 derniers mois ≥3 dans toute analyse du VPH (). Pour ces raisons, nous avons appliqué les modèles de régression des risques additifs à cet ensemble de données.

le modèle de danger additif semi-péramétrique pour le VPH oncogène a été ajusté et les résultats sont donnés dans le tableau 1., Les femmes séropositives avec CD4 > 500 présentaient un risque supplémentaire de 0,03 Par rapport aux femmes séronégatives, ce qui implique qu’en moyenne, il y avait 3 cas supplémentaires d’infection oncogène par le VPH pour 100 femmes séropositives par an avec CD4 > 500 par rapport aux femmes séronégatives; augmentation du risque 0,08; les femmes séropositives avec CD4 < 200 présentaient une augmentation du risque 0,14., Toutes les augmentations par rapport aux femmes séronégatives étaient statistiquement significatives (), et la tendance à la hausse par rapport au groupe VIH/CD4 était significative avec une valeur < 0,0001. Les effets de l’âge, de la race, du tabagisme et du nombre de partenaires sexuels masculins au cours des 6 derniers mois concordaient avec ceux du modèle Cox correspondant.

les probabilités de survie estimées pour les quatre strates VIH / CD4 ajustées pour d’autres covariables à partir du modèle additif semi-paramétrique sont données à la Figure 1(a). Il montre qu’une diminution du nombre de CD4 était associée à une détection accrue du VPH oncogène.,/p>

(a)

(b)

(a)

(b)

Figure 1

Estimates of survival probabilities of oncogenic HPV and any HPV for the HIV/CD4 strata from semiparametric and nonparametric additive hazard model fitting with the other covariates held at reference values: age < 30, race is white, never smoked, and one male sexual partner in past 6 months: (a) oncogenic HPV; (b) any HPV., De haut en bas pour chaque résultat et chaque modèle adapté: VIH -, CD4 >500, CD4: 200-500 et CD4 < 200.

le modèle de danger additif non paramétrique a également été adapté aux données. Les variables du modèle de régression du risque additif non paramétrique avaient une signification statistique similaire à celles du modèle additif semi-paramétrique et aussi à celles du modèle de régression du risque proportionnel de Cox avec les mêmes covariables., La Figure 1(a) montre les estimations des probabilités de survie du VPH oncogène pour les quatre groupes VIH/CD4: , , , pour les femmes séronégatives, les femmes séropositives avec CD4 > 500, CD4 200-500 et CD4 < 200, respectivement, ajustées pour d’autres covariables, où est le risque le risque cumulatif excédentaire estimé associé à chaque strate CD4. La Figure 1 (a) montre que le modèle semi-paramétrique (modèle (1)) et les modèles non paramétriques (modèle (2)) en général ont donné des estimations similaires sur les fonctions cumulatives des dangers., En particulier, les distances entre les courbes sont similaires, ce qui indique que ces deux modèles ont donné des estimations proches de L’effet CD4.

dans cette analyse basée sur le modèle (2), la probabilité de survie estimée du VPH oncogène sur 5 ans de suivi chez les femmes séronégatives ayant un âge< 30, de race caucasienne, qui n’étaient pas fumeuses et n’avaient qu’un partenaire sexuel masculin au cours des 6 derniers mois, était de 0,80., L’incidence cumulative correspondante était , ce qui implique que sur 5 ans de suivi 20% des femmes séronégatives avec les caractéristiques mentionnées précédemment avaient au moins un test positif pour le VPH oncogène; les taux d’incidence cumulés par 5 ans de suivi étaient de 0,33, 0,47 et 0,60 pour CD4 > 500, CD4 200-500 et CD4 < 200 groupes, respectivement., Ainsi, pour 100 femmes atteintes de CD4 < 200, Il y avait 40 infections oncogènes à HPV de plus à l’année 5 que pour 100 femmes séronégatives, ce qui représente une augmentation significative du nombre d’infections. Les modèles de risque additif semi-paramétrique et non paramétrique correspondent bien aux données basées sur les diagrammes résiduels de Cox-Snell (Figure 2): les courbes de risque cumulatif estimées suivent approximativement les lignes de 45 degrés.

les mêmes analyses ont été effectuées pour n’importe quel VPH (Tableau 1)., Les estimations d’effet pour les femmes séropositives avec CD4 > 500, CD4 200-500, CD4 < 200 étaient respectivement de 0,09, 0,23, 0,30, avec des valeurs inférieures à 0,0001 ( pour la tendance < 200 div > 0,0001). D’après le modèle additif non paramétrique (Figure 1(b)), la différence de survie de tout VPH entre le groupe CD4 200-500 et le groupe CD4 < 200 n’était pas aussi significative que celle de la survie du VPH oncogène. L’incidence cumulative de tout VPH à 5 ans était de 0,40, 0,63, 0,77, 0.,84 pour les femmes séronégatives, les femmes séropositives avec CD4 >500, CD4 200-500, CD4 < 200, respectivement. Les modèles de danger additif pour tout VPH correspondent également bien aux données (Figure 3).

4. Conclusion

Cette étude a appliqué deux types de modèles de régression des risques additifs: les modèles de régression des risques additifs semi-paramétriques et non paramétriques et un modèle de risque proportionnel de Cox à l’analyse des données de détection de l’incidence du VPH chez les femmes séropositives et séronégatives et a comparé les estimations des effets obtenues à l’aide de chaque approche statistique., Tous les modèles ont trouvé des associations très significatives entre le statut immunitaire de l’hôte et le risque de détection incidente du VPH. Le modèle additif semi-paramétrique a montré qu’en moyenne, il y avait 14 cas supplémentaires d’infection oncogène par le VPH pour 100 femmes-années liés au nombre de CD4 < 200 par rapport aux femmes séronégatives; et le modèle non paramétrique a montré 40 cas supplémentaires d’infection oncogène par le VPH pour 100 femmes après 5 ans de suivi.,

bien que, comme prévu, les estimations des effets des modèles additifs aient été beaucoup plus faibles que celles du modèle de Cox, les deux approches abordent des questions différentes; c’est-à-dire que le modèle de Cox fournit des estimations du risque relatif (sur une échelle multiplicative), tandis que les modèles de risque additif fournissent des estimations approximatives du risque attribuable (c.-à-d. la différence absolue dans le taux d’événements par unité de variation de la variable d’exposition) dans l’hypothèse d’événements rares., Le risque attribuable peut être utilisé pour déterminer l’augmentation absolue du nombre de cas, qui est, le nombre de cas supplémentaires d’infection par le VPH qui s’est produite en raison de l’exposition d’intérêt. Les risques relatifs estimés par les modèles de Cox peuvent être particulièrement utiles pour comprendre l’ampleur de l’association, ce qui peut être important scientifiquement; c’est-à-dire que lorsque le risque de base de la maladie est faible, le nombre absolu de cas supplémentaires liés à l’exposition peut être faible, mais le risque relatif peut toujours être fort., Cependant, le risque absolu peut être particulièrement utile pour la planification et l’intervention en santé publique, lorsque le nombre réel de cas supplémentaires d’une maladie est intéressant.

Nous avons considéré un modèle de danger additif semi-paramétrique et un modèle de danger additif non paramétrique. Comparé au modèle de régression du risque additif semi-paramétrique, le modèle du risque additif non paramétrique permet aux effets covariables de varier dans le temps de manière non paramétrique et fournit ainsi une estimation plus robuste de la fonction du risque cumulatif que le modèle du risque additif semi-paramétrique., Cependant, les modèles non paramétriques utilisent également des degrés de liberté statistiques plus élevés. Par conséquent, si les estimations effectives des covariables moyennes sont de premier intérêt, le modèle de danger additif semi-paramétrique pourrait être utilisé, mais si l’on veut examiner si certains effets covariables varient dans le temps ou si la fonction de danger cumulatif (ou le taux d’incidence cumulatif) est de premier intérêt, le modèle de danger additif non paramétrique peut être préféré.

nous notons que le modèle proposé par Lin et Ying a été étendu pour inclure à la fois des effets de covariables additives et multiplicatives ., Ce modèle peut être nécessaire, par exemple, lorsque certaines covariables dans un modèle de risques proportionnels de Cox satisfont à l’hypothèse de risques proportionnels et que d’autres ne le font pas. Cependant, l’interprétation de ce modèle n’est pas aussi simple que le modèle de Cox ou les modèles additifs.

En résumé, bien que le fondement théorique des modèles de risque additif soit bien établi et que des codes informatiques soient disponibles pour adapter ces modèles, ils ont été moins souvent utilisés que d’autres méthodes d’analyse du temps à l’événement., Cela peut refléter en partie une certaine méconnaissance de ces modèles dans le milieu de la recherche en général. Des efforts continus de sensibilisation à ces méthodes statistiques sont nécessaires et devraient être envisagés par les biostatisticiens et les épidémiologistes impliqués dans l’enseignement de la prochaine génération de chercheurs.

Remerciements

Ce travail a été partiellement soutenu par les subventions NCI 5R01CA085178, 1R21CA139388 et une subvention de la Lupus Foundation of America., Les données contenues dans cet article ont été recueillies par le Women’s Interagency HIV Study (Wihs); Collaborative Study Group with centers (chercheurs principaux) du New York City/Bronx Consortium (Kathryn Anastos); Brooklyn, NY (Howard Minkoff); Washington DC Metropolitan Consortium (Mary Young); The Connie Wofsy Study Consortium of Northern California (Ruth Greenblatt); Los Angeles County/Southern California Consortium (Alexandra Levine); Chicago Consortium (Mardge Cohen); Data Coordinating Center (Stephen Gange)., Le WIHS est financé par L’Institut national des allergies et des maladies infectieuses (UO1-AI-35004, UO1-AI-31834, UO1-AI-34994, UO1-AI-34989, UO1-AI-34993 et UO1-AI-42590) et par L’Institut National Eunice Kennedy Shriver de la santé infantile et du développement humain (UO1-HD-32632). L’étude est cofinancée par le National Cancer Institute, le National Institute on Drug Abuse et le National Institute on Surafness and Other Communication Disorders. Le financement est également fourni par le Centre national des ressources de recherche (UCSF-CTSI Grant no. UL1 RR024131)., Le contenu de cette publication relève de la seule responsabilité des auteurs et ne représente pas nécessairement les opinions officielles des National Institutes of Health. Un soutien supplémentaire a été fourni par le centre Einstein-Montefiore pour la recherche sur le SIDA (P30-AI-51519), L’Institut de recherche clinique et translationnelle (UL1RR025750) et le Albert Einstein Cancer Center.

Avenir

Condominium

Additive Hazard Regression Models: an Application to the Natural History of Human Papillomavirus (Français)