Informations

Calcul de la signification statistique du changement de comportement

Calcul de la signification statistique du changement de comportement

J'ai mené une étude sur un groupe de 158 personnes pour voir si une intervention pédagogique peut changer leur perception des scientifiques.

Avant l'intervention, tous les enfants de l'étude ont été invités à choisir 6 mots pour décrire un scientifique. Cette collecte de données a été répétée à la fin d'une intervention de 5 semaines, puis à nouveau 3 mois après la fin de l'intervention.

J'ai commencé à traiter les données et j'ai classé tous les mots que les enfants ont utilisés. Quand je regarde les données de la cohorte, je peux voir qu'il y a eu un changement dans les types de mots utilisés pour décrire les scientifiques (les enfants d'avant 128 utilisaient un mot stéréotypé, après cela est tombé à 67 et 64 lors du suivi).

Quels tests statistiques dois-je utiliser pour démontrer l'importance de ces changements ? Toutes les données sont tracées donc j'ai des données individuelles sur le changement d'utilisation de la langue pour chaque participant, j'ai aussi des données pour le groupe.


Cette réponse devrait fournir une discussion raisonnable sur la façon de comparer les deux résultats pour la signification statistique.

Nous avons n1 = n2 = n3 = 158. Nous avons p1 = 128/158, p2 = 67/158 et p3 = 64/168. Exécutez simplement le test d'hypothèse sur chaque paire pour voir s'il y a un changement significatif.

Cependant, il y a un problème plus important ici. Vous devriez avoir répondu à cette question avant de commencer à collecter des données. La première chose que vous devriez faire est de proposer votre théorie à tester. Ensuite, vous concevez votre expérience. Et ce n'est qu'alors que vous devriez collecter les données, à moins que votre objectif ne soit simplement de collecter de grandes quantités de données pour de futurs tests théoriques, ce qui ne semble pas être le cas ici (Meilleures pratiques de recherche).


Amélioration après traitement comportemental de l'insomnie : signification clinique, maintien à long terme et prédicteurs de résultat †

Les données de sept études de résultats (m=216) de divers traitements comportementaux brefs pour l'insomnie chronique ont été réanalysés pour déterminer les taux individuels d'amélioration statistiquement et cliniquement significative. Les résultats ont également été évalués pour le maintien à long terme des gains de traitement et pour les prédicteurs de résultats favorables. Dans l'ensemble, 39 % des participants ont montré une amélioration statistiquement significative après 4 semaines de traitement, 47 % lors du suivi à court terme (1 à 3 mois après le traitement) et 49 % après un an de suivi. Les taux de détérioration étaient faibles : moins de 1 % à chacune des mêmes périodes. Environ 23 % des insomniaques ont montré une amélioration cliniquement significative, c'est-à-dire qu'ils sont devenus de bons dormeurs à la fin du traitement, 33 % ont atteint ce statut lors d'un suivi à court terme, un chiffre qui s'est maintenu à 1 an. Les individus plus jeunes avec un âge initial d'apparition plus tardif et une durée actuelle plus longue, qui ont montré moins de psychopathologie et ont reçu un traitement de contrôle du stimulus ont eu un avantage de traitement initial qui a disparu au cours de la période de suivi à court terme.

Le soutien à cette étude a été fourni par BRSG SO7 RR07054-20 décerné par le programme de subventions de soutien à la recherche biomédicale, Division des ressources de recherche, National Institutes of Health.

Kimberly Powlishta est maintenant au Département de psychologie de l'Université de Stanford.


Table des matières

Dans la recherche quantitative, les données sont analysées au moyen de tests de signification d'hypothèse nulle ou de tests d'hypothèse. Il s'agit d'une procédure formelle pour évaluer si une relation entre des variables ou une différence entre des groupes est statistiquement significative.

Hypothèses nulles et alternatives

Pour commencer, les prédictions de la recherche sont reformulées en deux hypothèses principales :

  • UNE hypothèse nulle (H0) ne prédit toujours aucun effet réel, aucune relation entre les variables ou aucune différence entre les groupes.
  • Un hypothèse alternative (Hune ou H1) indique votre prédiction principale d'un effet réel, d'une relation entre les variables ou d'une différence entre les groupes.

Le test d'hypothèse commence toujours par l'hypothèse que l'hypothèse nulle est vraie. En utilisant cette procédure, vous pouvez évaluer la probabilité (probabilité) d'obtenir vos résultats sous cette hypothèse. En fonction du résultat du test, vous pouvez rejeter ou conserver l'hypothèse nulle.

Signification clinique est pertinent pour les études d'intervention et de traitement. Un traitement est considéré comme cliniquement significatif lorsqu'il améliore de manière tangible ou substantielle la vie des patients.


MODÈLE À UN SEUL MÉDIATEUR

Équations de régression de médiation

Les études expérimentales en psychologie impliquent rarement à la fois la manipulation du médiateur et la mesure des variables médiatrices. Si une étude de recherche comprend des mesures d'une variable médiatrice ainsi que la variable indépendante et dépendante, la médiation peut être étudiée statistiquement (Fiske et al. 1982). De cette façon, l'analyse de médiation est une méthode pour augmenter les informations obtenues à partir d'une étude de recherche lorsque des mesures du processus de médiation sont disponibles.

Il existe trois grandes approches de l'analyse statistique de la médiation : (une) étapes causales, (b) différence de coefficients, et (c) produit de coefficients (MacKinnon 2000). Toutes ces méthodes utilisent les informations des trois équations de régression suivantes :

je1 et je2 et je3 sont des interceptions, Y est la variable dépendante, X est la variable indépendante, M est le médiateur, c est le coefficient reliant la variable indépendante et la variable dépendante, c′ est le coefficient liant la variable indépendante à la variable dépendante ajusté pour le médiateur, b est le coefficient liant le médiateur à la variable dépendante ajusté de la variable indépendante, une est le coefficient reliant la variable indépendante au médiateur, et e1, e2, et e3 sont des résidus. Les équations 2 et 3 sont représentées sur la figure 1 . Notez que les équations de médiation peuvent être modifiées pour incorporer des effets linéaires et non linéaires et l'interaction de X et M dans l'équation 2, comme décrit plus loin dans cette revue.

La méthode la plus largement utilisée pour évaluer la médiation est l'approche des étapes causales décrite dans les travaux classiques de Baron & Kenny (1986 également Kenny et al. 1998) et Judd & Kenny (1981a, 1981b). Quatre étapes sont impliquées dans l'approche de Baron et Kenny pour établir la médiation. Premièrement, une relation significative de la variable indépendante à la variable dépendante est requise dans l'équation 1. Deuxièmement, une relation significative de la variable indépendante à la variable médiatrice hypothétique est requise dans l'équation 3. Troisièmement, la variable médiatrice doit être significativement liée à la variable dépendante lorsque la variable indépendante et la variable médiatrice sont des prédicteurs de la variable dépendante dans l'équation 2. Quatrièmement, le coefficient reliant la variable indépendante à la variable dépendante doit être plus grand (en valeur absolue) que le coefficient reliant la variable indépendante à la variable dépendante variable dans le modèle de régression avec à la fois la variable indépendante et la variable médiatrice prédisant la variable dépendante. Cette approche par étapes causales pour évaluer la médiation a été la méthode la plus largement utilisée pour évaluer la médiation. Comme nous le verrons ci-dessous, cette approche présente plusieurs limites.

L'effet médiatisé dans le modèle à médiateur unique (voir Figure 1 ) peut être calculé de deux manières, soit â b ̂ ou ĉĉ′ (MacKinnon & Dwyer 1993). La valeur de l'effet médiatisé ou indirect estimée en faisant la différence des coefficients, ĉĉ′, des équations 1 et 2 correspond à la réduction de l'effet de la variable indépendante sur la variable dépendante lorsqu'elle est ajustée pour le médiateur. Pour tester la signification, la différence est ensuite divisée par l'erreur standard de la différence et le rapport est comparé à une distribution normale standard.

La méthode du produit de coefficients consiste à estimer les équations 2 et 3 et à calculer le produit de â et b ̂ , â b ̂ , pour former l'effet médiatisé ou indirect (Alwin & Hauser 1975). Le raisonnement derrière cette méthode est que la médiation dépend de la mesure dans laquelle le programme change le médiateur, une, et la mesure dans laquelle le médiateur affecte la variable de résultat, b. Pour tester la signification, le produit est ensuite divisé par l'erreur standard du produit et le rapport est comparé à une distribution normale standard.

L'équivalence algébrique du â b ̂ et ĉĉ′ mesures de médiation a été montré par MacKinnon et al. (1995) pour la théorie normale des moindres carrés ordinaires et l'estimation du maximum de vraisemblance des trois équations de régression de médiation. Pour les modèles à plusieurs niveaux (Krull & MacKinnon 1999), la régression logistique ou probit (MacKinnon & Dwyer 1993) et l'analyse de survie (Tein & MacKinnon 2003), le â b ̂ et ĉĉLes estimateurs ′ de l'effet médiatisé ne sont pas toujours équivalents, et une transformation est nécessaire pour que les deux donnent des résultats similaires (MacKinnon & Dwyer 1993).

Tracer les équations de médiation

Les quantités dans les équations 1𠄳 peuvent également être présentées géométriquement, comme le montre la figure 2 (MacKinnon 2007 R. Merrill, thèse non publiée). Les données artificielles sont tracées sur la figure 2, où la variable indépendante, X, est dichotomique (pour simplifier le tracé), le médiateur, M, est sur l'axe horizontal et la variable dépendante, Y, est sur l'axe vertical. Les deux lignes obliques du graphique représentent la relation de M à Y dans chaque groupe X, une ligne pour le groupe témoin et une ligne pour le groupe de traitement. Les deux droites sont parallèles (notez que s'il y avait une interaction XM dans l'équation 2, alors les pentes ne seraient pas parallèles), la pente de chaque droite étant égale à la b coefficient ( b ̂ = 0.91, s e b ̂ = 0,18). La distance entre les lignes horizontales dans les tracés est égale à l'effet global de X sur Y, c (ĉ = 1.07, s eĉ = 0,27), et la distance entre les lignes verticales est égale à l'effet de X sur M, une (â = 0.87, s eâ = 0,23). L'effet médiatisé est la variation de la droite de régression reliant M à Y pour une variation de M de une unités comme indiqué dans le graphique. L'effet indirect, â b ̂ , est égal à ĉĉ′ (ĉ′ = 0,23, s eĉ = 0,24). Les graphiques de l'effet médiatisé peuvent être utiles pour étudier les distributions de données pour les valeurs aberrantes et pour améliorer la compréhension des relations entre les variables dans le modèle de médiation.

Tracé de l'effet médiatisé. Pour simplifier la figure, aucun chapeau n'est inclus au-dessus des estimations de coefficient.

Erreur standard de l'effet médiatisé

Sobel (1982, 1986) a dérivé l'erreur type asymptotique de l'effet indirect en utilisant la méthode delta multivariée (Bishop et al. 1975) dans l'équation 4. Il s'agit de la formule la plus couramment utilisée pour l'erreur type de l'effet médiatisé.

Des études de simulation indiquent que l'estimateur de l'erreur type dans l'équation 4 présente un faible biais pour des tailles d'échantillon d'au moins 50 dans les modèles à médiateur unique (MacKinnon et al. 1995, 2002a). Dans les modèles avec plus d'un médiateur, l'erreur standard est précise pour des tailles d'échantillon minimales de 100 02013200 (Stone & Sobel 1990). Des résultats similaires ont été obtenus pour les erreurs standard des valeurs de chemin négatives et positives, et des modèles plus grands avec de multiples variables médiatrices, indépendantes et dépendantes (MacKinnon et al. 2002a, 2004 J. Williams, thèse non publiée).

Limites de confiance pour l'effet médiatisé

L'erreur type de â b ̂ peut être utilisé pour tester sa signification statistique et pour construire des limites de confiance pour l'effet médiatisé comme le montre l'équation 5 :

Les limites de confiance basées sur la distribution normale de l'effet médiatisé sont souvent inexactes, comme le montrent les études de simulation (MacKinnon et al. 1995, 2002a Stone & Sobel 1990) et l'analyse bootstrap de l'effet médiatisé (Bollen & Stine 1990, Lockwood & MacKinnon 1998). Ces intervalles de confiance d'effet médiatisé ont tendance à se situer à gauche de la vraie valeur de l'effet médiatisé pour les effets médiatisés positifs et à droite pour les effets médiatisés négatifs (Bollen & Stine 1990, MacKinnon et al. 1995, Stone & Sobel 1990). Les limites de confiance asymétriques basées sur la distribution du produit et l'estimation bootstrap ont une meilleure couverture que ces tests (MacKinnon et al. 2004).

Test de signification

Une étude de simulation de 14 méthodes pour évaluer l'effet médiatisé a révélé que le pouvoir de détecter les effets médiatisés à l'aide des méthodes d'étape causale les plus largement utilisées était très faible, tout comme les taux d'erreur de type I (MacKinnon et al. 2002a, 2004). Une faible puissance a également été observée pour les tests basés sur la distribution normale pour les estimateurs d'effets médiés (c. â b ̂ et ĉĉ′) divisés par leurs erreurs types respectives (Hoyle & Kenny 1999). Un test conjoint de l'importance de â et b ̂ était un bon compromis entre les erreurs de type I et de type II.

Il existe plusieurs explications à la faible puissance de la plupart des tests de médiation. Tout d'abord, l'exigence qu'il y ait une relation X à Y significative dans le test des étapes causales de Baron et Kenny réduit considérablement le pouvoir de détecter la médiation, en particulier dans le cas d'une médiation complète (c'est-à-dire que l'effet direct est nul). Il existe de nombreux cas où une médiation significative existe mais l'exigence d'une relation significative de X à Y n'est pas obtenue. Une étude récente utilisant des approches empiriques pour déterminer la taille d'échantillon requise pour une puissance de 0,8 pour détecter un effet médiatisé avec de petites valeurs de taille d'effet de la une et b chemin requis environ 21 000 sujets pour le test des étapes causales (Fritz & MacKinnon 2007). Au fur et à mesure que l'ampleur de l'effet direct augmente, la puissance de détection de la médiation à l'aide de l'approche des étapes causales se rapproche de la puissance de détection de la médiation en testant si les deux une et le b les chemins sont statistiquement significatifs. Il est important de noter que la relation globale de X et Y représente des informations importantes pour une étude de recherche, et dans certaines études, il peut être utile d'exiger une relation globale de X à Y. Le fait est que le fait d'exiger une relation X à Y réduit considérablement la puissance de détection des effets de médiation réels. Une explication de la faible puissance des tests de médiation basés sur la division d'un estimateur, soit â b ̂ ou ĉĉ′, de l'effet médiatisé par son erreur standard correspondante est que le rapport résultant ne suit pas toujours une distribution normale (MacKinnon et al. 2004). Méthodes de rééchantillonnage et méthodes basées sur la distribution du produit de un B résoudre ces problèmes d'échantillonnage et sont décrits ci-dessous.

Distribution du produit

Le produit de deux variables aléatoires normalement distribuées n'est normalement distribué que dans des cas particuliers (Springer 1979), ce qui explique l'imprécision des méthodes d'évaluation de la signification statistique de la médiation basée sur la distribution normale. Par exemple, pour deux variables aléatoires normales standard avec une moyenne de zéro, l'aplatissement en excès est égal à six (Meeker et al. 1981) par rapport à un aplatissement en excès de zéro pour une distribution normale. MacKinnon et al. (2002a MacKinnon et al. (2004a) ont montré qu'en comparaison avec les méthodes couramment utilisées, les tests de signification pour l'effet médiatisé basés sur la distribution du produit avaient des taux d'erreur de type I et une puissance statistique plus précis. Un nouveau programme, PRODCLIN (MacKinnon et al. 2006a, téléchargement du programme disponible sur http://www.public.asu.edu/

davidpm/ripl/Prodclin/), peut maintenant être utilisé pour trouver des valeurs critiques de la distribution du produit et pour calculer des limites de confiance pour l'effet médiatisé.

Analyse intensive en informatique

Les méthodes informatiques utilisent les données observées pour générer une distribution de référence, qui est ensuite utilisée pour l'estimation de l'intervalle de confiance et les tests de signification (Manly 1997, Mooney & Duval 1993, Noreen 1989). Des programmes pour calculer les limites de confiance de l'effet médiatisé pour les méthodes bootstrap sont décrits dans Preacher & Hayes (2004) et Lockwood & MacKinnon (1998) l'AMOS (Arbuckle 1997), EQS (Bentler 1997), LIS-REL (J& Les programmes #x000f6reskog & Sörbom 1993) et Mplus (Muthén & Muthén 1998�) effectuent également un rééchantillonnage bootstrap pour l'effet médiatisé.

Les méthodes informatisées, également appelées méthodes de rééchantillonnage, pour la médiation sont importantes pour au moins deux raisons (Bollen & Stine 1990, MacKinnon et al. 2004, Shrout & Bolger 2002). Premièrement, ces méthodes fournissent un moyen général de tester la signification et de construire des intervalles de confiance dans une grande variété de situations où les formules analytiques pour les quantités peuvent ne pas être disponibles. Deuxièmement, les méthodes ne nécessitent pas autant d'hypothèses que les autres tests, ce qui les rend probablement plus précises que l'analyse de médiation traditionnelle.

Hypothèses du modèle à médiateur unique

Il existe plusieurs hypothèses importantes pour les tests de médiation. Pour le â b ̂ estimateur de l'effet médiatisé, le modèle suppose que les résidus dans les équations 2 et 3 sont indépendants et que M et le résidu dans l'équation 2 sont indépendants (McDonald 1997 R. Merrill, thèse non publiée). On suppose également qu'il n'y a pas d'interaction XM dans l'équation 3, bien que cela puisse et doive être testé de façon routinière.Les hypothèses d'un modèle correctement spécifié n'incluent aucune erreur de spécification de l'ordre causal (par exemple, Y → M → X plutôt que X → M → Y), aucune erreur de spécification de la direction causale (par exemple, il existe une causalité réciproque entre le médiateur et la variable dépendante), aucune erreur de spécification due à des variables non mesurées qui causent des variables dans l'analyse de médiation, et aucune erreur de spécification due à une mesure imparfaite (Holland 1988, James & Brett 1984, McDonald 1997). Ces hypothèses peuvent être difficiles à tester et peuvent être invérifiables dans la plupart des situations, de sorte que la preuve d'une relation de médiation est impossible. Une approche plus réaliste consiste à incorporer des informations supplémentaires provenant de recherches antérieures, y compris des études expérimentales randomisées, une théorie et des méthodes qualitatives pour étayer la conclusion provisoire selon laquelle une relation de médiation existe.

Médiation complète ou partielle

Les chercheurs testent souvent s'il y a médiation complète ou partielle en testant si le cLe coefficient ′ est statistiquement significatif, ce qui est un test pour savoir si l'association entre la variable indépendante et dépendante est complètement prise en compte par le médiateur (voir James et al. 2006). Si la cLe coefficient ′ est statistiquement significatif et il y a une médiation significative, alors il y a des preuves d'une médiation partielle. Parce que les comportements psychologiques ont une variété de causes, il est souvent irréaliste de s'attendre à ce qu'un seul médiateur soit complètement expliqué par une relation variable indépendante à variable dépendante (Judd & # x00026 Kenny 1981a).

Modèles cohérents et incohérents

Les modèles de médiation incohérents sont des modèles où au moins un effet médiatisé a un signe différent des autres effets médiatisés ou directs dans un modèle (Blalock 1969, Davis 1985, MacKinnon et al. 2000). Bien que la connaissance de la signification de la relation de X à Y soit importante pour l'interprétation des résultats, il existe plusieurs exemples dans lesquels une relation globale de X à Y peut être non significative, mais une médiation existe. Par exemple, McFatter (1979) a décrit l'exemple hypothétique de travailleurs fabriquant des widgets, où X est l'intelligence, M est l'ennui et Y est la production de widgets. Les travailleurs intelligents ont tendance à s'ennuyer et à produire moins, mais les travailleurs plus intelligents ont également tendance à créer plus de widgets. Par conséquent, la relation globale entre l'intelligence et les widgets produits peut en fait être nulle, pourtant il existe deux processus de médiation opposés. Un certain nombre d'autres ressources fournissent des exemples de ces effets incohérents (Paulhus et al. 2004, Sheets & Braver 1999). La médiation incohérente est plus courante dans les modèles à médiateurs multiples où les effets de la médiation ont des signes différents. Des effets médiateurs incohérents peuvent être particulièrement critiques dans l'évaluation des effets contre-productifs des expériences, où la manipulation peut avoir conduit à des effets médiateurs opposés.

Mesures de la taille de l'effet de la médiation

La corrélation brute pour le une chemin et la corrélation partielle pour le b path sont des mesures de la taille de l'effet pour les modèles de médiation. Les coefficients de régression standardisés peuvent également servir de mesures de la taille de l'effet pour les chemins individuels de l'effet médiatisé. Il existe d'autres mesures de l'ampleur de l'effet de l'ensemble de l'effet médiatisé plutôt que des chemins individuels. La proportion médiée, 1 − ( c ^ ′ c ^ ) = a ^ b ^ ( a ^ b ^ + c ^ ′ ) , est souvent utilisée, mais les valeurs de la proportion médiée sont souvent très petites et se concentrer sur une proportion globale de médiation peut négliger des mécanismes de médiation supplémentaires (Fleming & DeMets 1996). La proportion médiée est également instable à moins que la taille de l'échantillon soit d'au moins 500 (Freedman 2001, MacKinnon et al. 1995). Alwin & Hauser (1975) suggère de prendre les valeurs absolues des effets directs et indirects avant de calculer la proportion médiatisée pour les modèles incohérents. Des travaux supplémentaires sont nécessaires sur les mesures de la taille de l'effet pour la médiation.


Qu'est-ce qui peut mal tourner dans les expériences de génie logiciel ?

Ne vous fiez pas uniquement à la signification statistique

Toutes les expériences rapportent une signification statistique. Cependant, la signification statistique est la probabilité d'observer un effet étant donné que l'hypothèse nulle est vraie. En d'autres termes, il mesure si l'effet observé est réellement causé par les caractéristiques de la population ou est simplement le résultat d'une erreur d'échantillonnage. Mais cela ne donne aucune indication sur l'importance de la différence entre les traitements. Pour des échantillons de taille relativement importante, même de très petites différences peuvent être statistiquement significatives. Sur ce terrain, nous avons besoin d'une mesure d'importance pratique. La question est de savoir si les différences entre les traitements sont suffisamment importantes pour être vraiment significatives. Ceci est généralement évalué à l'aide d'une mesure de la taille de l'effet. Il existe un large éventail de plus de 70 mesures de la taille de l'effet, capables de rapporter différents types d'effets.


Mise à jour : qu'est-ce que la signification statistique ?

Que signifie le fait que les résultats de la recherche soient « statistiquement significatifs ? "

En termes simples, la signification statistique est un moyen pour les chercheurs de quantifier la probabilité que leurs résultats soient dus au hasard. Les résultats statistiquement significatifs sont ceux dans lesquels le chercheur a confiance que les résultats sont réels et fiables, car les chances d'obtenir les résultats par hasard sont faibles.

Les tests de signification statistique impliquent plusieurs concepts abstraits. Nous essayons donc de rendre les choses concrètes avec un exemple de la façon dont vous pourriez effectuer un test de signification statistique.


Qu'est-ce que la taille de l'effet ?

Une mesure de la taille de l'effet est un indicateur de l'association qui existe entre deux ou plusieurs variables. Une exception à cela est celle de Cohen qui est une mesure de la distance entre les moyens. Ces définitions se traduisent par la quantité de variance dans une variable qui est expliquée par la connaissance d'une autre variable. Comme l'ont noté certains (par exemple, Cohen, 1968 Kerlinger & Pedhazur, 1973), l'intérêt accru pour les mesures de la taille de l'effet chez les psychologues est associé à leur prise de conscience accrue de la similitude entre l'ANOVA et la régression (Haase, Waechter, & Solomon, 1982) . Par conséquent, le fait de se rendre compte que l'évaluation des différences de groupe n'est qu'une façon d'employer des techniques corrélationnelles de base peut avoir suscité un intérêt pour les indicateurs de taille d'effet.

Déterminer ce qui constitue un « grand effet » est troublant pour les travaux en sciences sociales. Comme l'ont noté Haase et al. (1982), répondre à la question « comment est-il grand ? » n'est pas aussi difficile en sciences naturelles qu'en sciences psychologiques :

Alors, qu'est-ce qui constitue un “grand” effet dans une expérience psychologique moyenne ? Cohen (1977), sans aucun doute l'un des plus ardents défenseurs de la publication de statistiques sur la taille de l'effet, a publié des lignes directrices sur ce qui constitue des tailles d'effet petites, moyennes et grandes. Selon Cohen, pour , 0,20, 0,50 et 0,80 constituent respectivement des effets petits, moyens et grands.


Calcul de la signification statistique

Les mathématiciens peuvent calculer la signification statistique assez facilement, mais la plupart des spécialistes du marketing ne font pas partie du secteur en raison de leurs compétences en mathématiques. Malgré cela, ils peuvent toujours utiliser la signification statistique dans leur marketing avec un calculateur de signification statistique.

Un calculateur de signification statistique fournit aux spécialistes du marketing un moyen de savoir si les modifications apportées aux campagnes ont réussi, afin qu'ils puissent maximiser les conversions. En saisissant simplement les variables dans la calculatrice, les spécialistes du marketing peuvent calculer la signification statistique de la taille de leur échantillon et de la taille de l'effet pour prouver leur hypothèse avec un pourcentage statistiquement significatif pour montrer que les changements ont fait la différence par rapport aux résultats obtenus par hasard.


Force de la preuve de P valeurs

En testant une hypothèse nulle H 0 contre une hypothèse alternative H 1 basé sur des données X obs, les P valeur est définie comme la probabilité, calculée sous l'hypothèse nulle, qu'une statistique de test soit aussi extrême ou plus extrême que sa valeur observée. L'hypothèse nulle est généralement rejetée — et le résultat est déclaré statistiquement significatif — si la P la valeur tombe en dessous du seuil d'erreur (actuel) de type I ?? = 0.05.

D'un point de vue bayésien, une mesure plus directe de la force de la preuve pour H 1 relatif à H 0 est le rapport de leurs probabilités. D'après la règle de Bayes, ce rapport peut s'écrire :

où BF est le facteur de Bayes qui représente les preuves des données, et les probabilités antérieures peuvent être informées par les croyances des chercheurs, le consensus scientifique et les preuves validées de questions de recherche similaires dans le même domaine. Test d'hypothèses multiples, P-le piratage et les biais de publication réduisent tous la crédibilité des preuves. Certaines de ces pratiques réduisent les probabilités antérieures de H 1 relatif à H 0 en changeant la population des tests d'hypothèses qui sont rapportés. Les marchés de prédiction 3 et les analyses des résultats de réplication 4 suggèrent tous deux que pour les expériences de psychologie, les probabilités antérieures de H 1 relatif à H 0 peut être seulement d'environ 1:10. Un nombre similaire a été suggéré dans les essais cliniques sur le cancer, et le nombre est susceptible d'être beaucoup plus faible dans la recherche biomédicale préclinique 5 .

Il n'y a pas de mappage unique entre les P valeur et le facteur de Bayes, puisque le facteur de Bayes dépend de H 1. Cependant, le lien entre les deux quantités peut être évalué pour des statistiques de test particulières sous certaines classes d'alternatives plausibles (Fig. 1).

Le facteur de Bayes (BF) est défini comme (frac<>_<< m>>gauche|_<1>droit.droit)><>_<< m>>gauche|_<0> ight. ight)>) . La figure suppose que les observations sont indépendantes et identiquement distribuées (i.i.d.) selon X

N(??,?? 2 ), où la moyenne ?? est inconnue et la variance ?? 2 est connu. Les P la valeur est d'un côté z-test (ou de manière équivalente un (_<1>^<2>) -test unilatéral) de l'hypothèse nulle H 0: ?? = 0. Puissance (courbe rouge) : BF obtenu en définissant H 1 en mettant ½ probabilité sur ?? = ±m pour la valeur de m qui donne 75% de puissance pour le test de taille ?? = 0,05. Cette H 1 représente une taille d'effet typique de celle qui est implicitement supposée par les chercheurs lors de la conception expérimentale. Borne du rapport de vraisemblance (courbe noire) : BF obtenu en définissant H 1 en mettant ½ probabilité sur ?? = ± ( chapeau) , où (hat) est approximativement égal à la moyenne des observations. Ces BF sont des limites supérieures parmi la classe de tous H 1 termes qui sont symétriques autour du nul, mais ils sont impropres car les données sont utilisées pour définir H 1. UMPBT (courbe bleue) : BF obtenu en définissant H 1 selon le test bayésien uniformément le plus puissant 2 qui place une ½ probabilité sur ?? = ±w, où w est l'hypothèse alternative qui correspond à un test unilatéral de taille 0,0025. Cette courbe est indiscernable de la courbe « Puissance » qui serait obtenue si la puissance utilisée dans sa définition était de 80 % au lieu de 75 %. Local-H 1 borne (courbe verte) : (< m>=frac<1><-epphantom< ule<0em><0ex>>lnphantom< ule<0em><0ex>>p>) , où p est le P valeur, est une borne supérieure pour grand échantillon sur le BF parmi toutes les hypothèses alternatives unimodales qui ont un mode nul et satisfont à certaines conditions de régularité 15 . Les chiffres rouges sur le oui l'axe indique la plage des facteurs de Bayes qui sont obtenus pour P valeurs de 0,005 ou 0,05. Pour plus de détails, consultez les informations supplémentaires.

Un recto-verso P la valeur de 0,05 correspond aux facteurs de Bayes en faveur de H 1 qui vont d'environ 2,5 à 3,4 sous des hypothèses raisonnables sur H 1 (Fig. 1). Il s'agit d'une preuve faible d'au moins trois points de vue. Premièrement, les catégorisations conventionnelles des facteurs de Bayes 6 caractérisent cette plage comme « faible » ou « très faible ». Deuxièmement, nous soupçonnons que de nombreux scientifiques devineraient que P ≈ 0,05 implique un soutien plus fort pour H 1 qu'un facteur de Bayes de 2,5 à 3,4. Troisièmement, en utilisant l'équation (1) et les cotes précédentes de 1:10, un P une valeur de 0,05 correspond à au moins 3:1 de cotes (c'est-à-dire l'inverse du produit (frac<1><10> imes 3,4) ) en faveur de l'hypothèse nulle !


Les références

Jakobsen JC, Gluud C : La nécessité d'essais cliniques randomisés. Br J Med Rés. 2013, 3 (4) : 1453-1468.

Johnson VE : Normes révisées pour les preuves statistiques. Proc Natl Acad Sci USA. 2013, 110 (48) : 19313-19317. 10.1073/pnas.1313476110.

Fisher R : Méthodes statistiques et induction scientifique. JR Stat Soc Ser B. 1955, 17 (1) : 69-78.

Gigerenzer G : Statistiques stupides. J Socio Econ. 2004, 33 (5) : 587-606. 10.1016/j.socic.2004.09.033.

Hald A : Une histoire des statistiques mathématiques de 1750 à 1930. 1998, New York : John Wiley & Sons

Goodman S : Une sale douzaine : douze idées fausses sur la valeur p. Semin Hématol. 2008, 45 : 135-140. 10.1053/j.seminhematol.2008.04.003.

Oliveri RS, Gluud C, Wille-Jørgensen PA : Compétences auto-évaluées des médecins hospitaliers en matière de médecine factuelle et d'utilisation - une enquête par questionnaire. J Eval Clin Pract. 2004, 10 (2) : 219-226. 10.1111/j.1365-2753.2003.00477.x.

Bassler D, Briel M, Montori VM, Lane M, Glasziou P, Zhou Q, Heels-Ansdell D, Walter SD, Guyatt GH, Flynn DN, Elamin MB, Murad MH, Abu Elnour NO, Lampropulos JF, Sood A, Mullan RJ , Erwin PJ, Bankhead CR, Perera R, Ruiz Culebro C, You JJ, Mulla SM, Kaur J, Nerenberg KA, Schunemann H, Cook DJ, Lutz K, Ribic CM, Vale N, Malaga G, Akl EA, et al : Arrêt précoce des essais randomisés pour le bénéfice et l'estimation des effets du traitement : revue systématique et analyse de méta-régression. JAMA. 2010, 303 : 1180-1187. 10.1001/jama.2010.310.

Thorlund K, Devereaux PJ, Wetterslev J, Guyatt G, Ioannidis JP, Thabane L, Gluud LL, Als-Nielsen B, Gluud C : Les limites de suivi séquentiel des essais peuvent-elles réduire les inférences erronées des méta-analyses ?. Int J Epidémiol. 2009, 38 (1) : 276-286. 10.1093/ije/dyn179.

Ioannidis JP : Pourquoi la plupart des résultats de recherche publiés sont faux. PLoS Med. 2005, 2 (8) : e124-10.1371/journal.pmed.0020124.

Garattini S, Bertele V : Les essais de non-infériorité sont contraires à l'éthique car ils ne tiennent pas compte des intérêts des patients. Lancette. 2007, 370 (9602) : 1875-1877. 10.1016/S0140-6736(07)61604-3.

Sterne JA : Enseigner les tests d'hypothèses – le temps d'un changement significatif ?. Stat Med. 2002, 21 : 985-999. 10.1002/sim.1129.

Ranstam J : Pourquoi la culture de la valeur P est mauvaise et les intervalles de confiance une meilleure alternative. Cartilage arthrosique. 2012, 20 : 805-808. 10.1016/j.joca.2012.04.001.

Williamson PR, Altman DG, Blazeby JM, Clarke M, Gargon E : L'initiative COMET (Mesures des résultats de base dans les essais d'efficacité). Essais. 2011, 12 (Suppl 1) : A70-10.1186/1745-6215-12-S1-A70.

Altman DG, Bland JM : Comment obtenir l'intervalle de confiance à partir d'une valeur P. BMJ. 2011, 343 : d2090-10.1136/bmj.d2090.

Chow S-C, Shao J, Wang H: Calculs de la taille de l'échantillon en recherche clinique, deuxième édition. 2008, Boca Raton, Floride : Chapman et Hall/CRC

Schulz KF, Altman DG, Moher D : Déclaration CONSORT 2010 : directives mises à jour pour la notification des essais randomisés en groupes parallèles. Ann Int Med. 2010, 152 (11) : 726-732. 10.7326/0003-4819-152-11-201006010-00232.

Échelles DC, Rubenfeld GD : Estimation de la taille de l'échantillon dans les essais cliniques en soins intensifs. J Soins critiques. 2005, 20 (1) : 6-11. 10.1016/j.jcrc.2005.02.002.

Myles DJS, Keith RA, Jonathan P : Approches bayésiennes des essais cliniques et de l'évaluation des soins de santé (Statistiques en pratique). 2004, West Sussex, Angleterre : John Wiley & Sons

Roloff V, Higgins JP, Sutton AJ : Planification d'études futures basées sur la puissance conditionnelle d'une méta-analyse. Stat Med. 2013, 32 (1) : 11-24. 10.1002/sim.5524.

Goodman SN : Introduction aux méthodes bayésiennes I : mesurer la force de la preuve. Essais cliniques. 2005, 2 : 282-378. 10.1191/1740774505cn098oa.

Goodman SN : Vers des statistiques médicales fondées sur des preuves. 2 : Le facteur Bayes. Ann Int Med. 1999, 130 (12) : 1005-1013. 10.7326/0003-4819-130-12-199906150-00019.

Pogue JM, Yusuf S : Cumul des preuves issues d'essais randomisés : utilisation des limites de surveillance séquentielle pour une méta-analyse cumulative. Essais cliniques de contrôle. 1997, 18 (6) : 580-593. 10.1016/S0197-2456(97)00051-2.

Higgins JP, Whitehead A: Force d'emprunt à partir d'essais externes dans une méta-analyse. Stat Med. 1996, 15 (24) : 2733-2749. 10.1002/(SICI)1097-0258(19961230)15:24<2733::AID-SIM562>3.0.CO2-0.

Fayers PM, Cuschieri A, Fielding J, Craven J, Uscinska B, Freedman LS : Calcul de la taille de l'échantillon pour les essais cliniques : l'impact des croyances des cliniciens. Frère J Cancer. 2000, 82 (1) : 213-219. 10.1054/bjoc.1999.0902.

Thorlund K, Imberger G, Walsh M, Chu R, Gluud C, Wetterslev J, Guyatt G, Devereaux PJ, Thabane L : Le nombre de patients et d'événements requis pour limiter le risque de surestimation des effets de l'intervention en méta-analyse - une simulation étudier. PLoS One. 2011, 6 : e25491-10.1371/journal.pone.0025491.

Pereira TV, Horwitz RI, Ioannidis JP : Évaluation empirique des effets thérapeutiques très importants des interventions médicales. JAMA. 2012, 308 : 1676-1684. 10.1001/jama.2012.13444.

Mehta CR, Pocock SJ : Augmentation adaptative de la taille de l'échantillon lorsque les résultats intermédiaires sont prometteurs : un guide pratique avec des exemples. Stat Med. 2011, 30 (28) : 3267-3284. 10.1002/sim.4102.

Jennison C, Turnbull BW : Conceptions séquentielles de groupe efficaces lorsqu'il y a plusieurs tailles d'effet à l'étude. Stat Med. 2005, 25 : 917-932.

O'Hagan A, Stevens JW, Campbell MJ : Assurance dans la conception des essais cliniques. Statistiques pharmaceutiques. 2005, 4 (3) : 187-201. 10.1002/pst.175.

Turner RM, Bird SM, Higgins JP : L'impact de la taille de l'étude sur les méta-analyses : examen des études de faible puissance dans les revues Cochrane. PLoS One. 2013, 8 (3) : e59202-10.1371/journal.pone.0059202.

Sully BG, Julious SA, Nicholl J : Une réinvestigation du recrutement dans des essais randomisés, contrôlés et multicentriques : une revue d'essais financés par deux agences de financement britanniques. Essais. 2013, 14 : 166-10.1186/1745-6215-14-166.

Levin GP, ​​Emerson SC, Emerson SS : Conceptions d'essais cliniques adaptatifs avec des règles prédéfinies pour modifier la taille de l'échantillon : comprendre les types efficaces d'adaptation. Stat Med. 2012, 32 (8) : 1259-1275.

DeMets DL, Lan KK : Analyse intermédiaire : l'approche de la fonction de dépense alpha. Stat Med. 1994, 13 (13-14) : 1341-1356.

Bassler D, Montori VM, Briel M, Glasziou P, Walter SD, Ramsay T, Guyatt G : Réflexions sur les méta-analyses impliquant des essais arrêtées prématurément pour un bénéfice : y a-t-il un problème et si oui, quel est-il ?.Méthodes statistiques Rés. méd. 2013, 22 (2) : 159-168. 10.1177/0962280211432211.

Lindley DV : Un paradoxe statistique. Biometrika. 1957, 44 (1/2) : 187-192. 10.2307/2333251.

Guyatt GH, Briel M, Glasziou P, Bassler D, Montori VM : Problèmes d'arrêt prématuré des essais. BMJ. 2012, 344 : e3863-10.1136/bmj.e3863.

Wald A : Tests séquentiels d'hypothèses statistiques. Ann Math Stat. 1945, 16 : 117-186. 10.1214/ams/1177731118.

Zhang J, Quan H, Ng J, Stepanavage ME : quelques méthodes statistiques pour plusieurs critères d'évaluation dans les essais cliniques. Essais cliniques de contrôle. 1997, 18 : 204-221. 10.1016/S0197-2456(96)00129-8.

Imberger G, Vejlby AD, Hansen SB, Møller AM, Wetterslev J : multiplicité statistique dans les revues systématiques des interventions en anesthésie : une quantification et une comparaison entre les revues Cochrane et non Cochrane. PLoS One. 2011, 6 : e28422-10.1371/journal.pone.0028422.

Pocock SJ : Quand arrêter un essai clinique. BMJ. 1992, 305 (6847) : 235-240. 10.1136/bmj.305.6847.235.

Jennison C, Turnbull BW : intervalles de confiance répétés pour les essais cliniques séquentiels de groupe. Essais cliniques de contrôle. 1984, 5 (1) : 33-45. 10.1016/0197-2456(84)90148-X.

Todd S, Whitehead J, Facey KM : estimation de points et d'intervalles à la suite d'un essai clinique séquentiel. Biometrika. 1996, 83 (2) : 453-461. 10.1093/biomet/83.2.453.

Jennison C, Turnbull BW : Méthodes séquentielles de groupe avec applications aux essais cliniques (Chapman & Hall/CRC statistiques interdisciplinaires). 1999, : Chapman et Hall/CRC

Thorlund K, Engstrøm J, Wetterslev J, Brok J, Imberger G, Gluud C : Manuel d'utilisation pour l'analyse séquentielle d'essais (TSA). 2011, Copenhague, Danemark : Copenhagen Trial Unit, Center for Clinical Intervention Research, 1-115. Disponible sur http://www.ctu.dk/tsa

Réseau Équateur : Améliorer la qualité et la transparence de la recherche en santé. Disponible à: http://www.equator-network.org/ 2014

Yang Q, Cui J, Chazaro I, Cupples LA, Demissie S: Taux d'erreur de puissance et de type I des approches de taux de fausse découverte dans les études d'association à l'échelle du génome. BMC Genet. 2005, 6 (Suppl 1) : S134-10.1186/1471-2156-6-S1-S134.

Bretz F, Hothorn T, Westfall P : Comparaisons multiples avec R. 2010, Boca Raton, Floride : Chapman et Hall/CRC

Altman DG, Bland JM : Comment obtenir la valeur P à partir d'un intervalle de confiance. BMJ. 2011, 343 : d2304-10.1136/bmj.d2304.

Abdi H : Encyclopédie de la mesure et des statistiques. Les corrections de Bonferonni et Šidák pour les comparaisons multiples. Dans N.J. Salkind (éd.) pages 103-107. 2007, Thousand Oaks (CA) : Sauge

Holm S : une simple procédure de test multiple à rejet séquentiel. Scand J Statist. 1979, 6 : 65-70.

Dmitrienko A, Ajit C, Tamhane AC, Bretz F : Problèmes de tests multiples en statistiques pharmaceutiques (Chapman & Hall/CRC Biostatistics Series). 2009, Boca Raton, Floride : Chapman et Hall/CRC

Tu YH, Cheng B, Cheung YK : une note sur les limites de confiance après des tests multiples à séquence fixe. J Stat Plan Inférence. 2012, 142 (11) : 2993-2998. 10.1016/j.jspi.2012.05.002.

Wiens BL, Dmitrienko A : La procédure de repli pour évaluer une seule famille d'hypothèses. J Biopharm Stat. 2005, 15 (6) : 929-942. 10.1080/10543400500265660.

Korn EL, Li MC, McShane LM, Simon R : Une enquête sur deux méthodes de permutation multivariée pour contrôler la proportion de fausses découvertes. Stat Med. 2007, 26 (24) : 4428-4440. 10.1002/sim.2865.

Westfall PH, Young S : tests multiples basés sur le rééchantillonnage : exemples et méthodes d'ajustement de la valeur p (série Wiley en probabilités et statistiques). 1993, New York : Wiley-Interscience

Yu J, Hutson AD, Siddiqui AH, Kedron MA : Contrôle séquentiel de groupe des incidents de toxicité globale dans les essais cliniques - approches non bayésiennes et bayésiennes. Méthodes statistiques Rés. méd. 2012, Epub avant impression

Thall PF, Simon RM, Shen Y : évaluation bayésienne approximative des effets de plusieurs traitements. Biométrie. 2000, 56 : 213-219. 10.1111/j.0006-341X.2000.00213.x.

Zhang X, Cutter G : Analyse intermédiaire bayésienne dans les essais cliniques. Contemp Clin Trials. 2008, 29 : 751-755. 10.1016/j.cct.2008.05.007.

Jakobsen JC, Lindschou Hansen J, Storebø OJ, Simonsen E, Gluud C: Les effets de la thérapie cognitive par rapport au «traitement habituel» chez les patients atteints de trouble dépressif majeur. PLoS One. 2011, 6 (8) : e22890-10.1371/journal.pone.0022890.

Knorr U, Vinberg M, Kessing LV, Wetterslev J : Cortisol salivaire chez les patients déprimés versus les personnes témoins : une revue systématique et une méta-analyse. Psychoneuroendocrinol. 2010, 35 : 1275-1286. 10.1016/j.psyneuen.2010.04.001.

Downs JR, Clearfield M, Weis S, Whitney E, Shapiro DR, Beere PA, Langendorfer A, Stein EA, Kruyer W, Gotto AM : prévention primaire des événements coronariens aigus avec la lovastatine chez les hommes et les femmes ayant un taux de cholestérol moyen : résultats de l'AFCAPS /TexCAPS. Étude sur la prévention de l'athérosclérose coronaire de l'Air Force/Texas. JAMA. 1998, 279 (20) : 1615-1622. 10.1001/jama.279.20.1615.

Stovring H, Harmsen CG, Wisloff T, Jarbol DE, Nexoe J, Nielsen JB, Kristiansen IS : approche du risque concurrent pour le modèle européen Heart SCORE basée sur la mortalité par cause et toutes causes. Eur J Préc Cardiol. 2012, 20 (5) : 827-836.

Prasad V, Vandross A : Prévention primaire cardiovasculaire : à quelle hauteur devons-nous placer la barre ?. Arch Int Med. 2012, 172 : 656-659. 10.1001/archiinternmed.2012.812.

Guyatt G, Oxman AD, Akl EA, Kunz R, Vist G, Brozek J, Norris S, Falck-Ytter Y, Glasziou P, DeBeer H, Jaeschke R, Rind D, Meerpohl J, Dahm P, Schunemann HJ : Directives GRADE : 1. Introduction-Profils de preuves GRADE et résumé des résultats Tableaux. J Clin Epidémiol. 2011, 64 (4) : 383-394. 10.1016/j.jclinepi.2010.04.026.

Guyatt G, Oxman AD, Sultan S, Brozek J, Glasziou P, Alonso-Coello P, Atkins D, Kunz R, Montori V, Jaeschke R, Rind D, Dahm P, Akl EA, Meerpohl J, Vist G, Berliner E, Norris S, Falck-Ytter Y, Schunemann HJ : Lignes directrices GRADE : 11. Établir une évaluation globale de la confiance dans les estimations d'effet pour un seul résultat et pour tous les résultats. J Clin Epidémiol. 2013, 66 (2) : 151-157. 10.1016/j.jclinepi.2012.01.006.

Jüni P, Nartey L, Reichenbach S, Sterchi R, Dieppe PA, Egger M : Risque d'événements cardiovasculaires et rofécoxib : méta-analyse cumulative. Lancette. 2004, 364 (9450) : 2021-2029. 10.1016/S0140-6736(04)17514-4.

Higgins JPT, Green S : Le manuel Cochrane pour les revues systématiques des interventions, version 5.1.0. 2011, The Cochrane Collaboration, disponible sur http://www.cochrane-handbook.org

Johnston BC, Thorlund K, Schunemann HJ, Xie F, Murad MH, Montori VM, Guyatt GH : Améliorer l'interprétation des preuves de la qualité de vie dans les méta-analyses : l'application d'unités de différence minimales importantes. Résultats de vie de qualité de santé. 2010, 8 : 116-10.1186/1477-7525-8-116.

Halvorsen PA, Kristiansen IS : Décisions sur les thérapies médicamenteuses par nombre nécessaire pour traiter : un essai randomisé. Arch Int Med. 2005, 165 : 1140-1146. 10.1001/archite.165.10.1140.

Chalmers I, Milne I, Trohler U, Vandenbroucke J, Morabia A, Tait G, Dukan E : The James Lind Library : expliquer et illustrer l'évolution des tests équitables de traitements médicaux. J R Coll Médecins Edinb. 2008, 38 (3) : 259-264.

Le Département des services de bibliothèque et d'information, Collège royal des médecins d'Édimbourg : Bibliothèque James Lind. Disponible en ligne sur: http://www.jameslindlibrary.org/ 2003

La Collaboration Cochrane : La Collaboration Cochrane. http://www.cochrane.org,

Garthwaite P, Kadane JB, O'Hagan A : Méthodes statistiques pour obtenir des distributions de probabilité. J Am Stat Assoc. 2012, 100 (470) :

Ioannidis J : Effets contredits et initialement plus forts dans la recherche clinique très citée. JAMA. 2005, 294 (2) : 218-228. 10.1001/jama.294.2.218.

Wetterslev J, Thorlund K, Brok J, Gluud C : L'analyse séquentielle des essais peut établir quand des preuves solides sont obtenues dans la méta-analyse cumulative. J Clin Epidémiol. 2008, 61 (1) : 64-75. 10.1016/j.jclinepi.2007.03.013.

Higgins JP, Whitehead A, Simmonds M : Méthodes séquentielles pour la méta-analyse à effets aléatoires. Stat Med. 2011, 30 (9) : 903-921. 10.1002/sim.4088.

Keus F, Wetterslev J, Gluud C, van Laarhoven CJ : Preuve en un coup d'œil : approche par matrice d'erreurs pour une vue d'ensemble des preuves disponibles. Méthode BMC Med Res. 2010, 10 : 90-10.1186/1471-2288-10-90.

Johnson VE : Tests bayésiens uniformément les plus puissants. Ann Stat. 2013, 41 : 1716-1741. 10.1214/13-AOS1123.

Higgins JP, Spiegelhalter DJ : Être sceptique quant aux méta-analyses : une perspective bayésienne sur les essais sur le magnésium dans l'infarctus du myocarde. Int J Epidémiol. 2002, 31 (1) : 96-104. 10.1093/ije/31.1.96.

Korn EL, Freidlin B : La vraisemblance comme preuve statistique dans les comparaisons multiples dans les essais cliniques : pas de repas gratuit. Biom J. 2006, 48 (3) : 346-355. 10.1002/bimj.200510216.

Lunn D, Spiegelhalter D, Thomas A, Best N : Le projet BUGS : évolution, critique et orientations futures. Stat Med. 2009, 28 (25) : 3049-3067. 10.1002/sim.3680.

Gaziano JM, Sesso HD, Christen WG, Bubes V, Smith JP, MacFadyen J, Schvartz M, Manson JE, Glynn RJ, Buring JE : Les multivitamines dans la prévention du cancer chez les hommes : l'étude sur la santé des médecins II. JAMA. 2012, 308 (18) : 1871-1880. 10.1001/jama.2012.14641.

Christen WG, Gaziano JM, Hennekens CH: Conception de l'étude sur la santé des médecins II - un essai randomisé sur le bêta-carotène. Anne Epidémiol. 2000, 10 (2) : 125-134. 10.1016/S1047-2797(99)00042-3.

Bjelakovic G, Nikolova D, Gluud LL, Simonetti RG, Gluud C : Suppléments antioxydants pour la prévention de la mortalité chez les participants en bonne santé et les patients atteints de diverses maladies. Cochrane Database Syst Rev. 2012, 3 : CD007176

Bjelakovic G, Nikolova D, Simonetti RG, Gluud C : Suppléments antioxydants pour la prévention des cancers gastro-intestinaux. Base de données Cochrane de Syst Rev. 3 : CD004183-

Cortés-Jofré M, Rueda JR, Corsini-Muñoz G, Fonseca-Cortés C, Caraballoso M, Bonfill Cosp X : Médicaments pour la prévention du cancer du poumon chez les personnes en bonne santé. Base de données Cochrane de Syst Rev. 10 : CD002141-

Shakur H, Roberts I, Bautista R, Caballero J, Coats T, Dewan Y, El-Sayed H, Gogichaishvili T, Gupta S, Herrera J, Hunt B, Iribhogbe P, Izurieta M, Khamis H, Komolafe E, Marrero MA, Mejia-Mantilla J, Miranda J, Morales C, Olaomi O, Olldashi F, Perel P, Peto R, Ramana PV, Ravi RR, Yutthakasemsunt S : effets de l'acide tranexamique sur la mort, les événements vasculaires occlusifs et la transfusion sanguine chez les patients traumatisés avec hémorragie significative (CRASH-2): un essai randomisé contrôlé contre placebo. Lancette. 2010, 376 (9734) : 23-32.

Perner A, Haase N, Guttormsen AB, Tenhunen J, Klemenzson G, Aneman A, Madsen KR, Moller MH, Elkjaer JM, Poulsen LM, Bendtsen A, Winding R, Steensen M, Berezowicz P, Soe-Jensen P, Bestle M, Strand K, Wiis J, White JO, Thornberg KJ, Quist L, Nielsen J, Andersen LH, Holst LB, Thormar K, Kjaeldgaard AL, Fabritius ML, Mondrup F, Pott FC, Moller T, et al : Hydroxyéthylamidon 130/0,42 versus l'acétate de Ringer dans le sepsis sévère. N Eng J Med. 2012, 367 (2) : 124-134. 10.1056/NEJMoa1204242.

Perner A, Haase N, Wetterslev J, Aneman A, Tenhunen J, Guttormsen AB, Klemenzson G, Pott F, Bodker KD, Badstolokken PM, Bendtsen A, Soe-Jensen P, Tousi H, Bestle M, Pawlowicz M, Winding R, Bulow HH, Kancir C, Steensen M, Nielsen J, Fogh B, Madsen KR, Larsen NH, Carlsson M, Wiis J, Petersen JA, Iversen S, Schoidt O, Leivdal S, Berezowicz P, et al : Comparer l'effet de l'hydroxyéthyle amidon 130/0,4 avec une solution cristalloïde équilibrée sur la mortalité et l'insuffisance rénale chez les patients atteints de sepsis sévère (6S--Scandinavian Starch for Severe Sepsis/Septic Shock trial) : protocole d'étude, conception et justification d'un essai clinique randomisé en double aveugle. Essais. 2011, 12 (1) : 24-10.1186/1745-6215-12-24.


MODÈLE À UN SEUL MÉDIATEUR

Équations de régression de médiation

Les études expérimentales en psychologie impliquent rarement à la fois la manipulation du médiateur et la mesure des variables médiatrices. Si une étude de recherche comprend des mesures d'une variable médiatrice ainsi que la variable indépendante et dépendante, la médiation peut être étudiée statistiquement (Fiske et al. 1982). De cette façon, l'analyse de médiation est une méthode pour augmenter les informations obtenues à partir d'une étude de recherche lorsque des mesures du processus de médiation sont disponibles.

Il existe trois grandes approches de l'analyse statistique de la médiation : (une) étapes causales, (b) différence de coefficients, et (c) produit de coefficients (MacKinnon 2000). Toutes ces méthodes utilisent les informations des trois équations de régression suivantes :

je1 et je2 et je3 sont des interceptions, Y est la variable dépendante, X est la variable indépendante, M est le médiateur, c est le coefficient reliant la variable indépendante et la variable dépendante, c′ est le coefficient liant la variable indépendante à la variable dépendante ajusté pour le médiateur, b est le coefficient liant le médiateur à la variable dépendante ajusté de la variable indépendante, une est le coefficient reliant la variable indépendante au médiateur, et e1, e2, et e3 sont des résidus. Les équations 2 et 3 sont représentées sur la figure 1 . Notez que les équations de médiation peuvent être modifiées pour incorporer des effets linéaires et non linéaires et l'interaction de X et M dans l'équation 2, comme décrit plus loin dans cette revue.

La méthode la plus largement utilisée pour évaluer la médiation est l'approche des étapes causales décrite dans les travaux classiques de Baron & Kenny (1986 également Kenny et al. 1998) et Judd & Kenny (1981a, 1981b). Quatre étapes sont impliquées dans l'approche de Baron et Kenny pour établir la médiation. Premièrement, une relation significative de la variable indépendante à la variable dépendante est requise dans l'équation 1. Deuxièmement, une relation significative de la variable indépendante à la variable médiatrice hypothétique est requise dans l'équation 3. Troisièmement, la variable médiatrice doit être significativement liée à la variable dépendante lorsque la variable indépendante et la variable médiatrice sont des prédicteurs de la variable dépendante dans l'équation 2. Quatrièmement, le coefficient reliant la variable indépendante à la variable dépendante doit être plus grand (en valeur absolue) que le coefficient reliant la variable indépendante à la variable dépendante variable dans le modèle de régression avec à la fois la variable indépendante et la variable médiatrice prédisant la variable dépendante. Cette approche par étapes causales pour évaluer la médiation a été la méthode la plus largement utilisée pour évaluer la médiation. Comme nous le verrons ci-dessous, cette approche présente plusieurs limites.

L'effet médiatisé dans le modèle à médiateur unique (voir Figure 1 ) peut être calculé de deux manières, soit â b ̂ ou ĉĉ′ (MacKinnon & Dwyer 1993). La valeur de l'effet médiatisé ou indirect estimée en faisant la différence des coefficients, ĉĉ′, des équations 1 et 2 correspond à la réduction de l'effet de la variable indépendante sur la variable dépendante lorsqu'elle est ajustée pour le médiateur. Pour tester la signification, la différence est ensuite divisée par l'erreur standard de la différence et le rapport est comparé à une distribution normale standard.

La méthode du produit de coefficients consiste à estimer les équations 2 et 3 et à calculer le produit de â et b ̂ , â b ̂ , pour former l'effet médiatisé ou indirect (Alwin & Hauser 1975). Le raisonnement derrière cette méthode est que la médiation dépend de la mesure dans laquelle le programme change le médiateur, une, et la mesure dans laquelle le médiateur affecte la variable de résultat, b. Pour tester la signification, le produit est ensuite divisé par l'erreur standard du produit et le rapport est comparé à une distribution normale standard.

L'équivalence algébrique du â b ̂ et ĉĉ′ mesures de médiation a été montré par MacKinnon et al. (1995) pour la théorie normale des moindres carrés ordinaires et l'estimation du maximum de vraisemblance des trois équations de régression de médiation. Pour les modèles à plusieurs niveaux (Krull & MacKinnon 1999), la régression logistique ou probit (MacKinnon & Dwyer 1993) et l'analyse de survie (Tein & MacKinnon 2003), le â b ̂ et ĉĉLes estimateurs ′ de l'effet médiatisé ne sont pas toujours équivalents, et une transformation est nécessaire pour que les deux donnent des résultats similaires (MacKinnon & Dwyer 1993).

Tracer les équations de médiation

Les quantités dans les équations 1𠄳 peuvent également être présentées géométriquement, comme le montre la figure 2 (MacKinnon 2007 R. Merrill, thèse non publiée). Les données artificielles sont tracées sur la figure 2, où la variable indépendante, X, est dichotomique (pour simplifier le tracé), le médiateur, M, est sur l'axe horizontal et la variable dépendante, Y, est sur l'axe vertical. Les deux lignes obliques du graphique représentent la relation de M à Y dans chaque groupe X, une ligne pour le groupe témoin et une ligne pour le groupe de traitement. Les deux droites sont parallèles (notez que s'il y avait une interaction XM dans l'équation 2, alors les pentes ne seraient pas parallèles), la pente de chaque droite étant égale à la b coefficient ( b ̂ = 0.91, s e b ̂ = 0,18). La distance entre les lignes horizontales dans les tracés est égale à l'effet global de X sur Y, c (ĉ = 1.07, s eĉ = 0,27), et la distance entre les lignes verticales est égale à l'effet de X sur M, une (â = 0.87, s eâ = 0,23). L'effet médiatisé est la variation de la droite de régression reliant M à Y pour une variation de M de une unités comme indiqué dans le graphique. L'effet indirect, â b ̂ , est égal à ĉĉ′ (ĉ′ = 0,23, s eĉ = 0,24). Les graphiques de l'effet médiatisé peuvent être utiles pour étudier les distributions de données pour les valeurs aberrantes et pour améliorer la compréhension des relations entre les variables dans le modèle de médiation.

Tracé de l'effet médiatisé. Pour simplifier la figure, aucun chapeau n'est inclus au-dessus des estimations de coefficient.

Erreur standard de l'effet médiatisé

Sobel (1982, 1986) a dérivé l'erreur type asymptotique de l'effet indirect en utilisant la méthode delta multivariée (Bishop et al. 1975) dans l'équation 4. Il s'agit de la formule la plus couramment utilisée pour l'erreur type de l'effet médiatisé.

Des études de simulation indiquent que l'estimateur de l'erreur type dans l'équation 4 présente un faible biais pour des tailles d'échantillon d'au moins 50 dans les modèles à médiateur unique (MacKinnon et al. 1995, 2002a). Dans les modèles avec plus d'un médiateur, l'erreur standard est précise pour des tailles d'échantillon minimales de 100 02013200 (Stone & Sobel 1990). Des résultats similaires ont été obtenus pour les erreurs standard des valeurs de chemin négatives et positives, et des modèles plus grands avec de multiples variables médiatrices, indépendantes et dépendantes (MacKinnon et al. 2002a, 2004 J. Williams, thèse non publiée).

Limites de confiance pour l'effet médiatisé

L'erreur type de â b ̂ peut être utilisé pour tester sa signification statistique et pour construire des limites de confiance pour l'effet médiatisé comme le montre l'équation 5 :

Les limites de confiance basées sur la distribution normale de l'effet médiatisé sont souvent inexactes, comme le montrent les études de simulation (MacKinnon et al. 1995, 2002a Stone & Sobel 1990) et l'analyse bootstrap de l'effet médiatisé (Bollen & Stine 1990, Lockwood & MacKinnon 1998). Ces intervalles de confiance d'effet médiatisé ont tendance à se situer à gauche de la vraie valeur de l'effet médiatisé pour les effets médiatisés positifs et à droite pour les effets médiatisés négatifs (Bollen & Stine 1990, MacKinnon et al. 1995, Stone & Sobel 1990). Les limites de confiance asymétriques basées sur la distribution du produit et l'estimation bootstrap ont une meilleure couverture que ces tests (MacKinnon et al. 2004).

Test de signification

Une étude de simulation de 14 méthodes pour évaluer l'effet médiatisé a révélé que le pouvoir de détecter les effets médiatisés à l'aide des méthodes d'étape causale les plus largement utilisées était très faible, tout comme les taux d'erreur de type I (MacKinnon et al. 2002a, 2004). Une faible puissance a également été observée pour les tests basés sur la distribution normale pour les estimateurs d'effets médiés (c. â b ̂ et ĉĉ′) divisés par leurs erreurs types respectives (Hoyle & Kenny 1999). Un test conjoint de l'importance de â et b ̂ était un bon compromis entre les erreurs de type I et de type II.

Il existe plusieurs explications à la faible puissance de la plupart des tests de médiation. Tout d'abord, l'exigence qu'il y ait une relation X à Y significative dans le test des étapes causales de Baron et Kenny réduit considérablement le pouvoir de détecter la médiation, en particulier dans le cas d'une médiation complète (c'est-à-dire que l'effet direct est nul). Il existe de nombreux cas où une médiation significative existe mais l'exigence d'une relation significative de X à Y n'est pas obtenue. Une étude récente utilisant des approches empiriques pour déterminer la taille d'échantillon requise pour une puissance de 0,8 pour détecter un effet médiatisé avec de petites valeurs de taille d'effet de la une et b chemin requis environ 21 000 sujets pour le test des étapes causales (Fritz & MacKinnon 2007). Au fur et à mesure que l'ampleur de l'effet direct augmente, la puissance de détection de la médiation à l'aide de l'approche des étapes causales se rapproche de la puissance de détection de la médiation en testant si les deux une et le b les chemins sont statistiquement significatifs. Il est important de noter que la relation globale de X et Y représente des informations importantes pour une étude de recherche, et dans certaines études, il peut être utile d'exiger une relation globale de X à Y. Le fait est que le fait d'exiger une relation X à Y réduit considérablement la puissance de détection des effets de médiation réels. Une explication de la faible puissance des tests de médiation basés sur la division d'un estimateur, soit â b ̂ ou ĉĉ′, de l'effet médiatisé par son erreur standard correspondante est que le rapport résultant ne suit pas toujours une distribution normale (MacKinnon et al. 2004). Méthodes de rééchantillonnage et méthodes basées sur la distribution du produit de un B résoudre ces problèmes d'échantillonnage et sont décrits ci-dessous.

Distribution du produit

Le produit de deux variables aléatoires normalement distribuées n'est normalement distribué que dans des cas particuliers (Springer 1979), ce qui explique l'imprécision des méthodes d'évaluation de la signification statistique de la médiation basée sur la distribution normale. Par exemple, pour deux variables aléatoires normales standard avec une moyenne de zéro, l'aplatissement en excès est égal à six (Meeker et al. 1981) par rapport à un aplatissement en excès de zéro pour une distribution normale. MacKinnon et al. (2002a MacKinnon et al. (2004a) ont montré qu'en comparaison avec les méthodes couramment utilisées, les tests de signification pour l'effet médiatisé basés sur la distribution du produit avaient des taux d'erreur de type I et une puissance statistique plus précis. Un nouveau programme, PRODCLIN (MacKinnon et al. 2006a, téléchargement du programme disponible sur http://www.public.asu.edu/

davidpm/ripl/Prodclin/), peut maintenant être utilisé pour trouver des valeurs critiques de la distribution du produit et pour calculer des limites de confiance pour l'effet médiatisé.

Analyse intensive en informatique

Les méthodes informatiques utilisent les données observées pour générer une distribution de référence, qui est ensuite utilisée pour l'estimation de l'intervalle de confiance et les tests de signification (Manly 1997, Mooney & Duval 1993, Noreen 1989). Des programmes pour calculer les limites de confiance de l'effet médiatisé pour les méthodes bootstrap sont décrits dans Preacher & Hayes (2004) et Lockwood & MacKinnon (1998) l'AMOS (Arbuckle 1997), EQS (Bentler 1997), LIS-REL (J& Les programmes #x000f6reskog & Sörbom 1993) et Mplus (Muthén & Muthén 1998�) effectuent également un rééchantillonnage bootstrap pour l'effet médiatisé.

Les méthodes informatisées, également appelées méthodes de rééchantillonnage, pour la médiation sont importantes pour au moins deux raisons (Bollen & Stine 1990, MacKinnon et al. 2004, Shrout & Bolger 2002). Premièrement, ces méthodes fournissent un moyen général de tester la signification et de construire des intervalles de confiance dans une grande variété de situations où les formules analytiques pour les quantités peuvent ne pas être disponibles. Deuxièmement, les méthodes ne nécessitent pas autant d'hypothèses que les autres tests, ce qui les rend probablement plus précises que l'analyse de médiation traditionnelle.

Hypothèses du modèle à médiateur unique

Il existe plusieurs hypothèses importantes pour les tests de médiation. Pour le â b ̂ estimateur de l'effet médiatisé, le modèle suppose que les résidus dans les équations 2 et 3 sont indépendants et que M et le résidu dans l'équation 2 sont indépendants (McDonald 1997 R. Merrill, thèse non publiée). On suppose également qu'il n'y a pas d'interaction XM dans l'équation 3, bien que cela puisse et doive être testé de façon routinière. Les hypothèses d'un modèle correctement spécifié n'incluent aucune erreur de spécification de l'ordre causal (par exemple, Y → M → X plutôt que X → M → Y), aucune erreur de spécification de la direction causale (par exemple, il existe une causalité réciproque entre le médiateur et la variable dépendante), aucune erreur de spécification due à des variables non mesurées qui causent des variables dans l'analyse de médiation, et aucune erreur de spécification due à une mesure imparfaite (Holland 1988, James & Brett 1984, McDonald 1997). Ces hypothèses peuvent être difficiles à tester et peuvent être invérifiables dans la plupart des situations, de sorte que la preuve d'une relation de médiation est impossible. Une approche plus réaliste consiste à incorporer des informations supplémentaires provenant de recherches antérieures, y compris des études expérimentales randomisées, une théorie et des méthodes qualitatives pour étayer la conclusion provisoire selon laquelle une relation de médiation existe.

Médiation complète ou partielle

Les chercheurs testent souvent s'il y a médiation complète ou partielle en testant si le cLe coefficient ′ est statistiquement significatif, ce qui est un test pour savoir si l'association entre la variable indépendante et dépendante est complètement prise en compte par le médiateur (voir James et al. 2006). Si la cLe coefficient ′ est statistiquement significatif et il y a une médiation significative, alors il y a des preuves d'une médiation partielle. Parce que les comportements psychologiques ont une variété de causes, il est souvent irréaliste de s'attendre à ce qu'un seul médiateur soit complètement expliqué par une relation variable indépendante à variable dépendante (Judd & # x00026 Kenny 1981a).

Modèles cohérents et incohérents

Les modèles de médiation incohérents sont des modèles où au moins un effet médiatisé a un signe différent des autres effets médiatisés ou directs dans un modèle (Blalock 1969, Davis 1985, MacKinnon et al. 2000). Bien que la connaissance de la signification de la relation de X à Y soit importante pour l'interprétation des résultats, il existe plusieurs exemples dans lesquels une relation globale de X à Y peut être non significative, mais une médiation existe. Par exemple, McFatter (1979) a décrit l'exemple hypothétique de travailleurs fabriquant des widgets, où X est l'intelligence, M est l'ennui et Y est la production de widgets. Les travailleurs intelligents ont tendance à s'ennuyer et à produire moins, mais les travailleurs plus intelligents ont également tendance à créer plus de widgets. Par conséquent, la relation globale entre l'intelligence et les widgets produits peut en fait être nulle, pourtant il existe deux processus de médiation opposés. Un certain nombre d'autres ressources fournissent des exemples de ces effets incohérents (Paulhus et al. 2004, Sheets & Braver 1999). La médiation incohérente est plus courante dans les modèles à médiateurs multiples où les effets de la médiation ont des signes différents. Des effets médiateurs incohérents peuvent être particulièrement critiques dans l'évaluation des effets contre-productifs des expériences, où la manipulation peut avoir conduit à des effets médiateurs opposés.

Mesures de la taille de l'effet de la médiation

La corrélation brute pour le une chemin et la corrélation partielle pour le b path sont des mesures de la taille de l'effet pour les modèles de médiation. Les coefficients de régression standardisés peuvent également servir de mesures de la taille de l'effet pour les chemins individuels de l'effet médiatisé. Il existe d'autres mesures de l'ampleur de l'effet de l'ensemble de l'effet médiatisé plutôt que des chemins individuels. La proportion médiée, 1 − ( c ^ ′ c ^ ) = a ^ b ^ ( a ^ b ^ + c ^ ′ ) , est souvent utilisée, mais les valeurs de la proportion médiée sont souvent très petites et se concentrer sur une proportion globale de médiation peut négliger des mécanismes de médiation supplémentaires (Fleming & DeMets 1996). La proportion médiée est également instable à moins que la taille de l'échantillon soit d'au moins 500 (Freedman 2001, MacKinnon et al. 1995). Alwin & Hauser (1975) suggère de prendre les valeurs absolues des effets directs et indirects avant de calculer la proportion médiatisée pour les modèles incohérents. Des travaux supplémentaires sont nécessaires sur les mesures de la taille de l'effet pour la médiation.


Calcul de la signification statistique

Les mathématiciens peuvent calculer la signification statistique assez facilement, mais la plupart des spécialistes du marketing ne font pas partie du secteur en raison de leurs compétences en mathématiques. Malgré cela, ils peuvent toujours utiliser la signification statistique dans leur marketing avec un calculateur de signification statistique.

Un calculateur de signification statistique fournit aux spécialistes du marketing un moyen de savoir si les modifications apportées aux campagnes ont réussi, afin qu'ils puissent maximiser les conversions. En saisissant simplement les variables dans la calculatrice, les spécialistes du marketing peuvent calculer la signification statistique de la taille de leur échantillon et de la taille de l'effet pour prouver leur hypothèse avec un pourcentage statistiquement significatif pour montrer que les changements ont fait la différence par rapport aux résultats obtenus par hasard.


Force de la preuve de P valeurs

En testant une hypothèse nulle H 0 contre une hypothèse alternative H 1 basé sur des données X obs, les P valeur est définie comme la probabilité, calculée sous l'hypothèse nulle, qu'une statistique de test soit aussi extrême ou plus extrême que sa valeur observée. L'hypothèse nulle est généralement rejetée — et le résultat est déclaré statistiquement significatif — si la P la valeur tombe en dessous du seuil d'erreur (actuel) de type I ?? = 0.05.

D'un point de vue bayésien, une mesure plus directe de la force de la preuve pour H 1 relatif à H 0 est le rapport de leurs probabilités. D'après la règle de Bayes, ce rapport peut s'écrire :

où BF est le facteur de Bayes qui représente les preuves des données, et les probabilités antérieures peuvent être informées par les croyances des chercheurs, le consensus scientifique et les preuves validées de questions de recherche similaires dans le même domaine. Test d'hypothèses multiples, P-le piratage et les biais de publication réduisent tous la crédibilité des preuves. Certaines de ces pratiques réduisent les probabilités antérieures de H 1 relatif à H 0 en changeant la population des tests d'hypothèses qui sont rapportés. Les marchés de prédiction 3 et les analyses des résultats de réplication 4 suggèrent tous deux que pour les expériences de psychologie, les probabilités antérieures de H 1 relatif à H 0 peut être seulement d'environ 1:10. Un nombre similaire a été suggéré dans les essais cliniques sur le cancer, et le nombre est susceptible d'être beaucoup plus faible dans la recherche biomédicale préclinique 5 .

Il n'y a pas de mappage unique entre les P valeur et le facteur de Bayes, puisque le facteur de Bayes dépend de H 1. Cependant, le lien entre les deux quantités peut être évalué pour des statistiques de test particulières sous certaines classes d'alternatives plausibles (Fig. 1).

Le facteur de Bayes (BF) est défini comme (frac<>_<< m>>gauche|_<1>droit.droit)><>_<< m>>gauche|_<0> ight. ight)>) . La figure suppose que les observations sont indépendantes et identiquement distribuées (i.i.d.) selon X

N(??,?? 2 ), où la moyenne ?? est inconnue et la variance ?? 2 est connu. Les P la valeur est d'un côté z-test (ou de manière équivalente un (_<1>^<2>) -test unilatéral) de l'hypothèse nulle H 0: ?? = 0. Puissance (courbe rouge) : BF obtenu en définissant H 1 en mettant ½ probabilité sur ?? = ±m pour la valeur de m qui donne 75% de puissance pour le test de taille ?? = 0,05. Cette H 1 représente une taille d'effet typique de celle qui est implicitement supposée par les chercheurs lors de la conception expérimentale. Borne du rapport de vraisemblance (courbe noire) : BF obtenu en définissant H 1 en mettant ½ probabilité sur ?? = ± ( chapeau) , où (hat) est approximativement égal à la moyenne des observations. Ces BF sont des limites supérieures parmi la classe de tous H 1 termes qui sont symétriques autour du nul, mais ils sont impropres car les données sont utilisées pour définir H 1. UMPBT (courbe bleue) : BF obtenu en définissant H 1 selon le test bayésien uniformément le plus puissant 2 qui place une ½ probabilité sur ?? = ±w, où w est l'hypothèse alternative qui correspond à un test unilatéral de taille 0,0025. Cette courbe est indiscernable de la courbe « Puissance » qui serait obtenue si la puissance utilisée dans sa définition était de 80 % au lieu de 75 %. Local-H 1 borne (courbe verte) : (< m>=frac<1><-epphantom< ule<0em><0ex>>lnphantom< ule<0em><0ex>>p>) , où p est le P valeur, est une borne supérieure pour grand échantillon sur le BF parmi toutes les hypothèses alternatives unimodales qui ont un mode nul et satisfont à certaines conditions de régularité 15 . Les chiffres rouges sur le oui l'axe indique la plage des facteurs de Bayes qui sont obtenus pour P valeurs de 0,005 ou 0,05. Pour plus de détails, consultez les informations supplémentaires.

Un recto-verso P la valeur de 0,05 correspond aux facteurs de Bayes en faveur de H 1 qui vont d'environ 2,5 à 3,4 sous des hypothèses raisonnables sur H 1 (Fig. 1). Il s'agit d'une preuve faible d'au moins trois points de vue. Premièrement, les catégorisations conventionnelles des facteurs de Bayes 6 caractérisent cette plage comme « faible » ou « très faible ». Deuxièmement, nous soupçonnons que de nombreux scientifiques devineraient que P ≈ 0,05 implique un soutien plus fort pour H 1 qu'un facteur de Bayes de 2,5 à 3,4. Troisièmement, en utilisant l'équation (1) et les cotes précédentes de 1:10, un P une valeur de 0,05 correspond à au moins 3:1 de cotes (c'est-à-dire l'inverse du produit (frac<1><10> imes 3,4) ) en faveur de l'hypothèse nulle !


Qu'est-ce que la taille de l'effet ?

Une mesure de la taille de l'effet est un indicateur de l'association qui existe entre deux ou plusieurs variables. Une exception à cela est celle de Cohen qui est une mesure de la distance entre les moyens. Ces définitions se traduisent par la quantité de variance dans une variable qui est expliquée par la connaissance d'une autre variable. Comme l'ont noté certains (par exemple, Cohen, 1968 Kerlinger & Pedhazur, 1973), l'intérêt accru pour les mesures de la taille de l'effet chez les psychologues est associé à leur prise de conscience accrue de la similitude entre l'ANOVA et la régression (Haase, Waechter, & Solomon, 1982) . Par conséquent, le fait de se rendre compte que l'évaluation des différences de groupe n'est qu'une façon d'employer des techniques corrélationnelles de base peut avoir suscité un intérêt pour les indicateurs de taille d'effet.

Déterminer ce qui constitue un « grand effet » est troublant pour les travaux en sciences sociales. Comme l'ont noté Haase et al. (1982), répondre à la question « comment est-il grand ? » n'est pas aussi difficile en sciences naturelles qu'en sciences psychologiques :

Alors, qu'est-ce qui constitue un “grand” effet dans une expérience psychologique moyenne ? Cohen (1977), sans aucun doute l'un des plus ardents défenseurs de la publication de statistiques sur la taille de l'effet, a publié des lignes directrices sur ce qui constitue des tailles d'effet petites, moyennes et grandes. Selon Cohen, pour , 0,20, 0,50 et 0,80 constituent respectivement des effets petits, moyens et grands.


Qu'est-ce qui peut mal tourner dans les expériences de génie logiciel ?

Ne vous fiez pas uniquement à la signification statistique

Toutes les expériences rapportent une signification statistique. Cependant, la signification statistique est la probabilité d'observer un effet étant donné que l'hypothèse nulle est vraie. En d'autres termes, il mesure si l'effet observé est réellement causé par les caractéristiques de la population ou est simplement le résultat d'une erreur d'échantillonnage. Mais cela ne donne aucune indication sur l'importance de la différence entre les traitements. Pour des échantillons de taille relativement importante, même de très petites différences peuvent être statistiquement significatives. Sur ce terrain, nous avons besoin d'une mesure d'importance pratique. La question est de savoir si les différences entre les traitements sont suffisamment importantes pour être vraiment significatives. Ceci est généralement évalué à l'aide d'une mesure de la taille de l'effet. Il existe un large éventail de plus de 70 mesures de la taille de l'effet, capables de rapporter différents types d'effets.


Les références

Jakobsen JC, Gluud C : La nécessité d'essais cliniques randomisés. Br J Med Rés. 2013, 3 (4) : 1453-1468.

Johnson VE : Normes révisées pour les preuves statistiques. Proc Natl Acad Sci USA. 2013, 110 (48) : 19313-19317. 10.1073/pnas.1313476110.

Fisher R : Méthodes statistiques et induction scientifique.JR Stat Soc Ser B. 1955, 17 (1) : 69-78.

Gigerenzer G : Statistiques stupides. J Socio Econ. 2004, 33 (5) : 587-606. 10.1016/j.socic.2004.09.033.

Hald A : Une histoire des statistiques mathématiques de 1750 à 1930. 1998, New York : John Wiley & Sons

Goodman S : Une sale douzaine : douze idées fausses sur la valeur p. Semin Hématol. 2008, 45 : 135-140. 10.1053/j.seminhematol.2008.04.003.

Oliveri RS, Gluud C, Wille-Jørgensen PA : Compétences auto-évaluées des médecins hospitaliers en matière de médecine factuelle et d'utilisation - une enquête par questionnaire. J Eval Clin Pract. 2004, 10 (2) : 219-226. 10.1111/j.1365-2753.2003.00477.x.

Bassler D, Briel M, Montori VM, Lane M, Glasziou P, Zhou Q, Heels-Ansdell D, Walter SD, Guyatt GH, Flynn DN, Elamin MB, Murad MH, Abu Elnour NO, Lampropulos JF, Sood A, Mullan RJ , Erwin PJ, Bankhead CR, Perera R, Ruiz Culebro C, You JJ, Mulla SM, Kaur J, Nerenberg KA, Schunemann H, Cook DJ, Lutz K, Ribic CM, Vale N, Malaga G, Akl EA, et al : Arrêt précoce des essais randomisés pour le bénéfice et l'estimation des effets du traitement : revue systématique et analyse de méta-régression. JAMA. 2010, 303 : 1180-1187. 10.1001/jama.2010.310.

Thorlund K, Devereaux PJ, Wetterslev J, Guyatt G, Ioannidis JP, Thabane L, Gluud LL, Als-Nielsen B, Gluud C : Les limites de suivi séquentiel des essais peuvent-elles réduire les inférences erronées des méta-analyses ?. Int J Epidémiol. 2009, 38 (1) : 276-286. 10.1093/ije/dyn179.

Ioannidis JP : Pourquoi la plupart des résultats de recherche publiés sont faux. PLoS Med. 2005, 2 (8) : e124-10.1371/journal.pmed.0020124.

Garattini S, Bertele V : Les essais de non-infériorité sont contraires à l'éthique car ils ne tiennent pas compte des intérêts des patients. Lancette. 2007, 370 (9602) : 1875-1877. 10.1016/S0140-6736(07)61604-3.

Sterne JA : Enseigner les tests d'hypothèses – le temps d'un changement significatif ?. Stat Med. 2002, 21 : 985-999. 10.1002/sim.1129.

Ranstam J : Pourquoi la culture de la valeur P est mauvaise et les intervalles de confiance une meilleure alternative. Cartilage arthrosique. 2012, 20 : 805-808. 10.1016/j.joca.2012.04.001.

Williamson PR, Altman DG, Blazeby JM, Clarke M, Gargon E : L'initiative COMET (Mesures des résultats de base dans les essais d'efficacité). Essais. 2011, 12 (Suppl 1) : A70-10.1186/1745-6215-12-S1-A70.

Altman DG, Bland JM : Comment obtenir l'intervalle de confiance à partir d'une valeur P. BMJ. 2011, 343 : d2090-10.1136/bmj.d2090.

Chow S-C, Shao J, Wang H: Calculs de la taille de l'échantillon en recherche clinique, deuxième édition. 2008, Boca Raton, Floride : Chapman et Hall/CRC

Schulz KF, Altman DG, Moher D : Déclaration CONSORT 2010 : directives mises à jour pour la notification des essais randomisés en groupes parallèles. Ann Int Med. 2010, 152 (11) : 726-732. 10.7326/0003-4819-152-11-201006010-00232.

Échelles DC, Rubenfeld GD : Estimation de la taille de l'échantillon dans les essais cliniques en soins intensifs. J Soins critiques. 2005, 20 (1) : 6-11. 10.1016/j.jcrc.2005.02.002.

Myles DJS, Keith RA, Jonathan P : Approches bayésiennes des essais cliniques et de l'évaluation des soins de santé (Statistiques en pratique). 2004, West Sussex, Angleterre : John Wiley & Sons

Roloff V, Higgins JP, Sutton AJ : Planification d'études futures basées sur la puissance conditionnelle d'une méta-analyse. Stat Med. 2013, 32 (1) : 11-24. 10.1002/sim.5524.

Goodman SN : Introduction aux méthodes bayésiennes I : mesurer la force de la preuve. Essais cliniques. 2005, 2 : 282-378. 10.1191/1740774505cn098oa.

Goodman SN : Vers des statistiques médicales fondées sur des preuves. 2 : Le facteur Bayes. Ann Int Med. 1999, 130 (12) : 1005-1013. 10.7326/0003-4819-130-12-199906150-00019.

Pogue JM, Yusuf S : Cumul des preuves issues d'essais randomisés : utilisation des limites de surveillance séquentielle pour une méta-analyse cumulative. Essais cliniques de contrôle. 1997, 18 (6) : 580-593. 10.1016/S0197-2456(97)00051-2.

Higgins JP, Whitehead A: Emprunter la force d'essais externes dans une méta-analyse. Stat Med. 1996, 15 (24) : 2733-2749. 10.1002/(SICI)1097-0258(19961230)15:24<2733::AID-SIM562>3.0.CO2-0.

Fayers PM, Cuschieri A, Fielding J, Craven J, Uscinska B, Freedman LS : Calcul de la taille de l'échantillon pour les essais cliniques : l'impact des croyances des cliniciens. Frère J Cancer. 2000, 82 (1) : 213-219. 10.1054/bjoc.1999.0902.

Thorlund K, Imberger G, Walsh M, Chu R, Gluud C, Wetterslev J, Guyatt G, Devereaux PJ, Thabane L : Le nombre de patients et d'événements requis pour limiter le risque de surestimation des effets de l'intervention en méta-analyse - une simulation étudier. PLoS One. 2011, 6 : e25491-10.1371/journal.pone.0025491.

Pereira TV, Horwitz RI, Ioannidis JP : Évaluation empirique des effets thérapeutiques très importants des interventions médicales. JAMA. 2012, 308 : 1676-1684. 10.1001/jama.2012.13444.

Mehta CR, Pocock SJ : Augmentation adaptative de la taille de l'échantillon lorsque les résultats intermédiaires sont prometteurs : un guide pratique avec des exemples. Stat Med. 2011, 30 (28) : 3267-3284. 10.1002/sim.4102.

Jennison C, Turnbull BW : Conceptions séquentielles de groupe efficaces lorsqu'il y a plusieurs tailles d'effet à l'étude. Stat Med. 2005, 25 : 917-932.

O'Hagan A, Stevens JW, Campbell MJ : Assurance dans la conception des essais cliniques. Statistiques pharmaceutiques. 2005, 4 (3) : 187-201. 10.1002/pst.175.

Turner RM, Bird SM, Higgins JP : L'impact de la taille de l'étude sur les méta-analyses : examen des études de faible puissance dans les revues Cochrane. PLoS One. 2013, 8 (3) : e59202-10.1371/journal.pone.0059202.

Sully BG, Julious SA, Nicholl J : Une réinvestigation du recrutement dans des essais randomisés, contrôlés et multicentriques : une revue d'essais financés par deux agences de financement britanniques. Essais. 2013, 14 : 166-10.1186/1745-6215-14-166.

Levin GP, ​​Emerson SC, Emerson SS : Conceptions d'essais cliniques adaptatifs avec des règles prédéfinies pour modifier la taille de l'échantillon : comprendre les types efficaces d'adaptation. Stat Med. 2012, 32 (8) : 1259-1275.

DeMets DL, Lan KK : Analyse intermédiaire : l'approche de la fonction de dépense alpha. Stat Med. 1994, 13 (13-14) : 1341-1356.

Bassler D, Montori VM, Briel M, Glasziou P, Walter SD, Ramsay T, Guyatt G : Réflexions sur les méta-analyses impliquant des essais arrêtées prématurément pour un bénéfice : y a-t-il un problème et si oui, quel est-il ?. Méthodes statistiques Rés. méd. 2013, 22 (2) : 159-168. 10.1177/0962280211432211.

Lindley DV : Un paradoxe statistique. Biometrika. 1957, 44 (1/2) : 187-192. 10.2307/2333251.

Guyatt GH, Briel M, Glasziou P, Bassler D, Montori VM : Problèmes d'arrêt prématuré des essais. BMJ. 2012, 344 : e3863-10.1136/bmj.e3863.

Wald A : Tests séquentiels d'hypothèses statistiques. Ann Math Stat. 1945, 16 : 117-186. 10.1214/ams/1177731118.

Zhang J, Quan H, Ng J, Stepanavage ME : quelques méthodes statistiques pour plusieurs critères d'évaluation dans les essais cliniques. Essais cliniques de contrôle. 1997, 18 : 204-221. 10.1016/S0197-2456(96)00129-8.

Imberger G, Vejlby AD, Hansen SB, Møller AM, Wetterslev J : multiplicité statistique dans les revues systématiques des interventions en anesthésie : une quantification et une comparaison entre les revues Cochrane et non Cochrane. PLoS One. 2011, 6 : e28422-10.1371/journal.pone.0028422.

Pocock SJ : Quand arrêter un essai clinique. BMJ. 1992, 305 (6847) : 235-240. 10.1136/bmj.305.6847.235.

Jennison C, Turnbull BW : intervalles de confiance répétés pour les essais cliniques séquentiels de groupe. Essais cliniques de contrôle. 1984, 5 (1) : 33-45. 10.1016/0197-2456(84)90148-X.

Todd S, Whitehead J, Facey KM : estimation de points et d'intervalles à la suite d'un essai clinique séquentiel. Biometrika. 1996, 83 (2) : 453-461. 10.1093/biomet/83.2.453.

Jennison C, Turnbull BW : Méthodes séquentielles de groupe avec applications aux essais cliniques (Chapman & Hall/CRC statistiques interdisciplinaires). 1999, : Chapman et Hall/CRC

Thorlund K, Engstrøm J, Wetterslev J, Brok J, Imberger G, Gluud C : Manuel d'utilisation pour l'analyse séquentielle d'essais (TSA). 2011, Copenhague, Danemark : Copenhagen Trial Unit, Center for Clinical Intervention Research, 1-115. Disponible sur http://www.ctu.dk/tsa

Réseau Équateur : Améliorer la qualité et la transparence de la recherche en santé. Disponible à: http://www.equator-network.org/ 2014

Yang Q, Cui J, Chazaro I, Cupples LA, Demissie S: Taux d'erreur de puissance et de type I des approches de taux de fausse découverte dans les études d'association pangénomique. BMC Genet. 2005, 6 (Suppl 1) : S134-10.1186/1471-2156-6-S1-S134.

Bretz F, Hothorn T, Westfall P : Comparaisons multiples avec R. 2010, Boca Raton, Floride : Chapman et Hall/CRC

Altman DG, Bland JM : Comment obtenir la valeur P à partir d'un intervalle de confiance. BMJ. 2011, 343 : d2304-10.1136/bmj.d2304.

Abdi H : Encyclopédie de la mesure et des statistiques. Les corrections de Bonferonni et Šidák pour les comparaisons multiples. Dans N.J. Salkind (éd.) pages 103-107. 2007, Thousand Oaks (CA) : Sauge

Holm S : une simple procédure de test multiple à rejet séquentiel. Scand J Statist. 1979, 6 : 65-70.

Dmitrienko A, Ajit C, Tamhane AC, Bretz F : Problèmes de tests multiples en statistiques pharmaceutiques (Chapman & Hall/CRC Biostatistics Series). 2009, Boca Raton, Floride : Chapman et Hall/CRC

Tu YH, Cheng B, Cheung YK : une note sur les limites de confiance après des tests multiples à séquence fixe. J Stat Plan Inférence. 2012, 142 (11) : 2993-2998. 10.1016/j.jspi.2012.05.002.

Wiens BL, Dmitrienko A : La procédure de repli pour évaluer une seule famille d'hypothèses. J Biopharm Stat. 2005, 15 (6) : 929-942. 10.1080/10543400500265660.

Korn EL, Li MC, McShane LM, Simon R : Une enquête sur deux méthodes de permutation multivariée pour contrôler la proportion de fausses découvertes. Stat Med. 2007, 26 (24) : 4428-4440. 10.1002/sim.2865.

Westfall PH, Young S : tests multiples basés sur le rééchantillonnage : exemples et méthodes d'ajustement de la valeur p (série Wiley en probabilités et statistiques). 1993, New York : Wiley-Interscience

Yu J, Hutson AD, Siddiqui AH, Kedron MA : Contrôle séquentiel de groupe des incidents de toxicité globaux dans les essais cliniques - approches non bayésiennes et bayésiennes. Méthodes statistiques Rés. méd. 2012, Epub avant impression

Thall PF, Simon RM, Shen Y : évaluation bayésienne approximative des effets de plusieurs traitements. Biométrie. 2000, 56 : 213-219. 10.1111/j.0006-341X.2000.00213.x.

Zhang X, Cutter G : Analyse intermédiaire bayésienne dans les essais cliniques. Contemp Clin Trials. 2008, 29 : 751-755. 10.1016/j.cct.2008.05.007.

Jakobsen JC, Lindschou Hansen J, Storebø OJ, Simonsen E, Gluud C: Les effets de la thérapie cognitive par rapport au «traitement habituel» chez les patients atteints de trouble dépressif majeur. PLoS One. 2011, 6 (8) : e22890-10.1371/journal.pone.0022890.

Knorr U, Vinberg M, Kessing LV, Wetterslev J : Cortisol salivaire chez les patients déprimés versus les personnes témoins : une revue systématique et une méta-analyse. Psychoneuroendocrinol. 2010, 35 : 1275-1286. 10.1016/j.psyneuen.2010.04.001.

Downs JR, Clearfield M, Weis S, Whitney E, Shapiro DR, Beere PA, Langendorfer A, Stein EA, Kruyer W, Gotto AM : prévention primaire des événements coronariens aigus avec la lovastatine chez les hommes et les femmes ayant un taux de cholestérol moyen : résultats de l'AFCAPS /TexCAPS. Étude sur la prévention de l'athérosclérose coronaire de l'Air Force/Texas. JAMA. 1998, 279 (20) : 1615-1622. 10.1001/jama.279.20.1615.

Stovring H, Harmsen CG, Wisloff T, Jarbol DE, Nexoe J, Nielsen JB, Kristiansen IS : approche du risque concurrent pour le modèle européen Heart SCORE basée sur la mortalité par cause et toutes causes. Eur J Préc Cardiol. 2012, 20 (5) : 827-836.

Prasad V, Vandross A : Prévention primaire cardiovasculaire : à quelle hauteur devrions-nous placer la barre ?. Arch Int Med. 2012, 172 : 656-659. 10.1001/archiinternmed.2012.812.

Guyatt G, Oxman AD, Akl EA, Kunz R, Vist G, Brozek J, Norris S, Falck-Ytter Y, Glasziou P, DeBeer H, Jaeschke R, Rind D, Meerpohl J, Dahm P, Schunemann HJ : Directives GRADE : 1. Introduction-Profils de preuves GRADE et résumé des résultats Tableaux. J Clin Epidémiol. 2011, 64 (4) : 383-394. 10.1016/j.jclinepi.2010.04.026.

Guyatt G, Oxman AD, Sultan S, Brozek J, Glasziou P, Alonso-Coello P, Atkins D, Kunz R, Montori V, Jaeschke R, Rind D, Dahm P, Akl EA, Meerpohl J, Vist G, Berliner E, Norris S, Falck-Ytter Y, Schunemann HJ : Lignes directrices GRADE : 11. Faire une évaluation globale de la confiance dans les estimations d'effet pour un résultat unique et pour tous les résultats. J Clin Epidémiol. 2013, 66 (2) : 151-157. 10.1016/j.jclinepi.2012.01.006.

Jüni P, Nartey L, Reichenbach S, Sterchi R, Dieppe PA, Egger M : Risque d'événements cardiovasculaires et rofécoxib : méta-analyse cumulative. Lancette. 2004, 364 (9450) : 2021-2029. 10.1016/S0140-6736(04)17514-4.

Higgins JPT, Green S : Le manuel Cochrane pour les revues systématiques des interventions, version 5.1.0. 2011, The Cochrane Collaboration, disponible sur http://www.cochrane-handbook.org

Johnston BC, Thorlund K, Schunemann HJ, Xie F, Murad MH, Montori VM, Guyatt GH : Améliorer l'interprétation des preuves de la qualité de vie dans les méta-analyses : l'application d'unités de différence minimales importantes. Résultats de vie de qualité de santé. 2010, 8 : 116-10.1186/1477-7525-8-116.

Halvorsen PA, Kristiansen IS : Décisions sur les thérapies médicamenteuses par nombre nécessaire pour traiter : un essai randomisé. Arch Int Med. 2005, 165 : 1140-1146. 10.1001/archite.165.10.1140.

Chalmers I, Milne I, Trohler U, Vandenbroucke J, Morabia A, Tait G, Dukan E : The James Lind Library : expliquer et illustrer l'évolution des tests équitables de traitements médicaux. J R Coll Médecins Edinb. 2008, 38 (3) : 259-264.

Le département de la bibliothèque et des services d'information, le Collège royal des médecins d'Édimbourg : James Lind Library. Disponible en ligne sur: http://www.jameslindlibrary.org/ 2003

La Collaboration Cochrane : La Collaboration Cochrane. http://www.cochrane.org,

Garthwaite P, Kadane JB, O'Hagan A : Méthodes statistiques pour obtenir des distributions de probabilité. J Am Stat Assoc. 2012, 100 (470) :

Ioannidis J : Effets contredits et initialement plus forts dans la recherche clinique très citée. JAMA. 2005, 294 (2) : 218-228. 10.1001/jama.294.2.218.

Wetterslev J, Thorlund K, Brok J, Gluud C : L'analyse séquentielle des essais peut établir quand des preuves solides sont obtenues dans la méta-analyse cumulative. J Clin Epidémiol. 2008, 61 (1) : 64-75. 10.1016/j.jclinepi.2007.03.013.

Higgins JP, Whitehead A, Simmonds M : Méthodes séquentielles pour la méta-analyse à effets aléatoires. Stat Med. 2011, 30 (9) : 903-921. 10.1002/sim.4088.

Keus F, Wetterslev J, Gluud C, van Laarhoven CJ : Preuve en un coup d'œil : approche par matrice d'erreurs pour une vue d'ensemble des preuves disponibles. Méthode BMC Med Res. 2010, 10 : 90-10.1186/1471-2288-10-90.

Johnson VE : Tests bayésiens uniformément les plus puissants. Ann Stat. 2013, 41 : 1716-1741. 10.1214/13-AOS1123.

Higgins JP, Spiegelhalter DJ : Être sceptique quant aux méta-analyses : une perspective bayésienne sur les essais sur le magnésium dans l'infarctus du myocarde. Int J Epidémiol. 2002, 31 (1) : 96-104. 10.1093/ije/31.1.96.

Korn EL, Freidlin B : La vraisemblance comme preuve statistique dans les comparaisons multiples dans les essais cliniques : pas de repas gratuit. Biom J. 2006, 48 (3) : 346-355. 10.1002/bimj.200510216.

Lunn D, Spiegelhalter D, Thomas A, Best N : Le projet BUGS : évolution, critique et orientations futures. Stat Med. 2009, 28 (25) : 3049-3067. 10.1002/sim.3680.

Gaziano JM, Sesso HD, Christen WG, Bubes V, Smith JP, MacFadyen J, Schvartz M, Manson JE, Glynn RJ, Buring JE : Les multivitamines dans la prévention du cancer chez les hommes : l'étude sur la santé des médecins II. JAMA. 2012, 308 (18) : 1871-1880. 10.1001/jama.2012.14641.

Christen WG, Gaziano JM, Hennekens CH: Conception de l'étude sur la santé des médecins II - un essai randomisé sur le bêta-carotène. Anne Epidémiol. 2000, 10 (2) : 125-134. 10.1016/S1047-2797(99)00042-3.

Bjelakovic G, Nikolova D, Gluud LL, Simonetti RG, Gluud C : Suppléments antioxydants pour la prévention de la mortalité chez les participants en bonne santé et les patients atteints de diverses maladies. Cochrane Database Syst Rev. 2012, 3 : CD007176

Bjelakovic G, Nikolova D, Simonetti RG, Gluud C : Suppléments antioxydants pour la prévention des cancers gastro-intestinaux. Base de données Cochrane de Syst Rev. 3 : CD004183-

Cortés-Jofré M, Rueda JR, Corsini-Muñoz G, Fonseca-Cortés C, Caraballoso M, Bonfill Cosp X : Médicaments pour la prévention du cancer du poumon chez les personnes en bonne santé. Base de données Cochrane de Syst Rev. 10 : CD002141-

Shakur H, Roberts I, Bautista R, Caballero J, Coats T, Dewan Y, El-Sayed H, Gogichaishvili T, Gupta S, Herrera J, Hunt B, Iribhogbe P, Izurieta M, Khamis H, Komolafe E, Marrero MA, Mejia-Mantilla J, Miranda J, Morales C, Olaomi O, Olldashi F, Perel P, Peto R, Ramana PV, Ravi RR, Yutthakasemsunt S : effets de l'acide tranexamique sur la mort, les événements vasculaires occlusifs et la transfusion sanguine chez les patients traumatisés avec hémorragie significative (CRASH-2): un essai randomisé contrôlé contre placebo. Lancette. 2010, 376 (9734) : 23-32.

Perner A, Haase N, Guttormsen AB, Tenhunen J, Klemenzson G, Aneman A, Madsen KR, Moller MH, Elkjaer JM, Poulsen LM, Bendtsen A, Winding R, Steensen M, Berezowicz P, Soe-Jensen P, Bestle M, Strand K, Wiis J, White JO, Thornberg KJ, Quist L, Nielsen J, Andersen LH, Holst LB, Thormar K, Kjaeldgaard AL, Fabritius ML, Mondrup F, Pott FC, Moller T, et al : Hydroxyéthylamidon 130/0,42 versus l'acétate de Ringer dans le sepsis sévère. N Eng J Med. 2012, 367 (2) : 124-134. 10.1056/NEJMoa1204242.

Perner A, Haase N, Wetterslev J, Aneman A, Tenhunen J, Guttormsen AB, Klemenzson G, Pott F, Bodker KD, Badstolokken PM, Bendtsen A, Soe-Jensen P, Tousi H, Bestle M, Pawlowicz M, Winding R, Bulow HH, Kancir C, Steensen M, Nielsen J, Fogh B, Madsen KR, Larsen NH, Carlsson M, Wiis J, Petersen JA, Iversen S, Schoidt O, Leivdal S, Berezowicz P, et al : Comparer l'effet de l'hydroxyéthyle amidon 130/0,4 avec une solution cristalloïde équilibrée sur la mortalité et l'insuffisance rénale chez les patients atteints de sepsis sévère (6S--Scandinavian Starch for Severe Sepsis/Septic Shock trial) : protocole d'étude, conception et justification d'un essai clinique randomisé en double aveugle. Essais. 2011, 12 (1) : 24-10.1186/1745-6215-12-24.


Table des matières

Dans la recherche quantitative, les données sont analysées au moyen de tests de signification d'hypothèse nulle ou de tests d'hypothèse. Il s'agit d'une procédure formelle pour évaluer si une relation entre des variables ou une différence entre des groupes est statistiquement significative.

Hypothèses nulles et alternatives

Pour commencer, les prédictions de la recherche sont reformulées en deux hypothèses principales :

  • UNE hypothèse nulle (H0) ne prédit toujours aucun effet réel, aucune relation entre les variables ou aucune différence entre les groupes.
  • Un hypothèse alternative (Hune ou H1) indique votre prédiction principale d'un effet réel, d'une relation entre les variables ou d'une différence entre les groupes.

Le test d'hypothèse commence toujours par l'hypothèse que l'hypothèse nulle est vraie. En utilisant cette procédure, vous pouvez évaluer la probabilité (probabilité) d'obtenir vos résultats sous cette hypothèse.En fonction du résultat du test, vous pouvez rejeter ou conserver l'hypothèse nulle.

Signification clinique est pertinent pour les études d'intervention et de traitement. Un traitement est considéré comme cliniquement significatif lorsqu'il améliore de manière tangible ou substantielle la vie des patients.


Amélioration après traitement comportemental de l'insomnie : signification clinique, maintien à long terme et prédicteurs de résultat †

Les données de sept études de résultats (m=216) de divers traitements comportementaux brefs pour l'insomnie chronique ont été réanalysés pour déterminer les taux individuels d'amélioration statistiquement et cliniquement significative. Les résultats ont également été évalués pour le maintien à long terme des gains de traitement et pour les prédicteurs de résultats favorables. Dans l'ensemble, 39 % des participants ont montré une amélioration statistiquement significative après 4 semaines de traitement, 47 % lors d'un suivi à court terme (1 à 3 mois après le traitement) et 49 % après un an de suivi. Les taux de détérioration étaient faibles : moins de 1 % à chacune des mêmes périodes. Environ 23 % des insomniaques ont montré une amélioration cliniquement significative, c'est-à-dire qu'ils sont devenus de bons dormeurs à la fin du traitement, 33 % ont atteint ce statut lors d'un suivi à court terme, un chiffre qui s'est maintenu à 1 an. Les individus plus jeunes avec un âge initial d'apparition plus tardif et une durée actuelle plus longue, qui ont montré moins de psychopathologie et ont reçu un traitement de contrôle du stimulus ont eu un avantage de traitement initial qui a disparu au cours de la période de suivi à court terme.

Le soutien à cette étude a été fourni par BRSG SO7 RR07054-20 décerné par le programme de subventions de soutien à la recherche biomédicale, Division des ressources de recherche, National Institutes of Health.

Kimberly Powlishta est maintenant au Département de psychologie de l'Université de Stanford.


Mise à jour : Qu'est-ce que la signification statistique ?

Que signifie le fait que les résultats de la recherche soient « statistiquement significatifs ? "

En termes simples, la signification statistique est un moyen pour les chercheurs de quantifier la probabilité que leurs résultats soient dus au hasard. Les résultats statistiquement significatifs sont ceux dans lesquels le chercheur a confiance que les résultats sont réels et fiables, car les chances d'obtenir les résultats par hasard sont faibles.

Les tests de signification statistique impliquent plusieurs concepts abstraits. Nous essayons donc de rendre les choses concrètes avec un exemple de la façon dont vous pourriez effectuer un test de signification statistique.