目次
Annals of the Rheumatic Diseasesに掲載された統計処理に関する誤用に関する記事が興味深い(後半)
最近は研究に取り組まれる理学療法士・作業療法士も多いので統計解析をされる方も多いと思います.
5年前の論文ですが,統計処理の誤用に関する記事が非常に興味深かったのでブログの中でシェアさせていただきます.
常識であると思っていた内容が実は誤っているといったものが複数あり,これは目からうろこでした.
研究に取り組まれる理学療法士・作業療法士は必見です.
前回に続いて後半の部分をご紹介させていただきます.
8.イェーツの連続性補正を使用しない
8.Do not use Yates’ continuity correction
Many methods have been proposed for testing equality of two proportions. A traditional recommendation is to use Pearson’s asymptotic χ2 test without Yates’ correction in ‘large’ samples, say all expected cell counts are at least five, else, use a small sample method such as Fisher’s exact test. Some authors use Pearson’s test with Yates’ correction. But Yates’ correction should be regarded as a historic curiosity from the time before computers were commonly available, and it should never be used.17 ,18 Similarly, the version of Yates correction for CIs should never be used.19 Further recommendations are given in refs 20 and 21.
これまでに2つの比率の等しさを検定するために多くの方法が提案されてきました.
期待されるサンプル数が少なくとも5個であると考えて,大規模標本でYates’補正なしでピアソンの漸近χ2検定を使用する方法,それ以外の場合はフィッシャーの正確確率検定のような方法を用いるのが一般的です.
しかしながら多くの研究者はYatesの補正を加えたピアソンの検定を使用しています.
しかしYatesの補正はコンピュータが一般的に利用できるようになる前に行われてきた手法で,現在は使用すべきではありません.
Yatesの「補正」はカイ二乗検定をFisherの「正確」検定に近付けるための補正なのですが,Fisherの「正確」検定は現実的な状況ではひどく不正確なので,そのことを理解せずにYatesの補正を使うのはとてもまずいわけですね.
9.平均(SD)は,非正規分布データにも関連している
9.Mean (SD) is also relevant for non-normally distributed data
The mean and SD are meaningful descriptive statistics for data following all types of continuous distributions and sometimes even for ordinal data, not only the normal distribution. A widespread misunderstanding is that one must use other measures such as median and IQR if data do not follow the normal distribution. In fact, the mean and SD have several favourable properties. For example, the mean and SD from different studies can readily be combined in a possible later meta-analysis. This is not the case for the quantile-related measures.
平均と標準偏差は,すべてのタイプの連続分布に従うデータに対して意味のある記述統計量であり,正規分布だけでなく,時には順序尺度データに対しても意味のある統計量です.
誤解されていることが多いのは,データが正規分布に従わない場合,中央値や四分位などの他の尺度を使用しなければならないといった考え方です.
実際,平均や標準偏差には,いくつかの好ましい特性があります.
例えば異なる研究の平均値と標準偏差は、後のメタアナリシスで簡単に組み合わせることができます.
これは分位に関連した尺度(中央値や四分位)の場合はそうではありません.
こう考えると正規分布でない場合には,中央値や四分位に加えて平均値と標準偏差も表記しておくのが無難でしょうね.
10.推定値,CI,p値を重要度の高い順に報告する
10.Report estimate, CI and (possibly) p value—in that order of importance
p Values are overused and overemphasised in medical research as well as many other applied sciences. This problem is well described in a recent article in Nature22 and its accompanying editorial.23 Sometimes authors report only the p value, for example: “Patients exposed to E were more likely than the unexposed to develop the disease D (p=0.04)”. The ‘Vancouver’-guidelines http://www.icmje.org/recommendations/browse/manuscript-preparation/preparing-for-submission.html#d state the following: “When possible, quantify findings and present them with appropriate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing, such as p values, which fail to convey important information about effect size and precision of estimates”.
p 値は医学研究だけでなく,他の多くの応用科学においても過剰に使用され,強調されすぎております.
この問題はNatureの最近の論文とそれに付随する論説で説明がなされております.
例えば「Eに曝露された患者は曝露されていない患者よりもD病を発症する可能性が高かった(p=0.04)」というように,p値だけを報告することもあります.
またVancouver’guidelines http://www.icmje.org/recommendations/browse/manuscript-preparation/preparing-for-submission.html#d には以下のように記載されております.
可能な場合には,所見を定量化し,測定誤差や不確実性に関する適切な指標(信頼区間など)を提示することが望ましいです.
p値のような統計的仮説検定だけに頼るのは避け,効果の大きさや推定値の精度に関する重要な情報を伝えることが重要です.
p値に加えて信頼区間を提示するのが必須だということがわかります.
11.事後で検出力の計算をしないこと
11.Post hoc power calculations—do not do it
Post hoc power calculations are futile, although it has been recommended by some journals. Power is the probability of rejecting the null hypothesis in a (future) study. Once the study has been conducted, this probability is either 1 (if the null hypothesis was rejected) else 0. Post hoc power is fundamentally flawed.24 After the study, meaningful quantifications of uncertainty are CIs and p values.24 ,25
事後における検出力の計算については,いくつかのジャーナルで推奨されておりますが,これに関しては無益です.
検出力というのは,(将来の)研究において帰無仮説が棄却される確率のことを指します.
研究が実施されると,この確率は1(帰無仮説が棄却された場合)でなければ0になります.
事後における検出力は基本的に欠陥があります.
サンプルサイズの計算は事前設計をすべきだということですね.
12.RCTでベースライン値の比較は必要ない
12.Do not test for baseline imbalances in a RCT
When reporting a RCT, it is recommended to show a table with baseline demographic and clinical characteristics for each treatment group. But testing for baseline imbalances in a properly randomised trial is futile, although reported in some medical journal articles. Such testing is discouraged by the CONSORT guidelines.26 Assuming that randomisation has been done properly, we can expect 5% of the baseline variables to differ significantly between the groups (at level 5%), see also refs 27 and 28.
RCTを報告する際には,各治療群のベースラインの人口統計学的特徴と臨床的特徴の表を示すことが推奨されます.
しかしながら適切に無作為化された試験でベースラインの不均衡を比較することは,いくつかの医学雑誌の記事で報告されておりますが,有益ではありません.
無作為化が適切に行われていると仮定すると,ベースライン変数の5%が群間で有意に異なることが予測されます.
うーん,これもなるほどなって感じですね.
RCTでもまずベースライン値に有意差が無いことを確認して,そのうえでアウトカムの差を比較するといった手順が現状の標準になっていますからね.
ベースラインの値が20個あれば,有意水準5%ですと偶然1つはベースライン値に差が出ても当然ということになります.
13.CIを報告するためのフォーマット
13.Format for reporting CIs
Commonly used separators between confidence limits are comma(,), semicolon(;) and hyphen(-). The comma and hyphen should be avoided, since they resemble a decimal separator, a thousands separator, or a minus sign. A good choice is to use ‘to’, for example, (0.16 to 0.25), as recommended by refs 29 and 30. The same advice applies for other intervals, such as IQR and minimum to maximum values.
信頼限界の間で一般的に使用される区切り文字には,カンマ(,),セミコロン(;),およびハイフン(-)があります.
カンマとハイフンは,10進数の区切り文字,千の区切り文字,またはマイナス記号に類似しておりますので,避けるべきです.
望ましい表記の方法としては,参考文献で推奨されているように,例えば(0.16 to 0.25)のように’to’を使用することです.
四分位や最小値から最大値までの他の間隔についても同様に考えるのがよいでしょう.
確かに95%信頼区間や第1四分位と第3四分位,最小値と最大値の範囲を示す際にどの記号を使うのかって悩みますよね.
「to」を使用すれば間違いなさそうですね.
14.実際のp値を2桁,最大小数第3位まで報告する
14.Report actual p values with 2 digits, maximum 3 decimals
Avoid reporting p values as n.s. or p<0.05 or p<0.01. The exception is extremely small p values, which ought to be reported as, for example, p<0.001. A much used recommendation is to report p values with up to 2 significant digits and maximum 3 decimals, such as p=0.12, p=0.035, p=0.006 and p<0.001.
p値をn.s.やp<0.05またはp<0.01として報告することは避けてください.
例外は,非常に小さなp値で,例えばp<0.001として報告する必要があります.
よく使われる推奨事項は,有効数字2桁までのp値と小数点以下3桁までのp値を報告することです.
これは最近当たり前になり始めていますよね.
正確なp値を表記することが重要ですね.
今回は理学療法士・作業療法士が統計解析を行う上での統計解析に関する誤用についてご紹介させていただきました.
私自身もハッとさせられる内容が多かったように思いますが,統計解析を行う際には上述した統計学の誤用に注意する必要がありそうですね.