目次
信頼性ってどうやって計算するの?
理学療法・作業療法の分野では検査・測定の信頼性が問われます.
皆さんも学生時代に「あなたが行っている検査は信頼性があるの?」なんて指導者から問われた経験があるのではないでしょうか?
でも信頼性の意味を理解している人は意外に少なかったりします.
今回は信頼性について考えてみたいと思います.
信頼性とは?妥当性とは?
信頼性という言葉以外にも検査・測定の精度を表す言葉として妥当性という言葉があります.
検査・測定を行う上では,信頼性と妥当性といった言葉の相違を理解しておく必要があります.
信頼性というのは複数回測定してもおおよそ同じくらいの値が出るかどうかといった指標です
再現性といった言葉で表現されることもあります..
これは,検者内はもちろんですが,検者間でも測定した値がばらついていては標準化できませんので非常に重要です.
一方で妥当性というのは行った検査・測定が目的とした生涯を評価できているかどうかといった概念です.
例えばBerg balance scaleというバランスのバッテリーがありますが,このBerg balance scaleが本当にバランスを評価する指標として妥当かどうかといった概念です.
妥当性を検討する場合には,基準関連妥当性といって既存のバランス評価との相関関係を検討して,妥当性を検証することが多いです.
信頼性はどうやって検証するのか?
信頼性(再現性)については,測定の検者内または検者間信頼性を示す指標の1つとして,級内相関係数(ICC)を元に検討がなされることが多いです.
ICCは分散分析(3標本以上の平均の差の検定)で得られた分散成分を利用して計算するため,基本的にはパラメトリックなデータで,平均や分散が有効な情報となりえる比率尺度,間隔尺度のデータに適用されます.
順序尺度のデータに関しては,パラメトリックに従う母集団からのデータで,段階数の多いデータであれば適用されますが,極端に判定されることがあるので注意が必要です.
ノンパラメトリックデータに対して信頼性を検討する方法については後述いたします.
またICCには3つの形式(Casel・Case2・Case3)があり,合計6つの下位モデルが提唱されています.
6つの公式には,それぞれICC(1,1),ICC(1,k),ICC(2,1),ICC(2,k),ICC(3,1),ICC(3,k)があります.
ICC(1,1),ICC(2,1),ICC(3,1)は,一般化可能性研究の一部で,分散を推定する実験計画の過程でバラツキを推定します.
算出された測定値の信頼性を知りたい場合には,同じ状況(判定回数,判定員,判定基準など)で測定しても得られた結果は完全には一致せずバラツキが生じます.
このバラツキがどのくらい大きいかを推定し,判定に与える影響を検討します.
それぞれ, 1人の検者で2回以上繰り返し測定した値の検者内信頼性を知りたい場合はICC(1,1)を利用し(Casel),2人以上の検者それぞれが1回ずつ測定した値の検者間信頼性を知りたい場合はICC(2,1)を利用し(Case2),検者間信頼性を知りたいが特定の検者の検者間信頼性を知りたい場合はICC(3,1)を利用(Case3)します.
ICC(1,k),ICC(2,k),ICC(3,k)は,決定研究の一部で,分散分析の影響を推定し,適切なテスト使用計画を立てる過程で利用します.
算出された測定値のバラツキを求めたら,複数人から算出された測定値の平均を利用し信頼性を検討します.
その際,判定回数や人数を増やして信頼性係数を求めると,増やす前と比較して係数が高くなりますが,信頼性を確保するのに低限必要な人数を知りたい場合にも用いられます.
それぞれ, 1人の検者が被験者n人をk回測定した平均をデータとした場合の検者内信頼性を知りたい場合はICC(1,k)を利用し(Case1),検者k人で被検者n人を測定した平均のデータに対して検者間信頼性を知りたい場合はICC(2,k)を利用し(Case2),測定した平均で特定の検者間信頼性を知りたい場合はICC(3,k)を利用します(Case3).
例えば4人の被験者を対象として,それぞれ3回測定を行い算出された測定値の信頼性について知りたいとします.
これは検者内信頼性(Case1)といわれ,ICC(1,1),ICC(1,k)で求めることができます.
ICC(1,1)で信頼性を推定します.
次に1人の検者が被験者n人をk回測定した平均のデータに対してどのくらいの信頼性となっているかを知りたい場合にICC(1,k)で求めます.
ICC値の解釈はどうするの?
ICC値の解釈については,いくつかの見解があります.
0.8以上であればほぼ完全な一致であるとも言われますが,この数値には明確な根拠はなく絶対的な基準ではありません.
むしろ,一般的には0.7以上であれば信頼性は高いと評価されていますし,研究上の問題もないといった見解もあります.
ただ,より正確に検討するためには,2つの視点からの検討がひつようです.
1つは区間推定という方法を用いた検討です.
求めたICC値は,今回のデータから算出されたものであり,真の値は異なっているかもしれません.
真の値は信頼区間から推測することができ,一般的には95%信頼区間が用いられます.
95%信頼区間というのは,真の値は95%の確率でその範囲にあるということを示したものです.
例えば,ICC値が0.81になったとしても95%信頼区間が0.6~0.9であれば,0.7以上の信順性が高いと断言することは問題があります.
データ数を増やせば,信頼区間を狭くなりますので,厳密に調べたいと言うことであればデータ数を増やして検討したほうがよいということになります.
PCを用いた解析であれば,ICC値ともに区間推定も算出されることが多いので,区間推定も合わせて検討することが必須です.
またデータを見る際にはICCのみでなく信頼区間を確認することが重要です.
もう1つの視点は,標準誤差を用いた検討です.
例えば, 10m歩行時間を考えたときに5~20秒で歩く人がいる群にとっての1秒の誤差と,5~10秒で歩く人にとっての1秒の誤差では,同じ1秒の違いでも平均や順位に与える影響は異なることは理解できると思います.
このように集積されたデータの範囲による違いは,範囲制約性とよばれICC値の欠点として知られています.
範囲制約性に対しては求めたICC値の標準誤差を用いる方法があります.しかし,算出SPSSのようなPCを用いた専門の統計解析ソフトでも標準誤差は自動的には算出されないことが多いので,理学療法分野でここまで検討されることはまずありません.
ただ,このような問題があるということは知っておくとよいでしょう.
ノンパラメトリックな手法について
信頼性の検定で,順序尺度または名義尺度のデータに適用されるノンパラメトリックな手法では,測定の一致度の指標としてκ係数が用いられます.
κ係数は,2人の検者によって,2人以上の被験者または2回以上の測定を行ったときの評価の一致率を表す係数です.
評価段階ごとにデータ数が偏ると,一致度が同じであっても算出される係数値が変化します.
今回はデータの信頼性について考えてみました.
われわれがよく口にする信頼性というのは再現性を表す指標であること,信頼性を検討するには級内相関係数を算出する必要があるといったことを理解いただけたかと思います.
コメント