診断薬開発雑記

臨床検査試薬を開発するバイオ技術のブログ。誰かの役に立つかもしれない事を思い付くままに書いています。

2018年12月

相関性試験 (2)データの偏りはなくすべきか?

さて相関性試験の続き。
AとB、どちらが相関性としてふさわしいでしょうか。

相関試験2

もちろんBの方ですよね。
データは偏りなく、低値から高値まで満遍なく分布するのが理想です。
本来数学で扱う相関性とは、そのようなデータに対して調べられる事を想定しています。

ところが、私たちが良く実施する相関性試験は、Aに近い場合がほとんどです。
だって統計的には健常者が多いので、無作為にサンプリングすれば、データは基準値付近に偏るはずです。これは自然なことなのです。
Bのようなデータを見ると、検体に抗原をスパイク(高濃度の抗原を少量添加)して、人工的に作ったのだろうと察しがついてしまいます。

ここまできて、あれ?AとBのどっちが相関性試験としてふさわしいの?と迷われる方もいることでしょう。

臨床検査技師さんや、我々技術者がまず躓くのがこの点です。
もっと勉強しようとして、数学の本で相関性を学ぶと、臨床検査において不都合な点がいくつも見つかってしまう。
それで短絡的に「相関性試験とは如何にあるべきか」を語り出してしまう、そういう人いませんでしたか?

実は数学でいう「相関性」と、臨床検査の評価試験として実施する「相関性試験」とは、似て非なる物なんですよ。
臨床検査では、数学でいう「相関性」のやり方を、測定試薬の評価方法として、ちゃっかり利用しているだけなのです。
だからやり方は全く同じ、でも細かいところで不適切。

相関性試験というのは診断薬の評価試験としてはルーズなもので、
「今まで相関性を使ってやってきたけれど、これで誰も問題視していないから、このままで。」
という具合で続けられてきたものです。
そのツケが我々に回ってきているのです。

まだまだ続きます。

相関性試験 (1)みんな間違えるExcelのアレ

次は相関試験の話をしますね。
これが結構奥が深いんですよ。

試験自体は簡単で、測定試薬2つで同じ臨床検体を50例以上測定し、散布図を書かせて回帰式と相関係数を求める、というものです。
手慣れた人ならExcelで次のような図を描くことでしょう。

相関試験1

これで「はい終わり」としてしまっている人、結構多いんじゃないでしょうか。
回帰式は合っています。でも相関係数をちゃんと計算して書かないと。

「え、R^2が相関係数じゃないの?」
いいえ違うんです。
これは決定係数。回帰式がデータをどれだけ良く反映しているかを表している係数で、1に近いほどフィッティングが良いことを示しています。
直線回帰の場合は必ず、相関係数の2乗になるのです。

つまりExcelが私たちに親切で、相関係数を自動で計算してくれる機能を付けてくれた訳ではないのです。
Excelの「近似曲線の書式設定」でも、「グラフにR-2乗値を表示する」と書いてあって、そこにチェック入れたでしょ?
R-2乗値というのが相関係数だと勘違いしているだけなんです。
決定係数というのは多項式近似などの曲線回帰の場合でも意味がある数字で、Excelは回帰の当てはまり度合いをR-2乗値として計算してくれているだけなのです。

つまり、Excelでは散布図を作成して、「近似曲線の書式設定」で線形近似を選んで、「グラフに数式を表示する」にチェックを入れた後、
①「グラフにR-2乗値を表示する」にもチェックを入れて、R-2乗値の平方根を取って、r=0.??と書き込む、
②関数CORRELを使って相関係数を計算して、グラフにr=0.??と書き込む、
とするのが正解です。

間違えてる人、結構いますよ。
学者さんでも「相関係数R2乗は0.95であり…」とか学会で発表していたりしますし。

相関試験の話はまだまだ続きます。
プロフィール

技術者TH

Twitter プロフィール
バイオ系実験あるある等を気まぐれにつぶやいています。
楽天市場