製造業における「同等性検定」の活用　Part1. 平均の同等性検定

Masukawa_Nao · Sep 11, 2023 09:36 PM

先日、製造業のお客様向けに、JMPを利用した統計的検定と利用例を解説するWebセミナー(*)を実施しました。品質管理における例を用いて検定手法の必要性や考え方を説明しましたが、最後に説明した「同等性の検定」に多くのお客様が関心を持っていただけました。

* このセミナーのオンデマンド版（日本語）を公開しております。本ブログの最後をご参照ください。

セミナー後に取得したアンケートでは、"実務ではほとんどのケースで同等性検定を実施する"という回答もあり、同じであることを示す必要のあるケースが多い製造業でのニーズがあることを確認できました。

同等性のイメージ図

左図の例：今の工程は目標値からずれていない（ほとんど同じ）

右図の例：2つの施設で作られた原料の重さは等しいとみなしてよい

セミナーでは、2つの製造施設で製品される医療用チューブの特性値（外径）が同等であることを示す、いわゆる二標本の平均に対する同等性検定の例を取り上げました。今回のブログシリーズでは、同等性検定のフォローアップも兼ねて、セミナーではご紹介できなかった次のケースを取り上げます。

Part 1. 一標本平均の同等性　（本ブログ記事）

Part 2. 二標本割合の同等性　（次回のブログ記事）

一標本平均の例

次のような例を考えてみます。

ある化学メーカーにおいて、以前は製造会社Aからビニール製品（部品）を納入していたが、コストの関係で製造会社をBに変更した。
製造会社Aで製造されていたビニール製品の引張強度の平均は100.0(N/cm) であり、ばらつきは抑えられていた。

⇒　製造会社Bで製造されているビニール製品の引張強度は、製造会社Aのものと同等であることを示したい。

製造会社Bのビニール製品について、ランダムに10個のサンプルを抽出し引張強度を測定した結果は次の通りです。

99.6, 101.0, 102.3, 98.1, 100.9, 101.5, 101.4, 97.5, 100.7, 100.8

同等性の検定では、事前に分析者がここまで差であれば同等とみなすことができる許容域（マージン）を決める必要があります。ここでは許容域を1とし、"100±1 の範囲内であれば同等とみなしてよい"こととします。

実際は、製造会社Bからとられたサンプルに対して平均を求め、平均の（両側）90%信頼区間が許容幅の範囲内に収まっていれば同等とみなせるのです。

JMPで一標本の平均の同等性検定を実施するには、[一変量の分布]でデータを入力した連続尺度の列を[Y] に指定しレポートを表示させます。

レポートから10個のビニール製品の平均は100.38であることがわかります。製造会社Aの平均100.0 より0.38ほど大きくなっていますが、データのばらつきも考慮して同等性がいえるか調べることになります。

レポート「引張強度(N/cm)」の左にある赤い三角ボタンから [同等性の検定]　を選択し、目標値を100、実質的に0とみなす差（マージン）を1と入力すると、次のようなレポートが表示されます。

「同等性検定」のレポートを見てみましょう。図や統計量がいろいろと表示されていますが、最後に結論が書かれています。この例では、「平均は100と同等である」と結論づけられます。すなわち、"製造会社Bのビニール製品の引張強度は、製造会社Aのものと同等とみなしてよい"　ことが言えたのです。

この化学企業としてはコストが削減でき、同等のビニール製品を作ってもらえるので満足といったところでしょうか。

同等性検定の手法

JMPでは同等性の検定手法として、2つの片側検定法（TOST法：Two One-Sided Test method）を用いています。2つの片側検定とは、以下の①、②の仮説に対する検定を示します。

①帰無仮説：μ≦ 99、対立仮説： μ>99

②帰無仮説：μ≧ 101、対立仮説： μ<101

①、②にどちらの検定においても帰無仮説が棄却され対立仮説を支持できれば、平均が99～101の範囲内にあることが言えるのです。

実際にこれらの仮説に対する片側検定を行うと、①のp値は0.0008、②のp値は0.0380となります。有意水準を0.05としたときどちらも有意差があるので、①、②ともに対立仮説を支持する、すなわち同等性が言える（平均値は仮説値に実質的に等しい）のです。

同等性の検定を分かりやすく図示したものが、最初に表示されるグラフです。同等とみなす範囲（青色の領域）に、平均の90%信頼区間が含まれています。要は、許容幅の範囲内に、平均の信頼区間が含まれていれば同等とみなしてよいだろうという考え方なのです。

同等であるとはいえない例

上の例では"同等性が言える"という結論でしたが、言えない例も挙げてみましょう。先ほどの例で、次のような引張強度の測定結果が得られた場合です。

99.6, 101, 102.3, 98.1, 100.9, 101.5, 101.4, 97.5, 100.7, 100.8

先ほどと同じく10個のサンプルであり、平均値も先ほどと同様に100.38です。ただ、先ほどに比べばらつきが大きく、標準偏差が1.53と大きくなっています。

この場合、同じ仮説平均、マージンで同等性の検定を実施すると、平均の90%信頼区間は同等とみなす範囲に完全に含まれていないことがわかります。レポート最後に表示されている結論でも、「母平均は100と同等でない」を棄却できない　と書かれています。この場合は、同等とみなすことはできないのです。

このことからも、データのばらつきも考慮して同等性を判断していることがわかるでしょう。

検出力の観点から必要なサンプル数は？

最後に簡単にではありますが、検出力の観点から必要なサンプル数を求める方法を説明します。

今回の例では10個のサンプルをとって同等性の検定を行いましたが、10個で適当なのか？もっと多い方が良いのでは？　という疑問に対し、一つの見解を与えるのが検出力の計算から求められるサンプル数です。

JMPのメニューバーから [実験計画法] > [標本サイズエクスプローラ]> [検出力] > [一標本平均の同等性の検出力]　とたどっていくと、今回の例に対する必要なサンプル数を計算できます。通常、同等性の検定を実施する前に、この機能を使ってどれぐらいサンプルを取ればよいかを見積もることを想定しています。

ただし、事前に分析者が仮定しておかないといけないことがあります。

標準偏差（σ）：標準偏差（以前の類似した試験や固有知識などから見積もる）

上側マージン、下側マージン：想定する同等性の許容域

検出力：同等性がいえることを正しく検出できる確率。通常、検出力は80%以上であることが望ましい

例えば、標準偏差が1、マージンとして1を指定し、検出力が80％をはじめて超えるサンプル数（"標本サイズ" と表示）を調べると11となります。

今回の例で、事前に標準偏差が1と仮定するのであれば、11ぐらいサンプルをとれば良いだろうということになります。

標準偏差が1.5と大きめに仮定するのであればどうでしょう。この場合は21ほどのサンプルが必要となります。データのばらつきが大きいので、その状態で同等性をいうのであれば、20ぐらいは必要となってくるのです。

by 増川直裕（JMP Japan）

参考：オンデマンドセミナー

「製造業向け　JMPを使った統計的検定手法の概要と利用例」オンデマンド（日本語）