p値
新しく作ったシステムの
ユーザ評価を行なうとき、結果がどの程度信頼できるのかを示す指標として
p値がよく利用されています。
> 帰無仮説の下で実際にデータから計算された統計量よりも極端な(仮説に反する)統計量が観測される確率を、p値という。
帰無仮説(null hypothesis)とは「効果や違いが無い」という仮説で、これが否定されれば「効果があった」と判断できます。
たとえばイカサマコインの判定は以下のように行ないます。
コインの裏表が対称だという帰無仮説をたてる
コインを10回投げたら全部表だったとする
偶然そうなる確率は 1 / 2^{10} = 0.001
つまりコインは対称でなかったと判定される
base rate = 基準率
> 何度も比較を行えば、本当は存在しない現象が存在するかのように判断されてしまう可能性がある。
Nature記事
検定力が低い実験を何度もやると良いp値が出てしまう?
帰無仮説が成り立っているという条件のもとで、ある統計的な事象が発生する確率
(Hが帰無仮説, xが統計量とする)
P(X = x | H)
この確率(p値)が低いということは、最初の条件(仮説)が成り立っている確率も低いわけだから、仮説が成り立っていないものとしてよい(=帰無仮説を棄却してよい)、ということ