it-swarm-eu.dev

Kdy je důležitá statistická významnost?

Kdy je důležitá statistická významnost testu použitelnosti?

Ptám se, protože v nedávný podcast Boagworld , Steve Krug mluví o tom, jak doporučuje testování pouze se třemi uživateli. Na otázku, zda je to statisticky významné, říká ne a pokračuje vysvětlením, že na parafrázi to opravdu nezáleží, protože některé problémy způsobí, že každý spadne do určitých kroků.

15
Philip Morton

Neexistuje žádný rozpor mezi tím, jak se zabývat statistickou významností a prováděním testů použitelnosti u 3 až 5 uživatelů. Technicky znamená „statistická významnost“ výsledky, které vidíte, nelze věrohodně připsat náhodě. Ve vědeckém výzkumu, kde jsou náklady na hlášení nepravdivých výsledků vysoké, je „věrohodný“ obecně definován jako pravděpodobnost 0,05 nebo vyšší. Při použití tohoto testu použitelnosti u pouhých tří lidí existuje několik problémů.

Za prvé, úroveň významnosti vašich výsledků závisí nejen na velikosti vzorku, ale také na velikosti pozorovaného účinku (tj. Jak se liší od vaší nulové hypotézy). Pokud je velikost dostatečně velká, můžete mít význam s malými vzorky. Jaká je tedy velikost testu v případě testu použitelnosti? S čím porovnáváte svůj účinek?

Pokud spustíte binomické výpočty, ukáže se, že pokud 3 z 3 vašich uživatelů mají s vaším produktem vážný problém, pak na úrovni významnosti 0,05, alespoň 36% populace bude mít také stejný závažný problém s vaším produktem (jednostranný test). Nevím o vás, ale 36% je strašně velká část vašich uživatelů, kteří frustrují, a samozřejmě by to mohlo být mnohem víc. Je to zjevně závažný problém s použitelností. Krug si očividně neuvědomuje, že pokud máte problém, který „způsobí, že všichni padnou“, budou výsledky ze vzorku asi 3 lidí statisticky významné pro pragmatickou nulovou hypotézu.

Nebo si vezměte pravidlo testování použitelnosti, abyste měli asi 5 uživatelů na test použitelnosti. Pokud problém postihuje 30% nebo více vašich uživatelů, máte více než 0,83 pravděpodobnost, že si jej všimnete jednoho nebo více uživatelů s velikostí vzorku 5. Na druhé straně, pokud problém ovlivní 2% nebo méně vašich uživatelů, pak mají menší než 0,096 pravděpodobnost, že ji budou pozorovat u 1 nebo více uživatelů. Takže testováním 5 uživatelů a věnováním se všem, co vidíme u jednoho nebo více uživatelů, máte vynikající šanci zachytit nejčastější problémy a malou šanci ztrácet čas na problémy ovlivňující malou menšinu.

Dosud se ignoruje statistická významnost vyvodit závěry z testů použitelnosti pro 3, 4 nebo 5 uživatelů je ve skutečnosti dokonale v souladu se zákony pravděpodobnosti. Proto empiricky fungovalo tak dobře. Statistická významnost se navíc vztahuje pouze na kvantitativní výsledky. Testy použitelnosti také obvykle zahrnují kvalitativní výsledky, které mohou zvýšit vaši důvěru v závěry. Zjistíte nejen, kolik z nich má problém, ale prostřednictvím svých pozorování a vyslýchací otázky odhalíte proč. Pokud je zřejmý důvod, proč je něco, co bude pravděpodobně pro mnoho vašich uživatelů relevantní, měli byste mít ve své výsledky větší důvěru.

To však znamená, že je nutné upozornit na testování s tak malými velikostmi vzorků, které se vrací k problému velikosti účinku: testy použitelnosti malých vzorků jsou dobré pouze pro nalezení velkých zjevných problémů - které mají vliv na velkou část uživatelů. Někdy se však musíte obávat problémů, které mají vliv na malý podíl. V extrémním případě, pokud se problém vyskytne pouze u 2% vašich uživatelů, ale skončí tím zabíjením těchto 2%, pak o tom zjevně chcete vědět, a zjevně to nebude snižovat velikost vzorku 5.

Podobně při porovnání výsledků dvou návrhů nebo problémů nemůžete s jistotou říci, že jeden je lepší než druhý s malou velikostí vzorku, pokud jeden úplně nevyfukuje druhého z vody. Pokud potřebujete vědět na úrovni závažnosti 0,05, který problém je větší nebo který design má lepší výsledky, je třeba použít větší velikosti vzorku. Jako rychlý a špinavý (a konzervativní) odhad velikosti vzorku, který potřebujete, udělejte požadovanou přesnost, invertujte ji a čtverec ji. Pokud například chcete znát procento uživatelů, kteří dokážou splnit úkol, do 5%, pak potřebujete tolik, kolik (1/0,05) ^ 2 = 400 uživatelů!

Na druhé straně, kdo říká, že potřebujete význam na úrovni 0,05? Jaké jsou pro podnik důsledky výběru jednoho návrhu, který se má stavět, nebo jednoho problému, který se má vyřešit nad druhým? Nebyli bychom v mnoha situacích spokojeni s 0,10 pravděpodobností, že budou očarovány falešnými výsledky? Nebo dokonce 0,20? Náklady na chybějící dobrý design nebo problém s nejvyšší prioritou mohou být mnohem víc než chybné sledování něčeho, když to nijak nezmění. Pro jakoukoli danou velikost vzorku, čím větší je skutečný rozdíl v velikosti, tím menší je šance, že se mýlíte, takže pokud se mýlíte při výběru jedné věci nad ostatními na úrovni významnosti 0,20 pravděpodobně nebudete strašně špatně - je nepravděpodobné, že by bylo mnohem lepší jít s další možnost.

Vezměte další extrémní případ: Testujete dvě ikony na něco u tří uživatelů. Dva uživatelé si s ikonou A dělají dobře, zatímco u ikony B. se jim daří jen jeden. Pro nulovou hypotézu o stejném výkonu ikon je úroveň významnosti pro dva ocasy 1,0 - nemůžete získat žádnou nevýznamnější. Ale kterou ikonu si vyberete? Jedna ikona nestojí nic víc než ta druhá a vy musíte vybrat jednu. Takže samozřejmě vyberete ikonu A. Je zřejmé, že byste měli mít nízkou důvěru ve svůj výběr. Je zřejmé, že je přiměřeně věrohodné, že ikony by mohly v reálném světě fungovat stejně dobře. Existuje dokonce přiměřená pravděpodobnost, že B je ve skutečnosti lepší než A. Ale v případě neexistence jakýchkoli jiných údajů je ikona A zjevně vaše nejlepší sázka. V přítomnosti dalších údajů záleží na úrovni významnosti - chcete vědět, jak velkou důvěru v každou informaci máte. Jde o to, že nemusíte být vždy 95% přesvědčeni o informacích, aby se vyplatilo zvážit.

Pro sofistikovanější analýzu viz Lewis, J. R., (2006). Velikosti vzorků pro testy použitelnosti: Většinou matematické, nikoli magické. Interakce, 13 (6), str. 29-33.

20

Nezáleží na statistické významnosti , protože testy použitelnosti poskytují pouze vstup pro váš návrhový proces; neřídí to.

Pokud například tři ze tří lidí uvedli, že chtějí výsledky vyhledávání třídit, nemusí to nutně znamenat, že byste měli přidat funkci řazení. To znamená, že byste měli zvážit, proč to lidé říkali a co je základem. Možná skončíte navrhováním druhu. Možná filtr. Možná něco jiného.

Podívejte se na seznam ( Mýtus použitelnosti :

zatímco samotné testování není dobrým ukazatelem toho, kde by měly být priority týmu, je to určitě součást procesu triangulace. Pokud jsou výsledky vloženy do kontextu s dalšími údaji, jako jsou například cíle projektu, cíle uživatelů, zpětná vazba od uživatelů a metriky využití, pomáhá testování vytvořit úplný obrázek. Bez tohoto kontextu však může být testování přinejlepším zavádějící nebo nepochopené a v nejhorším možné přímé poškození.

V Proč je první pozorování uživatelů špatně , Don Norman trenchantně poznamenal:

Testování použitelnosti je jako testování softwaru Beta. Nikdy by nemělo být použito k určení „toho, co uživatelé potřebují“. Je to pro chytání chyb.

Existuje také zajímavý dokument od Constantine & Lockwood: Za design zaměřený na uživatele a uživatelské zkušenosti: Designing for User Performance .

7
Bennett McElwee

Zopakoval bych Michaelovo varování, že reprezentativnost je důležitější než velikost vzorku.

Pokud jde o problematiku statistického významu a druh testování slev podrobně popsaný Krugem a Nielsenem. Myslím, že Krug a další nabízejí odpověď, že statistický význam není relevantní, protože se může jednat o složité téma a vždy jsou lidé připraveni pouštět se do vašich statistik, a řeknou vám (často chybně), že se mýlíte - což je nešťastné. Celé konverzaci se můžete vyhnout pouhým prohlášením, že nepoužíváte statistiky (což je nešťastné, ale běžné).

Jak se to stane, můžete použít statistiky s libovolnou velikostí vzorku (i 3). V souvislosti s typickým testem použitelnosti s nízkými náklady na „nalezení a opravu“ můžete stále používat statistiky, abyste pochopili, jak časté jsou problémy a počet problémů, s nimiž se pravděpodobně setkáte.

Jak Michael zmínil, jedna oblast má intervaly spolehlivosti. Pokud vidíte stejný problém u 3 ze 3 lidí, můžete odhadnout, kolik uživatelů by narazilo na problém pomocí intervalu binomické spolehlivosti (kalkulačka je zde http: //www.measuringusability). com/wald.htm ).

Zadáním 3 úspěšných a celkem 3 získáme 95% interval spolehlivosti mezi 47% a 100%. Můžeme s 95% jistotou říci, že nejméně 47% našich uživatelů by mělo tento problém (netriviální částka). Udělali jsme statistický požadavek pouze se 3 uživateli.

Další otázkou by bylo, s ohledem na velikost vzorku 3 uživatelů, kolik problémů jsme pravděpodobně viděli. Nejprve to platí pouze pro úkoly, části rozhraní a typ uživatelů, které testujete, změnit někoho z nich a je třeba přepočítat.

Statistický výpočet je opět založen na binomice. Pokud jste po testování 3 uživatelů chtěli znát počet problémů, které jste našli nebo nenalezli, použijte tuto strategii.

Například, pokud máte za cíl najít problémy, které ovlivní nejméně 30% všech uživatelů, pak byste měli naplánovat testování 8 uživatelů, aby měli 95% šanci, že uvidí problémy, k nimž často dochází v testu použitelnosti. . POZNÁMKA: To neznamená, že jste našli 95% všech problémů (jak se často říká), našli jste pouze 95% všech problémů, které ovlivňují 40% všech vašich uživatelů. Jinými slovy, s malými velikostmi vzorků uvidíte pouze zjevnější problémy. Použijte tuto kalkulačku http://www.measuringusability.com/problem_discovery.php

Krugovi je však obvykle tolik „zjevných“ problémů, které je třeba napravit, nemusíte se příliš starat o problémy, které mají vliv pouze na 1 z 10 uživatelů.

Článek se simulací a odkazem na kalkulačky je k dispozici zde http://www.measuringusability.com/five-users.php

3
Jeff Sauro

Přemýšlejte o tom tímto způsobem. Řekněme, že podniknete výlet do vzdálené země. Vystoupíte z lodi a všichni měli 12 prstů. Nevíte, jestli je to anomálie nebo že všichni v celé zemi jsou takoví. V tomto scénáři prodáváte rukavice. :)

Nezáleží na tom, zda jste měli statistickou důvěru nebo ne. Jakmile jsi vystoupil z lodi, viděl jsi obří červenou vlajku. To je jasně něco, co musíte prozkoumat a zjistit, co se děje. Pokud jste prodali kytary, možná vám to nebude záležet. Jednoduché (bez sebevědomí) studie použitelnosti vám pomohou identifikovat velké červené vlajky. To je obvykle vše, co potřebujete pro zlepšení systému.

2
Glen Lipka

Oooh, vidím, jak se tenhle stává kontroverzní. Moje 2p:

Pokud provádíte experiment se slušným počtem účastníků a máte v úmyslu provést statistickou analýzu, pak je při sestavování vašich výsledků prvořadý význam statistický význam (tj. Co je pravděpodobné až náhodou a co je pravděpodobné až interakcí mezi vašimi experimentální faktory).

Pokud provádíte interakční výzkum na malém počtu účastníků, tvrdil bych, že druh empirické analýzy, o které mluvíte, není vhodný kvůli malé velikosti vzorku.

Při provádění statistických analýz je význam IMHO vždy relevantní a důležitý. Otázkou tedy je, kdy je vhodné provádět statistické analýzy? Moje odpověď by byla, kdybyste měli dost účastníků. Pokud ne, neprovádějte analýzy a jednoduše ignorujte význam, protože výstup bude zbytečný nebo bude mít malou hodnotu/platnost.

N

2
Nick Fine