Long WS Wide: или про то, как выполнить анализ разницы изменений между группами

Часто возникает простая статистическая задача – есть две группы и надо выполнить анализ: проверить есть ли различия между изменением которые произошли от скрининга до какой-либо другой временной точки. Что для этого делается? Правильно! Если у нас “широкий” датасет, то просто вычисляем новую переменную типа P1 – P2 и считаем обычным GLM (или даже T-тестом, не приведи Господь) каково межгрупповое различие (где G – группа). Далее делаем выводы.

1
2
3
4
5
6
7
8

COMPUTE DELTA=P2 - P1.
EXECUTE.
UNIANOVA DELTA BY G
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/EMMEANS=TABLES(G) COMPARE ADJ(LSD)
/CRITERIA=ALPHA(0.05)
/DESIGN=G.

Но, это работает в том случае, если вы по несчастью получили “wide” ненормализованный датасет.

Если вы вдруг счастливый обладатель “long” (нормализованного – в нормальной форме) датасета, то для проделывания такого фокуса вам надо денормализовать датасет и выполнить все о чем говорили. Выглядит неприлично и практически преступно по отношению к long датасету. Тут надо вспомнить что если у нас 2 группы и 2 временные точки, то фактически получается 4 разных подгруппы. Нам всего лишь надо вычислить средние для этих подгрупп и правильно их друг из друга вычесть. Для получения результата как выше надо вычислить LC = G1P2 – G1P1 – (G2P2 – G2P1) = G1P2 – G1P1 – G2P2 + G2P1 (всего-то).

Ну отлично, так и поступим – для этого в у команды GLM есть подкоманда /LMATRIX a для MIXED в SPSS есть подкоманда /TEST. Главное что нельзя забыть – включить фактор “субъект” S (этот фактор “поглащает” межиндивидуальную вариацию и делает возможным этот фокус – если не сделать, то получите завышенную оценку дисперсии).

1
2
3
4
5
6
7
8

GLM V BY G P S
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PRINT PARAMETER
/CRITERIA=ALPHA(.05)
/DESIGN=G*P S
/LMATRIX "l matrix"
G*P 1 -1 -1 1.

Можно отметить, что оценки идентичны. Еще можно использовать MIXED (в общем это даже более предпочтительный подход, но идентичность результатов не гарантирована):

1
2
3
4
5
6
7
8
9

MIXED V BY G P S
/CRITERIA=DFMETHOD(SATTERTHWAITE) CIN(95) MXITER(100) MXSTEP(10) SCORING(1)
SINGULAR(0.000000000001) HCONVERGE(0.00000001, RELATIVE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0,
ABSOLUTE)
/FIXED=G*P | SSTYPE(3)
/METHOD=REML
/RANDOM=INTERCEPT | SUBJECT(S) COVTYPE(ID)
/REPEATED=P | SUBJECT(S) COVTYPE(ID)
/TEST G*P 1 -1 -1 1.

Все тоже самое можно повторить и в другом ПО. Надо понимать, что использование таких возможностей может сократить количество действий связанных с DM и сделать сравнение более прозрачным и управляемым. И все это возможно в случае, если вы приводите данные к “long” формату, который позволяет выполнять большее количество операций без реструктуризации данных. И даже, казалось бы, наиболее приспособленные к “wide” датасету операции без проблем выполняются и в случае “long” формата, просто с использованием расширенного синтаксиса.

Датасеты SPSS из примера (58132 Загрузки )