sobota, 12 września 2015

Parametryzacja w modelach liniowych - alternatywa dla B i Bety?

Update:
przykład pokazujący, że przeliczenie parametru B dla całego range nie zmniejsza wiarygodności tego parametru, a jedynie ułatwia jego interpretację (pomińmy bezsensowny intercept...):
Wykres 1: las w ha i standardowy parametr B (wzrostu wielkości lasu o 1ha daje o 0.0933 jarząbka więcej)

Wykres 2: to samo, ale parametr B przemnożony przez range (wzrostu wielkości lasu od najmniejszego do największego na danym terenie daje o 9.33 jarząbków więcej)
Wykres 3: las w kilometrach kwadratowych, standardowy parametr B (dla wzrostu wielkości lasu o 1km2 mamy o 9.33 jarząbków więcej)

Na czym polega wada parametru z modelu 2? Nie widzę tu wad innych niż dla "zwykłych" parametrów, a ma trochę zalet - patrz lista poniżej, ale przypomnę: B*range jest zawsze ten sam dla różnych jednostek predyktora (ha,km2,akr,mila morska) i jest wyrażony w jednostkach zmiennej zależnej, więc ułatwia interpretację (tu: w jarząbkach). Beta (policzona funkcją "lm.beta" z pakietu "QuantPsyc") wynosi: 0.9505 (niezależnie czy używamy ha czy km2) ale przyznam, że nie jest łatwa w interpretacji (poza tym wymaga normalności predyktora). A dziewięć jarząbków, to jest jakiś konkret :-)

I jeszcze cytat ze StackExchange, akurat znalazłem:
...the idea that standardizing independent variables makes it easier to compare the effects of one variable to another. This advantage is, in my opinion, somewhat illusory, since it depends on the range of data in your sample. Although it's a matter of some contention, I am generally against standardizing variables. Variables themselves are, in my view, easier to interpret than standard deviations of variables - we often have an intuitive sense about variables themselves.
 

Problem roboczy, niezbyt dobrze przemyślany:
parametry modeli liniowych są najczęściej prezentowane jako zmiana wartości zmiennej zależnej w reakcji na wzrost wartości danego predyktora o jedną jednostkę (standardowy output z Ra, SPSSa itp). Problem z interpretacją takiej tabeli polega na tym, że różne predyktory są wyrażane w różnych jednostkach (np. powierzchnia lasu i temperatura), co nie jest zbyt odkrywcze, oraz na tym, że różne predyktory mają różną "rozpiętość". 

Przykład: sprawdzamy wpływ powierzchni lasu i liczby strumieni na obecność jarząbka. Powierzchnię lasu mamy w hektarach, a liczba strumieni opisuje po prostu ile ich jest w danym lesie (wbrew pozorom te zmienne nie są mocno skorelowane). Z tym, że powierzchnia waha się od 5 do 150, a liczba strumieni od 0 do 5 (wartości zmyślone). Z modelu otrzymamy info jak rośnie szansa stwierdzenia gatunku wraz ze wzrostem pow lasu o 1 hektar i wzrostem liczby strumieni o 1 strumień. I tu moja wątpliwość: czy nie jest bardziej informatywne przedstawienie wzrostu szansy stwierdzenia gatunku wraz ze wzrostem powierzchni lasu o 145ha, zamiast o 1ha (a liczby strumieni o 5, zamiast 1)? Czyli dla pełnego zakresu zmienności danego predyktora, a nie o jedną jego jednostkę. A nawet jeśli takie przedstawienie parametrów nie jest substytutem tradycyjnego, to może warto je prezentować równolegle do niego?

Jakie są zalety takiej metody:
* możemy bezpośrednio porównać znaczenie predyktorów wyrażonych w różnych jednostkach i w tych samych jednostkach (być może nawet mówić o istotności różnic, na podstawie 95%CI - muszę o tym pomyśleć),
* mamy lepszą informację jak ważny jest faktycznie dany predyktor w rzeczywistości, bo pokazujemy jego potencjalny sumaryczny wpływ dla całej rozpiętości wielkości lasów, która faktycznie ma miejsce w danym krajobrazie.

Zrobiłem takie przeliczenie kiedyś w pracy o jarząbku właśnie, w publikacji z Łukaszem Kajtochem, bo wydawało mi się to rozsądne. Wygląda to tak (ostatnia kolumna, czyli B*range):
Nadal wydaje mi się to rozsądne ale bardzo możliwe, że popełniam błąd w rozumowaniu? Beta nadaje się do porównywania predyktorów ale same jej wartości są chyba mniej informatywne niż wartości B (ile nam mówi SD średniej powierzchni lasu?). A może istnieje jakaś oczywista alternatywa, której nie znam, lub nie kojarzę z tym problemem?
Będę wdzięczny za komentarz,

michał żmihorski