Вы здесь

16.9 Взвешенное оценивание (оценка с весами)

16.9 Взвешенное оценивание (оценка с весами)


В линейном регрессионном анализе, рассмотренном до настоящего времени, все наблюдения входят в модель равнозначно. При этом, исходной предпосылкой является тот факт, что все наблюдения должны иметь одинаковую дисперсию.


Если это условие не выполняется и дисперсия увеличивается с ростом значения независимой переменной, то отдельные точки можно взвесить так, чтобы наблюдения с большой дисперсией имели меньшее влияние.


В качестве примера рассмотрим тест, проверяющий знания детей в области географии. Дети в возрасте от 3 до 14 лет должны были в течение двух минут назвать как можно больше городов Германии. Результаты теста сведены в нижеследующей таблице, причём количество детей в каждой возрастной группе варьируется от двух до пяти:


Возраст


Количество названных городов


3


2, 1, 0, 4


4


4, 2, 6


5


3, 8, 4, 7


6


3, 8, 9, 5


7


6, 10


8


7, 14, 10


9


9, 16, 10


10


9, 16, 15, 9


11


18, 12


12


22, 11, 14, 16


13


14, 21


14


20, 15, 23, 14, 26


Эти данные для сорока детей в общей сложности хранятся в переменных alter (возраст) и staedte (города), которые содержатся в файле snamen.sav.

  •  Откройте файл snamen.sav.

  •  Выберите в меню Graphs (Графики) Scatterplot... (Диаграмма рассеяния)


Рис. 16.26: Диаграмма рассеяния

  •  Отметьте и постройте простую диаграмму рассеяния с переменной alter по оси абсцисс и переменной staedte пo оси ординат.

Вы увидите, что с ростом возраста растёт не только количество названных городов, но и рассеяние, то есть дисперсия, становится больше.

  •  В соответствии с описанием из главы 16.1 проведите линейный регрессионный анализ, причём переменной staedte присвойте статус зависимой переменной, а переменной alter — независимой переменной.

  •  Вы получите следующие результаты:

Model Summary (Сводная таблица по модели)


Model (Модель)


R


R Square (R-квадрат)


Adjusted R Square (Смещенный R-квадрат)


Std. Error of the Estimate (Стандартная ошибка оценки)


1


 


,879а 


,772 


,766


3,1623 


a. Predictors: (Conslant), Alter (Bлияющие переменные: (Константа), возраст)


Coefficients (Коэффициенты) а


Model (Модель)


Unstandardized Coefficients (He стандарти-зированные коэф-фициенты)


Standardized Coefficients (Стандарти-зированные коэф-фициенты)


Т 


Sig. (Значи-мость)


В


Std. Error (Станда-ртная ошибка)


/3 (Beta)


1


a. Dep


(Constant) (Koнстанта)


-2,722


1,273



-2,138


,039


Alter (Возраст) endent Variable


1,569 (Зависим


,138 ая перемен-ная)


,879


11,357


,000


Коэффициент корреляции равен 0,879, а мера определённости 0,772.


В данном примере мы имеем дело с группами случаев, разделёнными по годам возраста, для которых независимая переменная имеет всегда одно и то же значение. Исходя из значений зависимой переменной сопоставленных каждому случаю, можно определить дисперсию; обратное значение этой дисперсии применяется обычно в качестве весового фактора для соответствующего случая.


Если подобной группировки данных нет, то пытаются выявить такую связь между дисперсией и переменной, чтобы степень дисперсии была пропорциональна значению данной переменной. При поиске так называемых весовых переменных речь идет о независимой переменной или, если их много, — об одной из независимых переменных. В приведенном примере такой переменной, очевидно, является независимая переменная alter, по которой и можно проследить изменение дисперсии.


Целью анализа сначала является определение наилучшей возможной степени р. а затем подсчёт веса для каждого случая, причём вес для значения переменной х определяется как


1/хp

  •  Выберите в меню Analyze (Анализ) Regression.. .(Регрессия) Weight Estimation... (Взвешенное оценивание)

Откроется диалоговое окно Weight Estimation (Взвешенное оценивание).



Рис. 16.27: Диалоговое окно Weight Estimation (Весовая цепка)

  •  Перенесите переменную staedte в поле зависимых переменных, а переменную alter в поля для независимых и для весовых переменных. Согласно с установками по умолчанию оптимальная степень вычисляется в пределе от —2 до 2 с шагом 0,5; измените шаг на 0,2.

  •  Щёлкните на кнопке опций и в появившемся диалоговом окне активируйте опцию Save best weight as new variable (Сохранить лучший вес, как новую переменную).

Результаты расчёта, вывод которых производится в старой табличной форме, выглядят следующим образом:


Source variable


. . ALTER


Dependent variable. . STAEDTE


Log- likelihood


Function =-116,950816


POWERvalue= -2,000


log- likelihood


Function =-115,170919


POWERvalue=-1,800


Log- likelihood


Function =-113,434617


POWERvalue=-1,600


Log- likelihood


Function =-111,746484


POWERvalue=-1,400


Log- likelihood


Function =-110,111706


POWERvalue=-1,200


Log- likelihood


Function =-108,536154


POWERvalue=-1,000


Log- likelihood


Function =-107,026465


POWERvalue=-,800


Log- likelihood


Function =-105,590111


POWERvalue=-,600


Log- likelihood


Function =-104,235463


POWERvalue=-,400


Log- likelihood


Function =-102,971835


POWERvalue=-,200


Log- likelihood


Function =-101,809499


POWERvalue=,000


Log- likelihood


Function =-100,759655


POWERvalue=,200


Log- likelihood


Function =-99,834344


POWERvalue=,400


Log- likelihood


Function =-99,046284


POWERvalue=,600


Log- likelihood


Function =-98,408623


POWERvalue=,800


Log- likelihood


Function =-97,934594


POWERvalue=1,000


Log- likelihood


Function =-97,637078


POWERvalue=1,200


Log- likelihood


Function =-97,528092


POWERvalue=1,400


Log- likelihood


Function =-97,618231


POWERvalue=1,600


Log- likelihood


Function =-97,916114


POWERvalue=1,800


Log- likelihood


Function =-98,427890


POWERvalue=2,000


The Value ofPOWER MaximizingLog-likelihood Function =1,400


Source variable 


ALTER


POWERvalue=:1,400


Dependent variable. . STAEDTE


Multiple R, 90081


R Square,81146


Adjusted R Square ,80650


Standard Error ,68669



Analysis of Variance :





DF Sum of Squares


Mean Square



Regression Residuals


1 77,121477 38 17,918483


77,121477 ,471539



P = 163,55269


Signif F = ,0000




-------


- — — Variables in the Equation —


- - - - -


- - -


Variable


В SE В Beta


Т


Sig Т


ALTER (Constant)


1,569996 ,122764 ,900813 -2,728584 ,840793


12,789 -3,245


,0000 ,0025


Log-likelihood


Function = -97,528092




The following


new variables are being created:




Name


Label




WGT_1


Weight for STAEDTE from WLS, MOD_


1 ALTER**


-1,400


Оптимальная степень оценивается при помощи логарифма функции правдоподобия; в данном случае максимальное значение получается при значении степени равном 1,4. Это значение используется для определения веса для каждого случая. К примеру, для трёхлетнего ребёнка вес равен


1/(31,4)=0,2148 


Весовые показатели были добавлены в исходный файл под переменной с именем wgt_1. Затем повторно был выполнен расчёт регрессии. Корреляционный коэффициент при этом возрос до 0,90081, а мера определённости до 0,81146. Хотя эти изменения, а также изменение рассчитанных коэффициентов регрессии и констант незначительны, зато стала намного меньше соответствующая им стандартная ошибка.


Top.Mail.Ru