16.9 Взвешенное оценивание (оценка с весами)
В линейном регрессионном анализе, рассмотренном до настоящего времени, все наблюдения входят в модель равнозначно. При этом, исходной предпосылкой является тот факт, что все наблюдения должны иметь одинаковую дисперсию.
Если это условие не выполняется и дисперсия увеличивается с ростом значения независимой переменной, то отдельные точки можно взвесить так, чтобы наблюдения с большой дисперсией имели меньшее влияние.
В качестве примера рассмотрим тест, проверяющий знания детей в области географии. Дети в возрасте от 3 до 14 лет должны были в течение двух минут назвать как можно больше городов Германии. Результаты теста сведены в нижеследующей таблице, причём количество детей в каждой возрастной группе варьируется от двух до пяти:
Возраст | Количество названных городов |
3 | 2, 1, 0, 4 |
4 | 4, 2, 6 |
5 | 3, 8, 4, 7 |
6 | 3, 8, 9, 5 |
7 | 6, 10 |
8 | 7, 14, 10 |
9 | 9, 16, 10 |
10 | 9, 16, 15, 9 |
11 | 18, 12 |
12 | 22, 11, 14, 16 |
13 | 14, 21 |
14 | 20, 15, 23, 14, 26 |
Эти данные для сорока детей в общей сложности хранятся в переменных alter (возраст) и staedte (города), которые содержатся в файле snamen.sav.
Откройте файл snamen.sav.
Выберите в меню Graphs (Графики) Scatterplot... (Диаграмма рассеяния)
Рис. 16.26: Диаграмма рассеяния
Отметьте и постройте простую диаграмму рассеяния с переменной alter по оси абсцисс и переменной staedte пo оси ординат.
Вы увидите, что с ростом возраста растёт не только количество названных городов, но и рассеяние, то есть дисперсия, становится больше.
В соответствии с описанием из главы 16.1 проведите линейный регрессионный анализ, причём переменной staedte присвойте статус зависимой переменной, а переменной alter — независимой переменной.
Вы получите следующие результаты:
Model Summary (Сводная таблица по модели)
Model (Модель) | R | R Square (R-квадрат) | Adjusted R Square (Смещенный R-квадрат) | Std. Error of the Estimate (Стандартная ошибка оценки) |
1
| ,879а | ,772 | ,766 | 3,1623 |
a. Predictors: (Conslant), Alter (Bлияющие переменные: (Константа), возраст)
Coefficients (Коэффициенты) а | ||||||
Model (Модель) | Unstandardized Coefficients (He стандарти-зированные коэф-фициенты) | Standardized Coefficients (Стандарти-зированные коэф-фициенты) | Т | Sig. (Значи-мость) | ||
В | Std. Error (Станда-ртная ошибка) | /3 (Beta) | ||||
1 a. Dep | (Constant) (Koнстанта) | -2,722 | 1,273 |
| -2,138 | ,039 |
Alter (Возраст) endent Variable | 1,569 (Зависим | ,138 ая перемен-ная) | ,879 | 11,357 | ,000 |
Коэффициент корреляции равен 0,879, а мера определённости 0,772.
В данном примере мы имеем дело с группами случаев, разделёнными по годам возраста, для которых независимая переменная имеет всегда одно и то же значение. Исходя из значений зависимой переменной сопоставленных каждому случаю, можно определить дисперсию; обратное значение этой дисперсии применяется обычно в качестве весового фактора для соответствующего случая.
Если подобной группировки данных нет, то пытаются выявить такую связь между дисперсией и переменной, чтобы степень дисперсии была пропорциональна значению данной переменной. При поиске так называемых весовых переменных речь идет о независимой переменной или, если их много, — об одной из независимых переменных. В приведенном примере такой переменной, очевидно, является независимая переменная alter, по которой и можно проследить изменение дисперсии.
Целью анализа сначала является определение наилучшей возможной степени р. а затем подсчёт веса для каждого случая, причём вес для значения переменной х определяется как
1/хp
Выберите в меню Analyze (Анализ) Regression.. .(Регрессия) Weight Estimation... (Взвешенное оценивание)
Откроется диалоговое окно Weight Estimation (Взвешенное оценивание).
Рис. 16.27: Диалоговое окно Weight Estimation (Весовая цепка)
Перенесите переменную staedte в поле зависимых переменных, а переменную alter в поля для независимых и для весовых переменных. Согласно с установками по умолчанию оптимальная степень вычисляется в пределе от —2 до 2 с шагом 0,5; измените шаг на 0,2.
Щёлкните на кнопке опций и в появившемся диалоговом окне активируйте опцию Save best weight as new variable (Сохранить лучший вес, как новую переменную).
Результаты расчёта, вывод которых производится в старой табличной форме, выглядят следующим образом:
Source variable | . . ALTER | Dependent variable. . STAEDTE | |
Log- likelihood | Function =-116,950816 | POWERvalue= -2,000 | |
log- likelihood | Function =-115,170919 | POWERvalue=-1,800 | |
Log- likelihood | Function =-113,434617 | POWERvalue=-1,600 | |
Log- likelihood | Function =-111,746484 | POWERvalue=-1,400 | |
Log- likelihood | Function =-110,111706 | POWERvalue=-1,200 | |
Log- likelihood | Function =-108,536154 | POWERvalue=-1,000 | |
Log- likelihood | Function =-107,026465 | POWERvalue=-,800 | |
Log- likelihood | Function =-105,590111 | POWERvalue=-,600 | |
Log- likelihood | Function =-104,235463 | POWERvalue=-,400 | |
Log- likelihood | Function =-102,971835 | POWERvalue=-,200 | |
Log- likelihood | Function =-101,809499 | POWERvalue=,000 | |
Log- likelihood | Function =-100,759655 | POWERvalue=,200 | |
Log- likelihood | Function =-99,834344 | POWERvalue=,400 | |
Log- likelihood | Function =-99,046284 | POWERvalue=,600 | |
Log- likelihood | Function =-98,408623 | POWERvalue=,800 | |
Log- likelihood | Function =-97,934594 | POWERvalue=1,000 | |
Log- likelihood | Function =-97,637078 | POWERvalue=1,200 | |
Log- likelihood | Function =-97,528092 | POWERvalue=1,400 | |
Log- likelihood | Function =-97,618231 | POWERvalue=1,600 | |
Log- likelihood | Function =-97,916114 | POWERvalue=1,800 | |
Log- likelihood | Function =-98,427890 | POWERvalue=2,000 | |
The Value ofPOWER MaximizingLog-likelihood Function =1,400 | |||
Source variable | ALTER | POWERvalue=:1,400 | |
Dependent variable. . STAEDTE | |||
Multiple R, 90081 | |||
R Square,81146 | |||
Adjusted R Square ,80650 | |||
Standard Error ,68669 | |||
| Analysis of Variance : |
|
|
| DF Sum of Squares | Mean Square |
|
Regression Residuals | 1 77,121477 38 17,918483 | 77,121477 ,471539 |
|
P = 163,55269 | Signif F = ,0000 |
|
|
------- | - — — Variables in the Equation — | - - - - - | - - - |
Variable | В SE В Beta | Т | Sig Т |
ALTER (Constant) | 1,569996 ,122764 ,900813 -2,728584 ,840793 | 12,789 -3,245 | ,0000 ,0025 |
Log-likelihood | Function = -97,528092 |
|
|
The following | new variables are being created: |
|
|
Name | Label |
|
|
WGT_1 | Weight for STAEDTE from WLS, MOD_ | 1 ALTER** | -1,400 |
Оптимальная степень оценивается при помощи логарифма функции правдоподобия; в данном случае максимальное значение получается при значении степени равном 1,4. Это значение используется для определения веса для каждого случая. К примеру, для трёхлетнего ребёнка вес равен
1/(31,4)=0,2148
Весовые показатели были добавлены в исходный файл под переменной с именем wgt_1. Затем повторно был выполнен расчёт регрессии. Корреляционный коэффициент при этом возрос до 0,90081, а мера определённости до 0,81146. Хотя эти изменения, а также изменение рассчитанных коэффициентов регрессии и констант незначительны, зато стала намного меньше соответствующая им стандартная ошибка.