Самоучитель по SPSS



Самоучитель по SPSS


Глава 1. Программа SPSS

Глава 1. Программа SPSS

    1. Программа SPSS

    Программа SPSS


    SPSS является самой распространённой программой для обработки статистической информации. В настоящем разделе описан путь этой программы к такому выдающемуся успеху. Затем приведен обзор отдельных модулей программы.

    1.1 История SPSS

    1.1 История SPSS


    Два студента Норман Най (Norman Nie) и Дейл Вент (Dale Bent), специализировавшиеся в области политологии в 1965 году пытались отыскать в Стенфордском университете Сан-Франциско компьютерную программу, подходящую для анализа статистической информации. Вскоре они разочаровались в своих попытках, так как имеющиеся программы оказывались более или менее непригодными, неудачно построенными или не обеспечивали наглядность представления обработанной информации. К тому же принципы пользования менялись от программы к программе.


    Так, не долго думая, они решили разработать собственную программу, со своей концепцией и единым синтаксисом. В их распоряжении тогда был язык программирования FORTRAN и вычислительная машина типа IBM 7090. Уже через год была разработана первая версия программы, которая, еще через год, в 1967, могла работать на IBM 360. К этому времени к группе разработчиков присоединился Хэдлай Халл (Hadlai Hull).


    Как известно из истории развития информатики, программы тогда представляли собой пакеты перфокарт. Как раз на это указывает и исходное название программы, которое авторы дали своему продукту: SPSS — это аббревиатура от Statistical Package for the Social Science.


    В 1970 году работа над программой была продолжена в Чикагском университете, а Норман Най основал соответствующую фирму — к тому моменту уже было произведено шестьдесят инсталляций. Первое руководство для пользователей описывало одиннадцать различных процедур.


    Спустя пять лет SPSS была уже инсталлирована шестьсот раз, причём под разными операционными системами. С самого начала версиям программы присваивали соответствующие порядковые номера. В 1975 была разработана уже шестая версия (SPSS6). До 1981 последовали версии 7, 8 и 9.


    Командный язык (синтаксис) SPSS в то время был ещё не так хорошо развит, как сейчас, и естественно ориентирован на перфокарты. Поэтому так называемые управляющие карты SPSS состояли из идентификационного поля (столбцы 1-15) и из поля параметров (столбцы 16-80).


    В 1983 году командный язык SPSS был полностью переработан, синтаксис стал значительно удобней. Что бы отметить этот факт, программа была переименована в SPSSX, где буква X должна была служить как номером версии в римскими числами, так и сокращением для extended (расширенный).


    Так как применение перфокарт к этому моменту уже стало историей, то программа SPSS и информация, подлежащая обработке, сохранялись в отдельных файлах на винчестерах больших ЭВМ, которые тогда использовались повсеместно. Год от года постоянно увеличивалось и количество процедур.


    С появлением персональных компьютеров была разработана также и PC-версия SPSS, с 1983 года появилась PC-версия SPSS\PC+. рассчитанная на MS-DOS. Позже, с момента основания в 1984 году европейского торгового представительства в Горинхеме в Нидерландах, SPSS стал широко применяться и в Европе. В настоящее время это самое распространённое программное обеспечение для статистического анализа во всём мире.


    Для того, чтобы отразить возможность использования программы во всех областях, имеющих отношение к статистическому анализу, буква X вновь была удалена из названия марки, а исходной аббревиатуре присвоено новое значение: Superior Performance Software System (система программного обеспечения высшей производительности).


    Если PC версия SPSS/PC+ была чуть усовершенствованной версией для больших ЭВМ, то SPSS для операционной системой Windows (SPSS for Windows) стала большим шагом вперёд. Во первых эта версия SPSS обладает всеми возможностями версии для больших ЭВМ, во вторых, за некоторыми немногочисленными исключениями, программой можно пользоваться без особых знаний в области прикладного программирования. Вызов необходимых процедур статистического анализа происходит при помощи стандартной техники, применяемой в Windows, то есть с помощью мыши и соответствующих диалоговых окон.


    Первая версия SPSS для Windows имела порядковый номер 5. Затем последовали версии 6.0 и 6.1 с некоторыми нововведениями в статистической и графической областях; версия 6.1 была первой статистической программой для Windows, которая использовала 32 битную архитектуру Windows 3.1. Это можно было заметить по более высокой скорости выполнения вычислений. Усовершенствования коснулись также и интерфейса пользователя. В конце концов, была выпущена версия 6.1.3, которая уже могла работать и под Windows 95 и под NT.


    В начале 1996 года появилась 7-я версия SPSS, сначала как версия 7.0, а затем 7.5. Наряду с расширением возможностей в сфере статистики, разница между этими двумя версиями заключалась в том, что в версии 7.5 как меню, так и интерфейс программы были выполнены уже не только на английском, но и на других наиболее распространенных языках.


    Самым весомым отличием версии 7 по отношению к предыдущим версиям, был абсолютно новый подход к выводу информации на экран. Так, во первых, получил новые очертания так называемый Viewer (Окно просмотра), и, во вторых, более приятный внешний вид приобрели таблицы результатов расчётов (мобильные таблицы). Появившаяся технология мобильных таблиц позволяет перестраивать полученные таблицы различным способами.


    Если предшественница данной версии — версия 6.1.3 могла работать как под старой Windows 3.1 так и под новой Windows 95 (NT), то SPSS версии 7 могла работать только при наличии Windows 95 (NT).


    За версией 7.5 последовала версия 8.0, прогресс которой заключался в усовершенствовании графической оболочки. Возможность составления интерактивных графиков предоставляет рад преимуществ по сравнению с традиционными графиками, которые являются стандартом для многих других пакетов.


    Версия 9.0 включала в себя несколько новых статистических методов, в т.ч. многозначную логистическую регрессию, и несколько новых графических возможностей, расширяющих область интерактивных графиков.


    Версия, описываемая в этой книге имеет порядковый номер 10.0. Ниже изложены важнейшие нововведения, относящиеся к этой версии.

    1.2 Новое в версии 10.0

    1.2 Новое в версии 10.0


    Версия 10.0 SPSS имеет два самых существенных отличия по сравнению с предыдущей версией 9.0. Они будут рассмотрены в этой книге:


    Было изменено строение Редактора данных. Благодаря закладкам Данные и Переменные облегчён переход между областями ввода данных и описания переменных. Таким образом, форма описания переменных была упрощена и соответствует теперь общепринятым стандартам, применяемым в сфере табличных расчётов.


    В области статистики был добавлен регрессионный анализ с категориальной целевой переменной.

    1.3 Модули SPSS

    1.3 Модули SPSS


    Основу программы SPSS составляет SPSS Base (базовый модуль), предоставляющий разнообразные возможности доступа к данным и управления данными. Он содержит методы анализа, которые применяются чаще всего.


    Традиционно вместе с SPSS Base (базовым модулем) поставляются ещё два модуля: Advanced Models (продвинутые модели) и Regression Models (регрессионные модели). Эти три модуля охватывают тот спектр методов анализа, который входил в раннюю версию программы для больших ЭВМ.


    В приложении А Вы сможете найти информацию о том, какие методы анализа относятся к тому или иному модулю. Пользователь, который приобрёл все эти три модуля, может не обращать внимания на данное приложение.


    Наряду с тремя упомянутыми, существует еще ряд специальных дополнительных модулей и самостоятельных программ, число которых постоянно растёт, так что пользователям следует постоянно знакомиться с информацией о нововведениях в SPSS.


    В этой книге описываются базисный модуль, а также модули Regression Models, Advanced Models и Tables. Назначением последнего модуля является составление презентационных таблиц. В книге не рассматриваются логлинейные модели, анализ выживания и многомерное шкалирование, а также процедура составления презентаций.


    SPSS Base (Базовый модуль)


    SPSS Base входит в базовую поставку. Он включает все процедуры ввода, отбора и корректировки данных, а также большинство предлагаемых в SPSS статистических методов. Наряду с простыми методиками статистического анализа, такими как частотный анализ, расчет статистических характеристик, таблиц сопряженности, корреляций, построения графиков, этот модуль включает t-тесты и большое количество других непараметрических тестов, а также усложненные методы, такие как многомерный линейный регрессионный анализ, дискриминантный анализ, факторный анализ, кластерный анализ, дисперсионный анализ, анализ пригодности (анализ надежности) и многомерное шкалирование.


    Regression Models


    Данный модуль включает в себя различные методы регрессионного анализа, такие как: бинарная и мультиномиальная логистическая регрессия, нелинейная регрессия и пробит-анализ.


    Advanced Models


    В этот модуль входят различные методы дисперсионного анализа (многомерный, с учетом повторных измерений), общая линейная модель, анализ выживания, включая метод Каплана-Майера и регрессию Кокса, логлинейные, а также логитлоглинсйные модели.


    Tables


    Модуль Tables служит для создания презентационных таблиц. Здесь предоставляются более широкие возможности по сравнению со упрощенными частотными таблицами и таблицами сопряженности, которые строятся в SPSS Base (базовом модуле).


    Ниже в алфавитном порядке приведен список остальных модулей и программ предлагаемых для расширения SPSS.


    Amos


    Amos (Analysis of moment structures — анализ моментных структур) включает методы анализа с помощью линейных структурных уравнений. Целью программы является проверка сложных теоретических связей между различными признаками случайного процесса и их описание при помощи подходящих коэффициентов. Проверка проводится в форме причинного анализа и анализа траектории. При этом пользователь в графическом виде должен задать теоретическую модель, в которую вместе с данными непосредственных наблюдений могут быть включены и так называемые скрытые элементы. Программа Amos включена в состав модулей расширения SPSS, как преемник L1SREL (Linear Structural RELationships — линейные структурные взаимоотношения).


    AnswerTree


    AnswerTree (дерево решений) включает четыре различных метода автоматизированного деления данных на отдельные группы (сегменты). Деление проводится таким образом, что частотные распределения целевой (зависимой) переменной в различных сегментах значимо различаются. Типичным примером применения данною метода является создание характерных профилей покупателей при исследовании потребительского рынка. AnswerTree является преемницей программы СНАШ (Chi squared interaction Detector — детектор взаимодействий на основе хи-квадрата).


    Categories


    Модуль содержит различные методы для анализа категориальных данных, а именно: анализ соответствий и три различных метода оптимального шкалирования (анализ однородности, нелинейный анализ главных компонент, нелинейный канонический корреляционный анализ).


    Clementine


    Clementine — это программа для data mining (добычи знаний), в которой пользователю предлагаются многочисленные подходы к построению моделей, к примеру, нейронные сети, деревья решений, различные виды регрессионного анализа. Clementine представляет собой "верстак" аналитика, при помощи которого можно визуализировать процесс моделирования, перепроверять модели, сравнивать их между собой. Для удобства пользования программой имеется вспомогательная среда внедрения результатов.


    Conjoint (совместный анализ)


    Совместный анализ применяется при исследовании рынка для изучения потребительских свойств продуктов на предмет их привлекательности. При этом опрашиваемые респонденты по своему усмотрению должны расположить предлагаемые наборы потребительских свойств продуктов в порядке предпочтения, на основании которого можно затем вывести так называемые детализированные показатели полезности отдельных категорий каждого потребительских свойства.


    Data Entry (ввод данных)


    Программа Data Entry предназначена для быстрого составления вопросников, а также ввода и чистки данных. Заданные на этапе создания вопросника вопросы и категории ответов потом используются в качестве меток переменных и значений.


    Exact Tests (Точные тесты)


    Данный модуль служит для вычисления точного значения вероятности ошибки (величины р) в условиях ограниченности данных при проверке по критерию х2 (Chi-Quadrat-Test) и при непараметрических тестах. В случае необходимости для этого также может быть применён метод Монте-Карло (Monte-Carlo).


    GOLDMineR


    Программа содержит специальную регрессионную модель для регрессионного анализа упорядоченных зависимых и независимых переменных.


    SamplePower


    При помощи SamplePower может быть определён оптимальный размер выборки для большинства методов статистического анализа, реализованных в SPSS.


    SPSS Missing Value Analysis


    Данный модуль служит для анализа и восстановления закономерностей, которым подчиняются пропущенные значения. Он предоставляет различные варианты замены недостающих значений.


    Trends


    Модуль Trends содержит различные методы для анализа временных рядов, такие как: модели ARIMA, экспоненциальное сглаживание, сезонная декомпозиция и спектральный анализ.


    Модули Amos, AnswerTree, Categories, Conjoint, LISREL и Trends описаны в книге этих же авторов: "SPSS. Методы исследования рынка и мнений".

    Глава 2. Инсталляция

    Глава 2. Инсталляция

      1. Инсталляция

      Инсталляция


      В этой главе мы покажем, как установить SPSS с компакт-диска, создать ярлык на эту программу и задать рабочий каталог. Далее мы расскажем об установке прилагаемого к книге компакт-диска примеров.

      2.1 Системные требования для инсталляции SPSS

      2.1 Системные требования для инсталляции SPSS 10.0


      Чтобы вы могли использовать SPSS 10.0 для Windows на своем компьютере, аппаратное и программное обеспечение должны удовлетворять следующим минимальным требованиям:

      •  Windows 95, Windows 98, Windows NT 4.0 или Windows 2000,

      •  процессор Pentium 90 МГц (или более),

      •  не менее 16 Мбайт оперативной памяти (рекомендуется 64 Мбайт),

      •  не менее 80 Мбайт свободного места на жестком диске (для базовой системы) и еше 80 Мбайт для работы SPSS,

      •  привод CD-ROM,

      •  видеокарта с минимальным разрешением 800*600 (SVGA). 

      Кроме того, для инсталляции необходимы:

      •  серийный номер SPSS, который указан на коробке компакт-диска,

      •  лицензионный код для SPSS, который прилагается на отдельном листке.

      Лицензионный код дает возможность инсталлировать базовую систему и модули расширения SPSS, приобретаемые дополнительно.

      2.2 Инсталляция SPSS

      2.2 Инсталляция SPSS 11.5


      В следующем описании мы исходим из того, что на вашем компьютере установлена операционная система Windows 98 или Windows 2000.

      •  Вставьте инсталляционный компакт-диск SPSS 11.5 для Windows в привод CD-ROM.

      •  Немного подождите — должна автоматически запуститься программа инсталляции. На рабочем столе Windows вы увидите следующее окно.

      •  Щелкните на пункте Install SPSS (Установить SPSS).

      Программа инсталляции SPSS подготовит так называемый "мастер InstallShield", который будет сопровождать вас в процессе инсталляции.

      •  Подождите, пока подготовка к инсталляции не завершится.


      Рис. 2.1: Начальный экран программы инсталляции


      Наконец, программа инсталляции SPSS 11.5 для Windows готова к работе. Прежде чем запускать ее, рекомендуется закрыть все программы Windows.

      •  Если все остальные программы Windows закрыты, щелкните на кнопке Next (Далее). На экране появится Лицензионное соглашение SPSS.

      •  Примите предлагаемые условия, щелкнув на кнопке "Yes" (Да). Теперь можно задать каталог, в который будет инсталлирована SPSS 10.0 для Windows.

      •  Чтобы принять предлагаемый по умолчанию каталог (C:\Program Files\SPSS), щелкните на кнопке Далее.

      Но если вы хотите установить SPSS в другой каталог, щелкните на кнопке Browse (Обзор). Откроется диалоговое окно Select Directory (Выбрать каталог). Здесь можно установить желаемый каталог.


      На следующем этапе работы мастера требуется ввести данные пользователя. Здесь следует указать серийный номер SPSS.

      •  Введите соответствующие данные и подтвердите их кнопкой Next.

       Теперь вы должны выбрать один из трех типов инсталляции:

      •  Standard (Стандартная): Программа будет установлена в наиболее употребительной конфигурации. Этот тип инсталляции рекомендуется для большинства пользователей.

      •  Minimal (Минимальная): Будет инсталлирована лишь минимально необходимая конфигурация.


      Рис. 2.2: Сведения о пользователе

      •  Custom (Специальная): Здесь можно выбрать, какие функции программы будут инсталлированы. Этот тип инсталляции рекомендуется для опытных пользователей.

        •  Подтвердите настройку по умолчанию Standard щелчком на кнопке Next. Затем мастер потребует от вас указать вид инсталляции.

        •  Подтвердите установку для одной рабочей станции щелчком на кнопке Next.

      На следующем этапе мастер требует ввести код лицензии, который вы должны были получить для SPSS.

      •  Введите код лицензии на программу. Обратите внимание, что группы цифр в коде обязательно должны быть разделены пробелом.

      •  Подтвердите ввод, щелкнув на кнопке Next. Теперь можно выбрать, какие модули SPSS должны быть установлены. Свой выбор так же подтвердите кнопкой Next.

      После этого SPSS будет искать файлы модулей, выбранных для инсталляции ("Files to install are determined..." — Определяются файлы для инсталляции).

      •  Наконец, на заключительном этапе вы можете еще раз проверить сделанные ранее установки ("Ready to install files" — Готов к инсталляции файлов).


      Рис. 2.3: Ввод кода лицензии

      •  Подтвердите сделанные установки щелчком на кнопке Next. SPSS начнет инсталляцию файлов.

      •  После инсталляции файлов программы мастер спросит в вас, когда вы желаете зарегистрировать SPSS — сейчас или позже. Выберите нужный вариант и щелкните на Next.

      Теперь инсталляция SPSS для Windows 10.0 завершена; вы получаете соответствующее указание ("Setup was finished" — Инсталляция завершена). Вы можете запустить интерактивную обучающую программу или вернуться на рабочий стол Windows.

      •  Чтобы выйти из процесса инсталляции, щелкните на кнопке Finish (Готово); в этом случае интерактивная обучающая программа не запустится.

      •  В результате вы вернетесь на рабочий стол Windows и снова увидите начальный экран программы инсталляции (см. рис. 2.1). Щелкните здесь на кнопке Exit (Выход).

      1.gif

      Изображение: 

      2.gif

      Изображение: 

      3.gif

      Изображение: 

      2.3 Создание ярлыка

      2.3 Создание ярлыка


      Мы предполагаем, что в дальнейшем вы часто будете работать с SPSS и вам будет необходим быстрый доступ к этой программе. Поэтому мы предлагаем вам создать для нее ярлык.

      •  Щелкните правой кнопкой мыши на свободном месте рабочего стола Windows 98. Появится контекстное меню.

      •  Выберите в контекстном меню команду Создать (New).

      •  Щелкните на пункте Ярлык (Shortcut). Рабочий стол Windows 98 приобрет вид, показанный на рис. 2.4.

      Откроется диалоговое окно Создать ярлык (Create Shortcut).

      •  Введите в этом диалоговом окне путь и имя исполняемого файла — как правило, это будет "C:\Program Files\SPSS\spsswin.exe" — или выберите путь и файл с помощью кнопки Обзор (Browse), если вы не помните их в точности. Эта кнопка открывает структуру каталогов, в которой можно найти файл spsswin.exe.

      •  Подтвердите ввод, щелкнув на кнопке Далее (Next).

      Откроется диалоговое окно Выбор названия программы (Select a Title for the Program).

      •  Введите в поле Укажите название ярлыка (Select a name for the shortcut) текст "SPSS 10".

      •  Завершите создание ярлыка, подтвердив введенные данные кнопкой Готово (Finish).

      Теперь ярлык создан.


      Вы можете запускать SPSS прямо с рабочего стола. Для этого достаточно просто дважды щелкнуть на значке SPSS.

      2.4 Установка рабочего каталога

      2.4 Установка рабочего каталога


      Теперь мы должны установить рабочий каталог. В этом каталоге будут храниться создаваемые вами файлы данных и выходные файлы. В дальнейшем в рабочий каталог надо будет скопировать файлы с компакт-диска примеров (см. главу 2.5). Мы рекомендуем дать этому каталогу имя SPSSBOOK.


      Чтобы задать рабочий каталог, поступите следующим образом.



      Рис. 2.4: Создание ярлыка

      •  Через окно MS-DOS (Меню Пуск Программы | Сеанс MS-DOS) перейдите на уровень MS-DOS.

      •  Командой CD (change directory) перейдите в корневой каталог С:\:Prompt:\> CD C:\

      •  Командой MD (make directory) создайте подкаталог "SPSSBOOK": С : \> MD SPSSBOOK

      •  Закройте сеанс DOS командой EXIT: С:\> EXIT

      Вы снова окажетесь на рабочем столе Windows 98.


      Теперь мы должны зарегистрировать вновь созданный каталог SPSSBOOK как рабочий каталог для SPSS 10.0.

      •  Для этого поместите курсор на значок SPSS и щелкните правой кнопкой мыши. Откроется контекстное меню.

      •  Выберите пункт Свойства (Properties).

      Откроется диалоговое окно SPSS 10: Свойства (SPSS 10 Properties).

      •  Введите в поле Рабочий каталог (Working directory) текст "C:\SPSSBOOK".

      •  Подтвердите ввод кнопкой ОК.


      Рис. 2.5: Переход на уровень MS-DOS



      Рис. 2.6: Диалоговое окно Свойства: SPSS 10


      Теперь рабочий каталог задан. В дальнейшем SPSS будет использовать его как стандартный каталог (Default Directory).

      4.gif

      Изображение: 

      5.gif

      Изображение: 

      6.gif

      Изображение: 

      2.5 Инсталляция прилагаемого компакт-диска

      2.5 Инсталляция прилагаемого компакт-диска


      Сейчас мы скопируем содержимое компакт-диска примеров в только что установленный каталог SPSSBOOK. Поступите следующим образом:

      •  Через окно сеанса MS-DOS перейдите на уровень MS-DOS.

      •  Командой CD (change directory) перейдите в каталог SPSSBOOK: Prompt:\> CD C:\SPSSBOOK

      После этого приглашение DOS приобретет следующий вид:


      C:\SPSSBOOK\>

      •  Командой DOS COPY скопируйте содержимое компакт-диска примеров в каталог C:\SPSSBOOK: C:\SPSSBOOK> COPY D:\*.* или вместо буквы D укажите обозначение привода CD-ROM на вашей машине.

      •  Закройте сеанс DOS командой EXIT: C:\SPSSBOOK> EXIT

      Вы вернетесь на рабочий стол Windows 98. Все этапы инсталляции успешно завершены.

      2.6 Возобновление лицензии

      2.6 Возобновление лицензии


      Если срок действия вашей лицензии на SPSS истек и вы приобрели лицензию на новый период, можно возобновить лицензию, не повторяя весь процесс инсталляции заново. Для этого служит программа licrenew.exe.

      •  Откройте окно сеанса MS-DOS.

      •  Перейдите в каталог SPSS.

      •  Введите licrenew.exe.

      •  Введите код лицензии и подтвердите его.

      2.7 Добавление компонентов

      2.7 Добавление компонентов


      Чтобы добавить компоненты, например, другие модули SPSS, следует запустить файл setup.exe с компакт-диска. После этого можно выбрать любые компоненты или функции. Убедитесь, что выбраны все функции — как вновь добавляемые, так и уже установленные. Если в SPSS добавляется новый модуль, следует также ввести новый код лицензии.

      Глава 3. Подготовка данных

      Глава 3. Подготовка данных

        1. Подготовка данных

        Подготовка данных


        В этой главе мы на небольшом примере опишем процесс подготовки данных. За основу мы возьмем вымышленный опрос — так называемый "воскресный вопрос", который студенты, изучающие политологию в Марбургском университете, задавали избирателям:


        "За кого бы вы голосовали, если бы в воскресенье были выборы в бундестаг?" С помощью следующей анкеты был проведен телефонный опрос 30 человек. Мы ограничили количество респондентов, чтобы избавить вас от ввода слишком большого количества данных.



        После заполнения анкет, их следует подготовить для ввода данных в компьютер и обработки с помощью программы SPSS для Windows.

        1.gif

        Изображение: 

        3.1 Кодирование и кодировочная таблица

        3.1 Кодирование и кодировочная таблица


        Для того чтобы полученные данные можно было обработать, прежде всего следует создать кодировочную таблицу. Кодировочная таблица устанавливает соответствие между отдельными вопросам анкеты и переменными. используемыми при компьютерной обработке данных. Например, пункту анкеты "Пол" может быть поставлена в соответствие переменная sex.


        Переменные — это ячейки памяти, в которые можно записывать значения, введенные с клавиатуры. Мы выбрали для переменной имя sex, так как имена переменных в SPSS для Windows могут содержать до восьми символов. Другое, более подробное имя было бы слишком длинным. Имена переменных могут состоять из букв латинского алфавита, цифр и специальных символов; причем первым символом имени должна быть буква.


        Переменные могут принимать различные значения. Переменная sex может иметь два возможных значения: "женский" и "мужской". Кодировочная таблица определяет кодовые числа, соответствующие отдельным значениям переменных; например, значению "женский" может соответствовать цифра "1", а значению "мужской" — "2".


        Подитожим задачи, которые решаются при составлении кодировочной таблицы:

        •  Кодировочная таблица устанавливает соответствие между отдельным вопросам анкеты и переменными.

        • " Кодировочная таблица устанавливает соответствие между возможным значениями переменных и кодовыми числами.

        Для нашей анкеты мы можем составить следующую кодировочную таблицу. Она приводится в самой анкете.


        2.gif

        Изображение: 

        3.2 Матрица данных

        3.2 Матрица данных


        Предположим, что 30 анкет были заполнены следующим образом:


        fragebnr


        Sex


        age


        party


        1


        W-001


        женский


        45


        ХДС/ХСС


        2


        W-002


        мужской


        22


        СДПГ


        3


        W-003


        мужской


        19


        сдпг


        4


        W-004


        женский


        42


        ХДС/ХСС


        5


        W-005


        мужской


        34


        Зеленые/Союз 90


        6


        W-006


        женский


        72


        сдп


        7


        W-007


        мужской


        38


        СДПГ


        8


        W-008


        женский


        56


        СДПГ


        9


        W-009


        мужской


        61


        ХДС/ХСС


        10


        W-010


        женский


        77


        ХДС/ХСС


        11


        W-01 1


        женский


        23


        Зеленые/Союз 90


        12


        W-012


        мужской


        67


        Республиканцы


        13


        W-013


        мужской


        79


        Прочие


        14


        W-01 4


        женский


        26


        СДПГ


        15


        W-01 5


        мужской


        59


        ХДС/ХСС


        16


        O-001


        женский


        34


        Зеленые/Союз 90


        17


        O-002


        мужской


        18


        Республиканцы


        18


        O-003


        женский


        44


        ХДС/ХСС


        19


        O-004


        мужской


        68


        ХДС/ХСС


        20


        O-005


        женский


        33


        пдс


        21


        O-006


        мужской


        66


        ХДС/ХСС


        22


        O-007


        женский


        22


        нет данных


        23


        O-008


        мужской


        нет данных


        СДПГ


        24


        O-009


        женский


        67


        СДПГ


        25


        O-010


        мужской


        33


        сдп


        26


        O-011


        мужской


        44


        ХДС/ХСС


        27


        O-012


        женский


        22


        СДПГ


        28


        O-013


        женский


        19


        Прочие


        29


        O-014


        женский


        55


        ХДС/ХСС


        30


        O-015


        мужской


        39


        СДПГ


        Приведенная выше таблица называется матрицей данных. Данные, предназначенные для обработки в SPSS для Windows, должны быть представлены в виде такой матрицы. Матрица данных состоит из определенного числа строк и столбцов. Строки и столбцы образуют прямоугольную таблицу. При этом каждая строка соответствует одной анкете, а каждый столбец — одной переменной. Так как в нашем небольшом опросе участвовало 30 респондентов, матрица содержит 30 строк. Каждая строка включает четыре столбца для переменных fragebnr, sex, age и party.


        Мы предполагаем, что опрос проводился как в старых, так и в новых федеральных землях. Опрашивающие должны были отмечать это с помощью буквы перед номером анкеты. Буква "W" с дефисом должна была обозначать старые федеральные земли (West), а буква "О" — новые (Ost). Например, W-001 означает первую анкету, которая была заполнена в старых федеральных землях, а О-005 — пятую анкету, которая была заполнена в новых федеральных землях.

        3.3 Запуск SPSS

        3.3 Запуск SPSS


        Начнем с ввода данных для небольшого примера анализа.

        •  Запустите SPSS для Windows, дважды щелкнув левой кнопкой мыши на значке SPSS.

        Откроется редактор данных SPSS (см. рис. 3.1).


        Редактор данных — это одно из многих окон SPSS. Здесь можно вводить новые данные или загружать существующие из файлов данных с помощью команд меню File (Файл) Open... (Открыть...)


        Так как при запуске SPSS ни один файл данных еще не загружен, в заголовке редак тора данных стоит "Untitled" (Без имени). Над изображением таблицы в редакторе данных имеются строка меню и панель символов.

        3.4 Редактор данных

        3.4 Редактор данных


        Сейчас с помощью редактора данных мы создадим файл данных. Редактор данных это приложение, напоминающее электронную таблицу. Под электронной таблицей подразумевается рабочий лист, разделенный на строки и столбцы, который позволяет про сто и эффективно вводить данные. Отдельные строки таблицы соответствуют отдельным наблюдениям. Например, при обработке данных опроса одна строка содержит данные одного респондента. Отдельные столбцы соответствуют отдельным переменным. При обработке данных наблюдений анкеты в одной переменной хранятся ответы на отдельный вопрос. Отдельные ячейки таблицы содержат значения переменных для каждого отдельного наблюдения; в каждой ячейке хранится одно значение переменной.


        Рис. 3.1: Редактор данных: просмотр данных

        3.gif

        Изображение: 

        3.4.1 Определение переменных

        3.4.1 Определение переменных


        Начнем с определения переменных. Переменную можно определить следующим образом:

        •  В редакторе данных дважды щелкните на ячейке с надписью var или щелкните на ярлычке Variable view (Просмотр переменных) на нижнем краю таблицы.

        В обоих случаях вы перейдете в режим просмотра переменных, который обеспечивает редактор данных (см. рис. 3.2). Здесь мы можем последовательно, строка за строкой определить необходимые переменные.


        Имя переменной


        Чтобы задать имя переменной, поступите следующим образом:

        •  Введите в текстовом поле Name (Имя) выбранное имя переменной. В нашем примере мы сначала определим переменную fragebnr. Для этого введите в поле Name текст "fragebnr".

        При выборе имени переменной следует соблюдать определенные правила:

        •  Имена переменных могут содержать буквы латинского алфавита и цифры. Кроме того, допускаются специальные символы _ (подчеркивание), . (точка), а также символы @ и #. Не разрешаются, например, пробелы, знаки других алфавитов и специальные символы, такие как !, ?," и *.

        •  Имя переменной должно начинаться с буквы.

        •  Последний символ имени не может быть точкой или знаком подчеркивания (_).

        •  Длина имени переменной не должна превышать восьми символов.


        Рис. 3.2: Редактор данных: просмотр переменных

        •  Имена переменных нечувствительны к регистру, то есть прописные и строчные буквы не различаются.

        Примеры допустимых имен переменных:


        budget99


        gender


        zarplata


        quest_13


        var3_1_2


        Примеры недопустимых имен переменных:


        1nа1


        Имя начинается не с буквы


        Assignment


        Имя длиннее 8 символов


        Прибыль


        Имя содержит символы другого алфавита


        State 94


        Имя содержит пробел


        None!


        Символ "!" не разрешается

        •  Нажмите на клавишу <Таb>, чтобы подтвердить ввод и перейти к установке типа переменной.

        Тип переменной


        Как видно из электронной таблицы, вновь созданные в SPSS переменные по умолчанию являются численными с максимальной длиной восемь знаков, причем дробная часть состоит из двух знаков (формат F8.2).


        • Если требуется изменить тип переменной, щелкните в ячейке на кнопке с тремя точками:


        Откроется диалоговое окно Define Variable Type (Определение типа переменной).



        Рис. 3.3: Диалоговое окно Define Variable Type (для численной переменной)


        В SPSS существуют следующие типы переменных:


        Numeric (Численный)


        К допустимым значениям относятся цифры, перед которыми стоит знак плюс или минус и десятичный разделитель. Знак плюс перед числом, в отличие от минуса, не отображается. В текстовом поле Length (Длина) задается максимальное количество знаков, включая позицию для десятичного разделителя. В текстовом поле Decimals (Десятичные разряды) вводится количество отображаемых знаков дробной части.


        Comma (Запятая)


        К допустимым значениям относятся цифры, перед которыми стоит знак плюс или минус, точка, как десятичный разделитель и одна или несколько запятых в качестве разделителей групп разрядов. Если запятые опускаются при вводе, они вставляются автоматически. Длина такой переменной равна максимальному количеству знаков, включая десятичный разделитель и запятые между группами разрядов.


        Dot (Точка)


        К допустимым значениям относятся цифры, перед которыми стоит знак плюс или минус, запятая, как десятичный разделитель и одна или несколько точек в качестве разделителей групп разрядов. Если точки опускаются при вводе, они вставляются автоматически.


        Scientific notation (Экспоненциальное представление)


        При вводе данных разрешаются все допустимые численные значения, включая экспоненциальное представление, о котором свидетельствует содержащаяся в числе буква Е или D, а также знак плюс или минус.


        Date (Дата)


        Допустимые значения — дата и/или время.


        Dollar (Доллар)


        К допустимым значениям относятся: знак доллара, точка, как десятичный разделитель и запятые, как разделители групп разрядов. Если знак доллара или запятые опускаются при вводе, они вставляются автоматически.


        Special currency (Специальная валюта)


        Пользователь может задавать собственные форматы валюты. В поле Length в этом случае задается максимальное количество знаков, включая все знаки, заданные пользователем. Обозначение валюты при вводе не указывается; оно вставляется автоматически.


        String (Строка)


        Строка символов. К допустимым значениям относятся: буквы, цифры и специальные символы. Различаются короткие и длинные строковые переменные. Короткие строковые переменные могут содержать не более восьми знаков. В большинстве процедур SPSS применение длинных строковых переменных ограничивается или вообще не допускается.


        При вводе и выводе данных надо учитывать следующие особенности:

        •  Численные форматы: В численных форматах десятичным разделителем может быть либо точка, либо запятая. Тип десятичного разделителя зависит от настроек диалогового окна Язык и стандарты (Regional Settings) на панели управления Windows. Точное значение переменной хранится внутри программы, а Редактор данных отображает на экране лишь заданное число десятичных разрядов. Значения, которые имеют больше десятичных разрядов, округляются. Для вычислений применяется точное значение.

        •  Строковые форматы: В длинных строковых переменных значения дополняются пробелами до максимальной длины. Например, в строковой переменной длины 10 значение "SPSS" хранится внутри программы как "SPSS

        •  Форматы даты и времени: В форматах даты в качестве разделителей между значениями дня, месяца и числа могут применяться косая черта, дефис, пробел, запятая или точка. Можно выбрать один из нескольких форматов даты (dd-mm-yyyy, dd-mmm-yy, mm/dd/yyyy и т.д.). Дата в формате dd-mmm-yy отображается с разделителем-дефисом и сокращением названия месяца из трех букв. Дата в форматах dd/mm/yy и mm/dd/yy отображается с разделителем-косой чертой и номером месяца вместо названия.

        •  Всего доступно 27 различных форматов даты и времени, которые отображаются в разворачивающемся списке. В форматах времени в качестве разделителей между значениями часов, минут и секунд могут использоваться двоеточие, точка или пробел.

        •  Специальная валюта: Форматы отображения валюты ССА, ССВ, ССС, CCD и ССЕ задаются с помощью вкладки Currency (Валюта), которая открывается командой меню Edit (Правка) Options... (Параметры...)

        •  Установите для переменной fragebnr тип String и длину пять символов и щелкните на кнопке ОК.


        Рис. 3.4: Диалоговое окно Define Variable Type (для строковой переменной).


        Переменная fragebnr получила строковый тип. С такими переменными нельзя выполнять никаких вычислительных операций, но можно проводить, например, подсчеты повторяемости. Кроме того, становится возможным ввод букв, например, "W" для старых федеральных земель и "О" — для новых. Мы выбрали длину пять символов, чтобы можно было кодировать до 999 анкет для обеих групп земель. В этом случае для анкет в старых федеральных землях можно будет задавать номера анкет от "W-001" до "W-999", а для новых федеральных земель — от "О-001" до "О-999".

        •  Нажмите клавишу <ТаЬ>, чтобы перейти к установке формата столбца. 

        Формат столбца (Width)

        •  Для переменной fragebnr задано число позиций в столбце, равное "5". Это значение следует из длины переменной, указанной в диалоге Define Variable Type.

        •  Чтобы изменить этот формат представления переменной, перенесенный из диалога Define Variable Type, щелкните на кнопке лифта:

        •  В этом случае выбранное значение ширины подтверждается клавишей <Таb>. 

        Десятичные разряды (Decimals)

        •  Так как переменная fragebnr является строковой, для нее задано количество десятичных разрядов "0". Увеличение или уменьшение этого значения, определенного настройкой в диалоге Define Variable Type, также производится при помощи кнопки лифта: Подтвердите значение "0", нажав клавишу <Таb>.

        Метка переменной (Label)

        Метка переменной — это название, позволяющая описать переменную более подробно. Метка переменной может содержать до 256 символов. В метках переменных различаются прописные и строчные буквы. Они отображаются в том виде, в каком были введены. Для переменной fragebnr введите в качестве метки в поле Variable label текст "Номер анкеты".


        Метки значений (Values)


        Метки значений — это название, позволяющее более подробно описать возможные значения переменной. Так, например, в случае переменной sex можно задать метку "женский" для значения "1" и метку "мужской" для значения "2". Подтвердите настройку по умолчанию None (Нет) клавишей <Таb>. Впрочем, ввод данных также можно подтвердить клавишей <Enter>.


        Пропущенные значения (Missing values)


        В SPSS допускаются два вида пропущенных значений:

        •  Пропущенные значения, определяемые системой (System-defined missing values): Если в матрице данных есть незаполненные численные ячейки, система SPSS самостоятельно идентифицирует их как пропущенные значения. Этот факт отображается в матрице данных с помощью запятой (,).

        • Пропущенные значения, задаваемые пользователем ( User-defined missing values): Если в определенных случаях у переменных отсутствуют значения, например, если на вопрос не был дан ответ, ответ неизвестен, или существуют другие причины, пользователь может с помощью кнопки Missing объявить эти значения как пропущенные. Пропущенные значения можно исключить из последующих вычислений. В нашем примере пропущенным значением, определяемым пользователем мы объявим вариант ответа "0" (нет данных) для переменной sex.

        •  Подтвердите настройку по умолчанию None (Нет) клавишей <Enter>.

        Столбцы (Columns)


        Поле Columns определяет ширину, которую будет иметь в таблице данный столбец при отображении значений. Ширину столбца также можно изменить непосредственно в окне редактора данных. Для этого поместите указатель мыши на разделитель между двумя заголовками столбцов с именами переменных. Вид указателя изменится. Появившаяся двойная стрелка указывает, что соответствующий столбец можно расширить или сузить путем перетаскивания.

        •  Подтвердите настройку по умолчанию "8" клавишей <Enter>.

        Выравнивание (Alignment)


        Здесь можно задать вид выравнивания значений, т.е. определить, как они будут отображаться в таблице. Возможные виды выравнивания — "Right" (по правому краю), "Left" (no левому краю) и "Center" (по центру). Чтобы задать вид выравнивания, щелкните на кнопке

        •  Подтвердите настройку по умолчанию Right клавишей <Enter>.

        Шкала измерения (Measure)


        Здесь можно задать шкалу переменной, которая может быть номинальной (шкала наименований), порядковой или метрической (см. главу 5.1.1). По умолчанию принимается метрическая шкала измерения. Правда, это различие имеет значение только при создании интерактивных графиков, где номинальная и порядковая шкала измерений объединяются в "категориальный" тип.


        Если вы загружаете файлы, созданные в предыдущих версиях SPSS, или шкала измерений не определяется явно, SPSS вначале автоматически предполагает метрическую шкалу. Однако если соответствующая переменная имеет метки значений или принимает менее 24 различных значений, то задается порядковая шкала.

        •  Подтвердите настройку по умолчанию Nominal (шкала наименований) клавишей <Таb>. Затем снова поместите курсор в поле Name, чтобы начать объявление следующей переменной.

        Теперь мы займемся определением переменной sex.

        •  Введите в поле Name текст "sex" и подтвердите ввод нажатием на клавишу <Enter> или <Таb>.

        •  Чтобы задать тип переменной, щелкните в поле Туре на кнопке с тремя точками. Откроется диалоговое окно Define Variable Type (Определение типа переменной). Примите предлагаемую настройку Numeric (Численный) и установите длину "1" и количество десятичных разрядов "0", так как в этой переменной будут храниться только значения 1, 2 или 0. Подтвердите настройку кнопкой ОК и перейдите к следующему полю клавишей <Таb>.

        •  Для формата столбца примите без изменений предлагаемые значения формата "1" и количества десятичных разрядов "0". На этом этапе можно было бы изменить сделанные ранее настройки.

        •  Для метки переменной задайте текст "Пол".

        •  Щелкните в поле Value Labels на кнопке . Откроется диалоговое окно Define Value Labels (Определение меток значений).


        Рис. 3.5: Диалоговое окно Define Value Labels


        Метки значений определяются следующим образом:

        •  Вначале введите в поле Value (Значение) число "1". Нажмите клавишу <Таb>.

        •  Введите в поле Value label (Метка значения) текст "женский".

        •  Щелкните на кнопке Add (Добавить). Метка значения будет добавлена в список. Для этой цели можно также нажать комбинацию клавиш <Alt>+<h>.

        •  Повторите эти действия для значений "2" — "мужской" и "0" — "нет данных". Максимально допустимая длина метки значения составляет 60 знаков.

        Результат ввода всех значений в диалоговом окне показан на рис. 3.6.



        Рис. 3.6: Заполненное диалоговое окно Define Value Labels (Определение меток значений)

        •  Подтвердите введенные данные кнопкой ОК, а затем — клавишей <ТаЬ>.

        •  Чтобы задать пропущенные значения, щелкните в поле Missing на кнопке с тремя точками . Откроется диалоговое окно Define Missing Values (Определение пропущенных значений).


        Рис. 3.7: Диалоговое окно Define Missing Values


        По умолчанию предлагается вариант No missing values (Нет пропущенных значений), то есть все значения в настоящее время рассматриваются как допустимые.

        •  Щелкните на пункте Discrete missing values (Отдельные пропущенные значения). Для одной переменной нужно задать до трех пользовательских пропущенных значений. Введите значение "О".

        Существует еще один вариант:

        •  Range and one optional Discrete missing value (Диапазон и единичное отсутствующее значение): при выборе этого варианта все значения в диапазоне от Minimum (Наименьшее значение) до Maximum (Наибольшее значение) включительно объявляются как пропущенные. Кроме того, можно объявить как отсутствующее еще одно значение вне этого диапазона.

        К сожалению, при сборе данных, как правило, не удается избежать пропущенных значений. Во многих статистических методах, прежде всего одномерных, учет пропущенных значений не составляет проблемы, так как кроме соответствующего уменьшения количества наблюдений не нужно вносить никаких дополнительных изменений в расчетный метод. Однако при двумерном, а тем более при многомерном анализе пропущенные значения в списках переменных создают более значительные проблемы, так как одного-единственного отсутствующего значения достаточно, чтобы сделать всю выборку непригодной для анализа. Впрочем, для многих методов анализа SPSS предлагает выход из такой ситуации.

        •  Подтвердите выбор пропущенных значений для переменной sex кнопкой ОК.

        •  В полях Columns и Alignment примите настройки, предлагаемые по умолчанию.

        •  В поле Measure щелкните на кнопке — откроется список с тремя возможными шкалами измерения:

        •  Измените первоначальную настройку Scale (Метрическая) на Nominal (Номинальная) и нажмите клавишу <Таb>.

        Теперь мы займемся определением переменной age.

        •  Введите в поле Name текст "age" и подтвердите ввод.

        •  Чтобы задать тип переменной, щелкните в поле Туре на кнопке с тремя точками .Откроется диалоговое окно Define Variable Type. Примите предлагаемую настройку Numeric и установите длину "2" (мы предполагаем, что все респонденты не старше 99 лет) и количество десятичных разрядов "0". Подтвердите настройку кнопкой ОК и перейдите к следующему полю клавишей <Таb>.

        •  В полях Column format и Decimals примите настройки, предлагаемые по умолчанию.

        •  Для метки переменной введите текст "Возраст", а для меток значений примите предлагаемую настройку None, нажав <Enter>.

        •  Чтобы задать пропущенные значения, щелкните в поле Missing values на кнопке с тремя точками . Откроется диалоговое окно Define Missing Values. По умолчанию предлагается вариант No missing values (Нет пропущенных значений), то есть все значения рассматриваются как допустимые. Введите единичное отсутствующее значение "0" и закройте диалоговое окно кнопкой ОК.

        •  Примите предлагаемые настройки "8" в поле Columns, "Right" в поле Alignment и "Scale" в поле Measure.

        Создание маски данных мы завершаем объявлением переменной party.

        •  Введите в поле Name текст "party" и подтвердите ввод нажатием клавиши <Таb>.

        •  Чтобы задать тип переменной, щелкните в поле Туре на кнопке с тремя точками. Откроется диалоговое окно Define Variable Type. Примите предлагаемую настройку Numeric и установите длину "1" и количество десятичных разрядов "0", так как в этой переменной будут храниться только значения от 1 до 7 и 0 как отсутствующее значение. Подтвердите настройку кнопкой ОК и перейдите к следующему полю клавишей <Таb>.

        •  Для формата столбца примите значение "1" и количество десятичных разрядов "0".

        •  Для метки переменной задайте текст "Партия".

        •  Щелкните в поле Value labeb на кнопке .Откроется диалоговое окно Define Value Labels (см. рис. 3.5).

        •  Вначале введите в поле Value (Значение) число "1". Нажмите клавишу <Таb>.

        •  Введите в поле Value label (Метка значения) текст "ХДС/ХСС".

        •  Щелкните на кнопке Add (Добавить). Метка значения будет добавлена в список.

        •  Повторите эти действия для значений "2" — "СДП", "3" — "СЕПГ", 4 — "Зеленые/ Союз90", 5 — "ПДС", 6 — "Республиканцы", "7" — "Прочие" и "0" — "Нет данных".

        Результат ввода всех значений в диалоговом окне показан на рис. 3.8.



        Рис. 3.8: Заполненное диалоговое окно Define Value Labels для переменной party

        •  Подтвердите введенные данные кнопкой О К, а затем — клавишей <Таb>.

        •  Чтобы задать пропущенные значения, щелкните в поле Missing на кнопке с тремя точками . Откроется диалоговое окно Define Missing Values. Щелкните на пункте Discrete missing values и задайте значение "0".

        •  Подтвердите выбор пропущенных значений для переменной party кнопкой ОК и нажмите клавишу <Таb>.

        •  В полях Columns и Alignment примите настройки, предлагаемые по умолчанию.

        •  В поле Measure щелкните на кнопке с тремя точками и выберите вариант Nominal.

        4.gif

        Изображение: 

        6.gif

        Изображение: 

        7.gif

        Изображение: 

        11.gif

        Изображение: 

        12.gif

        Изображение: 

        13.gif

        Изображение: 

        15.gif

        Изображение: 

        19.gif

        Изображение: 

        3.4.2 Ввод данных

        3.4.2 Ввод данных


        Приступим ко вводу данных:


        fragebnr


        sex


        age


        party


        1


        W-001


        1


        45


        1


        2


        W-002


        2


        22


        3


        3


        W-003


        2


        19


        3


        4


        W-004


        1


        42


        1


        5


        W-005


        2


        . 34


        4


        6


        W-006


        1


        72


        2


        7


        W-007


        2


        38


        3


        8


        W-008


        1


        56


        3


        9


        W-009


        2


        61


        1


        10


        W-010


        1


        77


        1


        11


        W-011


        1


        23


        4


        12


        W-012


        2


        67


        6


        13


        W-013


        2


        79


        7


        14


        W-014


        1


        26


        3


        15


        W-015


        2


        59


        1


        16


        О-001


        1


        34


        4


        17


        О-002


        2


        18


        6


        18


        О-00З


        1


        44


        1


        19


        О-004


        2


        68


        1


        20


        О-005


        1


        33


        5


        21


        О-006


        2


        66


        1


        22


        О-007


        1


        22


        0


        23


        О-008


        2


        0


        3


        24


        О-009


        1


        67


        3


        25


        О-010


        2


        33


        2


        26


        0-011


        2


        44


        1


        27


        О-012


        1


        22


        3


        28


        О-013


        1


        19


        7


        29


        О-014


        1


        55


        1


        30


        0-01 5


        2


        39


        3


        Данные можно вводить по отдельным наблюдениям (строкам) или по отдельным переменным (столбцам). Действуйте следующим образом:

        •  Щелкните на ячейке в левом верхнем углу. Вокруг ячейки появится рамка. Таким образом эта ячейка обозначается как активная.

        •  Введите значение, в нашем примере это "W-001". Это значение отобразится в редакторе ячеек в верхней части окна редактора данных.

        •  Нажмите клавишу <Таb>. Значение из редактора ячеек отобразится в ячейке.

        В следующих таблицах показано, каким клавишам в редакторе данных соответствует какая функция. Здесь, как и далее, мы предполагаем, что активизирована таблица просмотра данных.


        Позиционирование


        Клавиша


        Функция


        <Таb> или <стрелка вправо>


        Перемещает курсор на ячейку вправо.


        <Enter> или <стрелка вниз>


        Перемещает курсор на ячейку вниз.


        <стрелка вверх>


        Перемещает курсор на ячейку вверх.


        <Shift> <Tab> или <стрелка влево>


        Перемещает курсор на ячейку влево, т.е. в предыдущее поле.


        <Ноте>


        Перемещает курсор в первую ячейку строки или случая.


        <End>


        Перемещает курсор в последнюю ячейку случая.


        <Ctrl> <стрелка вверх>


        Перемещает курсор в первый случай столбца.


        <Ctrl> <стрелка вниз>


        Перемещает курсор в последний случай столбца.


        <Ctrl> <Home>


        Перемещает курсор в первую ячейку первого случая.


        <Ctrl> <End>


        Перемещает курсор в последнюю ячейку последнего случая.


        <Page Up>


        Прокручивает таблицу на одну страницу вверх.


        <Page Down>


        Прокручивает таблицу на одну страницу вниз.


        Выделение


        <Shift> <пробел>


        Выделяет всю строку.


        <Ctri> <пробел>


        Выделяет весь столбец.


        <Shift> <клавиши со стрелками>


        Выделение области случаев и переменных. Также можно щелкнуть мышью и перетянуть ее из верхнего левого угла области в нижний правый угол.


        Редактирование


        F2


        Переключает в режим редактирования. Следующее нажатие <F2> отключает режим редактирования.


        <стрелка вправо>


        Переместить позицию редактирования в ячейке вправо на один знак.


        <стрелка влево>


        Переместить позицию редактирования в ячейке влево на один знак.


        <Ноте>


        Перейти в начало значения ячейки.


        <End>


        Перейти в конец значения ячейки.

        3.5 Сохранение файла данных

        3.5 Сохранение файла данных


        Сейчас мы сохраним созданный файл данных. Поступите следующим образом:

        •  Выберите в меню команды File (Файл) Save as... (Сохранить как...) Откроется диалоговое окно Save Data as (Сохранить данные как).

        По умолчанию SPSS сохраняет файл данных в текущем каталоге с расширением .sav. 

        Если вы следовали указаниям по инсталляции и задали рабочий каталог \SPSSBOOK, он будет предлагаться по умолчанию.

        •  Задайте имя файла, соответствующее соглашению об именах в DOS. Для рассматриваемого примера мы предлагаем имя файла "btwahl.sav". Расширение .sav SPSS присваивает файлам данных по умолчанию. Поэтому расширение .sav вводить необязательно.


        Рис. 3.9: Диалоговое окно Save Data as

        22.gif

        Изображение: 

        3.6 Копирование описаний переменных

        3.6 Копирование описаний переменных


        В исследовании на тему "Здоровье и питание", в частности, проводится опрос о предпочитаемых диетах. Респонденты должны ответить, насколько к ним относится одно из следующих высказываний.


        Я предпочитаю следующую диету


        Да, конечно


        Да


        Частично


        В малой степени


        Нет


        вегетарианскую


        X


        X


        X


        X


        X


        биодинамическую


        X


        X


        X


        X


        X


        с низким содержанием животных белков


        X


        X


        X


        X


        X


        фаст-фуд


        X


        X


        X


        X


        X


        с учетом калорийности


        X


        X


        X


        X


        X


        сытную


        X


        X


        X


        X


        X


        дешевую


        X


        X


        X


        X


        X


        Так как в этом случае описания семи переменных в матрице данных почти одинаковы, можно сэкономить время, просто перенеся параметры описания первой переменной на остальные шесть. Для этого поступите следующим образом.

        •  Активизируйте вид данных редактора данных, введите в поле Name текст "vegetar" и подтвердите ввод нажатием клавиши <Таb>.

        •  Чтобы задать тип переменной, щелкните в поле Туре на кнопке с тремя точками Откроется диалоговое окно Define Variable Type. Примите предлагаемую настройку Numeric и установите длину 1 и количество десятичных разрядов I) , так как в этой переменной будут храниться только значения от 1 до 5 и 0 как отсутствующее значение. Подтвердите настройку кнопкой ОК и перейдите к следующему полю клавишей <Таb>.

        •  Для формата столбца примите значение "1" и количество десятичных разрядов "0".

        •  Для метки переменной задайте текст "вегетарианская".

        •  Щелкните в поле Values на кнопке Откроется диалоговое окно Define Value Labels.

        •  Вначале введите в поле Value число "1". Нажмите клавишу <Таb>.

        •  Введите в поле Label текст "да, конечно".

        •  Щелкните на кнопке Add. Метка значения будет добавлена в список.

        •  Повторите эти действия для значений "2" — "да", "3" — "частично", "4" — "в малой степени", "5" — "нет" и "0" — "нет данных".

        •  Подтвердите введенные данные кнопкой ОК, а затем — клавишей <Таb>.

        •  Чтобы задать пропущенные значения, щелкните в поле Missing на кнопке с тремя точками . Откроется диалоговое окно Define Missing Values. Щелкните на пункте Discrete missing values и задайте значение 0 .

        •  Подтвердите выбор пропущенных значений для переменной vegetar кнопкой ОК и нажмите клавишу <Таb>.

        •  В полях Columns, Alignment и Measure примите настройки, предлагаемые по умолчанию.

        •  Поместите курсор в ячейку с номером 1, т.е. в начало первой строки, и нажмите левую кнопку мыши. Параметры описания первой переменной будут выделены (см. рис. 3.10).


        Рис. 3.10: Выделенное описание переменной

        •  Выберите в меню команды Edit (Правка) Сору (Копировать)

        •  Поместите курсор в ячейку с номером 2, т.е. в начало второй строки, и нажмите левую кнопку мыши — будет выделена вторая строка.

        •  Выберите в меню команды Edit (Правка) Paste (Вставить) 

        Параметры объявления первой переменной будут скопированы во вторую строку.



        Рис. 3.11: Скопированные параметры описания .переменной

        •  Далее измените предлагаемое имя переменной var0000l на biolog и повторите эти действия для всех остальных переменных.

        •  После пометки и копирования описания переменной, когда выделена вторая строка для вставки описания, вместо команд Edit Paste можно также использовать команду меню Edit Paste variables... (Вставить переменные) Откроется диалоговое окно Paste Variables.


        Рис. 3.12: Диалоговое окно Paste Variables

        •  Замените предлагаемое имя vege на новое имя biolog и щелкните на кнопке ОК.

        Диалоговое окно Paste Variables (см. рис. 3.12) дает возможность указать количество новых переменных. Если задать здесь число 6, параметры объявления переменной vegetar можно будет перенести на все остальные переменные за одну операцию. В этом случает таблица будет выглядеть так:



        Рис. 3.13: Таблица после вставки нескольких переменных


        Нам остается только заменить имена переменных vege I — vege6 на желаемые, например, biolog, lowprot, fastfood, calbal, rich и cheap, и все переменные шкалы "Предпочтения в питании" будут объявлены.

        26.gif

        Изображение: 

        27.gif

        Изображение: 

        28.gif

        Изображение: 

        29.gif

        Изображение: 

        3.7 Завершение сеанса работы

        3.7 Завершение сеанса работы


        Сейчас мы завершим наш сеанс работы с SPSS. 

        •  Выберите в меню команды File (Файл) Exit (Выход) 

        Для каждого из открытых окон SPSS спрашивает, надо ли сохранить его содержимое. Если щелкнуть на кнопке "Yes" (Да) или нажать <Enter>, SPSS открывает специальное диалоговое окно, в котором надо указать тип сохраняемого файла (файл данных, вывода или синтаксиса).


        Так как у нас было открыто только окно редактора данных и мы уже сохранили его содержимое в разделе 3.5, программа ничего не запрашивает и просто закрывается.

        Глава 4. SPSS для Windows — обзор

        Глава 4. SPSS для Windows — обзор

          1. PSS для Windows — обзор

          SPSS для Windows — обзор


          В этой главе мы хотим дать обзор использования SPSS для Windows на примере файлов данных wahl.sav и zahri.sav. Наш обзор в первую очередь будет касаться технических приемов работы с программой.

          •  Запустите SPSS, дважды щелкнув мышью на значке SPSS.

          •  Загрузите файл wahl.sav из каталога \SPSSBUCH. Этот файл соответствует файлу btwahl.sav, который мы сохранили ранее (см. главу 3). Для этого выберите в меню команды File (Файл) Open... (Открыть)... Появится диалоговое окно Open file (Открыть файл) (см. рис. 4.1).

          Если вы следовали нашим инструкциям по установке примеров с компакт диска (см. главу 2) и создали рабочий каталог под названием SPSSBOOK, вы увидите список файлов в каталоге \SPSSBOOK.

          •  Щелкните на кнопке со стрелкой вправо на линейке прокрутки этого списка. Удерживайте кнопку мыши нажатой, пока не появится файл wahl.sav. Выделите этот файл. Его имя должно появиться в текстовом поле File name (Имя файла). Имя нужного файла можно ввести в этом поле и непосредственно.


          Рис. 4.1. Диалоговое окно Open file

          •  Подтвердите выбор, щелкнув на кнопке Open (Открыть). Подтвердить выбор файла также можно, дважды щелкнув мышью на имени wahl.sav. После этого содержимое файла wahl.sav отобразится в окне редактора данных, как показано на рис. 4.2. Если был активизирован просмотр переменных, потребуется еще перейти на вкладку Data View (просмотр данных).

          1.gif

          Изображение: 

          2.gif

          Изображение: 

          4.1 Выбор статистической процедуры

          4.1 Выбор статистической процедуры


          Меню статистики, которое открывается по команде меню Analyze (Анализ), содержит список статистических методов. После каждого пункта этого меню стоит стрелка. Она указывает на существование следующего уровня меню.


          Доступный набор статистических методов зависит, в частности, от того, какие модули были установлены. В варианте установки SPSS, показанного на рис. 4.3, кроме модулей, описанных в этой книге, установлены дополнительные модули Amos, AnswerTree и Trends. Эти модули рассматриваются в нашей книге "SPSS. Методы изучения рынка и общественного мнения" (SPSS. Methoden fur die Markt- und Meinungs-forschung").


          В качестве примера попробуем построить частотное распределение. Выполните следующие действия.


          Выберите в меню команды Analyze (Анализ) Descriptive statistics (Описательная статистика) Frequency... (Частоты...)



          Рис. 4.2: Фрагмент файла данных wahl.sav



          Рис. 4.3: Меню статистики Появится диалоговое окно Frequency (см. рис. 4.4).



          Рис. 4.4: Диалоговое окно Frequency


          Диалоговые окна статистических процедур содержат следующие компоненты:

          •  Список исходных переменных — список всех переменных в файле данных. В данный момент в списке исходных переменных присутствуют следующие переменные: age, fragebnr, partei, sex. Перед именем каждой переменной стоит значок; по которому можно определить, является ли эта переменная численной или строковой.

          •  Список выбранных переменных — список, содержащий переменные файла данных, которые были выбраны для анализа. Список выбранных переменных также называют целевым списком или списком тестируемых переменных. Этот список имеет заголовок Variable(s) (Переменная(ые)). Так как мы еще не выбрали ни одной переменной, этот список пуст.

          • Командные кнопки — кнопки, при щелчке на которые выполняются определенные действия. В этом диалоговом окне расположены кнопки OK, Paste (Вставить), Reset (Сброс или Отклонить), Cancel (Отмена) и Help (Справка), а также кнопки, открывающие вспомогательные диалоговые окна: Statistics... (Статистика), Charts... (Диаграммы или Графики) и Format... (Формат). Кнопки вспомогательных диалоговых окон отличаются троеточием (...) после названия.

          Пять стандартных командных кнопок в главном диалоговом окне имеют следующее назначение:

          •  ОК — кнопка ОК запускает соответствующую процедуру. Одновременно она закрывает диалоговое окно.

          •  Paste — эта кнопка переносит выбранный в диалоговом окне синтаксис команды в редактор синтаксиса. Здесь можно отредактировать синтаксис команды и дополнить его другими опциями, недоступными в данном диалоговом окне.

          •  Reset — эта кнопка отменяет перенос выделенной переменной в целевой список переменных.

          •  Cancel — эта кнопка отменяет все изменения, сделанные с момента последнего открытия диалогового окна, и закрывает его.

          •  Help — эта кнопка выводит контекстно-чувствительную справку. При щелчке на ней открывается окно справки, содержащее сведения о текущем диалоговом окне.

          Выбор переменных


          Сначала мы построим частотное распределение для переменной partei. Выполните следующие действия:

          •  Выделите переменную party в списке исходных переменных.

          •  Щелкните на кнопке, которая находится рядом со списком выбранных переменных. Переменная party будет перенесена из списка исходных переменных в список выбранных переменных. Можно также дважды щелкнуть на нужной переменной, и она будет перенесена в список выбранных переменных.

          •  Подтвердите операцию, щелкнув на кнопке ОК. Результаты будут отображены в окне просмотра (Viewer).

          Окно просмотра разделено на две части. В левой отображается структура вывода, а в правой — собственно выводимые данные. В разделе вывода отображаются как таблицы, так и графики. Подробное описание окна просмотра и возможностей, которое оно предоставляет, приводится в разделе 4.5.


          Вернемся в редактор данных. Это можно сделать двумя различными способами:

          •  Выберите в меню команды Window (Окно) 1 Wahl.sav — SPSS Data Editor или щелкните на панели инструментов на символе редактора данных  

          Рис. 4.5: Окно просмотра


          Чтобы для построения частотного распределения выбрать все переменные, содержащиеся в файле данных, выполните следующие действия:

          •  Щелкните на имени первой переменной и задержите нажатой левую кнопку мыши. Перетащите мышь, пока не будут выделены все переменные.

          •  Затем, щелкнув на кнопке с треугольником, перенесите переменные в список выбранных переменных.

          Для выполнения этой же задачи можно также щелкнуть на первой переменной, а затем, нажав клавишу <Shift> — на последней переменной (метод "Shift-клик"). Чтобы выделить несколько переменных, которые находятся в разных местах списка, следует поступить следующим образом:

          •  Щелкните на первой переменной, а затем, при нажатой клавише <Ctrl>, — на следующей и т.д. (метод "Ctrl-клик").

          Вспомогательные диалоговые окна


          Сейчас мы попробуем определить наименьшее, наибольшее и среднее значения переменной age.

          •  Выберите в меню команды Analyze (Анализ) Descriptive statistics (Дескриптивные статистики) Frequency... (частота распределения)

          •  В диалоговом окне Frequency щелкните сначала на кнопке Reset(C6poc). Затем перенесите переменную age в конечный список переменных.

          • Щелкните на кнопке Statistics... Откроется диалоговое окно Frequency: Statistics (Частотное распределение: Статистика) (см. рис. 4.6).


          Рис. 4.6: Диалоговое окно Frequency: Statistics

          •  Установите флажки Minimum (Наименьшее значение), Maximum (Наибольшее значение) и Average (Среднее значение).

          •  Щелкните на кнопке Next (Далее). Настройки будут сохранены и мы вернемся в главное диалоговое окно.

          •  Снимите флажок Display frequency tables (Показывать частотные таблицы).

          •  Запустите вычисление, щелкнув на кнопке ОК. Результаты будут показаны в окне просмотра:

          Статистика


          Возраст


          N


          Имеется


          29


          Отсутствует


          1


          Среднее


          44,28


          Наименьшее


          18


          Наибольшее


          79

          3.gif

          Изображение: 

          4.gif

          Изображение: 

          5.gif

          Изображение: 

          7.gif

          Изображение: 

          8.gif

          Изображение: 

          4.10 Настройки

          4.10 Настройки

          •  Для того, чтобы изменить системные настройки SPSS, выберите в меню Edit (Правка) Options... (Параметры)

          Откроется диалоговое окно Options (Параметры).


          В этом диалоговом окне находятся десять регистрационных карт. Названия отдельных параметров говорят сами за себя, поэтому мы остановимся только на описании самих регистрационных карт.

          •  General (Общие): здесь вы можете задать тип сортировки списков переменных. Сортировка в алфавитном порядке, установленная по умолчанию, может быть изменена на порядок, в котором переменные были расположены в рабочем файле. Вы можете также задать, что указывать во всех диалоговых окнах — метки значений или имена переменных.

          •  Viewer (Окно просмотра): здесь можно установить тип и размер шрифта заголовков и текста, отображаемых в окне просмотра, а также задать размеры страницы.

          •  DraftViewer (Окно текстового режима): на этой карте присутствуют различные установки внешнего вида таблиц и текста.

          •  Output Labels (Обозначение выводимых значений): Вы можете выбрать, будут ли для обозначения переменных указываться их имена или соответствующие метки (установка по умолчанию) или и то и другое одновременно. Для обозначения категорий переменной вы можете выбрать значение переменной или метку значения (установка по умолчанию) или оба варианта одновременно.


          Рис. 4.35: Диалоговое окно Параметры SPSS

          •  Charts (Диаграммы): наряду с установками шрифта вы можете также задать, будут ли различные столбцы, линии, области и т.д. отображаться разными цветами (установка по умолчанию) или же при помощи разных штриховок и соответственно типов линий. Вы также можете управлять компоновкой рамки (рамка снаружи или внутри) и организовывать отображение координатной сетки.

          •  Interactive (Интерактивный режим): Вы можете выбрать параметры интерактивных графиков задав, к примеру, некоторый образец. Если из соображений последующей обработки и вывода на печать вы хотите, чтобы диаграмма была построена в чёрно-белом виде, активируйте для этого образец Grayscale.do (Оттенки серого).

          •  Pivot Tables (Мобильные таблицы): здесь Вы можете выбрать внешний вид (компоновку) мобильных таблиц.

          •  Data (Данные): в этой карте может быть изменён формат представления рассчитанных переменных (установка по умолчанию: восемь позиций, причём две из них приходятся десятичные знаки). Для отображения года двумя последними цифрами Вы можете дополнительно указать столетие. Если вы активируете автоматическую опцию, столетие будет отсчитываться будет в пределах от 1931 до 2030.

          •  Currency (Денежная единица): здесь можно указать денежный формат (см. гл. 3.4.1).

          •  Scripts (Сценарии): Вы можете активировать автоматические сценарии. 

          Теперь Вы разбираетесь в технических тонкостях управления программой.

          55.gif

          Изображение: 

          4.2. Настройки редактора данных

          4.2. Настройки редактора данных


          Меню View (Вид) редактора данных содержит множество опций, с помощью которых можно произвести индивидуальную настройку редактора данных. В частности, можно:

          •  Показать или скрыть строку состояния. Команда: Status bar (Строка состояния)

          •  Увеличить значки на панели символов и включить или отключить отображение кратких сведений. Команда: Toolbars... (Панели символов)

          •  Выбрать другой тип, начертание и размер шрифта. Команда: Fonts... (Шрифты)

          •  Включить или отключить отображение линий сетки. Команда: Grid lines (Линии сетки)

          •  Отображать метки значений вместо фактических значений переменных. Команда: Value labels (Метки значений)

          Рассмотрим следующий пример:


          Мы хотим, чтобы вместо значений переменных файла wahl.sav отображались метки значений.

          •  В первую очередь командами меню Window 1 Wahl.sav — SPSS Data Editor перейдите в редактор данных, если окно вывода еще активно.

          •  Выберите в меню команды: View Value labels

          Теперь в редакторе данных файл wahl.sav будет отображен с метками значений вместо значений переменных.


          Метки значений также позволяют как вводить данные, так и изменять их. Выполните следующие действия:

          •  Щелчком мыши выделите, например, ячейку переменной partei. Появится кнопка

          •  Щелкните на этой кнопке. Отобразится список меток значений переменной party (см. рис. 4.8).


          Рис. 4.7: Редактор данных с метками значений



          Рис. 4.8: Список меток значений в редакторе данных

          •  Выберите из списка метку, которую хотите ввести. После щелчка выделенная метка значения будет перенесена в ячейку. Это позволяет относительно быстро исправлять ошибки в содержимом ячеек данных.

          10.gif

          Изображение: 

          11.gif

          Изображение: 

          4.3 Панели символов

          4.3 Панели символов


          SPSS имеет следующие окна:

          •  Редактор данных (Data Editor)

          •  Окно просмотра (Viewer)

          •  Окно просмотра текста (Text Viewer)

          •  Редактор мобильных таблиц (Pivot Table Editor)

          •  Редактор диаграмм (Diagram Editor)

          •  Редактор текстового вывода (Text Output Editor)

          •  Редактор синтаксиса (Syntax Editor)

          •  Редактор скриптов (Script Editor)

          Редактор данных был подробно описан в разделе 3.4, другие окна мы рассмотрим позже. Каждое окно, кроме редактора мобильных таблиц, имеет одну или две панели символов для вызова часто используемых команд. Краткие сведения о каждом символе можно получить, если поместить на него указатель мыши.


          Ниже представлены прежде всего те символы, которые встречаются в большинстве или во всех окнах.

          Открыть файл: Этот символ активизирует диалоговое окно открытия файла, причем по умолчанию предлагается открыть документ того же типа, который находится в активном окне. Следовательно, при помощи этого символа можно открыть файл данных, файл вывода или файл синтаксиса.

          Сохранить файл: Этот символ предназначен для сохранения рабочего файла. Если рабочему файлу еще не присвоено имя, этот символ активизирует диалоговое Save as (Сохранить как). Если вы находитесь не в окне редактора данных, активизируется диалоговое окно сохранения файла соответствующего типа — файла вывода или синтаксиса.

          Печать: Этот символ вызывает диалоговое окно вывода на печать в соответствии с типом активного окна. Он позволяет напечатать весь документ или только выделенную область.

          История вызова диалоговых окон: Этот символ выводит список 12 последних вызванных диалоговых окон. Это дает возможность быстро перейти к одному из недавно вызванных диалоговых окон. Окно, вызванное в последнюю очередь, всегда находится в начале списка.

           

          Чтобы заново вызвать диалоговое окно, просто щелкните на соответствующем пункте списка.

          Перейти в редактор данных: Этот символ обеспечивает переход в редактор данных из любого окна.

          Перейти к наблюдению: Этот символ открывает диалоговое окно Go to case (Перейти к наблюдению). Его можно использовать для перехода к определенному наблюдению, так в SPSS называется набор значений переменных, набранных в строке редактора данных.

          Выбрать наблюдения: -этот символ открывает диалоговое окно select cases (Выбрать наблюдения). Его можно использовать для отбора наблюдений, для которых выполняется определенное условие.

          Информация о переменных: Этот символ открывает диалоговое окно Variables, в котором отображаются описания выделенных переменных. Из множества символов, которые возникают только в одном определенном окне, мы покажем лишь несколько. О назначении остальных легко можно узнать из кратких сведений (Quick Info) по данному символу.

          В редакторе синтаксиса большое значение имеет символ Syntax-Start (Синтаксис-Начать), в случае если для вызова статистических процедур Вы пользуетесь командным синтаксисом SPSS (см. главу 26):

          Синтаксис-Начать: В окне редакторе синтаксиса этот символ запускает на выполнение выделенные команды SPSS. Если не выделено ни одной команды, запускается команда, на которой находится курсор.

          Три следующих символа могут быть задействованы в редакторе данных.

          Вставить наблюдение: В редакторе данных щелчок на этом символе вызывает вставку наблюдения над активной ячейкой.

          Вставить переменную: В редакторе данных щелчок на этом символе вызывает вставку новой переменной слева от активной переменной.

          Метки значений: Этот символ позволяет переключаться между отображением значений и меток значений.

          Символы, доступные в редакторе диаграмм, подробно описаны в разделе 22.16.

          16.gif

          Изображение: 

          4.4 Построение и редактирование графиков

          4.4 Построение и редактирование графиков


          Представим в графическом виде значения переменной partei (партия).

          •  Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)

          •  При помощи кнопки Reset (Сброс) удалите все предыдущие установки.

          •  Щёлкните дважды на переменной partei (партия), чтобы поместить её в список отобранных переменных.

          •  Щёлкните на выключателе Charts... (Диаграммы). Откроется диалоговое окно Frequencies: Charts (Частоты: Диаграммы) (см. рис. 4.9).

          •  Щёлкните на опции Bar Charts (Столбчатые диаграммы), в области Chart Values (Значения диаграммы) щёлкните на опции Percentages (Проценты) и затем на Continue (Далее).

          •  В главном диалоговом окне деактивируйте опцию Display frequency tables (Показать частотные таблицы).

          •  Щёлкните на ОК. В окне просмотра появится столбчатая диаграмма (см. рис. 4.10).


          Рис. 4.9: Диалоговое окно Frequencies: Charts (Частоты: Диаграммы)


          Предположим, у Вас появилось желание отредактировать построенный график в соответствии со своими требованиями.

          •  Щёлкните дважды на какой-либо точке в пределах графика. После этого он будет помещён в редактор диаграмм (см. рис. 4.11).

          Панель меню изменилась. Теперь в меню присутствуют только опции, предназначенные для обработки графиков (см. гл. 22.16). Также претерпели изменения и панели инструментов. Изменим сначала метод представления столбцов. Столбцы, в соответствии с нашим желанием, должны быть представлены в трёхмерном виде.



          Рис. 4.10: Столбчатая диаграмма в окне просмотра



          Рис. 4.11: Столбчатая диаграмма в окне редактора диаграмм

          •  В меню редактора диаграмм выберите Format (Формат) Bar Style... (Вид столбца) 

          Откроется диалоговое окно Bar Styles (Виды столбцов) (см. рис. 4.12).



          Рис. 4.12: Диалоговое окно Ва Styles (Виды столбцов)

          •  Щёлкните на области 3-D effect (3-D эффект).

          •  В поле Depth (Глубина) введите число "40".

          •  Щёлкните Apply All (Применить для всех) и затем на выключателе Close (Закрыть). Теперь столбчатая диаграмма выглядит так, как изображено на рисунке 4.13.


          Рис. 4.13: Столбиковая диаграмма с 3D эффектом


          Теперь дадим графику название.

          •  Выберите в меню Chart (Диаграмма) Title... (Заголовок)

          •  Откроется диалоговое окно Titles (Заголовки).

          •  В поле Title 1 (Заголовок 1) введите текст "Парламентские выборы", а в поле ТШе2 (Заголовок 2) "Воскресный опрос". Выберите для заголовка и подзаголовка центральное выравнивание — Center (Центр). Подтвердите нажатием ОК.

          Теперь выделим график при помощи рамки.

          •  Выберите в меню Chart (Диаграмма) Outer Frame (Рамка снаружи) Пометим столбцы точными процентными показателями.


          Рис. 4.14: Диалоговое окно Titles (Заголовки)

          •  Выберите в меню Format (Формат) Bar Label Style... (Метки столбцов)

          Откроется диалоговое окно Bar Label Styles (Метки столбцов).

          •  Щёлкните на области Framed (В рамке), затем на Apply All (Применить для всех) и в заключение на Close (Закрыть). Отредактированная нами диаграмма отображена на рисунке 4.16.


          Рис. 4.15: Диалоговое окно Bar Label Styles (Метки столбцов)



          Рас. 4.16: Столбиковая диаграмма с метками столбцов


          Если Вы желаете сохранить построенный график, то поступите следующим образом: 

          •  При помощи щелчка на значке закройте редактор диаграмм.

          Отредактированный график останется в окне просмотра. Этот график (а в общем случае и любые другие результаты, выведенные в окно просмотра) мы хотим сохранить в файле, который имеет формат Viewer (средства просмотра SPSS).

          •  Выберите в меню File (Файл) Save As... (Сохранить как) 

          Откроется диалоговое окно Save As (Сохранить как) (см. рис. 4.17).


          Согласно предварительным установкам, SPSS обозначает файлы, которые имеют формат средства просмотра, присваивая им расширение .spo.

          •  Задайте подходящее имя файла и щёлкните на ОК.


          Рис. 4.17: Диалоговое окно Save As (Сохранить как)


          Теперь распечатаем график на принтере.

          •  Выберите в меню File (Файл) Print... (Печать)

          •  Подтвердите установки диалогового окна Print (Печать) при помощи кнопки ОК.

          25.gif

          Изображение: 

          26.gif

          Изображение: 

          27.gif

          Изображение: 

          28.gif

          Изображение: 

          29.gif

          Изображение: 

          30.gif

          Изображение: 

          31.gif

          Изображение: 

          32.gif

          Изображение: 

          34.gif

          Изображение: 

          4.5 Окно просмотра

          4.5 Окно просмотра


          Рассмотрим на конкретном примере возможности, предоставляемые пользователю окном средства просмотра результатов. Для того, чтобы иметь рабочий материал в окне просмотра, произведём некоторые операции с файлом wahl.sav и построим несколько таблиц и график.


          На первом шаге подсчитаем частоты переменной partei (партия).

          •  Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)

          •  Перенесите переменную partei (партия) в поле тестируемых переменных и подтвердите действие при помощи ОК.

          Теперь создадим таблицу сопряженности для переменных partei (партия) и sex (пол).

          •  Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

          •  Поместите переменную partei (партия) в поле строчных переменных (Row), а переменную sex (пол) в поле столбцовых (Column).

          •  При помощи выключателя Cells... (Ячейки) организуйте вывод процентных показателей по столбцам (опция Column (Столбец)).

          •  Щёлкните на выключателе Statistics (Статистики) и активируйте тест Chi-square (Тест Хи-квадрат).

          Представим распределение частотных показателей переменной partei (партия) в виде круговой диаграммы.

          •  Выберите в меню Graphs (Графики) Pie... (Круговые)

          •  Оставьте, установленную по умолчанию, опцию Summaries for groups of cases (Обработка категорий одной переменной), щелкните на кнопке Define (Определить), поместите переменную partei (партия) в поле для сегментов, озаглавленное Define slices by (Создать сектора на основе).

          В заключение подсчитаем для переменной alter (возраст) статистические показатели.

          •  Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Descriptives... (Дескриптивные)

          •  Перенесите переменную alter (возраст) в поле тестируемых переменных.

          Результаты производимых нами расчётов будут по очереди появляться в окне просмотра, согласно установкам, каждый последующий результат расчёта будет помещаться в конец окна. Если Вас вся эта процедура сильно утомляет, Вы можете просто в окне просмотра открыть файл beispiel.spo, в котором сохранены все рассчитанные нами данные. Окно просмотра Viewer будет выглядеть так, как изображено на рисунке 4.18.


          Окно просмотра состоит из двух частей. В левой части находится иерархия (обзор содержания) результатов; в правую часть помещаются таблицы с результатами расчётов и построенные графики. Ширину этих частей окна можно изменять перетаскиванием разделительной границы при помощи мыши.


          Рассмотрите полученные результаты, помещенные в правую часть окна и ознакомьтесь с формой таблиц. В качестве примера рассмотрим поподробнее таблицу сопряженности между полом (sex) и переменной partei (партия), характеризующей партийные предпочтения респондентов.



          Рис. 4.18: Окно просмотра


          Partei * Geschlecht Crosstabulation (Таблица сопряженности Партия * Пол)


          Geschiecnt (Пол)


          lTotal


          weiblich (женский)


          mannlich (мужской)


          (Сумма)


          Partei


          (Партия)


          CDU/CSU


          Count (Количество)


          5


          5


          10


          % within Geschiecht (% для пола)


          35,7%


          33,3%


          34,5%


          FDP


          Count (Количество)


          1


          1


          2


          % within Geschlecht (% для пола)


          7,1%


          6,7%


          6,9%


          SPD


          Count (Количество)


          4


          5


          9


          % within Geschlecht (% для пола)


          28,6%


          33,3%


          31,0%


          Grbne/ Bundnis (Зелёные / Союз 90)


          Count (Количество)


          2


          1


          3


          % within Geschlecht (% для пола)


          14,3%


          6,7%


          10,3%


          PDS


          Count (Количество)


          1


          1


          % within Geschlecht (% для пола)


          7,1%


          3,4%


          Republikaner


          (Респуб- ликанцы)


          Count (Количество)


          2


          2


          % within Geschlecht (% для пола)


          13,3%


          6,9%


          Sonstige (прочие)


          Count (Количество)


          1


          1


          2


          % within Geschlecht (% для пола)


          7,1%


          6,7%


          6,9


          Total


          (Сумма)


          Count (Количество)


          14


          15


          29


          % within Geschlecht (% для пола)


          100,0%


          100,0%


          100,0%


          Иерархию окна просмотра можно увидеть в левой части рисунка 4.18.


          Результаты каждой выполненной статистической процедуры, а также графический вывод, отображаются в окне просмотра в виде блока, причём каждый блок является отдельным объектом. В иерархии каждый блок озаглавливается соответствующим именем процедуры, перед которым устанавливается значок блока. Этому значку предшествует небольшой четырёхугольник, в котором сначала указывается знак минус. Внутри каждого блока сначала Вы видите заголовок и примечания. Далее идёт перечисление элементов блока, которым тоже предшествуют соответствующие символы. Благодаря такой конструкции иерархии объектов, вы можете производить поиск необходимых элементов, переставлять их местами, копировать, удалять и т.д.


          Поиск в окне просмотра

          •  Чтобы увидеть в области вывода необходимый объект или элемент, Вам не нужно прокручивать всё окно просмотра. Чтобы попасть в нужное место, щёлкните на соответствующем символе в иерархии.

          Удаление в окне просмотра

          •  Чтобы удалить некоторые элементы результатов расчётов, щёлкните на соответствующем символе и выберите в меню Edit (Правка) Delete (Удалить)

          Вы можете также просто нажать на клавиатуре клавишу <Delete>. 


          Скрытый режим


          Вместо того, чтобы удалять части блоков, Вы можете на некоторое время их "скрыть". Они становятся невидимыми на экране и при печати.

          •  Чтобы скрыть части результатов, щёлкните дважды на соответствующем символе в иерархии или выделите нужный элемент одним щелчком с последующим выбором меню View (Вид) Hide (Скрыть)

          •  Если Вы вновь хотите сделать элемент видимым, повторно щёлкните дважды на значке или выделите его одним щелчком с последующим выбором меню View (Вид) Show (Показать)

          •  Если же Вы хотите скрыть целый блок, содержащий весь вывод отдельной процедуры, щёлкните на маленьком квадратике слева от значка блока. При этом знак минус в квадратике превратится в знак плюс и данная процедура вместе со всем её содержимым исчезнет.

          •  Вы можете также выделить значок блока и произвести следующий выбор меню View (Вид) Collapse (Свернуть)

          •  Блок можно вновь сделать видимым при помощи повторного щелчка на квадратике; при этом знак плюс опять будет заменён знаком минус. Можно также щелчком выделить значок блока и выбрать в меню View (Вид) Expand (Развернуть)

          Перестановка в окне просмотра

          •  Если Вы хотите переместить некоторую часть результатов на другое место, выделите соответствующий значок (если необходимо, то значок блока) и удерживая нажатой левую кнопку мыши, переместите его к тому элементу, после которого Вы бы хотели расположить данные результаты или блок.

          •  Альтернативная возможность перемещения элементов заключается в выделении значка, соответствующего необходимой части информации с последующим выбором меню Edit (Правка) Cut (Вырезать)

          •  Затем выделите значок, позади которого вы бы хотели вставить вырезанный элемент и выберите в меню Edit (Правка) Paste After (Вставить после)

          Копирование в окне просмотра

          •  Если вы хотите скопировать какую-либо часть информации в другое место (при этом сохранив её на прежнем месте), щёлкните на значке, соответствующем нужному элементу или блоку, не отпуская кнопку мыши, нажмите на клавиатуре клавишу <Ctrl> и перетащите значок к тому элементу, после которого должен быть вставлен копируемый элемент.

          •  Вы можете также щёлкнуть на значке копируемого элемента и выбрать в меню следующие опции: Edit (Правка) Сору (Копировать)

          •  Затем щёлкните на значке элемента, после которого должен быть вставлен копируемый элемент и выберите в меню Edit (Правка) Paste After (Вставить после) 

          Вывод примечаний


          При чтении результатов расчётов очень помогают примечания. В них содержится информация о соответствующем файле и общих установках программы. По умолча--ию эти примечания сначала являются скрытыми, но их можно сделать видимыми, если, к примеру, дважды щёлкнуть на значке примечания (Notes). В качестве приме-га отобразим примечание для процедуры подсчёта частоты.


          Notes (Примечания)


          Output Created (Расчёт произведен)


          18-ОСТ-2001 16:26:51


          Comments (Комментарии)


          input (Ввод)


          Data (Данные)


          E:\WAHL.SAV


          Filter (Фильтр)


          <nоnе> (отсутствует)


          Weight (Вес)


          <nоnе> (отсутствует)


          Split File (Разделение файла)


          <nоnе> (отсутствует)


          N of Rows in Working Data File (Количество строк в рабочем файле)


          30


          Missing Value Handling (Обработка отсутствующих значений)


          Definition of Missing (Определение отсутствующих значений)


          User-defined missing values are treated as missing. (Отсутствующие значения указанные пользователем, обрабатываются как отсутствующие)


          Cases Used (Использованные случаи)


          Statistics are based on all cases with valid data. (Статистики базируются на всех случаях с допустимыми переменными)


          Syntax (Синтаксис)


          FREQUENCIES VARIABLES=partei /ORDER= ANALYSIS . (Частотная переменная=раг1е1/Команда = анализ)


          Resources (Ресурсы)


          Total Values Allowed (Данные, пригодные для расчёта)


          18724


          Elapsed Time (Продолжительность расчёта)


          0:00:00,22


          Изменение размера и типа шрифта иерархического списка

          •  Чтобы изменить размер знаков и тип шрифта в иерархическом списке, выберите в меню View (Вид) Outline Size (Размер знаков) и соответственно View (Вид) Outline Font (Шрифт знаков)

          У Вас появится возможность выбора среди трёх размеров (Small (Мелкий), Medium (Средний), Large (Крупный)) и большого количества шрифтов.

          35.gif

          Изображение: 

          4.6 Редактирование таблиц

          4.6 Редактирование таблиц


          В главе 4.5 мы уже рассматривали, как при помощи иерархического списка в окне просмотра можно управлять выводом элементов результатов расчётов. Теперь мы расскажем о возможностях, которые существуют для редактирования элементов результатов. Так как приёмы редактирования графиков уже рассматривались в разделе 4.4, здесь мы остановимся только на редактировании таблиц.


          Многие элементы результатов расчетов представлены в виде так называемых мобильных таблиц. Это новая форма таблиц, которая позволяет менять местами строки, столбцы и слои таким образом, чтобы результаты можно было бы оценить с разных точек зрения. Хорошим примером их применения могут послужить, прежде всего, таблицы сопряженности.

          •  Откройте файл zahn.sav и выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

          Переменной рu (периодичность чистки) присвойте статус строчной переменной, а переменной g (пол) статус столбцовой переменной. Через выключатель Cells... (Ячейки) наряду с установленным по умолчанию выводом наблюдаемых частот, организуйте вывод процентных показателей по столбцам (опция Column (Столбец)). Эти действия приведут к отображению следующей перекрёстной таблицы (предшествующая таблица "Case Processing Summary" (Итоги для обработанных наблюдений) была пропущена).


          Putzhaeufigkeit * Geschlecht Crosstabulation (Перекрёстная таблица Периодичность чистки * Пол)


          Geschlecht (Пол)


          Total


          (Сумма)


          weiblich (женский)


          mannlich (мужской)


          Putzha-eufigkeit


          (Перио-дичность


          чистки)


          < 1-mal taeglich


          (< 1 раза в день)


          Count (Количество)


          14


          4


          18


          % within Geschlecht (% для пола)


          2,0%


          ,9%


          1,6%


          1-mal taeglich


          (1 раз в день)


          Count (Количество)


          177


          56


          233


          % within Geschlecht (% для пола)


          25,1%


          13,2%


          20,6%


          2-mal taeglich


          (2 раза в день)


          Count (Количество)


          490


          342


          832


          % within Geschlecht (% для пола)


          69,4%


          80,7%


          73,6%


          > 2-mal taeglich


          (> 2 раз в день)


          Count (Количество)


          25


          22


          47


          % within Geschlecht (% для пола)


          3,5%


          5,2%


          4,2%


          Total (Сумма)


          Count (Количество)


          706


          424


          1130


          % within Geschlecht (% для пола)


          100,0%


          100,0%


          100,0%

          •  Если Вы хотите узнать о возможностях редактирования, которые предоставляет техника мобильных таблиц, щёлкните дважды на этой таблице. В результате будет активирован редактор мобильных таблиц.

          4.6.1 Редактор мобильных таблиц

          4.6.1 Редактор мобильных таблиц


          Об активировании редактора мобильных таблиц Вы узнаете по изменившейся панели меню.

          •  Выберите в меню Pivot (Мобильная таблица) Pivoting Trays (Поля вращения)

          Откроется окно Pivoting Trays (Поля вращения) (см. рис. 4.20), содержащее три панели, обозначенные как Layer (Слой), Row (Строка) и Column (Столбец). На панели строк расположены два значка, а на панели столбцов один значок. Для того, чтобы получить информацию о назначении этих значков, пройдитесь по ним указателем, ненадолго задерживая его над значками — будут выведены метки соответствующих переменных.


          Два значка на панели строк соответствуют переменной ри (периодичности чистки) и "статистике" соответственно, причём под статистикой в данном случае понимаются процентные показатели по столбцам, затребованные нами при построении таблицы сопряженности. Значок на панели столбцов соответствует переменной g (полу). На панели слоев значки отсутствуют; они бы там были, если бы Вы в диалоговом окне Crosstabs... (Таблицы сопряженности) ввели одну или несколько переменных слоя.



          Рис. 4.19: Редактор мобильных таблиц



          Рис. 4.20: Окно Pivoting Trays

          • При помощи этих значков Вы можете изменить структуру таблицы. Щёлкните, например, на значке Statistics панели строк и перетащите его мышью за значок, находящийся на панели столбцов. После этого процентные показатели будут отображаться в колонках таблицы.

          Putzhaeufigkeit * Geschlecht Crosstabulation (Таблица сопряженности Периодичность чистки * Пол)


          Geschlecht (Пол)


           


          Total(Сумма)


          rnannlicn (мужской)


          weiblicn (женский)


          Count (Количе ство)


          % within Geschle cht (% для пола)


          Count (Количе ство)


          % within Geschle cht (% для пола)


          Count (Количе ство)


          % within Geschle cht (% для пола)


          Putzhaeufigkeit (Перио дичность чистки)


          < 1-mal taeglich (< 1 раза в день)


          14


          2,0%


          4


          ,9%


          18


          1,6%


          1-mal taeglich (1 раз в день)


          177


          25,1%


          56


          13,2%


          233


          20,6%


          2-mal taeglich (2 раза в день)


          490


          69,4%


          342


          80,7%


          832


          73,6%


          > 2-mal taeglich


          25


          3,5%


          22


          5,2%


          47


          4,2%


          Total (Сумма)


          706


          100,0%


          424


          100,0%


          1130


          100,0%

          •  Теперь щёлкните на значке Geschlecht (пол), находящемся на панели столбцов, и разместите его позади значка, оставшегося на панели строк. Теперь обе переменные расположены по строкам. Испытайте самостоятельно и другие возможности изменения структуры таблицы.

          •  Если у Вас появилось желание выйти из редактора мобильных таблиц, щёлкните в какой-либо точке за пределами выделенной таблицы.

          •  Чтобы увидеть пример таблицы сопряженности с использованием переменных слоя, в диалоговом окне Crosstabs (Таблицы сопряженности) дополнительно к произведенным установкам поместите переменную s (образование) в поле переменных слоя. После этого построенная ранее таблица сопряженности будет разбита ещё и по категориям этой переменной. Это разбиение можно наблюдать в нижеследующей таблице.

          Putzhaeufigkeit * Geschlecht * Schulbildung Crosstabulation (Таблица сопряженности Периодичность чистки * Пол * Образование)


          Schulbildung (Обрэзование)


          Geschleсht(Пол)


          Total (Сумма)


          mannlich (мужской)


          weiblich (женский)


          Sonderschule


          Специальное)


          Putzha- euflgkeit


          (Перио- дичность чистки)


          < 1-mal taeglich


          (< 1 раза в цень)


          Count (Количество


          1



          1


          % within Geschlecht (% для пола)


          100,0%



          100,0%


          Total (Сумма)


          Count (Количество


          1



          1


          % within Geschlecht (% для пола)


          100,0%



          100,0%


          Hauptschule


          Начальная школа)


           


           


           


           


           


           


           


           


          Putzha- euflgkeit


          (Перио- дичность чистки)


          < 1-mal taeglich


          (< 1 раза в цень)


          Count (Количество


          8


          2


          10


          % within Geschlecht (% для пола)


          5,6%


          3,0%


          4,7%


          1-mal taeglich


          Count (Количество


          71



          91


          (1 раз в день)


          % within Geschlecht (% для пола)


          49,3%


          29,9%


          43,1%


          2-mal taeglich


          (2 раза в день)


          Count (Количество


          65


          42


          107


          % within Geschlecht (% для попа)


          45,1%


          62,7%


          50,7%


          > 2-mal taeglich


          > 2 раз в день)


          Count (Количество



          2


          т


          % within Geschlecht (% для пола)



          4,5%


          1,4%


          Total (Сумма)


          Count (Количество


          144


          67


          211


          % within Geschlecht (% для попа)_


          100,0%


          100,0%


          100,0%


          mittlere Reife


          Незаконченное среднее)


           


           


           


           


           


           


           


           


          Putzha- eufigkeit


          Перио- дичность


          < 1-mal taeglich


          Count (Количество


          6


          2


          8


          (< 1 раза в день


          % within Geschlecht (% для пола)


          1,6%


          ,8%


          1,2%


          1-mal taeglich


          1 раза в день


          Count (Количество


          89


          31


          120


          % within Geschlecht (% для пола)


          23.1%


          11,9%


          18,6%


          2-mal taeglich


          Count (Количество


          284


          216


          500


          (2 раза в день)


          % within Geschlecht (% для пола)


          73,6%


          83,1%


          77,4%


          > 2-mal taeglich


          Count (Количество


          7


          11


          18


          '> 2 раз в день)


          % within Geschlecht (% для пола)


          1,8%


          4,2%


          2,8%


          Total (Сумма)


          Count (Количество


          386


          260


          646


          % within Geschlecht (% для пола)


          100,0%


          100,0%


          100,0%


          Abitur


          Аттестат зрелости)


          Putzha- eufigkeit


          (Перио- дичность


          чистки)


          1-mal taeglich


          1 раз в день)


          Count (Количество


          9


          1


          10


          % within Geschlecht (% для пола)


          12,7%


          10,0%


          12,3%


          2-mal taeglich


          (2 раза в день)


          Count (Количество


          56


          8


          64


          % within Geschlecht (% для пола)


          78,9%


          80,0%


          79,0%


          > 2-mal taeglich


          > 2 раз в день)


          Count (Количество


          6


          1


          7


          % within Geschlecht (% для пола)


          8,5%


          10,0%


          8,6%


          Total (Сумма)


          Count (Количество


          71


          10


          81


          % within Geschlecht (% для пола)


          100,0%


          100,0%


          100,0%


          Hochschule


          Высшее)


          Putzha- eufigkeit


          (Перио- дичность


          чистки)


           


           


           


          1-mal taeglich


          '1 раз в день)


          Count (Количество


          7


          4


          11


          % within Geschlecht (% для пола)


          6,7%


          4,6%


          5,8%


          2-mal taeglich


          '2 раза в день)


          Count (Количество


          85


          76


          161


          % within Geschlecht (% для пола)


          81,7%


          87,4%


          84,3%


          > 2-mal taeglich


          > 2 раз в день)


          Count (Количество


          12


          7


          19


          % within Geschlecht (% для пола)


          11,5%


          8,0%


          9,9%


          Total (Сумма)


          Count (Количество


          104


          87


          191


          % within Geschlecht (% для пола)


          100,0%


          100,0%


          100,0%

          •  Дважды щёлкните на таблице и выберите в меню Pivot (Мобильная таблица) Pivoting Trays (Поля вращения) На панели строк появился ещё один значок.

          •  Если Вы пройдётесь указателем мыши по этим значкам, то заметите, что первый из трёх значков соответствует переменной Schulbildung (образование). Щёлкните на этом значке и, не отпуская кнопку мыши, перетащите его на панель переменных слоя.

          Теперь в редакторе мобильных таблиц будет представлена таблица сопряженности между периодичностью чистки зубов и полом для первой категории образования Sonderschule (специальное).

          •  Закройте окно Pivoting Trays (Поля вращения)

          •  Выберите в меню Pivot (Мобильная таблица) Go to Layer... (Перейти к слою)

          Откроется диалоговое окно Go to Layer Category (Переход к категории слоя) (см. рис. 4.21).



          Рис. 4.21: Диалоговое окно Go to Layer Category (Переход к категории слоя)

          •  Выделите категорию "Hauptschule" (Начальная школа), теперь в окне просмотра будет отображена таблица только для этой категории.

          Putzhaeufigkeit * Geschlecht * Schulbildung Crosstabulation (Таблица сопряженности Периодичность чистки * Пол * Образование)


          Schulbildung: He suptschule (Образ ование: Начальная школа)


          Geschle:ht (Пол)


          Total


          (Сумма)


          nannlich (мужской)


          weiblich (женский)


          Putzhaeufigkeit


          (Периодичность чистки)


          < 1-mal taeglich


          (< 1 раза в день)


          Count (Количество)


          8


          2


          10


          % within Geschlecht (% для пола)


          5,6%


          3,0%


          4,7%


          1-mal taeglich


          (1 раз в день)


          Count (Количество)


          71



          91


          % within Geschlecht (% для пола)


          49,3%


          29,9%


          43,1%


          2-mal taeglich


          (2 раза в день)


          Count (Количество)


          65


          42


          107


          % within Geschlecht (% для пола)


          45,1%


          62,7%


          50,7%


          >2-mal taeglich


          (> 2 раз в день)


          Count (Количество)



          f.


          Т


          % within Geschlecht (% для пола)



          4,5%


          1,4%


          Total (Сумма)


          Count (Количество)


          144


          67


          211


          % within Geschlecht (% для пола)


          100,0%


          100,0%


          100,0%


          Остальные возможности изменения положения строк, столбцов и слоев испытайте, пожалуйста, самостоятельно.

          36.gif

          Изображение: 

          37.gif

          Изображение: 

          38.gif

          Изображение: 

          4.6.2 Дополнительные возможности редактирования таблиц

          4.6.2 Дополнительные возможности редактирования таблиц


          Применение техники мобильных таблиц для изменения структуры таблиц результатов статистических расчетов была представлена в разделе 4.6.1. Однако для изменения внешнего вида таблиц и их содержания, помимо описанной техники, существуют также и следующие возможности:

          •  выбор внешнего вида таблицы из библиотеки таблиц

          •  изменение свойств таблицы

          •  изменение свойств ячеек 

          •  изменение текста в таблице

          •  добавление пояснений

          •  добавление сносок

          •  ввод названия объекта и дополнительного текста

          Рассмотрим самые важные аспекты перечисленных возможностей редактирования таблиц.


          Выбор внешнего вида таблицы


          В качестве примера таблицы, для которой нужно будет применить редактирование, рассмотрим повторно перекрёстную таблицу между периодичностью чистки и полом.

          •  Дважды щёлкните на таблице; это приведёт к активированию редактора мобильных таблиц.

          •  Чтобы выбрать другой внешний вид таблицы, выберите в меню Format (Формат) TabelLooks... (Дизайн таблиц) Откроется диалоговое окно TabelLooks (Дизайн таблиц) (см. рис. 4.22).

          •  В этом диалоговом окне Вы можете выбрать среди более чем пятидесяти различных заготовок внешнего вида (дизайна) таблиц. Выберите, к примеру, заготовку Avant-gard и покиньте диалоговое окно нажатием ОК.


          Рис. 4.22: Диалоговое окно Tabe/Looks (Дизайн таблиц)


          Наша таблица теперь будет выглядеть следующим образом.


          Putzhaeufigkeit * Geschlecht * Schulbildung Crosstabulation (Таблица сопряженности Периодичность чистки * Пол)

           

          Geschlecht(Пол)


          Total


          (Сумма)


          mannlich (мужской)


          weiblich (женский)


          Putzhaeufigkeit


          (Периодичность чистки)


          < 1-mal taeglich


          < 1 раза в день)


          Count (Количество)



          14


          4


          18


          % within Geschlecht


          (% для пола)


          2,0%


          ,9%


          1 ,6%


          1-mal taeglich


          (1 раз в день)


          Count (Количество



          177


          56


          233


          % within Geschlecht


          (% для пола)


          25,1%


          13,2%


          20,6%


          2-mal taeglich


          (2 раза в день)


          Count (Количество)



          490


          342


          832


          % within Geschlecht


          (% для пола)


          69,4%


          80,7%


          73,6%


          > 2-mal taeglich


          (> 2 раз в день)


          Count (Количество



          25


          22


          47


          % within Geschlech


          (% для пола)


          3,5%


          5,2%


          4,2%


          Total (Сумма)


          Count (Количество)



          706


          424


          1130


          % within Geschlechl


          (% для пола)


          100,0%


          100,0%


          100,0%

          •  При помощи выключателя Edit Look (Редактировать дизайн) диалогового окна TabelLooks (Дизайн таблиц) Вы можете открыть вспомогательное диалоговое окно Table Properties (Свойства таблицы), в котором можно дополнительно изменить отдельные элементы компоновки таблицы. Отредактированный дизайн Вы можете сохранить при помощи команд Save Look (Сохранить дизайн) и Save as... (Сохранить как).

          Изменение свойств таблицы

          •  Чтобы изменить свойства таблицы, выберите в меню Format (Формат) Table Properties... (Свойства таблицы) Откроется диалоговое окно Table Properties (Свойства таблицы).


          Рис. 4.23: Диалоговое окно Table Properties (Свойства таблицы)


          Вы можете по своему вкусу изменить представление некоторых данных, ссылки, форматы ячеек и виды рамок. Для отдельных областей таблицы, таких как индивидуальные ячейки, вы можете также изменить и шрифт.

          •  Выделите щелчком одну из таких областей активированной мобильной таблицы и выберите в меню Format (Формат) Font... (Шрифт)

          •  Если вы хотите установить одинаковую ширину для всех ячеек таблицы, то это можно сделать посредством выбора меню Format (Формат) Set Data Cell Widths... (Ширина ячеек данных)

          Изменение свойств ячеек


          Наряду со свойствами всей таблицы можно также изменять и свойства отдельных ячеек.

          •  Выделите щелчком в активированной мобильной таблице необходимую ячейку и выберите в меню Format (Формат) Cell Properties... (Свойства ячейки) Откроется диалоговое окно Cell Properties (Свойства ячейки).


          Рис. 4.24: Диалоговое окно Cell Properties (Свойства ячейки)


          При помощи регистрационных карт, имеющихся в этом диалоговом окне, Вы можете выбрать необходимый формат чисел, выравнивание в ячейке, поля и оттенок. В поле образца (Sample) всегда будет приводиться образец надписи с учетом соответствующих установок.


          Изменение текста в таблице

          •  Создадим сначала частотную таблицу. Если файл zahn.sav уже открыт, выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)

          •  В диалоговом окне Frequencies (Частоты) поместите переменную s (образование) в поле тестируемых переменных. Вы получите соответствующую частотную таблицу.

          •  Двойным щелчком на таблице активируйте редактор мобильных таблиц и затем тоже дважды щёлкните на ячейке с текстом "Frequency" (Частота). В таком режиме можно вместо имеющегося текста указать в данной ячейке другой текст, к примеру, "Count" (Количество); после ввода текста нажмите клавишу Enter. Таким же образом можно поступить и с другими текстами, имеющимися в таблице.

          •  Если Вы произвели все необходимые замены, покиньте редактор мобильных таблиц щелчком на области за пределами выделенной таблицы. Теперь таблица будет выглядеть следующим образом.

          Schulbildung (Образование)

           

          Count (Количество)


          Percent (Процент)


          Valid Percent (Действи- тельный процент)


          Cumulative Percent (Совокупный процент)


          Valid (Действи- тельные значения)


          Sonderschule (Специальное)


          1


          ,1


          ,1


          ,1


          Hauptschule (Начальная школа)


          211


          18,7


          18,7


          18,8


          mittlere Reife (Незаконченное среднее)


          646


          57,2


          57,2


          75,9


          Abitur (Аттестат зрелости)


          81


          7,2


          7,2


          83,1


          Hochschule (Высшее)


          191


          16,9


          16,9


          100


          Total (Сумма)


          1130


          100,0


          100,0



          Добавление пояснений

          •  Чтобы под таблицей разместить пояснение, активируйте двойным щелчком режим редактирования таблиц и выберите в меню Insert (Вставка) Caption (Подпись)

          •  Под таблицей появится рамка с текстом Table Caption (Подпись таблицы) внутри. Щёлкните дважды на этом тексте и наберите, к примеру, "Данные 1994 года".

          Добавление сносок

          •  Везде в таблице можно добавлять сноски. Нужную таблицу двойным щелчком перенесите в редактор мобильных таблиц и выделите щелчком любой текст в таблице. Рассмотрим, например, созданную нами частотную таблицу и текст "Hochschule" (Высшее).

          •  После выделения текста выберите в меню Insert (Вставка) Footnote (Сноска)

          • В появившейся рамке дважды щёлкните на тексте "Footnote" (Сноска) и наберите вместо него необходимый текст, для данного случая, к примеру, "Включая специальные высшие учебные заведения".

          •  Если Вы посмотрите на сноску, то заметите, что перед ней в соответствии с установками появился маркер в виде буквы уменьшенного размера (для первой сноски это буква а). Если вы хотите изменить маркер, выделите щелчком сноску и выберите в меню Format (Формат) Footnote Marker... (Маркер сноски)

          •  Активируйте опцию Special marker (Специальный маркер) и введите цифру 1. Изменённая частотная таблица теперь выглядит следующим образом.

          Schulbildung (Образование)



           


          Count (Количество)


          Percent (Процент)


          Valid Percent (Действи- тельный процент)


          Cumulative Percent (Совокупный процент)


          Valid (Действи-


          Sonderschule (Специальное)


          1


          ,1


          ,1


          ,1


          тельные значения)


          Hauptschule (Начальная школа)


          211


          18,7


          18,7


          18,8



          mittlere Reife (Незаконченное среднее)


          646


          57,2


          57,2


          75,9



          Abitur (Аттестат зрелости)


          81


          7,2


          7,2


          83,1



          Hochschule1 (Высшее)


          191


          16,9


          16,9


          100,0



          Total (Сумма)


          1130


          100,0


          100,0



          Данные 1994 года 


          1. Включая специальные высшие учебные заведения


          Ввод названия объекта и дополнительного текста

          •  Чтобы добавить название или какой-либо текст, выделите щелчком соответствующий объект (заголовок, таблицу, график и т.д.), после которого вы хотите добавить подзаголовок или текст. Затем выберите в меню Insert (Вставка) New Title (Новое название) и соответственно Insert (Вставка) New Text (Новый текст)

          •  После двойного щелчка на новом объекте Вы можете ввести необходимое название или текст.

          •  Если необходимый текст находится в текстовом файле, то выберите в меню Insert (Вставка) Text File... (Текстовый файл) И в появившемся диалоговом окне укажите имя файла.

          39.gif

          Изображение: 

          40.gif

          Изображение: 

          41.gif

          Изображение: 

          4.6.3 Операции с таблицами большого размера

          4.6.3 Операции с таблицами большого размера


          Очень длинные таблицы полностью не помещаются в окне просмотра. Визуально это отмечается при помощи маркировки красного цвета в месте разрыва. В этом случае щёлкните дважды на таблице и при нажатой левой кнопке мыши Вы сможете переместить этот маркер вниз.

          4.6.4 Окно просмотра текста

          4.6.4 Окно просмотра текста


          Если Вы хотите работать не с интерактивными мобильными таблицами, а с простой текстовой выдачей пропорциональным (системным) шрифтом, то используйте для этого окно просмотра текста.

          •  Режим просмотра текста можно установить при помощи выбора меню Edit (Правка) Options... (Параметры) с последующим активированном на регистрационной карте General (Общие) опции вывода информации в виде окна просмотра текста (DraftViewer). Чтобы установки вступили в силу необходимо перезапустить программу.

          •  Различные возможности редактирования элементов при данном режиме работы окна просмотра находятся на регистрационной карте DraftViewer (Окно текстового режима) диалогового окна Options (Параметры). Данные, находящиеся в окне текстового режима, будут сохранены в формате RTF (Rich Text).

          •  Дополнительную информацию о текстовом режиме просмотра результатов Вы можете получить после выбора меню Help (Помощь) Topics (Темы)

          •  В окне Help: SPSS for Windows (Справочная система: SPSS для Windows) выберите закладку Index (Указатель), в поисковом поле наберите "Draft Viewer" и дважды щёлкните на нужной позиции.

          4.7 Редактор синтаксиса

          4.7 Редактор синтаксиса


          Редактор синтаксиса представляет собой текстовое окно, применяемое для набора и запуска на исполнение команд SPSS. Вы можете вводить команды непосредственно в окне набора или просто переносить установки диалоговых окон при помощи выключателя Paste (Вставить), находящегося в самих диалоговых окнах. Этот перенос возможен благодаря тому, что все диалоговые окна написаны на командном языке SPSS. С целью реализации дополнительных возможностей или каких-либо индивидуальных подходов к обработке данных, команды, помещённые в редактор синтаксиса, можно изменять.

          •  Откройте сначала файл wahl.sav.

          •  Чтобы открыть редактор синтаксиса, выберите в меню File (Файл) New (Новый) Syntax (Синтаксис)

          •  Наберите следующую команду

          FREQUENCIES VARIABLES = sex alter partei.

          Редактор синтаксиса будет выглядеть так, как на рисунке 4.25.



          Рис. 4.25: Редактор синтаксиса

          •  Запустите команду SPSS на исполнение путём нажатия кнопки со значком Run . Current (Выполнить текущую команду).

          SPSS перейдёт в окно просмотра результатов. В окне просмотра будет отображены распределения частот переменных sex, alter и partei.


          Для выполнения команд SPSS при помощи редактора синтаксиса, поступайте следующим образом:

          •  Выделите щелчком и перетаскиванием курсора команды, которые Вы хотели бы выполнить.

          •  Если вы хотите выполнить одну команду, расположите курсор в любом месте этой команды.

          •  Если Вы желаете выполнить все команды, находящиеся в редакторе, выберите в меню Edit (Правка) Select All (Выделить всё) В редакторе будут выделены все команды.

          •  Затем для выполнения команд щёлкните на кнопке Run Current (Выполнить текущую команду) редактора синтаксиса или нажмите одновременно клавиши <Ctrl> <R>.

          Перенос синтаксиса команд из диалоговых окон


          Установки диалоговых окон можно переносить в редактор синтаксиса при помощи переключателя Paste (Вставить). Рассмотрим пример:

          •  Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)

          •  При необходимости для устранения всех предыдущих установок щёлкните на выключателе Reset (Сброс).

          •  Перенесите переменную alter (возраст) в список целевых переменных.

          •  Щёлкните на переключателе Statistics (Статистики) и проставьте флажки активации опций Mean (Среднее значение), Minimum (Минимум) и Maximum (Максимум). Подтвердите нажатием Continue (Далее).

          •  В главном диалоговом окне деактивируйте опцию Display frequency tables (Показать частотные таблицы).

          •  Теперь щёлкните на Paste (Вставить).

          Установки диалогового окна будут размещены в редакторе синтаксиса.



          Рис. 4.26: Командный язык SPSS


          Сохранение файла синтаксиса


          Для сохранения файла синтаксиса необходимо выполнить следующие шаги:

          •  Активируйте редактор синтаксиса, в котором содержатся команды, предназначенные для сохранения.

          •  Выберите в меню File (Файл) Save (Сохранить)

          Откроется диалоговое окно Save as... (Сохранить как). В соответствии с установками программа SPSS прибавляет к своим синтаксическим файлам расширение .sps.

          •  Введите название сохраняемого файла и подтвердите нажатием кнопки Save (Сохранить).

          Можно также щёлкнуть на значке сохранения Save File (Сохранить файл).


          Больше подробностей о работе с синтаксисом программы вы узнаете в главе 26.

          42.gif

          Изображение: 

          44.gif

          Изображение: 

          4.8 Информация о файле

          4.8 Информация о файле


          Для любого файла SPSS Вы можете получить следующую информацию:

          •  список переменных с их описанием,

          •  полную информацию обо всех переменных и

          •  перечень наблюдений.

            •  Откройте файл wahl.sav.

            •  Если вы хотите просмотреть информацию о значениях переменных, их формате и метках, выберите в меню Utilities (Дополнительные возможности) Variables... (Переменные)

            •  Если в появившемся диалоговом окне Вы щёлкните, к примеру, на переменной sex (пол), то увидите информацию, отображаемую на рисунке 4.27.


          Рис. 4.27: Диалоговое окно Variables (Переменные)


          В информационном окне выводится имя переменной, значения и метки переменной, тип переменной, а также указывается количество пропущенных значений. Из диалогового окна Variables (Переменные) можно сразу перейти к рассматриваемой переменной в окно данных.

          •  Щёлкните для этого на выключателе Go to (Перейти к).

          Окно данных прокручивается горизонтально таким образом, что переменная, отмеченная нами в диалоговом окне Variables (Переменные), оказывается в окне данных на первой позиции. Выключатель Paste (Вставить) копирует имена всех выделенных переменных в редактор синтаксиса.


          Некоторую информацию о переменной можно также получить и в любой момент, находясь в диалоговом окне какой-либо статистической процедуры. Для изучения этой операции рассмотрим следующий пример. Допустим, Вы исследуете частотное распределение переменной partei (партия).

          •  В диалоговом окне Frequencies (Частоты) перенесите переменную partei (партия) в поле целевых переменных.

          Теперь Вам захотелось, не покидая диалогового окна, вскользь взглянуть на значения этой переменной.

          •  Выделите её так же, как Вы выделяете и другие переменные в диалоговых окнах и нажмите правую кнопку мыши.

          •  В появившемся меню выберите опцию Variable Information (Информация о переменной).

          Откроется информационное окно переменной изображённое на рисунке 4.28. В этом окне также приводится имя переменной, тип статистической шкалы, к которой она относится и метки значений.

          •  Если Вы щёлкните на стрелке, указывающей вниз, то увидите список всех значений и их меток.


          Рис. 4.28: Информационное окно переменной


           Чтобы закрыть информационное окно, просто щёлкните на любой точке за его пределами.

          •  Если же Вы хотите получить полную информацию обо всех переменных текущего (рабочего) файла, выберите в меню Utilities (Дополнительные возможности) File Info (Информация о файле)

          В окне просмотра появится следующая информация по файлу wahl.sav: 

           List of variables on the working file (Список переменных рабочего файла)
           Name (Имя) Position (Позиция) 
          FRAGEBNR Fragebogen-Nr. (Номер анкеты) 1 
          Measurement Level: Nominal (Шкала: номинальная)
          Column Width: Unknown (Ширина столбцов: неизвестна)
           Alignment: Left (Выравнивание: влево)
           Print Format: AS (Формат печати: А5) 
          Write Format: AS (Формат записи: AS)
          SEX Geschlecht (Пол) 2 
           Measurement Level: Nominal (Шкала: номинальная) 
           Column Width: Unknown (Ширина столбцов: неизвестна) 
           Alignment: Right (Выравнивание: вправо) 
           Print Format: Fl (Формат печати: Fl) 
           Write Format: Fl (Формат записи: Fl)
            Missing Values: 0 (Отсутствующие значения: 0)
           Value (Значение) Label (Метка)
           0 М keine Angabe (Данные отсутствуют)
           1 weiblich (Женский)
           2 maennlich (Мужской)
           ALTER Lebensalter (Возраст) 3
            Measurement Level: Scale (Шкала: метрическая) 
           Column Width: Unknown (Ширина столбцов: неизвестна)
            Alignment: Right (Выравнивание: вправо) 
           Print Format: F2 (Формат печати: F2)
            Write Format: F8.2 (Формат записи: F8.2)
            Missing Values: 0 (Отсутствующие значения: 0)
           Value (Значение) Label (Метка)
           0 М keine Angabe (Данные отсутствуют)
           PARTEI Partei (Партия) 4 
           Measurement Level: Nominal (Шкала: номинальная) 
           Column Width: Unknown (Ширина столбцов: неизвестна) 
           * Alignment: Right (Выравнивание: вправо)
            Print Format: Fl (Формат печати: Fl)
            Write Format: F8.2 (Формат записи: F8.2) 
           Missing Values: 0 (Отсутствующие значения: 0)
           Value (Значение) Label (Метка)
           0 М keine Angabe (Данные отсутствуют)
           1 CDU/CSU
           2 FDP
           3 SPD
           4 Gruene/Buendnis 90 (Зелёные/Союз 90)
           5 PDS
           6 Republikaner (Республиканцы)
           7 Sonstige (Прочие)
          •  Если вы хотите получить такую информацию о файле, который не является в данный момент рабочим, то выберите в меню File (Файл) Display Data Info... (Показать информацию о файле) Откроется соответствующее диалоговое окно (см. рис. 4.29).


          Рис. 4.29: Диалоговое окно Display Data Info (Показат< информацию о файле)

          •  Выделите необходимый файл, к примеру, wahl.sav и подтвердите выбор нажатием кнопки Open (Открыть).

          Информация о выбранном файле появится в окне просмотра.

          •  Если же у Вас появится желание проверить фактическое содержание некоторого файла, к примеру, список наблюдений, то выберите в меню Analyze (Анализ) Reports (Отчёты) Case Summaries... (Сводка по наблюдениям)

          Вы увидите диалоговое окно Summarize Cases (Формирование итогов по наблюдениям) (см. рис. 4.30).



          Рис. 4.30: Диалоговое окно Summarize Cases (Формирование сводки по наблюдениям)


          Переменные файла будут показаны в списке исходных переменных. Здесь Вы можете выделить одну или несколько переменных, наблюдения для которой должны быть помещены в сводку. Опции диалогового окна говорят сами за себя.

          •  В качестве упражнения перенесите в список выбираемых переменных переменную partei (партия) и активируйте опцию Show case numbers (Отобразить номера наблюдений).

          •  Подтвердите установки нажатием ОК. В окне просмотра будут отображены значения переменной partei (партия) для всех наблюдений.

          46.gif

          Изображение: 

          47.gif

          Изображение: 

          48.gif

          Изображение: 

          49.gif

          Изображение: 

          4.9 Справочная система

          4.9 Справочная система


          Справку в SPSS можно вызвать несколькими способами:

          •  Нажать в любой момент работы функциональную клавишу <F1>. Откроется диалоговое окно Help: SPSS for Windows (Справочная система: SPSS для Windows).

          •  Выбрать в главном меню опцию Help (Справка).

          •  Находясь в любом диалоговом окне, нажать переключатель с названием Help (Справка) и Вы получите справку по текущей теме.

          Изучим вызов справки при помощи нескольких примеров:

          •  Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)

          •  Щёлкните на переключателе Help (Справка). Откроется диалоговое окно справки SPSS (см. рис. 4.31).


          Рис. 4.31: Справка SPSS


          Рассмотрим следующий пример:

          •   Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)

          •  Перенесите переменную partei (партия) в поле целевых переменных. Щёлкните на переключателе Paste (Вставить). Установки диалогового окна будут перенесены в редактор синтаксиса.

          •  В редакторе синтаксиса щёлкните в панели инструментов на кнопке со значком Syntax-Help (Справка по теме синтаксиса)

          В окне справки появится синтаксис соответств. команды SPSS (см. рис. 4.32).


          Если Вы щёлкните на переключателе Index (Указатель), то в окне справки будет отображён список тем SPSS (см. рис. 4.33).


          Чтобы, находясь в справочной системе, параллельно иметь возможность работать в редакторе синтаксиса Вы можете уменьшить окно справки до любого необходимого Вам, размера и расположить его в удобном для Вас месте. Рассмотрим ещё один пример:

          •  В редакторе данных в списке меню шёлкните на опции Help (Справка). Откроется вспомогательное меню.

          •  Щёлкните на позиции Topics (Темы). Появится перечень тем SPSS. В списке тем SPSS присутствуют и определения статистических терминов.

          •  В списке тем выделите строку 25th percentile (25-й процентиль) и щёлкните на кнопке Display (Показать). Вы увидите информацию, отображаемую на рисунке 4.34.

          •  Любую информацию, находящуюся в диалоговом окне справки, можно напечатать с помощью принтера. Для этого выберите команду Print (Печать).


          Рис. 4.32: Окно справки синтаксиса SPSS



          Рис. 4.33: Список тем SPSS



          Рис. 4.34: Информация о значениях процентиля

          50.gif

          Изображение: 

          52.gif

          Изображение: 

          53.gif

          Изображение: 

          54.gif

          Изображение: 

          Глава 5. Основы статистики

          Глава 5. Основы статистики

          1. Основы статистики

          Основы статистики


          Овладение приемами работы с такой программой, как SPSS требует предварительных познаний в области статистики. Здесь мы коротко остановимся на некоторых основных понятиях, с которыми непременно должен быть знаком пользователь, если он хочет использовать SPSS. В первую очередь сюда относятся предварительные оценки, которые выполняются перед проведением любого статистического теста: классификация переменных по статистическим шкалам, проверка наличия нормального распределения и выделение независимых и зависимых выборок. В следующих разделах представлено описание наиболее часто проводимой процедуры проверки гипотезы о среднем значении и рассматривается значение вероятности ошибки р. Завершает главу обзор методов статистической обработки с указанием глав, в которых они будут рассматриваться в этой книге.

          5.1 Предварительные условия для проведения статистического теста

          5.1 Предварительные условия для проведения статистического теста


          В большинстве случаев перед применением статистического теста ставится вопрос: каков характер заданных условий? В частности, необходимо выяснить следующие моменты:

          •  К какой статистической шкале относится данная переменная?

          •  Если речь идёт о переменных с интервальной шкалой, то подчиняются ли они закону нормального распределения?

          •  Являются ли сравниваемые выборки зависимыми или независимыми?

          5.1.1 Типы статистических шкал

          5.1.1 Типы статистических шкал


          В эмпирическом исследовании могут встречаться, к примеру, следующие переменные (указано их наиболее вероятное кодирование):


          Пол


          1 = мужской


          2 = женский


          Семейное положение


          1 = холост/не замужем


          2 = женат/замужем


          3 = вдовец/вдова


          4 = разведен(а)


          Курение


          1 = некурящий


          2 = изредка курящий


          3 = интенсивно курящий


          4 = очень интенсивно курящий


          Месячный доход


          1 = до 3000 DM


          2 = 3001 - 5000 DM


          Коэффициент интеллекта (I.Q.)


          3 = более 5000 DM


          Возраст, лет


          Рассмотрим сначала графу Пол. Мы видим, что назначение соответствия цифр 1 и 2 обоим полам абсолютно произвольно, их можно было поменять местами или обозначить другими цифрами


          Мы, конечно, не имеем в виду, что женщины стоят на ступеньку ниже мужчин, или :о мужчины значат меньше, чем женщины. Следовательно, отдельным числам не соответствует никакою эмпирического значения. В этом случае говорят о переменных, относящихся к номинальной шкале. В нашем примере рассматривается переменная с номинальной шкалой, имеющая две категории. Такая переменная имеет еще одно название- дихотомическая.


          Такая же ситуация и с переменной Семейное положение. Здесь также соответствие -:жду числами и категориями семейного положения не имеет никакого эмпирического значения. Но в отличии от Пола, эта переменная не является дихотомической — у нее четыре категории вместо двух. Возможности обработки переменных, относящихся к номинальной шкале очень ограничены. Собственно говоря, можно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для переменной Семейное положение, совершенно бессмысленен. Переменные, относящиеся к номинальной шкале часто используются для группировки, с помощью которых совокупная выборка разбивается по категориям этих переменных. В частичных выборках проводятся одинаковые статистические тесты, результаты которых затем сравниваются друг с другом.


          В качестве следующего примера рассмотрим переменную Курение. Здесь кодовым цифрам присваивается эмпирическое значение в том порядке, в котором они расположены в списке. Переменная Курение, в итоге, сортирована в порядке значимости снизу вверх: умеренный курильщик курит больше, нежели некурящий, а сильно курящий — больше, чем умеренный курильщик и т.д. Такие переменные, для которых используются численные значения, соответствующие постепенному изменению эмпирической значимости, относятся к порядковой шкале.


          Однако эмпирическая значимость этих переменных не зависит от разницы между соседними численными значениями. Так, несмотря на то, что разница между значениями кодовых чисел для некурящего и изредка курящего и изредка курящего и интенсивно курящего в обоих случаях равна единице, нельзя утверждать, что фактическое различие между некурящим и изредка курящим и между изредка курящим и интенсивно курящим одинаково. Для этого данные понятия слишком расплывчаты.


          К классическими примерами переменных с порядковой шкалой относятся также переменные, полученные в результате объединения величин в классы, как Месячный доход в нашем примере.


          Кроме частотного анализа, переменные с порядковой шкалой допускают также вычисление определенных статистических характеристик, таких как медианы. В некоторых случаях возможно вычисление среднего значения. Если должна быть установлена связь (корреляция) с другими переменными такого рода, для этой цели можно использовать коэффициент ранговой корреляции.


          Для сравнения различных выборок переменных, относящихся к порядковой шкале, могут применяться непараметрические тесты, формулы которых оперируют рангами.


          Рассмотрим теперь коэффициент интеллекта (IQ). Не только его абсолютные значения отображают порядковое отношение между респондентами, но и разница между двумя значениями также имеет эмпирическую значимость. Например, если у Ганса IQ равен 80, у Фрица — 120 и у Отто — 160, можно сказать, что Фриц в сравнении с Гансом настолько же интеллектуальнее насколько Отто в сравнении с Фрицем (а именно — на 40 единиц IQ). Однако, основываясь только на том, что значение IQ у Ганса в два раза меньше, чем у Отто, исходя из определения IQ нельзя сделать вывод, что Отто вдвое умнее Ганса.


          Такие переменные, у которых разность (интервал) между двумя значениями имеет эмпирическую значимость, относятся к интервальной шкале. Они могут обрабатываться любыми статистическим методами без ограничений. Так, к примеру, среднее значение является полноценным статистическим показателем для характеристики таких переменных.


          Наконец, мы достигли наивысшей статистической шкалы, на которой эмпирическую значимость приобретает и отношение двух значений. Примером переменной, относящейся к такой шкале является возраст: если Максу 30 лет, а Морицу 60, можно сказать, что Мориц вдвое старше Макса. Шкала, к которой относятся данные называется шкалой отношений. К этой шкале относятся все интервальные переменные, которые имеют абсолютную нулевую точку. Поэтому переменные относящиеся к интервальной шкале, как правило, имеют и шкалу отношений.


          Подводя итоги, можно сказать, что существует четыре вида статистических шкал, на которых могут сравниваться численные значения:


          Статистическая шкала


          Эмпирическая значимость


          Номинальная


          Нет


          Порядковая


          Порядок чисел


          Интервальная


          Разность чисел


          Шкала отношений


          Отношение чисел


          На практике, в том числе в SPSS, различие между переменными, относящимися к интервальной шкале и шкале отношений обычно несущественно. То есть в дальнейшем практически всегда речь будет идти о переменных, относящихся к интервальной шкале.


          Пользователь SPSS должен четко разбираться в видах статистических шкал и при выборе метода обращать внимание на то, чтобы были определены надлежащие виды шкал.


          Мы уже указывали, что переменные, относящиеся к номинальной шкале допускают весьма ограниченные возможности для проведения анализа. Исключение в некоторых ситуациях составляют дихотомические переменные. Для них можно, по крайней мере, определять ранговую корреляцию. Если, например, обнаруживается корреляция коэффициента интеллекта с полом, то положительный коэффициент корреляции означает, что женщины интеллектуальнее, чем мужчины. Однако если переменные, относящиеся к номинальной шкале не являются дихотомическими, вычисление коэффициентов ранговой корреляции не имеет смысла.

          5.1.2 Нормальное распределение

          5.1.2 Нормальное распределение


          Многочисленные методы, с помощью которых обрабатываются переменные, относящиеся к интервальной шкале, исходят из гипотезы, что их значения подчиняются нормальному распределению. При таком распределении большая часть значений группируется около некоторого среднего значения, по обе стороны от которого частота наблюдений равномерно снижается.


          В качестве примера рассмотрим нормальное распределение возраста, которое строится по данным исследований гипертонии (файл hyper.sav) с помощью команд меню Graphs (Графы) Histogramm... (Гистограмма) (см. рис. 5.1).


          На диаграмме нанесена кривая нормального распределения (Колокол Гаусса). Реальное распределение в большей или меньшей степени отклоняется от этой идеальной кривой. Выборки, строго подчиняющиеся нормальному распределению, на практике, как правило, не встречаются. Поэтому почти всегда необходимо выяснить, можно ли реальное распределение считать нормальным и насколько значительно заданное распределение отличается от нормального.


          Перед применением любого метода, который предполагает существование нормального распределения, наличие последнего нужно проверять в первую очередь. Классическим примером статистического теста, который исходит из гипотезы о нормальном распределении, можно назвать t-тест Стьюдента, с помощью которого сравнивают две независимые выборки. Если же данные не подчиняются нормальному распределению, следует использовать соответствующий непараметрический тест, в случае двух независимых выборок — U-тест Манна и Уитни.


          Если визуальное сравнение реальной гистограммы с кривой нормального распределения кажется недостаточным, можно применить тест Колмогорова-Смирнова, который находится в меню Analyze (анализ данных) в наборе непараметрических тестов (см. раздел 14.5).



          Рис. 5.1: Распределение возраста


          В нашем примере с распределением возрастов тест Колмогорова-Смирнова не показывает значительного отклонения от нормального распределения.


          Еще одну возможность проверки наличия нормального распределения дает построение графика нормального распределения (см. разделы 10.4.1, 22.12), в котором наблюдаемые значения сопоставляются с ожидаемыми при нормальном распределении.

          1.gif

          Изображение: 

          5.1.3 Зависимость и независимость выборок

          5.1.3 Зависимость и независимость выборок


          Две выборки зависят друг от друга, если каждому значению одной выборки можно закономерным и однозначным способом поставить в соответствие ровно одно значение другой выборки. Аналогично определяется зависимость нескольких выборок.


          Чаще всего зависимые выборки возникают, когда измерение проводится для нескольких моментов времени. Зависимые выборки образуют значения параметров изучаемого процесса, соответствующие различным моментам времени.


          В SPSS зависимые (также связанные, спаренные) выборки будут представляться разными переменными, которые сопоставляются друг с другом в соответствующем тесте на одной и той же совокупности наблюдений.


          Если закономерное и однозначное соответствие между выборками невозможно, эти выборки являются независимыми. В SPSS независимые выборки содержат разные наблюдения (например, относящиеся к различным респондентам), которые обычно различаются с помощью групповой переменной, относящейся к номинальной шкале.

          5.2 Обзор распространенных тестов для проверки гипотез о среднем

          5.2 Обзор распространенных тестов для проверки гипотез о среднем


          В наиболее распространенной ситуации, когда требуется сравнить друг с другом разные выборки по их средних значениям или медианам, с учетом условий, описанных в разделе 5.1, обычно применяется один из восьми следующих тестов.


          Переменные, относящиеся к интервальной шкале и подчиняющиеся нормальному распределению


          Количество сравниваемых выборок


          Зависимость


          Тест


          1


          Независимые


          t-тест Стьюдента


          1


          Зависимые


          t-тест для зависимых выборок


          >2


          Независимые


          Простой дисперсионный анализ


          >2


          Зависимые


          Простой дисперсионный анализ с повторными измерениями


          Переменные, относящиеся к порядковой шкале или переменные, относящиеся к интервальной шкале, но не подчиняющиеся нормальному распределению


          Количество сравниваемых выборок


          Зависимость


          Гест


          1


          Независимые


          U-тест Манна и Уитни


          2


          Зависимые


          тест Уилкоксона


          >2


          Независимые


          Н-тест Крускала и Уоллиса


          >2


          Зависимые


          тест Фридмана


          Для каждой из этих двух групп тестов в SPSS имеются отдельные пункты меню, а именно Analyze (Анализ) Compare Means (Сравнение средних) или Analyze (Анализ) Nonparametric Tests (Непараметрические тесты)


          Исключение составляет простой дисперсионный анализ с повторными измерениями. Этот метод нельзя найти в разделе Compare Means. Он вызывается командой меню General Linear Model (Общая линейная модель).

          5.3 Вероятность ошибки р

          5.3 Вероятность ошибки р


          Если следовать подразделению статистики на описательную и аналитическую, то задача аналитической статистики - предоставить методы, с помощью которых можно было бы объективно выяснить, например, является ли наблюдаемая разница в средних значениях или взаимосвязь (корреляция) выборок случайной или нет.


          Например, если сравниваются два средних значения выборок, то можно сформулировать две предварительных гипотезы:

          •  Гипотеза 0 (нулевая): Наблюдаемые различия между средними значениями выборок находятся в пределах случайных отклонений.

          •  Гипотеза 1 (альтернативная): Наблюдаемые различия между средними значениями нельзя объяснить случайными отклонениями.

          В аналитической статистике разработаны методы вычисления так называемых тестовых (контрольных) величин, которые рассчитываются по определенным формулам на основе данных, содержащихся в выборках или полученных из них характеристик. Эти тестовые величины соответствуют определенным теоретическим распределениям (t-pacnpe-лелению, F-распределению, распределению X2 и т.д.), которые позволяют вычислить так называемую вероятность ошибки. Это вероятность равна проценту ошибки, которую можно допустить отвергнув нулевую гипотезу и приняв альтернативную.


          Вероятность определяется в математике, как величина, находящаяся в диапазоне от 0 до 1. В практической статистике она также часто выражаются в процентах. Обычно вероятность обозначаются буквой р:


          0<р< 1


          Вероятности ошибки, при которой допустимо отвергнуть нулевую гипотезу и принять альтернативную гипотезу, зависит от каждого конкретного случая. В значительной степени эта вероятность определяется характером исследуемой ситуации. Чем больше требуемая вероятность, с которой надо избежать ошибочного решения, тем более узкими выбираются границы вероятности ошибки, при которой отвергается нулевая гипотеза, так называемый доверительный интервал вероятности.


          Существует общепринятая терминология, которая относится к доверительным интервалам вероятности. Высказывания, имеющие вероятность ошибки р <= 0,05. называются значимыми; высказывания с вероятностью ошибки р <= 0,01 - очень значимыми, а высказывания с вероятностью ошибки р <= 0,001 - максимально значимыми. В литературе такие ситуации обозначают одной, двумя или тремя звездочками.


          Вероятность ошибки


          Значимость


          Обозначение


          р > 0.05


          Не значимая


          ns


          р <= 0.05


          Значимая


          *


          р <= 0.01


          Очень значимая


          **


          р <= 0.001


          Максимально значимая


          ***


          В SPSS вероятность ошибки р имеет различные обозначения; звездочки для указания степени значимости применяются лишь в немногих случаях.


          Времена, когда не было компьютеров, пригодных для статистического анализа, давали практикам по крайней мере одно преимущество.: Так как все вычисления надо было выполнять вручную, статистик должен был сначала тщательно обдумать, какие вопросы можно решить с помощью того или иного теста. Кроме того, особое значение придавалось точной формулировке нулевой гипотезы.


          Нос помощью компьютера и такой мощной программы, как SPSS, очень легко можно провести множество тестов за очень короткое время. К примеру, если в таблицу сопряженности свести 50 переменных с другими 20 переменными и выполнить тест %2, то получится 1000 результатов проверки значимости или 1000 значений р. Некритический подбор значимых величин может дать бессмысленный результат, так как уже при граничном уровне значимости р = 0,05 в пяти процентах наблюдений, то есть в 50 возможных наблюдениях, можно ожидать значимые результаты.


          Этим ошибкам первого рода (когда нулевая гипотеза отвергается, хотя она верна) следует уделять достаточно внимания. Ошибкой второго рода называется ситуация, когда нулевая гипотеза принимается, хотя она ложна. Вероятность допустить ошибку первого рода равна вероятности ошибки р. Вероятность ошибки второго рода тем меньше, чем больше вероятность ошибки р.

          5.4 Обзор статистических методов

          5.4 Обзор статистических методов


          В этом разделе мы попытаемся составить небольшой путеводитель по данной книге, дав обзор последовательности действий, которые выполняются при статистическом анализе.

          5.4.1 Структурирование, вводи проверка данных

          5.4.1 Структурирование, ввод и проверка данных


          Прежде чем мы сможем применить статистические методы или строить графики, естественно, следует представить собранные данные в форме, пригодной для обработки. При этом рекомендуется придерживаться следующего плана действий:

          •  Проведите структурирование набора данных; прежде всего выясните, к какими категориям относятся Ваши наблюдения и к каким — переменные. В большинстве случаев это ясно сразу. Если структурирование провести не удается, SPSS применять нельзя, да и все остальные статистические программы также требуют, чтобы данные были структурированы. Подробнее об этом см. раздел 3.2.

          •  Определите шкалу, к которой относятся переменные (см. раздел 5.1.1).

          •  Составьте кодировочную таблицу (см. раздел 3.1).

          •  Введите данные в Редакторе данных (см. раздел 3.4), учитывая кодировочную таблицу. Если для ввода данных вы хотите использовать другие программы (например, Excel, dBase), это вполне допустимо; SPSS может работать с файлами данных этих программ. Не вводите данные, которые можно вычислить на основе других данных. Эти вычисления следует предоставить компьютеру (см. главу 8). Если данные уже были введены в других программах статистики (например, SAS, Stata. Statistica), их можно преобразовать в файлы SPSS с помощью таких утилит, как, к примеру, DBMS/COPY.

          •  Проверьте введенные данные на отсутствие ошибок и осмысленность. Подробнее об этом см. раздел 10.1.

          •  Установите, подчиняются ли нормальному распределению переменные, относящиеся к интервальной шкале (см. раздел 5.1.2).

          Теперь можно начинать статистическую обработку введенных данных. Учтите, что анализ может быть выполнен только для наблюдений, сгруппированных определенным образом см. главу 7). Об основных принципах работы с версией 9 можно прочесть в главе 4.

          5.4.2 Описательный (дескриптивный) анализ

          5.4.2 Описательный (дескриптивный) анализ


          Этот вид анализа включает описательное представление отдельных переменных. К нему относятся создание частотной таблицы, вычисление статистических характеристик или графическое представление. Частотные таблицы строятся для переменных, относящихся к номинальной шкале и для порядковых переменных, имеющих не слишком много категорий; об этом см. главы 6, 12 и 24.


          Для переменных относящихся к номинальной шкале нельзя вычислить никаких значимых статистических характеристик. Наиболее часто для порядковых переменных и переменных, относящихся к интервальной шкале, но не подчиняющихся нормальному распределению, вычисляются медианы и оба квартиля (см. раздел 6.2); при небольшом числе категорий можно использовать вариант для концентрированных данных см. раздел 6.3).


          Для переменных, относящихся к интервальной шкале и подчиняющихся нормальному распределению, чаще всего вычисляется среднее значение и стандартное отклонение пли стандартная ошибка (см. раздел 6.2). Однако следует выбрать только одну из этих двух характеристик разброса. Для переменных, относящихся ко всем статистическим шкалам, можно построить большое разнообразных графиков, на которых представлены частоты, средние значения или другие характеристики. Подробнее об этом в главах 22 и 23.

          5.4.3 Аналитическая статистика

          5.4.3 Аналитическая статистика


          Практически любой статистический анализ наряду с чисто описательными операциями включает те или иные аналитические методы (тесты значимости), при применении которых в конечном счете определяется вероятности ошибки р (см. раздел 5.3).


          Большая группа тестов служит для выяснения того, различаются ли две или более различных выборки по своим средним значениям или медианам. При этом учитывается разница между независимыми выборками (разные наблюдения) и зависимыми выборками (разные переменные; см. раздел 5.1.3). В зависимости количества выборок (две или более), от того, зависимы ли выборки или нет, относятся ли переменные к интервальной или порядковой шкале, подчиняются ли нормальному распределению — применяются специализированные тесты (см. раздел 5.2).


          Очень часто встречается ситуация, когда сравниваются различные группы наблюдений или значений переменных, относящихся к номинальной шкале. В этом случае строятся таблицы сопряженности (см. главу 11). Другая группа тестов касается исследования связей между двумя переменными, то есть выявления корреляций и восстановления регрессий (см. главу 15, раздел 16.1).


          Кроме этих довольно простых статистических методов существуют также более сложные методы многомерного анализа, в которых обычно одновременно используется очень много переменных. К примеру, если требуется свести большое количество переменных к меньшему количеству "пучков переменных", называемых факторами, то проводится факторный анализ (глава 19). Если же наша цель, противоположна — объединить заданные наблюдения, образовав из них кластеры, то применяется кластерный анализ (глава 20).


          В определенной группе многомерных тестов вводится различие между зависимой переменной, называемой также целевой и несколькими независимыми переменными (переменными влияния или прогнозирования).


          Зависимая переменная


          Независимые переменные


          Многомерный метол


          Дихотомическая


          Любые


          Двоичная логистическая регрессия (раздел 16.4); дискриминантный анализ (глава 18)


          Дихотомическая


          С номинальной или порядковой шкалой


          Логит-логарифмические линейные модели


          С номинальной шкалой


          С номинальной или порядковой шкалой


          Мультиномиальная логистическая регрессия (раздел 16.5)


          С порядковой шкалой


          С номинальной или порядковой шкалой


          Порядковая регрессия (раздел 16.6)


          С интервальной шкалой


          С номинальной или порядковой шкалой


          Дисперсионный анализ (раздел 17.1)


          С интервальной шкалой


          Любые


          Ковариационный анализ (раздел 17.2); множественный регрессионный анализ (раздел 16.2)


          При мультиномиальной логистической регрессии и порядковой регрессии могут также использоваться ковариации, относящиеся к интервальной шкале.


          Независимые переменные, относящиеся к номинальной шкале, при двоичной логистической регрессии, дискриминантном анализе и многозначном регрессионном анализе должны быть дихотомическими либо раскладываться на набор дихотомических переменных (см. раздел 16.2). Логит-логарифмические линейные модели рассматриваются не в этой книге, а во втором томе, посвященном методам исследования рынка и общественного мнения.


          Кроме упомянутых здесь, существует еще несколько методов анализа, например, пробит-анализ или анализ надежности; об их назначении можно узнать из соответствующих глав.

          Глава 6. Частотный анализ.

          Глава 6. Частотный анализ

            1. Частотный анализ

            Частотный анализ


            Первым этапом статистического анализа данных, как правило, является частотный анализ. В этой главе мы проведем частотный анализ на примере файла Studium.sav. Этот файл находится на компакт-диске примеров или в рабочем каталоге \SPSSBOOK. Он содержит результаты опроса студентов об их психическом состоянии и социальном положении. Опрос касался таких предметов, как социальное положение, психическая ситуация и успеваемость. Кроме того, затрагивались такие данные, как изучаемый предмет, пол, возраст и национальность.

            6.1 Частотные таблицы

            6.1 Частотные таблицы

            •  Сначала загрузите файл Studium.sav, выбрав команды меню File (Файл) Open... (Открыть...) Появится диалог Open File (Открыть файл).

            •  Выберите указанный выше файл Studium.sav и подтвердите выбор кнопкой Open (Открыть). Файл появится в Редакторе данных.

            •  Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies (Частоты) Появится диалоговое окно Frequencies (см. рис. 6.1).

            •  Кнопкой с треугольником перенесите переменную psyche в список выходных переменных и подтвердите операцию кнопкой ОК.


            Рис. 6.1: Диалоговое окно Frequencies (Частоты)


            Результаты появятся в окне просмотра результатов. Перед самой частотной таблицей выводится небольшая таблица с обзором допустимых и отсутствующих значений. Здесь она не показана.


            Психическое состояние


            Частота


            Проценты


            Допус- тимые проценты


            Нако- пленные проценты


            Крайне неустой- чивое


            20


            18,5


            18,7


            18,7


            Неустой- чивое


            40


            37,0


            37,4


            56,1


            Допус- тимые


            Устойчивое


            41


            38,0


            38,3


            94,4


            Очень устойчивое


            6


            5,6


            5,6


            100,0


            Всего


            107


            99,1


            100,0


            Отсут-ствующие


            нет данных


            1


            ,9


            Всего


            108


            100,0


            Каждая строка частотной таблицы описывает одно возможное значение. Строка с пометкой нет данных представляет наблюдения, в которых не было дано никакого ответа. Всего имеется 107 допустимых ответов, а также одно наблюдение, в котором психическое состояние неизвестно (данные отсутствуют либо утеряны). Первый столбец содержит метки отдельных значений (крайне неустойчивое, неустойчивое, устойчивое, ...). Во втором столбце под заголовком «Частота» приведена частота каждого из вариантов ответа на вопрос из теста. Так, к примеру, 20 человек на вопрос о психическом состоянии дали ответ: «крайне неустойчивое», а 40 человек — «неустойчивое». В третьем столбце показана процентная частота каждого ответа. Процентная частота соответствует отношению каждого из вариантов ответа к общему количеству опрашиваемых, включая утерянные значения. В четвертом столбце дано допустимое процентное значение. При определении этого значения утерянные данные исключаются. Последний столбец содержит накопленные процентные значения. Накопленные проценты — это сумма процентных частот допустимых ответов. Так, например, процент респондентов, которые дали ответ крайне неустойчивое или неустойчивое, составляет 56,1%. Это число определяется выражением: 18,7% + 37,4% = 56,1%. В последней строке содержится сумма всех столбцов (Всего).

            1.gif

            Изображение: 

            6.2 Вывод статистических характеристик

            6.2 Вывод статистических характеристик


            Чтобы получить описательную статистику числовых переменных, можно щелкнуть в диалоге Frequencies на кнопке Statistics... (Статистика). Откроется диалоговое окно Frequencies: Statistics (Частоты: Статистика).


            В группе Percentile Values (Значения процентилей) можно выбрать следующие варианты:

            •  Quartiks (Квартили): Будут показаны первый, второй и третий квартили. Первый квартиль (Q,) — это точка на шкале измеренных значений, ниже (левее) которой располагаются 25 % измеренных значений. Второй квартиль (Q2) — это точка, ниже которой располагаются 50 % измеренных значений. Второй квартиль также называется медианой. Третий квартиль (Q3) — это точка на шкале измеренных значений, ниже которой располагаются 75 % значений. Если данные имеются только в форме порядкового отношения, то качестве меры разброса используется межквартильная широта. Она определяется как

             

            Рис. 6.2: Диалоговое окно frequencies: Statistics

            •  Cut points (Точки раздела): Будут вычислены значения процентилей, разделяющие выборку на группы наблюдений, которые имеют одинаковую ширину, то есть включают одно и то же количество измеренных значений. По умолчанию предлагается количество групп 10. Если задать, к примеру, 4, то будут показаны квартили, то есть квартили соответствуют процентилям 25, 50 и 75. Видно, что число показываемых процентилей на единицу меньше заданного числа групп.

            •  Percentile(s) (Процентили): Здесь имеются в виду значения процентилей, определяемые пользователем. Введите значение процентиля в пределах от 0 до 100 и щелкните на кнопке Add (Добавить). Повторите эти действия для всех желаемых значений процентилей. Значения в порядке возрастания будут показаны в списке. Например, если ввести значения 25, 50 и 75, то мы получим квартили. Можно задавать любые значения процентилей, например, 37 и 83. В первом случае (37) будет показано значение выбранной переменной, ниже которого лежат 37 % значений, а во втором случае (83) — значение, ниже которого располагаются 83 % значений.

            В группе Dispersion (Разброс) можно выбрать следующие меры разброса:

            •  Std. deviation (Стандартное отклонение): Стандартное отклонение — это мера разброса измеренных величин; оно равно квадратному корню из дисперсии. В интервале шириной, равной удвоенному стандартному отклонению, который отложен по обе стороны от среднего значения, располагается примерно 67% всех значений выборки, подчиняющейся нормальному распределению.

            •  Variance (Дисперсия): Дисперсия — это квадрат стандартного отклонения и, следовательно, эта характеристика также является мерой разброса измеренных величин. Она определяется как сумма квадратов отклонений всех измеренных значений от их среднеарифметического значения, деленная на количество измерений минус 1.

            •  Range (Размах): Размах — это разница между наибольшим значением (максимумом) и наименьшим значением (минимумом).

            •  Minimum (Минимум): Наименьшее значение.

            •  Maximum (Максимум): Наибольшее значение.

            •  S.E. mean (Стандартная ошибка): Это стандартная ошибка среднего значения. В интервале шириной, равной удвоенной стандартной ошибке, отложенному вокруг среднего значения, располагается среднее значение генеральной совокупности с вероятностью примерно 67 %. Стандартная ошибка определяется как стандартное отклонение, деленное на квадратный корень из объема выборки.

            Обычно мерами разброса переменных, относящихся к интервальной шкале и подчиняющихся нормальному распределению, служат стандартное отклонение и стандартная ошибка. Как было сказано выше, стандартное отклонение позволяет задать диапазон разброса отдельных значений. По так называемому правилу кулака, в одном диапазоне стандартного отклонения (охватывающем ширину стандартного отклонения в обе стороны от среднего значения) располагается примерно 67 % значений, в диапазоне удвоенного стандартного отклонения — примерно 95 %, а в диапазоне утроенного стандартного отклонения — примерно 99 % значений.


            С другой стороны, стандартная ошибка позволяет задать доверительный интервал для среднего значения. В диапазоне удвоенной стандартной ошибки по обе стороны от среднего значения с вероятностью примерно 95 % находится среднее значение генеральной совокупности. С вероятностью примерно 99 % она лежит в диапазоне утроенной стандартной ошибки. Часто указывают только одну из этих двух мер разброса, обычно — стандартную ошибку, так как ее значение меньше. Во всех случаях следует точно выяснить, какая из мер разброса имеется в виду.


            В группе Central Tendency (Средние) можно выбрать следующие характеристики:

            •  Mean (Среднее значение): Среднее значение — это арифметическое среднее измеренных значений; оно определяется как сумма значений, деленная на их количество. Например, если имеется 12 измеренных значений и их сумма составляет 600, то среднее значение будет х = 600 : 12 = 50.

            •  Median (Медиана): Медиана — это точка на шкале измеренных значений, выше и ниже которой лежит по половине всех измеренных значений. Например, если измеренные значения таковы:

             37854639284,


            то сначала они располагаются в порядке возрастания: 23344567889.


            В данном случае медианой будет значение 5. Всего у нас 11 измеренных значений, следовательно, медианой является шестое значение. Выше него располагается 5 значений, и ниже — тоже 5. При нечетном количестве значений медиана всегда будет совпадать с одним из измеренных значений. При четном количестве медиана будет средним арифметическим двух соседних значений. Например, если имеются следующие измеренные значения:


            3445678899


            то медиана в этом случае будет равна: (6 + 7) : 2 = 6,5.

            •  Mode (Мода): Мода — это значение, которое наиболее часто встречается в выборке. Если одна и та же наибольшая частота встречается у нескольких значений, то выбирается наименьшее из них.

            •  Sum (Сумма): Сумма всех значений.

            В группе Distribution (Распределение) можно выбрать следующие меры несимметричности распределения:

            •  Skewness (Коэффициент асимметрии): Коэффициент асимметрии — это мера отклонения распределения частоты от симметричного распределения, то есть такого, у которого на одинаковом удалении от среднего значения по обе стороны выборки данных располагается одинаковое количество значений. Если наблюдения подчиняются нормальному распределению, то асимметрия равна нулю. Для проверки на нормальное распределение можно применять следующее правило: Если асимметрия значительно отличается от нуля, то гипотезу о том, что данные взяты из нормально распределенной генеральной совокупности, следует отвергнуть. Если вершина асимметричного распределения сдвинута к меньшим значениям, то говорят о положительной асимметрии, в противоположном случае — об отрицательной.

            •  Kurtosis (Коэффициент вариации или эксцесс): Коэффициент вариации указывает, является ли распределение пологим (при большом значении коэффициента) или крутым. Коэффициент вариации равен нулю, если наблюдения подчиняются нормальному распределению. Поэтому для проверки на нормальное распределение можно применять еще одно правило: Если коэффициент вариации значительно отличается от нуля, то гипотезу о том, что данные взяты из нормально распределенной генеральной совокупности, следует отвергнуть.

            Как правило, для переменных, относящихся к интервальной шкале и подчиняющихся нормальному распределению, в качестве основной характеристики используют среднее значение, а в качестве меры разброса — стандартное отклонение или стандартную ошибку. Для порядковых или интервальных переменных, не подчиняющихся нормальному распределению, — соответственно медиану или первый и третий квартили. Для переменных относящихся к номинальной шкале, нельзя дать других значимых характеристик кроме моды.


            В диалоге есть еще один флажок:

            •  Values are group midpoints (Значения являются средними точками групп): Если установить этот флажок, то при вычислении медианы и остальных значений процен-тилей оценки этих характеристик будут определяться для концентрированных данных. Этому вопросу посвящен отдельный раздел.

            Для переменной alter (возраст) мы определим следующие характеристики: среднее значение, медиану, моду, квартили, стандартное отклонение, дисперсию, размах, минимум, максимум, стандартную ошибку, асимметрию и эксцесс. Поступите следующим образом:

            •  Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)

            •  В диалоге Frequencies щелкните на кнопке Reset (Сброс), чтобы отменить прежние настройки.

            •  Перенесите переменную alter в список выходных переменных.

            •  Щелкните на кнопке Statistics... (Статистика).

            •  В диалоге Frequencies: Statistics установите флажки желаемых характеристик. Затем щелкните на кнопке Continue (Продолжить). Вы вернетесь в диалог Frequencies.

            •  В диалоге Frequencies деактивируйте опцию Display frequency tables (Показывать частотные таблицы). Щелкните на кнопке ОК.

            В окне просмотра появятся следующие результаты:


            Статистика


            Alter


            N


            Допустимые


            106


            Утерянные


            2


            Среднее значение


            22,24


            Стандартная ошибка среднего значения


            21


            Медиана


            22,00


            Мода


            21


            Стандартное отклонение


            2,19


            Дисперсия


            4,79


            Асимметрия


            ,859


            Стандартная ошибка асимметрии


            ,235


            Эксцесс


            1,042


            Стандартная ошибка эксцесса


            ,465


            Размах


            11


            Минимум


            18


            Максимум


            29


            Процентили


            25


            21,00


            50


            22,00


            75


            23,00


            Респонденты опроса о психическом состоянии и социальном положении имеют средний возраст 22,24 года. Медиана составляет 22. Большинству респондентов 21 год (это мода). Самому молодому респонденту 18 лет (минимум), самому старшему — 29 лет (максимум). Самый старший респондент на 11 лет старше самого молодого (размах). Стандартное отклонение составляет 2,19. Следовательно, дисперсия — квадрат стандартного отклонения — равна (2,19)2 = 4,79. Асимметрия и коэффициент вариации даны с соот-ветсвующими стандартными ошибками.

            3.gif

            Изображение: 

            6.3 Медиана для концентрированных данных

            6.3 Медиана для концентрированных данных


            Для данных, имеющих форму частотной таблицы, определение медианы и остальных процентилей обычным методом будет слишком неточным. В таких случаях есть возможность вычислить медиану и любые другие процентили более точным методом. Мы поясним это на примере стоматологических данных.

            •  Загрузите файл cpitn.sav, содержащий результаты стоматологического исследования.

            Кроме переменных schule и mhfreq, которые определяют уровень образования и то, сколько раз в день обследуемый чистит зубы, этот файл содержит шесть переменных cpitnl—cpitn6, которые указывают степень пародонтального заболевания каждой из шести частей челюсти — так называемый параметр CPITN, задаваемый с помощью следующей кодировочной таблицы:


            0


            Здоровый пародонт


            1


            Кровоточивость


            2


            Зубные отложения


            3


            Глубина десенных карманов 3,5-5,5 мм


            4


            Глубина десенных карманов 6 мм и более

            •  С помощью команд меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies (Частоты) создайте частотную таблицу, к примеру, для переменной cpitnl. Если задать вычисление среднего значения и медианы, мы получим следующий результат:

            Статистика


            CPITN1


            N


            Допустимые


            2548


            Утерянные


            0


            Среднее значение


            2,24


            Медиана


            2,00


            CPITN1


            Частота


            Проценты


            допустимые проценты


            накопленные проценты


            Допустимые здоровый


            109


            4,3


            4,3


            4,3


            кровоточивость


            389


            15,3


            15,3


            19,5


            отложения


            921


            36,1


            36,1


            55,7


            глубина карманов


            1042


            40,9


            40,9


            96,6


            3,5-5,5 глубина карманов >=6


            87


            3,4


            3,4


            100,0


            Всего


            2548


            100,0


            100,0


            При определении медианы обычным методом ее значение равно 2. Это значение, хотя формально и правильное, но дает совершенно неудовлетворительный, недостаточно значимый результат. В данном случае, когда данные являются концентрированным, для уточнения медианы применяется следующая расчетная формула:


            Здесь:


            n


            Количество измеренных значений


            m


            Класс, в котором находится медиана


            u


            Нижняя граница класса m


            fm


            Абсолютная частота в классе m


            Fm-1


            Накопленная частота вплоть до предыдущего класса m — 1


            B


            Ширина класса


            Следовательно, решающее значение имеет правильный выбор границ классов; их следует выбирать так, чтобы значения кодовых чисел соответствовали середине каждого класса. В данном примере для границ классов следует выбрать значения


            -0,5 0,5 1,5 2,5 3,5 4,5


            Ширина класса равна 1.


            Следовательно,


            n = 2548


            m = 3 (так как медиана находится в третьем классе)


            u = 1,5


            fm = 921


            Fm-1 = 109 + 389 = 498


            b = 1


            Если сравнить это значение со средним значением (2,24), то можно установить следующее правило — оказывается, что при распределении со сдвигом вправо (как в данном случае) медиана больше среднего значения.


            Описанный точный метод вычисления медианы будет использован в SPSS, если в диалоге Frequencies: Statistics установить флажок Values are group midpoints.


            В этом случае мы получим точное значение медианы (2,32).


            По определению, медиана — это значение, выше и ниже (правее и левее) которого расположено по 50 % всех значений, если они упорядочены по величине. Обобщая эту характеристику, мы приходим к определению так называемых процентилей. Эти характеристики позволяют, например, указать значение, ниже которого лежит 10 % всех значений (а выше расположено 90 % значений). Чаше всего применяются процентили 25 % и 75 %, называемые также соответственно первым и третьим квартилями.


            В диалоге Frequencies: Statistics можно последовательно задать любые значения процентилей. Если данные концентрированы, снова следует установить флажок Values are group midpoints.


            Формула вычисления процентиля для любого значения:


            Здесь:


            n


            Класс, в котором находится процентиль


            m


            Нижняя граница класса т


            P


            Процентное значение процентиля


            Нm


            Процентная частота в классе m-1


            Hm-1


            Процентная накопленная частота в классе m-1


            b


            Ширина класса


            Для процентиля 50 % (Р = 50) после некоторых преобразований получается формула для медианы, приведенная выше.


            В столбчатых, линейных, круговых диаграммах и диаграммах с областями, на которых предусмотрено отображение медианы и других процентилей, при наличии концентрированных данных используется модифицированный способ расчета (см. раздел 22.1.1).

            4.gif

            Изображение: 

            5.gif

            Изображение: 

            6.gif

            Изображение: 

            6.4 Форматы частотных таблиц

            6.4 Форматы частотных таблиц

            •  Загрузите файл studium.sav (см. раздел 6.1).

            Сейчас мы попробуем вывести частотную таблицу переменной fach, отсортированную по убыванию частоты. Поступите следующим образом:

            •  Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)

            •  Перенесите переменную fach (специальность) в список выходных переменных.

            •  Щелкните на кнопке Format.... Откроется диалоговое окно Frequencies: Format (Частоты: Формат).


            Рис. 6.3: Диалоговое окно Frequencies: Format


            В группе Order by (Сортировать по) можно выбрать порядок, в котором будут отображены значения в частотной таблице. Возможны следующие варианты:

            •  Ascending values (По возрастанию значений): Данные сортируются по возрастанию значений. Это настройка по умолчанию.

            •  Descending values (По убыванию значений): Данные сортируются по убыванию значений.

            •  Ascending counts (По возрастанию частот): Данные сортируются по возрастанию частот.

            •  Descending counts (По убыванию частот): Категории сортируются по убыванию частот.

            Кроме того, флажок Suppress tables -with more than ... categories (He выводить таблицы с более чем... категориями) позволяет избежать вывода длинных частотных таблиц.

            •  Выберите вариант Descending counts.

            •  Подтвердите выбор кнопкой Continue (Продолжить).

            •  Щелкните на кнопке ОК, чтобы начать вычисление. Мы получим следующие результаты:

            Специальность


            Частота


            Проценты


            Допустимые проценты


            Накоплен- ные проценты


            Допус-тимые


            Гуманитар- ные науки 


            25


            23,1


            23,1


            23,1


            Юриспру- денция


            22


            20,4


            20,4


            43,5


            Экономика


            19


            17,6


            17,6


            61,1


            Психология


            11


            10,2


            10,2


            71,3


            Медицина


            10


            9,3


            9,3


            80,6


            Теология


            9


            8,3


            8,3


            88,9


            Естествен- ные науки


            9


            8,3


            8,3


            97,2


            Техника


            2


            1,9


            1,9


            99,1


            Прочие


            1


            ,9


            ,9


            100,0


            Всего


            108


            100,0


            100,0


            Основные специальности респондентов отображены в порядке убывания частоты.

            7.gif

            Изображение: 

            6.5 Графическое представление

            6.5 Графическое представление


            Результаты частотного распределения можно представить графически. Для примера мы создадим столбчатую диаграмму для частотного распределения основных специальностей. Поступите следующим образом:

            •  Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies (Частоты)

            •  Перенесите переменную fach в список выходных переменных.

            •  Щелкните на кнопке Charts... (Диаграммы). Откроется диалоговое окно Frequencies: Charts (Частоты: Диаграммы).

            •  Выберите в группе Chart Type (Тип диаграммы) пункт Bar charts (Столбчатая диаграмма), а в группе Chart Values (Значения диаграммы) — пункт Percentages (Проценты). Подтвердите выбор кнопкой Continue (Продолжить). Вы вернетесь в диалог Frequencies.

            •  В диалоговом окне Frequencies снимите флажок Display frequency tables (Показывать частотные таблицы). — Щелкните на кнопке ОК. Диаграмма будет показана в окне просмотра (см. рис. 6.5).


            Рис. 6.4: Диалоговое окно Frequencies: Charts


            Усовершенствуем вид этой диаграммы.

            •  Чтобы начать редактирование, дважды щелкните в области столбчатой диаграммы. Диаграмма будет показана в редакторе диаграмм.

            •  На панели инструментов редактора диаграмм щелкните на символе меток столбцов:

             

            Рис. 6.5: Столбчатая диаграмма в средстве просмотра


            Откроется диалоговое окно Bar Label Style (Стиль меток столбцов). Выберите пункт Framed (В рамке), щелкните на кнопке Apply all (Применить для всех) и затем на Close (Закрыть). На каждом столбце появится надпись с его процентным значением.

            •  Щелкните мышью на любом из столбцов. На верхней стороне каждого столбца появится по два маленьких черных квадрата. Это означает, что области столбцов готовы для редактирования.

            •  Щелкните мышью на символе образца заливки:

            Откроется диалоговое окно Fill Patterns (Образцы заливки).

            •  Выберите в нем подходящий образец заливки. Подтвердите выбор кнопкой Apply (Применить) и закройте диалоговое окно.


            Рис. 6.6: Диалоговое окно Fill Patterns


            Столбцы будут заполнены выбраннои заливкой. 

            •  Щелкните мышью на символе вида столбцов:

            •  Выберите пункт Drop shadow (Тень), щелкните на кнопке Apply all (Применить для всех) и затем на Close (Закрыть).

            •  Дважды щелкните на заголовке диаграммы Fachbereich. Откроется диалоговое окно Titles (Заголовки) (см. рис. 6.7).

            •  Измените заголовок на «Основная специальность» и закройте диалог кнопкой ОК.

            •  В меню Chart (Диаграмма) установите флажок Outer Frame (Внешняя рамка). Закройте редактор диаграмм; получившийся график показан на рис. 6.8.


            Рис. 6.7: Диалоговое окно Tirles



            Рис. 6.8: Отредактированная диаграмма


            Рассмотрим другой пример — визуальное представление частотного анализа.

            •  Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies (Частоты)

            •  Щелкните на кнопке Reset (Сброс), чтобы установить стандартные настройки.

            •  Перенесите переменную sozial (социальное положение) в список выходных переменных.

            •  Щелкните на кнопке Charts... (Диаграммы). В диалоговом окне Frequencies: Charts выберите пункт Histograms (Гистограмма). Установите флажок With normal curve (С кривой нормального распределения). Щелкните на кнопке Continue.

            •  В диалоговом окне Frequencies снимите флажок Display frequency tables (Показывать частотные таблицы). Щелкните на кнопке ОК. Гистограмма будет показана в окне просмотра (см. рис. 6.9).


            Рис. 6.9: Гистограмма


            Частоты на гистограмме обозначены колонками, которые, но отличие от столбчатой диаграммы, не изолированы, а примыкают друг к другу. Отображаются также стандартное отклонение, среднее значение и общее количество наблюдений(М). Кроме того, показана кривая нормального распределения.

            •  Дважды щелкните на области гистограммы — откроется редактор диаграмм, в котором можно придать гистограмме желаемый вид. График отобразится в редакторе диаграмм.

            •  Выберите другой образец заливки и снабдите колонки надписями.

            •  При желании проверьте другие функции редактора диаграмм.

            На этом мы завершаем тему частотного анализа. Попробуйте самостоятельно выполнить частотный анализ переменной studium (время обучения) и представьте результаты распределения частот в графическом виде.

            8.gif

            Изображение: 

            10.gif

            Изображение: 

            12.gif

            Изображение: 

            14.gif

            Изображение: 

            15.gif

            Изображение: 

            16.gif

            Изображение: 

            Глава 7. Отбор данных

            Глава 7. Отбор данных

              1. Отбор данных

              Отбор данных


              В этой главе мы на примере файлов wahl.sav и studium.sav покажем разнообразные возможности, предоставляемые в SPSS для отбора данных. Отбор данных — это выбор наблюдений по определенным критериям; так, например, при опросе избирателей (файл wahl.sav) можно отобрать только мужчин, голосующих за ХДС/ХСС, а при опросе студентов (файл studium.sav) — только студенток, изучающих психологию и медицину. После этого все вычисления будут проводиться только с этими отобранными наблюдениям.


              Для этого в SPSS существует три принципиальные возможности:

              •  Выбор наблюдений по определенному условию (логическому выражению),

              •  Извлечение случайной выборки наблюдений из файла данных,

              •  Разделение наблюдений на группы в соответствии со значениями одной или нескольких переменных.

              Данная глава разбита на три раздела, посвященные каждой из этих возможностей. Еще в одном разделе рассматривается вопрос сортировки наблюдений, содержащихся в файле данных, по значениям выбранных переменных.

              7.1 Выбор наблюдений

              7.1 Выбор наблюдений


              Проведем частотный анализ переменной partei (партия). При этом мы будем учитывать только респондентов-женщин. Поступите следующим образом:

              •  Загрузите файл wahl.sav в редактор данных.

              •  Выберите в меню команды Data (Данные) Select Cases... (Выбрать наблюдения)

              Откроется диалоговое окно Select Cases (см. рис. 7.1). По умолчанию в этом диалоге выбран пункт All cases (Все наблюдения).

              •  Выберите пункт If condition is satisfied (Если выполняется условие) и щелкните на кнопке If... (Если). Откроется диалоговое окно Select Cases: If (см. рис. 7.2).

              Это диалоговое окно разделено на следующие части:

              •  Список исходных переменных: Содержит переменные, содержащиеся в открытом файле данных. В нашем случае это переменные fragebnr, sex, alter и partei.

              •  Редактор условий: Здесь записывается логическое выражение, по которому должны быть отобраны наблюдений. В данный момент редактор условий пока пуст.


              Рис. 7.1: Диалоговое окно Select Cases



              Рис. 7.2: Диалоговое окно Select Cases: If

              •  Кнопка с треугольником: Эта кнопка позволяет перенести переменную из списка исходных переменных в редактор условий.

              •  Клавиатура: Содержит цифры, а также арифметические, логические операторы и операторы отношения; с ней можно работать как с обыкновенным калькулятором. Если щелкнуть на какой-нибудь кнопке мышью, соответствующий знак, например, +, *, 7, будет скопирован в редактор условий.

              •  Список функций: Содержит около 140 функций. Каждую из функции можно скопировать в редактор условий двойным щелчком.

              1.gif

              Изображение: 

              2.gif

              Изображение: 

              7.1.1 Классификация операторов

              7.1.1 Классификация операторов


              Операторы делятся на арифметические, логические и операторы отношения. Арифметические операторы применяются в так называемых арифметических выражениях (математических формулах), которые при отборе данных имеют лишь второстепенное значение. Арифметические операторы всегда можно использовать в логических выражениях, однако это встречается нечасто. Решающую роль эти операторы играют при модификации данных; поэтому они и описаны в разделе 8.1, посвященном модификации данных.


              Логические операторы и операторы отношения применяются исключительно в логических выражениях, которые рассматриваются в настоящей главе.

              7.1.2 Операторы отношения

              7.1.2 Операторы отношения


              Отношение — это логическое выражение, в котором два значения сравниваются друг с другом посредством оператора отношения. В областях, где применяется SPSS в операторах отношения значения переменной сравниваются с каким-либо численным значением (константой), например


              sex = 2 partei ~= 3 alter > 30


              Для построения логических выражений могут применяться следующие операторы отношения:


              Знак на кнопке


              Альтернативный текст


              Значение (рус./англ.)


              <


              LT


              меньше (less than)


              >


              GT


              больше (greater than)


              <=


              LE


              меньше или равно (less than or equal to)


              >—


              GE


              больше или равно (greater than or equal to)


              =


              EQ


              равно (equal to)


              ~=


              NE или <>


              не равно (not equal to)


              Операторы можно ввести в редактор условий либо щелкнув в диалоговом окне на кнопке с соответствующим знаком, либо введя с клавиатуры альтернативный текст. Например, вместо ~= можно ввести NE или <>.

              7.1.3 Логические операторы

              7.1.3 Логические операторы


              Для построения условных выражений могут применяться следующие логические операторы:


              Знак на кнопке


              Альтернативный текст


              Значение


              &


              AND


              Логическое И


              |


              OR


              Логическое ИЛИ


              ~


              NOT


              Логическое НЕ


              Логические операторы AND и OR связывают два отношения, а логический оператор МОТ меняет значение истинности условного выражения на противоположное. Между логическими операторами устанавливаются следующие приоритеты:


              Приоритет


              Оператор


              1


              NOT


              2


              AND


              3


              OR

              7.1.4 Булева алгебра

              7.1.4 Булева алгебра


              Логические операторы основаны на принципах булевой алгебры (логики высказываний), краткий обзор которых приводится в данном разделе.


              Оператор И (конъюнкция)


              Выражение 1


              Выражение 2


              Результат


              и


              и


              и


              и


              л


              л


              л


              и


              л


              л


              л


              л


              Легенда: и = истина (true); л = ложь (false)


              При конъюнкции все участвующие выражения (отношения) должны быть истинными, чтобы общий результат также являлся истинным. Примеры:


              Выражение


              Истинность


              (3<7) AND (8>5)


              и


              (12=8) AND (4=4)


              л


              (3<=5) AND (4>=1)


              и


              (8=4) AND (7=3)


              л


              Оператор ИЛИ (дизъюнкция)


              Выражение 1


              Выражение 2


              Результат


              и


              и


              и


              и


              л


              и


              л


              и


              и


              л


              л


              л


              При дизъюнкции хотя бы одно из участвующих отношений должно быть истинным, чтобы общий результат также был истинным. Примеры:


              Выражение


              Истинность


              (3<5) OR (47+1 0<10)


              и


              (3=8) OR (7>5)


              и


              (4:7=2) OR (8*4=21)


              л


              (42=16) OR (23=3)


              и


              Логическое НЕ (отрицание)


              Выражение


              Результат


              и


              л


              л


              и


              Отрицание меняет истинность выражения на противоположную. Примеры:


              Выражение


              Истинность


              NOT [(3<5) AND (4>5)]


              и


              NOT [(4<5) AND (8<12)]


              л


              При отрицании следует учитывать эквивалентность операторов:


              отрицаемый оператор


              эквивалентный оператор


              <


              >-


              >


              < =


              <=


              >


              > =


              <


              В заключение приведем пример более сложного логического выражения: [(NOT A) AND (NOT В)] OR С


              Согласно правилам приоритета скобки здесь не нужны. Мы поместили их только для повышения наглядности. Истинность выражения можно определить при помощи следующей таблицы:


              А


              И


              С


              NOT A


              NОТ В


              (NОT A) AND (NОT В)


              OR С


              и


              и


              и


              л


              л


              л


              и


              и


              и


              л


              л


              л


              л


              л


              и


              л


              и


              л


              и


              л


              и


              и


              л


              л


              л


              л


              л


              л


              л


              и


              и


              и


              л


              л


              и


              л


              и


              л


              и


              л


              л


              л


              л


              л


              и


              и


              и


              и


              и


              л


              л


              л


              и


              и


              и


              и


              Для более сложных выражений также следует составлять подобные таблицы.


              Если все эти элементы логики высказываний кажутся вам слишком математизированными или абстрактными, вполне можно ориентироваться по разговорному употреблению союза "и". Высказывание: "Я был в кино и видел интересный фильм", истинно тогда и только тогда, когда истинны обе его части. Если, несмотря на то, что вы ходили в кино, но на сеансе заснули от скуки, это выражение не будет истинным. Также оно не будет истинным, если вы смотрели интересный фильм по телевизору. И, конечно же, оно будет совершенно ложным (хотя здесь нас не интересует степень ложности), если вы и не были в кино, и не смотрели там интересный фильм.


              Иначе обстоит дело при разговорном применении союза "или", которое в основном означает исключающее "или", когда, например, дети хотят получить на Рождество или компьютер, или велосипед.

              7.1.5 Функции

              7.1.5 Функции


              Список функций, который мы сейчас рассмотрим, — следующая важная часть диалогового окна Select Cases: If.


              Этот список содержит множество математических функций, большая часть из которых, однако, имеет отношение только к модификации данных (расчету новых переменных). Поэтому обзор этих функций представлен в соответствующем разделе (см. раздел 8.1.2). Здесь мы рассмотрим только логические и строковые функции.


              Логические функции


              В SPSS реализованы две логические функции:

              •  RANGE (variable, begin, end): Функция RANGE возвращает значение 1, или true, если значение переменной лежит в диапазоне между заданными начальным и конечным значениями. Переменная может иметь как численный, так и строковый тип. RANGE (alter, 18, 22) возвращает значение 1, то есть true, если значение переменной alter лежит между 18 и 22 включительно. Можно задавать несколько диапазонов, например, RANGE (alter, 1,17, 63, 99). В этом случае функция возвращает true, если значение переменной alter лежит между 1 или 17 или между 63 и 99 включительно. В функции RANGE можно также использовать переменные строкового типа, например, RANGE (name, A, Mzzzzzz). Тогда функция будет возвращать 1 для имен, начинающихся с букв от А до М включительно. Если имя начинается с другой буквы, функция возвратит 0.

              •  ANY (variable, vail, va!2, val3,...): Функция ANY возвращает значение 1, или true, если значение переменной (значение первого аргумента) совпадает по крайней мере с одним из значений, указанных в последующем списке параметров (vail, va!2, va!3, ...). В противном случае возвращается значение 0 или false. Первый элемент, как правило, — переменная численного или символьного типа. Примеры: ANY (jahr, 1991, 1992, 1993, 1994) возвращает true, если значение переменной jahr равно 1991, 1992, 1993 или 1994. ANY (name, Schmidt, Meier, Raabe) возвращает значение true или 1 в тех случаях, когда переменная name содержит значения Schmidt, Meier или Raabe. Во всех остальных случаях возвращается значение 0. Не забывайте заключать строковые значения в двойные кавычки.

              Строковые функции


              Из общего количества 18 строковых функций мы рассмотрим три самых важных, на наш взгляд.

              •  SUBSTR (variable, begin, length): Эта функция извлекает определенную часть из строки. Она возвращает подстроку или отдельный символ. Например, если строковая переменная name содержит значение Mannheim, то следующий вызов функции

              SUBSTR (name, 1, 2)


              возвратит значение Ма. Здесь из переменной name извлекаются два знака (третий аргумент) начиная с первой позиции (второй аргумент). Выражение


              SUBSTR (name, I, 2) = Ma


              будет истинным для значений переменной Maus, Mannesmann или Mahlmann. При сравнении со строками вместо двойных кавычек (= "Ма") можно также применять простые (= 'Ма'). Однако смешение простых и двойных кавычек (= 'Ма") не допускается.

              •  UPCASE (argument): Функция UPCASE преобразует строчные буквы в прописные. В качестве аргумента можно задавать строку или переменную символьного типа. UPCASE (vorname) возвращает значение ANNA, если переменная vorname имеет значение Anna.

              •  LOWER (argument): Функция LOWER преобразует прописные буквы в строчные.

              В качестве параметра можно задавать строку или переменную символьного типа.

              • LOWER (vorname) возвращает значение anna, если переменная vorname имеет значение ANNA или Anna. 

              Функции переносятся в редактор условий следующим образом:

              •  Поместите курсор на место в условном выражении, на котором должна быть вставлена функция.

              •  Дважды щелкните на функции в списке функций или выделите функцию и щелкните на кнопке с треугольником около списка функций.

              Функция будет вставлена в выражение. Вместо аргументов в этой функции будут стоять вопросительные знаки. Количество вопросительных знаков указывает минимальное количество аргументов, которое следует вставить. Отредактировать функцию можно следующим образом:

              •  Выделите вопросительные знаки во вставленной функции.

              •  Замените их соответствующими аргументами. Имена переменных для аргументов можно перенести из списка исходных переменных.

              В заключение мы составим список приоритетов при построении логических выражений:


              Приоритет


              Оператор/функция


              Значение


              1


              0


              Оператор скобок


              2


              Функции


              Различные значения


              3


              <


              Меньше


              <=


              Меньше или равно


              >


              Больше


              >=


              Больше или равно


              =


              Равно


              "=


              Не равно


              4



              Логическое НЕ


              5


              6,


              Логическое И


              6


              I


              Логическое ИЛИ

              7.1.6 Ввод условного выражения

              7.1.6 Ввод условного выражения


              Теперь попробуем снова выполнить отбор, но в этот раз будем выбирать только респондентов-женщин. Выполните следующие действия:

              •  Перенесите переменную sex в редактор условий, дважды щелкнув на ней или выделив ее и щелкнув на кнопке с треугольником.

              •  Щелкните на кнопке со знаком равенства на клавиатуре. Этот знак будет скопирован в редактор условий.

              •  Щелкните на кнопке 1 на клавиатуре. Знак будет скопирован в редактор условий. Вид диалогового окна показан на рис. 7.3.

              Условие имеет вид sex = 1, то есть будут выбраны все наблюдения, для которых переменная sex имеет значение 1 (женский).



              Рис. 7.3: Условие в редакторе условий

              •  Подтвердите выбор кнопкой Continue (Продолжить). Вы вернетесь в диалог Select Cases. Однако теперь в диалоговом окне появилось условие sex = 1.

              • Щелкните на кнопке ОК. Вы снова окажетесь в редакторе данных. 

              Примечание: Выбранные опции соответствуют следующему командному синтаксису:


              SELECT IF sex = 1.


              EXECUTE .

              Теперь фильтрация наблюдений включена. О том, что отбор, заданный с помощью диалоговых окон осуществлен свидетельствует сообщение Filter on (Фильтр включен), которое появляется в строке состояния в нижней части окна SPSS. Система создает переменную filter_S. Это численная переменная с длиной один байт. Она имеет следующие метки значений: 0 = Not Selected (Не выбрано), 1 = Selected (Выбрано), так как нуль обозначает ложь (false), а единица — истину (true). При всех последующих операциях будут учитываться только наблюдения, для которых значение этой переменной равно 1, то есть те, для которых выполняется условие sex = 1. Номера неотобранных наблюдений отображаются зачеркиванием в левом крае редактора данных. Теперь проведем частотный анализ переменной partei. Мы получим следующий результат:


              Партия


              Frequency


              Percent


              Valid Percent


              Cumulative Percent


              Valid


              ХДС/ХСС


              5


              33,3


              35,7


              35,7


              СДП


              1


              6,7


              7,1


              42,9


              сдпг


              4


              26,7


              28,6


              71,4


              Зеленые/Союз 90


              2


              13,3


              14,3


              85,7


              пдс


              1


              6,7


              7,1


              92,9


              Прочие


              1


              6,7


              7,1


              100,0


              Всего


              14


              93,3


              100,0


              Missing Total


              нет данных


              1 15


              6,7 100,0


              Из 30 наблюдений файла wahl.sav условие отбора выполняется в 15 наблюдениях; для них sex = 1. Эти 15 наблюдений и учитываются при частотном анализе переменной partei. Для одного из отобранных наблюдений данных о партии нет.


              Обратите внимание, что фильтр действует и при остальных статистических процедурах. Команда SPSS SELECT IF или соответствующие настройки в диалоговых окнах фильтруют наблюдения постоянно, то есть до тех пор, пока фильтр не будет удален или деактивирован. Чтобы удалить фильтр, поступите следующим образом:

              •  Щелкните на имени переменной filter_$. Весь столбец будет выделен.

              •  Нажмите клавишу <Backspace>. Переменная фильтра будет удалена.

              Если требуется не удалять фильтр, а лишь временно деактивизировать его, выполните следующие действия:

              •  Выберите в меню команды Data (Данные) elect Cases... (Выбрать наблюдения)

              •  В диалоговом окне Select Cases щелкните на кнопке All cases (Все наблюдения). Условие фильтра будет деактивировано, однако переменная filter_S сохранится. В любой момент ее можно будет активизировать снова.

              На уровне синтаксических команд отбор можно выполнить при помощи единственной процедуры, которая показана ниже. Для этого применяется команда TEMPORARY:

               TEMPORARY.
              SELECT IF sex = 1. FREQUENCIES VARIABLES = partei. 

              Временный фильтр можно ввести только вручную в редакторе синтаксиса SPSS; через диалоговые окна этого сделать невозможно. Этот пример показывает, что непосредственный ввод команд в редакторе синтаксиса имеет некоторые преимущества. Об этом мы еще расскажем в главе 26 (Программирование).


              При вводе команд в редакторе синтаксиса следует обращать внимание на различие между численными и строковыми переменными.


              Численная переменная:


              SELECT IF sex = 1.


              Строковая переменная:


              SELECT IF fragebnr = "W-001".


              Для строковых переменных (как fragebnr (код анкеты) в этом примере) следует применять простые или двойные кавычки. Слова SELECT IF необходимы только при непосредственном вводе команды в редакторе синтаксиса; та же самая строка в редакторе условий диалога Select Cases: If будет более компактной:


              sex = 1 ИЛИ


              fragebnr = "W-001"


              Здесь также следует учитывать различие между численными и строковыми переменными.

              3.gif

              Изображение: 

              7.1.7 Примеры отбора данных

              7.1.7 Примеры отбора данных


              Здесь мы представим некоторые примеры отбора данных. Рассмотрим следующие условия:


              1. Требуется отобрать только респондентов-мужчин. В редакторе условий вводится следующая строка:


              sex = 2


              Эту строку можно набрать непосредственно или перенести с помощью кнопки с треугольником и кнопок клавиатуры.


              2. Требуется отобрать только респондентов-женщин, которые голосовали за ХДС/ХСС. В редакторе условий вводится следующая строка:


              sex = 1 & partei = 1


              ИЛИ


              sex = 1 AND partei = 1


              Обратите внимание на значение переменной фильтра в наблюдении 22 (fragebnr = 0-007). Здесь это системное пропущенное значение. В этом случае SPSS не может сделать никакого вывода об истинности, так как переменная partei имеет значение О = нет данных или данные не введены. Поэтому условие sex =1 & partei = 1 в наблюдении 22 нельзя проверить на истинность. Оно может быть как истинным, так и ложным. Для такого неопределенного случая SPSS присваивает переменной filter_$ системное пропущенное значение.


              Следовательно, таблицу истинности можно дополнить случаем отсутствующих значений:


              Конъюнкция


              Логическое выражение


              Результат


              true AND true


              true


              true AND false


              false


              false AND true


              false


              false AND false


              false


              true AND missing


              missing


              false AND missing


              false


              missing AND missing


              missing


              Дизъюнкция


              Логическое выражение


              Результат


              true OR true


              true


              true OR false


              true


              false OR true


              true


              false OR false


              false


              true OR missing


              true


              false OR missing


              missing


              missing OR missing


              missing


              Отрицание:


              Логическое выражение


              Результат


              true


              false


              false


              true


              missing


              missing


              Если результат логического выражения равен missing (отсутствует), то данный случай, как и при результате false, не учитывается при дальнейшей обработке.


              3. Требуется отобрать только респондентов, имеющих возраст от 40 до 60 лет включительно.


              alter >= 40 & alter <= 60


              ИЛИ


              alter >= 40 AND alter <= 60


              Более изящным будет применение здесь функции 


              RANGE: RANGE (alter, 40, 60).


              4. Требуется отобрать только респондентов-женщин, которые старше 60 лет. sex =1 & alter > 60 ИЛИ sex =1 AND alter > 60.


              5. Требуется отобрать только респондентов-мужчин, возраст которых не превышает 25 лет и которые голосовали за СДПГ. При формулировке условия не старше 25 лет применяется оператор NOT:


              sex = 2 S partei = 3 & ~ alter > 25


              ИЛИ


              sex = 2 S partei = 3 S NOT alter > 25.


              Оператор NOT обязательно должен стоять в начале логического выражения. Выражение & alter ~> 25 не допускается в SPSS. В этом случае вы получите сообщение об ошибке с подсказкой, где должен находиться оператор NOT.


              6. Требуется отобрать респондентов, которые голосовали за ХДС, СДП или республиканцев.


              partei = 1 | partei = 2 | partei = 6


              ИЛИ


              partei = 1 OR partei = 2 OR partei = 6.


              Здесь более изящным будет применение функции ANY:


              ANY (partei, 1, 2, 6).


              7. Отберем респондентов, которые опрашивались в Западной Германии:


               fragebnr >= "W-"


              Здесь более изящным будет применение функции SUBSTR:


              SUBSTR (fragebnr,1,1) = "W"


              ИЛИ


              SUBSTR (fragebnr,1,2) = "W-"


              Можно также применить функцию RANGE:


              RANGE (fragebnr, W-001, W-999)


              ИЛИ


              RANGE (fragebnr, "W-001", "W-999").


              8. Отберем респондентов, которые опрашивались в Восточной Германии: fragebnr >= "0-" & fragebnr < "W-"


              Достаточно также просто ввести


              fragebnr < "W-"


              И в этом случае изящнее будет вариант с SUBSTRING:


              SUBSTR(fragebnr,1,1) = "О"


              или


              SUBSTR(fragebnr,1,2) = "0-"


              Можно также применить функцию RANGE:


              RANGE (fragebnr, "O-001", "0-999")


              Удобно использовать оператор NOT:


              ~ fragebnr >= "W"


              Далее мы рассмотрим применение функций UPCASE и LOWER. При этом будем исходить из следующей ситуации.: При вводе номеров анкет иногда по ошибке вме-^то прописного "W" для Западной Германии было закодировано строчное "w". Эти наблюдения не будут отобраны по условию SUBSTR(fragebnr, 1,1) = "W". В таком ^лучае может помочь функция UPCASE или LOWER:


              SUBSTR (UPCASE (fragebnr,1,1) = "W".


              Рассмотренная конструкция называется вложенной функцией. Вложенные функции вычисляются в направлении изнутри наружу. Функция UPCASE преобразует содержимое переменной fragebnr в прописные буквы. Преобразованное содержимое затем передается в функцию SUBSTR. Эта функция выделяет из строки первую букву. Полученная буква сравнивается с буквой W. Если они совпадают, данное наблюдение выбирается, то есть переменная фильтра filter_S приобретает значение 1. Если применяется функция LOWER, строка в редакторе условий будет выглядеть так:


              SUBSTR (LOWER (fragebnr, 1,1) = "w".


              Функция LOWER преобразует содержимое переменной fragebnr в строчные буквы. Преобразованное содержимое передается в функцию SUBSTR. Эта функция выделяет из строки первую букву. Полученная буква сравнивается с буквой w. Если они совпадают, данное наблюдение отбирается.

              7.2 Извлечение случайной выборки

              7.2 Извлечение случайной выборки


              При большом количестве наблюдений для экономии времени может быть полезно использовать небольшую случайную выборку при первой предварительной проверке гипотезы. Чтобы извлечь случайную выборку из совокупности всех наблюдений, выполните следующие действия:

              •  Выберите в меню команды Data (Данные) Select Cases... (Выбрать наблюдения)

              •  Выберите пункт Random sample of cases (Случайная выборка), а затем щелкните на кнопке Sample... (Выборка). Откроется диалоговое окно Select Cases: Random Sample (Выбрать наблюдения: Случайная выборка).


              Рис. 7.4: Диалоговое окно Select Cases: Random Sample


              В группе Sample Size (Размер выборки) можно выбрать один из следующих способов определения объема выборки:

              •  Approximately (Приблизительно): Пользователь может указать здесь процентного значение. SPSS создаст случайную выборку с объемом, приблизительно соответствующим указанному проценту наблюдений.

              •  Exactly (Точно): Пользователь должен указать здесь точное количество наблюдений в случайной выборке. Кроме того, здесь надо задать количество наблюдений, из которых будет извлечена выборка. Второе число не должно превышать общего количества наблюдений в файле данных. Для каждой случайной выборки генератор случайных чисел SPSS использует новое начальное значение. Таким образом, каждый раз при обращении к данному диалогу создается новая выборка наблюдений, отличная от прежних. Если требуется, чтобы случайная выборка повторялась, надо задать начальное значение самостоятельно.

              •  Для этого выберите в меню команды Transform (Преобразовать) Random Number Seed... (Установить начальное положение генератора случайных чисел)

              Откроется диалоговое окно Random Number Seed.


              Начальное значение может быть любым положительным целым числом. Это значение можно задать самостоятельно или предоставить сделать это SPSS (вариант Random Seed, принятый по умолчанию).



              Рис. 7.5: Диалоговое окно Random Number Seed.

              4.gif

              Изображение: 

              5.gif

              Изображение: 

              7.3 Сортировка наблюдений

              7.3 Сортировка наблюдений


              Данные в SPSS можно сортировать в соответствии со значениями одной или нескольких переменных. Рассмотрим следующий пример: Требуется упорядочить данные файла wahl.sav по возрасту. Для этого поступите следующим образом:

              •  Выберите в меню команды Data (Данные) Sort Cases... (Сортировать наблюдения)

              Откроется диалоговое окно Sort Cases. Переменные файла данных будут отображены в списке исходных переменных.



              Рис. 7.6: Диалоговое окно Sort Cases

              •  Перенесите переменную alter в список Sort by (Сортировать по). В группе Sort order (Порядок сортировки) по умолчанию выбран вариант Ascending (По возрастанию). Эта опция сортирует наблюдения в порядке возрастания значения переменной сортировки, а следующая опция, Descending — в порядке убывания.

              •  Подтвердите настройки кнопкой ОК. В редакторе данных файл wahl.sav будет отсортирован по возрастанию значений переменной alter.

              Примечание: Выбранные опции соответствуют следующему командному синтаксису:


              SORT CASES BY alter (A) .


              или, если надо сортировать по убыванию:


              SORT CASES BY alter (D) .


              Здесь А обозначает ascending (возрастание), a D — descending (убывание). Если выбрать несколько переменных сортировки, их последовательность в списке Sort by будет определять порядок, в котором будут отсортированы наблюдения. Рассмотрим следующий пример: Необходимо отсортировать файл wahl.sav по значениям переменных nartei и alter. Переменная partei должна быть первым критерием сортировки, а переменная alter — вторым. Сортировка по переменной partei должна быть в порядке возрастания, а по переменной alter — в порядке убывания. Для этого перенесите в список переменных сортировки вначале переменную partei, а затем переменную alter. Выделите переменную alter и щелкните на опции Ascending.


              Примечание: Выбранные опции соответствуют следующему командному синтаксису:


              SORT CASES BY partei (A) alter (D) .


              В редакторе данных файл wahl.sav будет отсортирован по возрастанию значений переменной partei. Наблюдения, относящиеся к одной и той же партии будут отсортированы по убыванию возраста.

              6.gif

              Изображение: 

              7.4 Разделение наблюдений на группы

              7.4 Разделение наблюдений на группы


              В SPSS можно выполнять анализ данных раздельно по группам. Группой в этом контексте называется определенное количество наблюдений с одинаковыми значениями признаков. Чтобы можно было производить обработку по группам, файл должен быть отсортирован по группирующим переменным. Такой переменной может быть, например, переменная sex. В этом случае все переменные со значением признака 1 (женский) образуют одну группу, а все переменные со значением признака 2 (мужской) — другую группу. С каждой группой можно проводить определенные операции, например, выполнять частотный анализ. При этом частотный анализ проводится раздельно для признаков мужской и женский. В SPSS такое разделение на группы можно выполнять автоматически. Рассмотрим следующий пример, основанный на опросе студентов об их психическом состоянии и социальном положении:


              Проведем частотный анализ переменной psyche (психическое состояние) раздельно для всех изучаемых специальностей. В соответствии со значениями переменной fach (специальность) у нас образуются 9 групп (1 = Юриспруденция, 2 = Экономика, 3 = Гуманитарные науки, 4 = Психология и т.д.). В этом случае файл данных studium.sav должен быть сначала отсортирован по переменной fach. Поступите следующим образом:

              •  Загрузите файл studium.sav в редактор данных.

              •  Выберите в меню команды Data (Данные) Split File... (Разделить файл) Откроется диалоговое окно Split File.


              Рис. 7.7: Диалоговое окно Split File


              По умолчанию разделение на группы не предполагается. Если выбрать пункт Organize output by groups (Разделить вывод на группы), мы получим вывод результатов по каждой группе отдельно. Эти группы должны быть определены в поле Groups based on (Группы, созданные на основе) на базе соответствующих переменных.


              Еще одну возможность предоставляет опция Compare Groups (Сравнить группы). Она организует вывод таким образом, что можно визуально сравнить разные группы друг с другом. Но сначала мы рассмотрим раздельный вывод.

              •  Выберите опцию Organize output by groups. Для раздельного выполнения операций по группам необходимо, чтобы файл данных был предварительно отсортирован по этим группирующим переменным. По этой причине опция Sort the file by grouping variables (Сортировать файл по группирующим переменным) выбрана по умолчанию.

              •  Перенесите переменную fach в поле Groups based on. Если выбирается несколько группирующих переменных, то последовательность, в которой они стоят в списке, определяет порядок или приоритет сортировки.

              •  Щелкните на кнопке ОК. Файл studium.sav будет отсортирован по переменной fach, то есть разбит на группы в соответствии с ее значениями. Сообщение File split on (Разделение файла включено) в строке состояния внизу окна SPSS информирует об активации режиме разделения.

              •  Выполните частотный анализ переменной psyche.

              Вы получите следующий результат (ниже для экономии места показаны частотные таблицы только для специальностей Юриспруденция и Естественные науки).


              Специальность = Юриспруденция


              Статистика(а)


              Психическое состояние


              N Valid


               Missing


              22


              0


              а. Специальность = Юриспруденция


              Психическое состояние(а)


              Frequency


              Percent


              Valid Percent


              Cumulative Percent


              Valid


              Крайне неустойчивое


              2


              9,1


              9,1


              9,1


              Неустойчивое


              5


              22,7


              22,7


              31,8


              Устойчивое


              12


              54,5


              54,5


              86,4


              Очень устойчивое


              3


              13,6


              13,6


              100,0

              Total  22 100,0 100,0

              Спциальность = юриспруденция


              Специальность = Естественные науки


              Статистика(а)


              N Valid 


              Missing


              18


              1


              а. Специальность = Естественные науки


              Психическое состояние(а)


              Frequency


              Percent


              Valid Percent


              Cumulative Percent


              Valid


              Крайне неустойчивое


              1


              5,3


              5,6


              5,6


              Неустойчивое


              4


              21,1


              22,2


              27,8


              Устойчивое


              11


              57,9


              61,1


              88.9


              Очень устойчивое


              2


              10,5


              11,1


              100,0


              Всего


              18


              94,7


              100,0


              Missing


              нет данных


              1


              5,3


              Всего


              19


              100,0


              а. Специальность = Естественные науки


              Как видно, результаты частотного анализа переменной psyche выводятся раздельно по специальностям студентов.

              •  Теперь выберите другой пункт — Compare groups (Сравнить группы).

              •  Снова выполните частотный анализ переменной psyche. Вы получите следующую результирующую таблицу:

              Психическое состояние


              Специальность




              Frequency


              Percent


              Valid Percent


              Cumulative Percent


              Юриспру- денция


              Valid


              Крайне неустойчивое


              2


              9,1


              9,1


              9,1



              Неустойчивое


              5


              22,7


              22,7


              31,8



              Устойчивое


              12


              54,5


              54,5


              86,4



              Очень устойчивое


              3


              13,6


              13,6


              100,0



              Всего


              22


              100,0


              100,0



              Экономика


              Valid


              Крайне неустойчивое


              1


              5,3


              5,6


              5,6



              Неустойчивое


              4


              21,1


              22,2


              27,8



              Устойчивое


              11


              57,9


              61,1


              88,9



              Очень устойчивое


              2


              10,5


              11,1


              100,0



              Всего


              18


              94,7


              100,0



              Missing


              нет данных


              1


              5,3




              Total


              19


              100,0





              Гуманитар- ные науки


              Valid


              Крайне неустойчивое


              10


              40,0


              40,0


              40,0



              Неустойчивое


              14


              56,0


              56,0


              96,0



              Устойчивое


              1


              4,0


              4,0


              100,0



              Всего


              25


              100,0


              100,0



              Психология


              Valid


              Крайне неустойчивое


              3


              27,3


              27,3


              27,3



              Неустойчивое


              6


              54,5


              54,5


              81,8



              Устойчивое


              2


              18,2


              18,2


              100,0



              Всего


              11


              100,0


              100,0



              Теология


              Valid


              Крайне неустойчивое


              2


              22,2


              22,2


              22,2



              Неустойчивое


              5


              55,6


              55,6


              77,8



              Устойчивое


              2


              22,2


              22,2


              100,0



              Всего


              9


              100,0


              100,0



              Медицина


              Valid


              Крайне неустойчивое


              1


              10,0


              10,0


              10,0



              Неустойчивое


              3


              30,0


              30,0


              40,0



              Устойчивое


              5


              50,0


              50,0


              90,0



              Очень устойчивое


              1


              10,0


              10,0


              100,0



              Всего


              10


              100,0


              100,0



              Естествен- ные науки


              Valid


              Неустойчивое


              3


              33,3


              33,3


              33,3



              Устойчивое


              6


              66,7


              66,7


              100,0



              Всего


              9


              100,0


              100,0



              Техника


              Valid


              Крайне неустойчивое


              1


              50,0


              50,0


              50,0



              Устойчивое


              1


              50,0


              50,0


              100,0



              Всего


              2


              100,0


              100,0



              Прочие


              Valid


              Устойчивое


              1


              100,0


              100,0


              100,0


              Учтите, что файл данных останется разделенным на подгруппы, пока вы не деактивируете соответствующие опции. Для этого поступите следующим образом: 

              •  Выберите в меню команды Data (Данные) Split File... (Разделить файл)

              •  В диалоговом окне Split File выберите опцию Analyze all cases, do not create groups (Анализировать все наблюдения, не создавать группы). Теперь разделение файла убрано.

              •  Если требуется дополнительно убрать сортировку по специальностям, выберите в меню следующие команды Data (Данные) Sort Cases... (Сортировать наблюдения)

              •  Перенесите переменную fragebnr (код анкеты) в список переменных сортировки и подтвердите операцию кнопкой ОК. Данные будут отсортированы в исходном порядке — по номерам анкет.

              На этом мы заканчиваем обзор возможностей отбора данных в SPSS и переходим к изучению средств модификации данных.

              7.gif

              Изображение: 

              Глава 8. Модификация данных

              Глава 8. Модификация данных

                1. Модификация данных

                Модификация данных


                Для проведения анализа часто бывает необходимо выполнить преобразование данных. На основе первоначально собранных данных можно создать новые переменные и изменить кодирование. Подобные преобразования называются модификацией данных.


                В SPSS существует много возможностей для модификации данных. К важнейшим из них относятся:

                •  Вычисление новых переменных путем использования различных арифметических выражений (математических формул)

                •  Подсчет частоты появлений определенных значений

                •  Перекодирование значений

                •  Вычисление новых переменных при выполнении определенного условия

                •  Агрегирование данных

                •  Ранговые преобразования

                •  Вычисление весов наблюдений

                Разделы этой главы посвящены всем перечисленным возможностям модификации данных.

                8.1 Вычисление новых переменных

                8.1 Вычисление новых переменных


                Путем вычислений в SPSS можно образовать новые переменные и добавить их в файл данных. Так, например, в медицинском исследовании (см. главу 9, файл hyper.sav) в два момента времени (до и после приема лекарства) проводились измерения систолического кровяного давления, которые фиксировались в переменных rrs0 и rrsl.


                Если нас интересует изменение давления между двумя этими моментами, было бы глупо каждый раз вычислять разницу двух значений и вручную вводить ее в новую переменную. Эту работу можно переложить на компьютер, который сделает ее быстро и, главное, без ошибок. Для этого поступите следующим образом:

                •  Загрузите файл hyper.sav в редактор данных.

                •  Выберите в меню команды Transform (Преобразовать) Compute... (Вычислить) Откроется диалоговое окно Compute Variable (Вычислить переменную).


                Рис. 8.1: Диалоговое окно Compute Variable


                В поле Target Variable (Выходная переменная) указывается имя переменной, которой присваивается вычисленное значение. В качестве выходной переменной может служить уже существующая или новая переменная. В поле Numeric Expression (Численное выражение) вводится выражение, применяемое для определения значения выходной переменной. 3 этом выражении могут использоваться имена существующих переменных, константы, арифметические операторы и функции.

                •  Введите в поле Target Variable имя rrsdiff, а в поле Numeric Expression формулу rrs0— rrsl. Зту формулу можно ввести либо вручную, либо используя список переменных и клавиатуру диалогового окна. Кнопка с треугольником позволяет копировать в поле формулы имена переменных, а кнопки клавиатуры — вставлять цифры и знаки.

                •  Щелкните на кнопке Type&Label... (Тип и метка).

                Откроется диалоговое окно Compute Variable: Type and Label (Вычислить переменную: Тип и метка).


                Здесь можно задать метку для новой переменной rrsdiff. В поле Label введите текст Изменение сист. кровяного давления и щелкните на кнопке Continue.

                •  В диалоговом окне Compute Variable щелкните на кнопке ОК.


                Рис. 8.2: Диалоговое окно Compute Variable: Type and Label


                Примечание: Выбранные опции соответствуют следующему командному синтаксису:

                 COMPOTE rrsdiff = rrs0 - rrsl. 
                 VARIABLE LABELS rrsdiff = "Изменение сист. кровяного давления". 
                 EXECUTE. 

                Общий формат команды COMPUTE имеет следующий вид:


                 COMPUTE целевая_переменная = арифметическое_выражение.


                Команда EXECUTE считывает данные и выполняет предшествующие команды преобразования. В файл данных добавляется новая переменная rrsdiff. Теперь ее, как и прочие переменные, можно применять для вычислений. Для SPSS нет разницы, введены ли значения переменных через редактор данных или вычислены по формуле.


                Вместо слова формула мы будем использовать в дальнейшем понятие численное выражение. При формулировке таких численных выражений нужно соблюдать определенные правила, которые представлены в следующем разделе.

                1.gif

                Изображение: 

                2.gif

                Изображение: 

                8.1.1 Формулировка численных выражений

                8.1.1 Формулировка численных выражений


                Для построения численных выражений можно применять следующие арифметические операторы:


                Арифметические операторы


                +


                Сложение


                -


                Вычитание


                *


                Умножение


                /


                Деление


                **


                Возведение в степень


                С помощью арифметических операторов в численных (арифметических) выражениях можно задавать такие основные действия, как сложение и вычитание.


                Так как структура выражений может быть сложной, следует учитывать следующие приоритеты арифметических операторов:


                Приоритет


                Оператор


                Значение


                1


                ()


                Оператор скобок


                2


                **


                Возведение в степень


                3


                *


                Умножение


                /


                Деление


                4


                +


                Сложение



                Вычитание


                Операции более высокого приоритета выполняются раньше операций с более низким приоритетом; приоритет 1 наивысший, а 4 — самый низкий. Далее на нескольких типичных примерах показано, на что следует обращать внимание при записи численных выражений. Если вы хотите выразить только что вычисленное изменение кровяного давления в процентах от исходного значения, надо составить следующую команду:


                COMPUTE rrsdiff = (rrsl - rrsO) / rrs0 * 100 .


                В этой формуле выполняются операции трех разных видов, имеющие разные приоритеты. Так, умножение и деление выполняются всегда перед сложением и вычитанием, если только, как в данном примере, скобки не определяют другую последовательность выполнения.


                Если рост (в см) записан в переменной gr, и вы хотите определить на его основе нормальный вес, который обычно равен росту в см минус 100, команда, которая создает для этой величины новую переменную, будет следующей:


                COMPUTE ng = gг - 100 .


                Если же требуется вычислить избыточный вес как разницу фактического веса, который хранится в переменной gew, и этой новой величины, для этого служит команда


                COMPUTE uegew = gew — ng .


                Отрицательное значение uegew указывает на недостаточный вес. Оба выражения можно объединить:


                COMPUTE uegew = gew — (gr — 100) .


                Это можно также записать в виде


                COMPUTE uegew = gew — gr + 100 .


                Формула для определения избыточного веса в процентах к нормальному:


                COMPUTE puegew = (gew — ng) / ng * 100 .


                Без использования вспомогательной переменной ng эта формула имеет вид


                COMPUTE puegew = (gew - (gr - 100)) / (gr - 100) * 100 .


                Эта запись выглядит уже довольно сложной и имеет тот недостаток, что выражение gr — 100 должно быть вычислено дважды. Разумеется, при высокой производительности компьютера это не так важно.


                Мы уже видели, что в арифметических выражениях могут участвовать переменные и константы. Сейчас мы рассмотрим применение и них функций, которые встроены в SPSS. Если нас интересует не само изменение кровяного давления, а только его абсолютная ветчина, в этом случае можно применить функцию ABS:


                COMPUTE rrsd = ABS(rrsl - rrs0)


                Чтобы вычислить десятичный логарифм переменной х, применяется функция LG10:


                COMPUTE у = LG10(x)


                Мы также можем вычислить гипотенузу по теореме Пифагора, использовав функцию SQRT для извлечения квадратного корня и оператор возведения в степень:


                COMPUTE с = SQRTfa ** 2 + b ** 2) .


                Аргументы функций сами могут быть арифметическими выражениями: Если вы не хо-:ите работать с командами синтаксиса SPSS, можно, как показано в начале главы, применить диалоговое окно Compute Variable. В этом случае в редакторе условий достаточно вместо


                COMPUTE rrsd = rrs1 - rrs0 .


                ввести просто


                rrsd = rrsl - rrs0 для достижения той же цели — вычисления изменения кровяного давления rrsd.

                8.1.2 Функции

                8.1.2 Функции


                Из числа функций, которые отображаются в диалоговом окне Select Cases: If, мы рассмотрели только логические и строковые функции. Остальные функции можно разделить на следующие классы:

                •  арифметические функции

                •  статистические функции

                •  функции даты и времени

                •  функции обработки отсутствующих значений

                •  функции извлечения значений наблюдений

                •  статистические функции распределения

                •  функции генерации случайных чисел.

                Параметрами функций могут быть переменные, константы или выражения. Параметры заключаются в круглые скобки; несколько параметров отделяются друг от друга запятыми, например, SUM (5, 8, 10). Функция SUM вычисляет сумму трех параметров. SUM (5, 8, 10) возвращает значение 23.


                Арифметические функции

                •  ABS (numexpr): Функция ABS возвращает абсолютное значение. Если переменная celsius имеет значение -6,5, ABS (celsius) возвращает 6,5, a ABS (celsius + 3) — значение 3,5.

                •  RND (numexpr): Функция RND округляет до ближайшего целого числа. Если переменная celsius имеет значение 3,6, RND (celsius) возвращает 4, a RND (celsius + 6) — значение 10.

                •  TRUNC (numexpr): Функция отбрасывает дробную часть значения; округления не происходит. Если переменная celsius имеет значение 3,9, TRUNC (celsius) возвращает 3, a TRUNC (celsius + 4) — значение 7.

                •  MOD (numexpr, modulus): Функция MOD возвращает остаток от деления первого аргумента (numexpr) на второй (modulus). Если переменная jaehr имеет значение 1994, MOD (jaehr, 100) возвращает 94.

                •  SQRT (numexpr): Функция SQRT возвращает квадратный корень. Если переменная zahll имеет значение 9, SQRT (zahll) возвращает значение 3.

                •  ЕХР (numexpr): Показательная функция.

                •  LG10 (numexpr): Десятичный логарифм.

                •  LN (numexpr): Натуральный логарифм.

                •  ARSIN (numexpr): Арксинус.

                •  ARTAN (numexpr): Арктангенс.

                •  SIN (numexpr): Синус.

                •  COS (numexpr): Косинус.

                В тригонометрических функциях аргументы задаются в радианах.


                Статистические функции


                Статистические функции могут иметь любое количество параметров.

                •  SUM (numexpr, numexpr,...): Функция SUM возвращает сумму значений допустимых аргументов. SUM (zahll, zahll, zah!3) возвращает сумму значений трех переменных.

                •  MEAN (numexpr, numexpr,...): Функция MEAN возвращает среднее арифметическое допустимых аргументов. MEAN (42, 19, 29) возвращает значение 30.

                •  SD (numexpr, numexpr,...): Функция SD возвращает стандартное отклонение значений допустимых аргументов.

                •  VARIANCE (numexpr, numexpr,...): Функция VARIANCE возвращает дисперсию значений допустимых аргументов.

                •  CFVAR (numexpr, numexpr,...): Функция CFVAR возвращает коэффициент вариации значений допустимых аргументов.

                •  MIN (numexpr, numexpr,...): Функция MIN возвращает наименьшее из значений допустимых аргументов.

                •  MAX (numexpr, numexpr,...): Функция МАХ возвращает набольшее из значений допустимых аргументов.

                Функциям SUM, MEAN, MIN и МАХ требуется хотя бы один допустимый аргумент, функциям SD, VARIANCE и CFVAR — два. Остальные аргументы могут содержать отсуттвуюшие значения. Если это свойство, принятое по умолчанию, требуется деактивировать, то к имени функции через точку прибавляют количество необходимых аргументов, например, MEAN. 10. В этом случае значение функции вычисляется только тогда, когда существует хотя бы указанное количество аргументов (в данном примере 10).


                Функции даты и времени


                В SPSS очень часто в различных целях используются дата и время. Для ввода данных гтого типа в редакторе данных SPSS предоставляет ряд различных форматов, описанных в разделе 3.4.1. Существующие форматы можно просмотреть в диалоговом окне Variable Tуре (Тип переменной).


                Мы рекомендует использовать общепринятый формат даты: указание числа месяца двумя цифрами, месяца — также двумя цифрами и года — четырьмя цифрами через течку: dd.mm.yyyy.


                Экономии места за счет отбрасывания двух первых цифр года в последнее время, как известно, уделяется много внимания. При указании года двумя цифрами в качестве столетнего диапазона в SPSS принят срок с 1931 по 2030 г., следовательно, год 28 интерпретируется как 2028, а 32 — как 1932. В меню Edit (Правка) Options... (Параметры...) на вкладке Data (Данные) пользователь может самостоятельно задать столетний диапазон..


                Если число или месяц можно записать одной цифрой, их не нужно дополнять спереди нулями. Таким образом, указание даты в следующих форматах будет допустимым:


                20.6.1998


                13.12.1887


                1.10.2003


                5.2.1997


                Компьютер замечает противоречивое указание даты при вводе. Например, если попытаться ввести дату 29.2.1997, это значение не записано принято в ячейку.


                Для времени мы рекомендуем формат hh:mm:ss, т.е. одна или две цифры для часов, минут и секунд через двоеточие. При отсутствии секунд можно также применять формат hh:mm. Примеры:


                23:34:55


                8:5:12


                12:17:5


                12:47 8:12


                Дату и время, введенные в любом виде, SPSS преобразует во внутренний формат. Для даты это количество секунд, прошедших с 0 часов 15.10.1582 г. (момента введения григорианского календаря) до 0 часов заданного дня; для времени — количество секунд с 0 часов до заданного момента времени.


                В принципе можно также хранить число, месяц, год, часы, минуты и секунды в отдельных переменных и определять дату или время во внутреннем формате при помощи соответствующих функций.


                Всего в SPSS имеется 25 различных функций для работы с датой и временем. Важнейшие из них представлены ниже.


                XDATE.MDAY(arg)


                Выделяет из даты число


                XDATE.MONTH(arg)


                Выделяет из даты месяц


                XDATE.YEAR(arg)


                Выделяет из даты год


                XDATE.WKDAY(arg)


                Номер дня недели (1 =' воскресенье, ,..., 7 = суббота)


                XDATE.JDAY(arg)


                Номер дня в году


                XDATE.QUARTER(arg)


                Номер квартала в году


                XDATE.WEEK(arg)


                Номер недели в году


                XDATE.TDAY(arg)


                Количество дней начиная с 15.10.1582


                XDATE.DATE(arg)


                Количество секунд начиная с 15.10.1582


                DATE.DMY(d,m,y)


                Преобразует данные числа месяца, месяца и года во внутреннюю дату


                DATE.MOYR(m.y)


                Преобразует данные месяца и года во внутреннюю дату


                YRMODA(y,m,d)


                Преобразует данные года, месяца и числа месяца (строго в приведенной последовательности) в количество дней начиная с 15.10.1582


                XDATE.TIME(arg)


                Количество секунд начиная с 0 часов


                TIME.HMS(h,m,s)


                Преобразует данные часов, минут и секунд в секунды


                Функции даты и времени применяются чаще всего в ситуациях, когда требуется вычислить промежуток между двумя датами или моментами времени. Например, если имеется две даты, записанные в переменных datum 1 и datum2, длительность промежутка между ними в днях можно рассчитать по следующей формуле:


                COMPUTE tage=XDATE.TDAY(datum2) - XDATE.TDAY(datural). EXECUTE.


                Пример использования функции YRMODA приводится в разделе 8.8. Функции обработки пропущенных значений

                •  VALUE (variable): Функция VALUE объявляет недействительным пользовательское пропущенное значение.

                •  MISSING (variable): Функция MISSING возвращает значение 1 (или true), если переменная содержит пользовательское или системное пропущенное значение.

                •  SYSMIS (variable): Функция SYSMIS возвращает значение 1 (или true), если переменная содержит системное пропущенное значение.

                •  NMISS (variable,variable,...): Функция NMISS возвращает количество пропушен-нных значений в списке переменных.

                •  NVALID (variable,variable,...): Функция NMISS возвращает количество допустимых значений в списке переменных.

                Функции извлечения значений наблюдений

                •  LAG (variable,n): Функция LAG возвращает значение соответствующей переменной за я наблюдений до текущего. Так, например, LAG( variable, I) позволяет получить значение переменной в предыдущем случае (см. первый пример в разделе 8.8).

                Статистические функции распределения


                В SPSS реализовано в совокупности 20 статистических функций распределения. Эти функций вычисляют значение вероятности для следующих распределений: ß-распределения, распределения Коши, хи-квадрат, экспоненциального распределения, Г-распределения, F-распределения, распределения Лапласа, логистического, логарифмически нормального. нормального распределений, распределения Парето, распределения Стьюдента, равномерного распределения, распределения Вейбулла (непрерывные функции), а также распределения Бернулли, биномиального, геометрического, гипергеометрического, негативно-биномиального распределений и распределения Пуассона (дискретные функции). Для 14 непрерывных функций распределения существуют соответствующие обратные функции.


                Так, например, функция CDF.T(t,df) возвращает вероятность ошибки р для заданного значения функции распределения Стьюдента, t и числа степеней свободы df, функция IDF. T(p,df) возвращает значение t для заданных вероятности ошибки р и числа степеней свободы df.


                Функции генерации случайных чисел


                В SPSS реализовано в совокупности 24 функции генерации случайных чисел, в том теле для 20 встроенных статистических функций распределения; например функция RV.T(df) возвращает случайные числа, подчиняющиеся распределению Стьюдента при df степенях свободы. Функция UNIFORM (numexpr) генерирует равномерно распределенные случайные величины, находящиеся в интервале от 0 до 1, а ее аргумент задает начальное значение для генератора случайных чисел.

                8.2 Подсчет частоты появлений определенных значений

                8.2 Подсчет частоты появлений определенных значений


                В SPSS есть возможность подсчитать количество появления одного и того же значения или значений для определенной переменной. Например, членам Дортмундского спортивного клуба задавались следующие вопросы:


                Вопрос1:


                Вопрос 2:


                Вопрос3:


                Укажите Ваш пол ...


                Укажите Ваш возраст ...


                Какими из следующих видов спорта Вы активно занимаетесь:


                 3_1 : Плаванием: да/нет? 


                3_2: Гимнастикой: да/нет? 


                3_3: Легкой атлетикой: да/нет? 


                3_4: Волейболом: да/нет?


                 3_5: Теннисом: да/нет?


                3 6: Велосипедным спортом: да/нет? 


                3_7: Футболом: да/нет? 


                3_8: Гандболом: да/нет? 


                3_9: Баскетболом: да/нет?


                Если во всех наблюдениях этого примера подсчитать число появлений значения 1 (= да) для переменных 3_1—3_9, то для каждого респондента мы получим количество видов спорта, которыми он активно занимается.


                Для этого поступите следующим образом:

                •  Загрузите файл sport.sav в редактор данных.

                •  Выберите в меню команды Transform (Преобразовать) Count... (Подсчитать)

                Откроется диалоговое окно Count Occurences of Values within Cases (Подсчитать количество значений в наблюдениях).



                Рис. 8.3: Диалоговое окно Count Occurences of Values wirhin Cases


                Это диалоговое окно разделено на следующие части:

                •  Target variable (Выходная переменная): В поле Target variable указывается имя переменной, в которой будут содержаться подсчитанные значения.

                •  Target Label (Метка): В поле Target Label указывается метка для выходной переменной.

                •  Variables (Переменные): Этот список содержит переменные, выбранные из списка исходных переменных, хранящихся в файле данных, для которых нужно подсчитать определенные значения. Список не может одновременно содержать численные и строковые переменные.

                •  Выделите в списке исходных переменных переменные v3_l—v3_9. Перенесите их в список переменных.

                •  Присвойте выходной переменной имя sports и метку: «Количество разных видов спорта».

                • Щелкните на кнопке Define values... (Определить значения). Откроется диалоговое окно Count Values within Cases: Values to Count (Подсчитать значения в наблюдениях: какие значения?). (См. рис. 8.4.)


                Рис. 8.4: Диалоговое окно Count Values within Cases:values to Count


                Это диалоговое окно служит для определения подсчитываемых значений. Можно задать отдельное значение, диапазон или сочетание того и другого. В группе Value (Значение) можно выбрать один из следующих вариантов:

                •  Value: Вводится отдельное значение, частоту которого необходимо подсчитать.

                •  System missing (Системное пропущенное): Подсчитывается количество появлений системного пропущенного значения. В списке Values to count (Подсчитываемые значения) оно отображается как SYSMIS. Для строковых переменных этот вариант неприменим.

                •  System- or user-missing (Пользовательские или системные пропущенные): Если выбрать этот вариант, будет подсчитано количество появлений всех пропущенных значений, как системных, так и пользовательских. В списке Values to count эти значения отображаются как MISSING.

                •  Range through (Дипазон): Подсчитывается количество значений, находящихся в определенном диапазоне. Этот вариант также неприменим для строковых переменных.

                •  Range: Lowest through (Диапазон: от наименьшего до): Подсчитывается количество значений, находящихся в диапазоне от наименьшего наблюдаемого до указанного. Этот вариант неприменим для строковых переменных.

                •  Range: through highest (Диапазон: до наибольшего): Подсчитывается количество значений, находящихся в диапазоне от указанного до наибольшего наблюдаемого. Этот вариант неприменим для строковых переменных.

                Если требуется подсчитать повторяемость нескольких значений, щелкните после выбора опции на кнопке Add (Добавить). В этом случае будет подсчитана частота повторений каждого значения, присутствующего в списке Values to count.

                •  Задайте отдельное значение 1 и щелкните на кнопке Add.

                •  Подтвердите ввод кнопкой Continue, а затем — ОК. В файл данных будет добавлена переменная sports, содержащая количество видов спорта, которыми занимается респондент.

                3.gif

                Изображение: 

                4.gif

                Изображение: 

                8.3 Перекодирование значений

                8.3 Перекодирование значений


                Первоначально собранные данные можно перекодировать с помощью средств SPSS. Перекодирование численных данных необходимо, например, тогда, когда первоначальное разнообразие исходных данных не нужно для последующего анализа. В этом случае перекодирование означает уменьшение объема обрабатываемой информации. Перекодирование данных можно выполнить вручную или автоматически. Мы рассмотрим оба этих метода.

                8.3.1 Ручное перекодирование

                8.3.1 Ручное перекодирование


                Для примера мы проанализируем результаты воскресного опроса (файл wahl.sav). Нас интересует процентное распределение опрашиваемых в классическом политическом спектре правые-левые. В этом случае переменную partei следует перекодировать и создать новую переменную lire (левые-правые). Новые значения будут определены следующим образом:


                Левые:


                СПДГ


                Зеленые/Союз 90


                ПДС


                Правые:


                ХДС/ХСС


                СДП


                Республиканцы


                не определено:


                нет данных


                Прочие


                Сравним значения переменной partei со значениями переменной lire:


                Переменная partei Значения


                Метки значений


                Переменная lire Значения


                Метки значений


                0


                нет данных


                0


                не определено


                1


                ХДС/ХСС


                2


                правые


                2


                СДП


                2


                правые


                3


                СДПГ


                1


                левые


                4


                Зеленые/Союз 90


                1


                левые


                5


                ПДС


                1


                левые


                6


                Республиканцы


                2


                правые


                7


                Прочие


                0


                не определено


                Значение 1 (ХДС/ХСС) переменной partei соответствует значению 2 (правые) переменной lire, значение 2 (СДП) — значению 2 (правые), значение 3 (СДПГ) — значению 1 (левые) и т.д. Значение 0 переменной lire объявляется как отсутствующее.


                Перекодирование производится следующим образом:

                •  Загрузите файл wahl.sav в редактор данных.

                •  Выберите в меню команды Transform (Преобразовать) Recede (Перекодировать)

                Можно хранить перекодированные значения в той же переменной или перенести их в другую переменную. Если мы проведем перекодировку в прежней переменной, все ее старые значения будут стерты.

                •  Выберите в подменю пункт Into Different Variables... (В другие переменные). Откроется диалоговое окно Recede into Different Variables (Перекодировать в другие переменные).


                Рис. 8.5: Диалоговое окно Recede into Different Variables


                Список исходных переменных содержит переменные файла данных. Здесь можно выбрать одну или несколько переменных для перекодирования. Если выбираются несколько переменных, все они должны быть одного типа.

                •  Перенесите переменную partei (партия) в поле Input Variable -> Output Variable (Входная переменная > Выходная переменная). Вопросительный знак, добавленный в поле, говорит о том, что надо задать имя выходной переменной.

                •  Введите в поле Name (Имя) текст lire. Щелкните на кнопке Change (Изменить). Вопросительный знак в поле Input Variable -> Output Variable будет заменен на lire.

                •  Введите в поле Label обозначение: «Политический спектр». Подтвердите ввод, щелкнув на Change.

                •  Чтобы установить значения, которые следует перекодировать, щелкните на кнопке Old and New Values... (Старые и новые значения). Откроется диалоговое окно Recede into Different Variables: Old and New Values.

                Для осуществления каждого перекодирования надо указать значение или диапазон входной переменной и соответствующее значение выходной переменной. Перекодирование завершается щелчком на кнопке Add.


                Это диалоговое окно разделено на следующие части. В группе Old Value (Старое значение) можно выбрать один из следующих вариантов:



                Рис. 8.6: Диалоговое окно Recede into Different Variables: Old and New Values

                •  Value: Вводится отдельное значение.

                •  System missing (Системное пропущенное): С помощью этой опции значение входной переменной обозначается, как системное пропущенное. Это значение обозначается в списке значений переменных как SYSMIS. Такой вариант неприменим для строковых переменных.

                •  System- or user-missing (Пользовательские или системные пропущенные): Эта опция служит для обозначения всех пользовательских или системных пропущенных значений. В списке значений переменных пользовательские пропущенные значения отображаются как MISSING.

                •  Range through (Дипазон): Здесь можно задать замкнутый интервал значений. Этот вариант неприменим для строковых переменных.

                •  Range: Lowest through (Диапазон: от наименьшего до): В этом случае будут перекодированы все значения от наименьшего наблюдаемого до указанного. Этот вариант неприменим для строковых переменных.

                •  Range: through highest (Диапазон: до наибольшего): В этом случае будут перекодированы все значения от указанного до наибольшего наблюдаемого. Этот вариант неприменим для строковых переменных.

                •  All other values (Все остальные значения): Эта опция касается всех еще не указанных значений. В списке значений переменных они отображаются как ELSE.

                В группе New Value (Новое значение) можно выбрать один из следующих вариантов:

                •  Value: Здесь вводится новое значение.

                •  System missing (Системное отсутствующее): Эта опция служит для обозначения значения выходной переменной как системного отсутствующего значения. Значение появляется в списке значений переменных в виде SYSM1S. Этот вариант неприменим для строковых переменных.

                •  Copy old value(s) (Копировать старые значения): Значения входной переменной сохранятся без изменений.

                Если новые выходные переменные являются строковыми, следует установить флажок Output variables are strings (Выходные переменные являются строками). Теперь выполните следующие действия:

                •  Введите старые и новые значения согласно следующей таблице:

                1->2 
                 2->2 
                 3->1 
                 4->1 
                 5->1 
                 6->2 
                 ELSE -> 0.
                •  При этом старое значение вводите в поле Value в группе Old Value, новое значение — в поле Value в группе New Value и щелкайте на кнопке Add.

                •  Чтобы перекодировать старые значения 0 и 7, выберите опцию All other values. Введите 0 в поле Value в группе New Value и щелкните на кнопке Add.

                •  Щелкните на кнопке Continue, а затем на ОК. Новая переменная lire будет добавлена в файл wahl.sav. 

                Примечание: Выбранные опции соответствуют следующему командному синтаксису:

                 RECODE partei 
                 (1=2) (2=2) (3=1) (4=1) (5=1) (6=2) (ELSE=0)  
                 INTO lire . VARIABLE LABELS 
                 lire "Политический спектр" EXECUTE .
                •  В редакторе данных дважды щелкните на lire, чтобы перейти в редактор вида переменных.

                •  Установите следующие параметры: тип переменной — численный, ширина — 1, десятичные разряды — 0. Укажите следующие метки значений:

                0 = не определено


                1 = левые


                2 = правые.

                •  Объявите нуль как пропущенное значение.

                •  В заключение выполните частотный анализ переменной lire. Вы получите следующий результат:

                Политический спектр


                Frequency


                Percent


                Valid Percent


                Cumulative Percent


                Valid


                левые


                13


                43,3


                48,1


                48,1


                правые


                14


                46,7


                51,9


                100,0


                Total


                27


                90,0


                100,0


                Missing


                не определено


                3


                10,0


                Total


                30


                100,0


                Из 30 респондентов 46,7% выбрали партии правого направления, а 43,3% — партии левого направления. Трое опрашиваемых (10%) не дали никакого ответа на вопрос: «За кого бы вы голосовали, если бы в воскресенье были выборы в бундестаг?».

                5.gif

                Изображение: 

                6.gif

                Изображение: 

                8.3.2 Автоматическое перекодирование

                8.3.2 Автоматическое перекодирование


                Если категории не были закодированы непрерывно начиная с 1, то это может приводить к негативным последствиям при решении многих задач в SPSS. Поэтому для преобразования значений численных или строковых переменных в непрерывную последовательность целых чисел в SPSS реализована возможность автоматического перекодирования. В качестве примера рассмотрим автоматическое перекодирование строковой переменной в численную.

                •  Загрузите файл string.sav.

                В редакторе данных отобразятся значения строковой переменной beschw (недуги), соответствующие характеру жалоб пациентов. Они состоят не более чем из двадцати символов.

                •  Выберите в меню команды Transform (Преобразовать) Automatic Recode... (Автоматическое перекодирование)

                Откроется диалоговое окно Automatic Recede (см. рис. 8.7).



                Рис. 8.7: Диалоговое окно Automatic Recede

                •  Перенесите строковую переменную в поле Variable -> New Name (Переменная > Новое имя). В текстовое поле под ним введите новое имя, например, beschwn, и щелкните на кнопке New Name (Новое имя).

                •  Щелкните на кнопке ОК.

                В окне просмотра будет отображена таблица соответствия, отрывок из которой приводится ниже:


                BESCHW Old Value


                BESCHWN New Value


                Жалобы Value Label


                Абсцесс


                1


                 Абсцесс


                Аллергия



                Аллергия


                Стенокардия



                Стенокардия


                Одышка



                Одышка


                Бактерии в моче



                Бактерии в моче


                Боли в позвоночнике



                Боли в позвоночнике


                Боли в животе



                Боли в животе


                Затруднения



                Затруднения


                Метеоризм



                Метеоризм


                Гипертония


                10 


                Гипертония


                Жжение


                11 


                Жжение


                Бронхит


                12 


                Бронхит


                Воспаление кишечника


                13 


                Bocпаление кишечника


                Диабет


                14 


                Диабет


                Диализ


                15 


                Диализ


                Нарушения кровообр .


                1б 


                Нарушения кровообращения


                Понос


                17 


                Понос


                Воспаления


                18 


                Воспаления


                Лихорадка


                19 


                Лихорадка


                Различным значениям строковой переменной beschw, выстроенным в алфавитном порядке, поставлена в соответствие непрерывная последовательность натуральных чисел от 1 до 58; эти численные значения сохраняются в переменной beschwn. Прежние строковые значения стали метками значений этой переменной.

                7.gif

                Изображение: 

                8.4 Вычисление новых переменных в соответствии с определенными условиями

                8.4 Вычисление новых переменных в соответствии с определенными условиями


                Вычисление новых переменных может быть поставлено в зависимость от определенных условий, как показано в разделе 8.4.1. Во втором разделе этого параграфа приводится практический пример использования условного вычисления — создание индекса.

                8.4.1 Формулировка условий

                8.4.1 Формулировка условий


                В файле studium.sav (психологическое состояние и социальное положение студентов), в частности, содержатся переменные alter (возраст), fach (специальность), semester (количество семестров) и sex (пол).


                Допустим, нам требуется образовать из переменных alter и semester новую переменную, которая будет показывать возраст студента в начале обучения. Кроме того, это значение следует вычислять только для старших курсов (semester>6).

                •  Загрузите файл Studium.sav и выберите команды меню Transform (Преобразовать) Compute... (Вычислить)

                •  В открывшемся диалоговом окне в поле выходной переменной (см. раздел 8.1) задайте, например, studbeg, а для численного выражения — alter — semester /2.

                •  Щелкните на кнопке If... (Если). Откроется диалоговое окно Compute Variable: If Cases (Вычислить переменную: Если выполняется условие). Измените начальную настройку Include all cases (Включить все наблюдения) на Include if case satisfies condition (Включить, если для наблюдения выполняется условие). В поле под этой опцией введите условие: semester>6.

                •  Закройте это диалоговое окно, щелкнув на кнопке Continue, и диалог Compute Variable кнопкой ОК.

                Теперь в файле данных появилась переменная studbeg, которая в случаях, когда заданное условие не выполняется, содержит системное отсутствующее значение.


                Примечание: Выбранные опции соответствуют следующему командному синтаксису:

                 IF (semester > 6) studbeg = alter - semester /2 . 
                  EXECUTE . 

                Ниже приведен другой типичный пример условного вычисления новых переменных.


                Если, к примеру, требуется определить, значительно ли отличаются юристы (fach = 1) от гуманитариев (fach = 3) по количеству семестров, которые прозанимались эти студенты, можно использовать переменную fach как группирующую и сравнить результаты U-теста по Манну и Уитни для переменной semester при значениях fach=l и fach=3 (см. раздел 14.1). Если же требуется сравнить юристов-мужчин с гуманитариями-мужчинами, то оба набора значений надо дополнительно ограничить условием sex = 2 (см. раздел 7. 1).


                Однако, когда надо сравнить, например, юристов-мужчин со студентками-гуманитариями, возникает проблема — в этом случае появляются две группирующих переменных. В подобных ситуациях помогает создание вспомогательной переменной. Этой переменной присваивается значение 1, когда наблюдение соответствует студенту-юристу, и 2 — когда студентке гуманитарной специальности. Затем вспомогательная переменная используется как группирующая при проведении теста по Манну и Уитни.

                •  Чтобы построить такую переменную, выберите в меню команды Transform (Преобразовать) Compute... (Вычислить)

                •  Задайте выходную переменную, например, gruppe, а в поле численного выражения введите значение 1. В диалоговом окне If... укажите условие fach=l and sex=2.

                •  Закройте диалоги кнопками Continue и ОК.

                •  Повторите процесс; снова задайте выходную переменную gruppe, но численное выражение 2. В диалоге If... сформулируйте условие fach=3 and sex=l. На вопрос Change existing variables?, который появляется после закрытия диалогов, ответьте утвердительно (ОК).

                В редакторе данных появится новая переменная gruppe, которая в наблюдениях, соответствующих сформулированным условиям, имеет значения ] или 2, Эту операцию можно выполнить быстрее при помощи командного синтаксиса SPSS.

                •  Для этого командами меню File (Файл) New (Создать) Syntax (Синтаксис) откройте редактор синтаксиса и введите следующие команды:

                IF (fach = 1 and sex = 2) gruppe = 1. 
                  IF (fach = 3 and sex = 1) gruppe = 2. EXECUTE. 
                •  После выделения всех строк командами меню Edit (Правка) Select All (Выделить все) и щелчка на значке запуска (Run) в открытый файл данных будет добавлена новая переменная со значениями 1 (мужчины-юристы) и 2 (женщины-гуманитарии), которая может служить группирующей переменной, например, при U-тесте Манна и Уитни.

                8.4.2 Создание индекса

                8.4.2 Создание индекса


                Индексом называют объединение нескольких отдельных вопросов (элементов) в едином показателе, который характеризует сложные, многоплановые состояния — например, показатель уровня жизни или уровня интеллекта. Создание такого индекса мы рассмотрим на примере теоремы об изменении ценностей американского политолога Рональда Инглхарта (Inglehart).


                В своей работе «Культурный сдвиг. Смена ценностей в западном мире» (см. список литературы) Инглхарт выдвинул положение о том, что представления о ценностях в западном обществе претерпели значительное изменение. Ранее на первом месте стояли материальное благополучие и физическая безопасность, тогда как сегодня больше значения придается качеству жизни. Таким образом, ценностные приоритеты сместились от материализма к постматериализму. Это смещение Инглхарт объясняет, в частности, тем, что после второй мировой войны, прежде всего в западноевропейских странах и США, люди ощутили большую экономическую и физическую безопасность чем когда-либо до сих пор. Более молодые поколения, годы формирования которых пришлись на период безопасности и стабильности, будут постепенно отдаляться от традиционных норм и представлений о ценностях, свойственных старшим поколениям. Основываясь на факте достижения высокой экономической безопасности и стабильности, Инглхарт делает вывод о смене ценностей между поколениями, которая влечет за собой значительные социальные последствия.


                Далее мы построим индекс, который будет указывать, придерживается ли респондент  материалистических или же постматериалистических ценностей, согласно Рональду Ингчарту. Этот индекс будет построен на основе опроса ALLBUS, проведенного в 1991 г. В опpoce ALLBUS фигурировало четыре вопроса, касающиеся теоремы Инглхарта об изменении ценностей. В частности, респондента спрашивали, какое значение он придает ценностям «Спокойствие и порядок в стране» (переменная v108), «Увеличение степени частая народа в решениях власти» (переменная v109), «Борьба с ростом цен» (переменная v110) и «Право на свободное выражение мнения» (переменная v111). Респондент, :гавнивая эти четыре ценности между собой, мог указать для каждой из них один из четырех приоритетов: первостепенное значение, второстепенное значение, значение третье степени и значение четвертой степени. Данные находятся в файле ingle.sav.

                •  Загрузите файл ingle.sav.

                •  Чтобы получить первоначальное представление, проведите частотный анализ переменных v108, v109, v110 и v111. В окне просмотра вы увидите следующие результаты:

                ВАЖНОСТЬ СПОКОЙСТВИЯ И ПОРЯДКА


                Frequency


                Percent


                Valid Percent


                Cumulative Percent


                Valid


                первостепенная важность


                1313


                42,9


                42,9


                42,9


                второстепенная


                691


                22,6


                22,6


                65,5


                важность третьей степени


                597


                19,5


                19,5


                85,1


                важность четвертой степени


                395


                12,9


                12,9


                98,0


                не знаю


                30


                1,0


                1,0


                99,0


                нет данных


                32


                1,0


                1,0


                100,0


                total


                3058


                100,0


                100,0


                ВАЖНОСТЬ ВЛИЯНИЯ ГРАЖДАН НА ВЛАСТЬ


                Frequency


                Percent


                Valid Percent


                Cumulative Percent


                Valid


                первостепенная важность


                976


                31,9


                31,9


                31,9


                второстепенная важность


                790


                25,8


                25,8


                57,8


                важность третьей степени


                736


                24,1


                24,1


                81,8


                важность четвертой степени


                477


                15,6


                15,6


                97,4


                не знаю


                44


                1,4


                1.4


                98,9


                нет данных


                35


                1,1


                1,1


                100,0


                total


                3058


                100,0


                100,0


                ВАЖНОСТЬ БОРЬБЫ С ИНФЛЯЦИЕЙ


                Frequency


                Percent


                Valid Percent


                Cumulative Percent


                Valid


                первостепенная важность


                248


                8,1


                8,1


                8,1


                второстепенная важность


                696


                22.8


                22,8


                30,9


                важность третьей степени


                879


                28,7


                28.7


                59,6


                важность четвертой степени


                1142


                37,3


                37,3


                97,0


                не знаю


                48


                1.6


                1.6


                98,5


                нет данных


                45


                1,5


                1,5


                100,0


                total


                3058


                100,0


                100,0


                ВАЖНОСТЬ СВОБОДНОГО ВЫРАЖЕНИЯ МНЕНИЙ


                Частота


                Проценты


                Допустимые


                Накопленные проценты


                Valid


                первосте- пенная важность


                488


                16,0


                16,0


                16,0


                второсте- пенная важность


                839


                27,4


                27,4


                43,4


                важность третьей степени


                762


                24,9


                24,9


                68,3


                важность четвертой степени


                880


                28,8


                28,8


                97,1


                не знаю


                49


                1,6


                1,6


                98,7


                нет данных


                40


                1,3


                1,3


                100,0


                total


                3058


                100,0


                100,0


                Элементы vl08 (Спокойствие и порядок) и v110 (Борьба с ростом цен/инфляцией) соответствуют материалистическим ценностям, а элементы v!09 (Влияние граждан на власть) и vl11 (Свободное выражение мнений) — постматериалистическим. Таким образом, за каждым материалистическим элементом следует постматериалистический элемент. Именно так эти четыре классических элемента были расположены в исследовании Инглхарта Это. В своих многочисленных работах, которые выходили с начала 70-х гг., Рональд Инглхарт объединял эти четыре элемента в шкалу из четырех степеней, или индекс. При этом элементы v!08 (Спокойствие и порядок) и v110 (Борьба с ростом цен/ инфляцией) служили для выделения материалистов, а элементы v!09 (Влияние граждан на власть) и v111 (Свободное выражение мнений) — для выделения постматериалистов. В зависимости от сочетания ответов Инглхарт классифицировал опрашиваемого как

                •  чистого материалиста

                •  чистого постматериалиста

                •  материалистический смешанный тип

                •  постматериалистический смешанный тип.

                Сочетание ответов v108/v110 соответствует чистому материалисту, а сочетание v109/ v111 — чистому постматериалисту. При оставшихся сочетаниях ответов, в зависимости от того, был ли главной целью респондента материалистический или постматериалистический элемент, опрашиваемый классифицируется как материалистический или постматериалистический смешанный тип. Таким образом, мы получаем следующие варианты сочетаний для создаваемого индекса:


                Индекс Инглхарта


                Цель первостепенной важности


                Цель второстепенной важности


                Инлекс Инглхарта


                v108


                v110


                чистый материалист


                v110


                v108


                чистый материалист


                v109


                v111


                чистый постматериалист


                v111


                v109


                чистый постматериалист


                v108


                v109


                материалистический смешанный тип


                v108


                v111


                материалистический смешанный тип


                v110


                v109


                материалистический смешанный тип


                v110


                v111


                материалистический смешанный тип


                v109


                v108


                постматериалистический смешанный тип


                v109


                v110


                постматериалистический смешанный тип


                v111


                v108


                постматериалистический смешанный тип


                V111


                v110


                постматериалистический смешанный тип


                Рассмотрим теперь нижеследующую программу SPSS, которая строит индекс в соответствии с вышеприведенной таблицей.

                 /* Создание индекса */ 
                  .'* на примере теоремы Рональда 
                   Инглхарта об изменении ценностей */ 
                  /* чистые материалисты */ 
                  if (v!08 = 1 and vl10 = 2) 
                  ingl_ind = 4 . if (vl10 = 1
                   and vl08 = 2) ingl_ind = 4 .
                  /* чистые постматериалисты */ 
                  if (v!09 = 1 and vlll = 2) 
                   ingl_ind = 1 . 
                  if (vl11 = 1 and vl09 = 2)  
                   ingl_ind = 1 . 
                  /* материалистический смешанный тип 
                    */ if <vl08 = 1 and vl09 = 2)  
                   ingl_ind = 3 . if (vl08 = 1 
                  and vl11= 2) ingl_ind = 3 . 
                   if {vl10 = 1 and vl09 = 2) 
                   ingl_ind = 3 . 
                   if (vl10 = 1 and vl11 = 2) 
                   ingl_ind = 3 . 
                  /* постматериалистические 
                   смешанные типы */ 
                  if (v!09 = 1 and v!08 = 2) 
                   ingl_ind = 2 . 
                  if (vl09 = 1 and vl10 = 2)  
                   ingl_ind = 2 . 
                  if (vl11 = 1 and vl08 = 2) 
                   ingl_ind = 2 . 
                  if (vl11 = 1 and vk10 = 2)  
                   ingl_ind = 2 . 
                  /* He знаю */ 
                  if (vl08 = 8 and vl09 = 8 
                   and vl10 = 8 and vl11 = 8)  
                         ingl_ind = 8 . 
                  if (vl08 = 8 and vl09 = 8  
                   and vl10 = 8) ingl_ind = 8 . 
                  if (vl08 = 8 and vl09 = 8 
                  and vl11 = 8) ingl_ind = 8 . 
                  if (vl08 = 8 and vl10 = 8  
                   and vl11 = 8) ingl_ind = 8 . 
                  if (vl09 = 8 and vl10 = 8  
                   and vl11 = 8) ingl_ind = 8 . 
                  /* нет данных */ 
                  if (vl08 = 9 and vl09 = 9  
                  and vl10 = 9 and vl11 = 9) 
                  ingl_ind = 9 . 
                  if (vl08 = 9 and vl09 = 9 
                  and vl10 = 9) ingl~ind = 9 . 
                  if (vl08 = 9 and vl09 = 9  
                  and vl11 = 9) ingl_ind = 9 . 
                  if (vl08 = 9 and vl10 = 9  
                  and vl11 = 9) ingl_ind = 9 . 
                  if (vl09 = 9 and vl10 = 9  
                  and vl11 = 9) ingl~ind = 9 . 
                  variable labels ingl_ind  
                   'Индекс Инглхарта' 
                  value labels ingl_ind    1  
                   'Постматериалисты' 
                  2 'ПМ, смешанный тип' 
                  3 'M, смешанный тип' 
                  4 ' Материалисты' 
                  8 'Не знаю' 
                  9 'нет данных' . 
                  execute . 

                Программа начинается с двух строк комментариев, которые содержат информацию о том, что целью ее выполнения является построение индекса на примере теоремы Рональда Инглхарта об изменении ценностей. Комментарии обозначаются в SPSS символами /* в начале строки комментария и */ — в конце комментария. При выполнении программы процессор SPSS пропускает эти строки.


                Далее вычисляется индекс для чистых материалистов. Если выполняется условие, что переменная v!08 имеет значение 1, а переменная v110 — значение 2, то переменная индекса ingMnd должна иметь значение 4 (Материалисты). После этого вычисляется индекс для чистых постматериалистов. Он равен 1. Для материалистических и постматериалистических смешанных типов имеется по четыре сочетания, которые обрабатываются в двух следующих блоках. Два последних блока программы обрабатывают ответы не знаю и нет данных. Индекс Инглхарта равен 8 (не знаю), если на три или четыре вопроса дан ответ не знаю, и 9 (нет данных), если на три или четыре вопроса дан ответ нет данных. Например, если респондент придал элементу v!08 первостепенную важность, а на три остальных вопроса ответил не знаю, он попадает в категорию не знаю.


                Следует отметить, что находящиеся друг под другом в программе операторы AND (конъюнкции) можно преобразовать в дизъюнкцию, связав их операторами OR (см. главу 7). Следующая команда variable labels присваивает переменной ingl_ind метку «Индекс Инглхарта». Команда value labels устанавливает шесть меток значений для этой переменной. Команда execute в конце программы запускает выполнение всех необходимых преобразований.


                Эта программа находится на компакт-диске примеров или в рабочем каталоге C:\SPSSBOOK. Она называется ingle.sps.

                •  Загрузите программу в редактор синтаксиса ingle.sps, вызвав команды меню File (Файл) Open (Открыть).

                •  Выделите текст программы следующими командами меню Edit (Правка) Select All (Выделить все)

                •  Запустите программу, щелкнув на значке Run (Запуск).

                •  Перейдите в редактор данных.

                •  Выполните частотный анализ переменной ingljnd. Вы получите следующий результат:

                Индекс Инглхарта


                Frequency


                Percent


                Valid Percent


                Cumulative Percent


                Valid


                Постматериалисты


                673


                22,0


                22,0


                22,0


                ПМ, смешанный тип


                789


                25,8


                25,8


                47,8


                М, смешанный тип


                956


                31,3


                31,3


                79,1


                Материалисты


                598


                19,6


                19,6


                98,6


                Не знаю


                19


                ,6


                ,6


                99,2


                нет данных


                23


                ,8


                ,8


                100,0


                Total


                3058


                100,0


                100,0


                Из 3058 опрошенных 98,6% поддаются классификации; 41,6% относятся к чистым типам. В группу материалистического смешанного типа попадает почти треть всех наблюдений. Постматериалистическому смешанному типу соответствует чуть больше четверти. В чистых группах постматериалисты выражены несколько сильнее материалистов. Материалисты и материалистические смешанные типы составляют вместе 50,9%; постматериалисты и постматериалистические смешанные типы — 47,8%. Таким образом, наблюдается небольшой перевес в сторону материализма.


                Данные четырех классических элементов Инглхарта содержит также файл beamte.sav. Он касается опроса ALLBLJS, проводившегося в 1988 г.. Для упражнения постройте индекс Инглхарта для этих данных. При сравнении с данными 1991 г. следует учитывать, что опрос ALLBUS 1991 впервые проводился во всех землях Германии, включая восточные.

                8.5 Агрегирование данных

                8.5 Агрегирование данных


                На базе значений одной или нескольких группирующих переменных (переменных разбиения) можно объединить наблюдения в группы (агрегировать) и создать новый файл данных, содержащий по одному наблюдению для каждой группы разбиения. Для этого SPSS предоставляет большое количество функций агрегирования.


                В сельскохозяйственном исследовании рассматривалось содержание свиней в двух различных типах свинарников. При этом в каждом из двух свинарников осуществлялся мониторинг поведения восьми свиней в течение двадцатидневного периода. На протяжении этого периода фиксировалась длительность определенных действий животных (то есть сколько времени свиньи рылись, ели, чесали голову и туловище). Данные хранятся в файле schwein.sav, содержащем следующие переменные:


                Имя переменной


                Пояснение


                stall


                Тип свинарника (1 или 2)


                nr


                Порядковый номер свиньи (от 1 до 8)


                zert


                Номер дня (от 1 до 20)


                wuehlen


                Длительность рытья (в секундах)


                fressen


                Длительность кормежки (в секундах)


                massage


                Длительность чесания (в секундах)


                Следует выяснить, значительно ли различается по длительности эти три действия в свинарниках обоих типов, для чего необходимо применить соответствующий статистический текст, например, тест Стьюдента (см. главу 13).


                В каждой из двух выборок для каждого из трех действий имеется по 8 + 20=160 измерений. Однако выполнение статистического тест на основе этих данных будет не совсем корректно, так как они относятся к восьми особям, для каждой из которых было проведено по двадцать измерений.


                Поэтому мы просуммируем длительности для каждой отдельной свиньи и для каждого отдельного действия. Затем полученные наборы сумм мы сравним при помощи теста Стьюдента. Это типичный пример агрегирования данных.

                •  Загрузите файл schwein.sav.

                •  Выберите в меню команды Data (Данные) Aggregate... (Агрегировать)

                 Откроется диалоговое окно Aggregate Data (Агрегировать данные).

                •  В качестве переменных разбиения перенесите переменные stall и nr в поле Break Variable(s), а в качестве переменных агрегирования (Aggregate Variable(s)) выберите wuehlen, fressen и massage. Диалоговое окно приобретет вид, показанный на рис. 8.8.

                Будут показаны три новые переменные wuehle_l, fresse_l и massag_l, имена которых состоят из первых шести букв имен соответствующих переменных агрегирования и комбинации символов _1. По умолчанию в качестве функции агрегирования принято среднее значение. Мы должны выбрать вместо него сумму.

                •  Для этого щелкните на первой переменной, а затем на кнопке Funktion... (Функция). Откроется диалоговое окно Aggregate Data: Aggregate Function (Агрегировать данные: Функция агрегирования) (см. рис. 8.9).

                Можно выбрать одну из шестнадцати функций агрегирования, имена которых не требуют особых пояснений.

                •  Выберите пункт Sum of values (Сумма значений) и щелчком на кнопке Continue вернитесь в первое диалоговое окно.

                •  Выполните те же действия для двух других переменных агрегирования. Агрегированные данные будут сохранены в новом файле.

                •  Щелкните на кнопке File... и выберите для нового файла имя pigaggr.sav.


                Рис. 8.8: Диалоговое окно Aggregate Data



                Рис. 8.9: Диалоговое окно Aggregate Data: Aggregate Function


                После щелчка на кнопке Отбудет создан новый файл, содержащий 2 х 8=16 наблюдений и переменные stall, nr, wuehle_l, fresse_l и massag_l.

                •  Загрузите этот файл и просмотрите его содержимое в редакторе данных.

                •  Как описано в разделе 13.1, проведите тест Стьюдента для независимых выборок с группирующей переменной stall и тестируемыми переменными fresse_l, massag_l и wuehle_l. Вы получите следующий результат:

                Group Statistics (Статистика группы)


                STALL


                N


                Mean (Среднее значение)


                Std. Deviation (Стандартное отклонение)


                Std. Error Mean (Стандартная ошибка среднего значения)


                FRESSE 1 1


                 2


                8


                8


                339,0125 231,6750


                98,2384 109,5381


                34,7325 38,7276


                MASSAG 1 1


                 2


                8


                8


                2,2875 40,3625


                3,3689 54,1795


                1,1911 19,1553


                WUEHLE 1 1


                 2


                8


                8


                1996,587 1964.600


                326,3919 642,5314


                115,3970 227,1692


                Independent Samples Test (Тест для независимых выборок)

                 

                Levne's Test forEquality of Variancies


                (Tecт Левена на равенство дисперсий)  


                Т-Test for Equality of Means (Тест Стьюдента на равенство средних)


                F


                Значи-мость


                Т


                df


                (дву сторон-няя)


                Разность средних


                Стан-дартная ошибка разницы


                95% доверительный интервал разности 


                 Нижняя и Верхняя          


                FRES-SE_.1


                Equal variances assumed (Дис-персии равны) Equal variances not assumed (Дис-персии не равны)


                .128


                .726


                2,063 2,063


                14 13, 837


                ,058 ,058


                107 ,3375 107 ,3375


                52, 0209 52 ,0209


                -4,2362 -4,3594


                218, 9112 219, 0344


                MAS-SAG 1


                Equal variances assumed (Дис-персии равны) Equal variances not assumed (Дис-персии не равны)


                7.390


                ,017


                -1,984 -1,984


                14 7,054


                ,067 ,087


                -38, 0750 -38,0750


                19, 1923 19. 1923


                -79,2385 -83,3872


                3,0885 7,2372


                WU-EHLE_1


                variances assumed (Дис-персии равны) Equal variances not assumed (Дис-персии не равны)


                2,274


                ,154


                ,126 ,126


                14 10 ,387


                ,902 ,902


                31, 9875 31 ,9875


                254 ,7985 254 ,7985


                -514 ,5010 -532, 8844


                578. 4760 596 ,8594


                В первом свинарнике свиньи ели в продолжение наблюдаемого периода в среднем 339,0 секунд в день, а в другом — только 231,7 секунд. Это различие является почти статистически значимым (р= 0,058).

                8.gif

                Изображение: 

                9.gif

                Изображение: 

                8.6 Ранговые преобразования

                8.6 Ранговые преобразования


                В SPSS существует возможность задавать ранги для измеренных значений переменной, проводить оценки Сэвиджа, вычислять процентные ранги и формировать процентильные группы, добавляя в файл данных соответствующие переменные.


                Так, например, в формулах для непараметрических тестов (см. главу 14) вместо исходных измеренных значений переменной используются присвоенные им ранги. Однако эти процедуры производят автоматическое присвоение рангов и в явном виде выполнять предварительные ранговые преобразования не требуется. Поэтому они играют второстепенную роль.


                Мы продемонстрируем присвоение рангов на более наглядном примере, а затем проведем обзор различных типов рангов.

                8.6.1 Пример рангового преобразования

                8.6.1 Пример рангового преобразования


                В главе 20 представлен файл europa.sav, содержащий отдельные статистические показатели по 28 европейским странам. В частности, он включает переменные land (краткое обозначение страны) и tjul (средняя дневная температура в июле). Требуется расположить страны в нисходящем порядке согласно значениям последней переменной и затем вывести их в отсортированном виде.

                •  Загрузите файл europa.sav.

                •  Выберите в меню команды Transform (Преобразовать) Rank Cases... (Присвоить ранги наблюдениям) Откроется диалоговое окно Rank Cases.


                Рис. 8.10: Диалоговое окно Rank Cases

                •  Щелкните в списке переменных на переменной tju1. В поле By: (По) можно задать группирующую переменную. В этом случае назначение рангов будет выполнено раздельно по группам, образуемым этой переменной.

                •  Присвоим самой теплой стране (с максимальным значением переменной tju1) ранг 1; для этого щелкните в поле Assign Rank I to (Присвоить ранг 1) на опции Largest value (Максимальное значение).

                Щелкнув на кнопке Rank types... (Типы рангов), можно увидеть стандартную настройку Rank. Пока оставим ее без изменений; остальные настройки мы рассмотрим в разделе 8.6.2.

                •  Кнопка Ties... (Связки) открывает диалоговое окно Rank Cases: Ties.

                Его настройки указывают, как программа будет поступать при появлении одинаковых измеренных величин. По умолчанию принято (и, как правило, это наилучший вариант), что присваивается среднее (Mean) из значений рангов этих величин. При установке Low все значения получают наименьший, при установке High — наибольший из этих рангов. При выбранной опции Sequential ranks to unique values (Присваивать последовательные ранги) все связанные наблюдения получают одинаковый ранг; следующему наблдению присваивается следующее по порядку целое число. Поэтому максимальный присвоенный ранг равен не общему количеству значений, а количеству различных значений.


                Перечисленные четыре способа присвоения рангов можно пояснить с помощью простого примера, в котором семь значений расположены по убыванию.



                Рис. 8.11: Диалоговое окно Rank Cases: Ties


                Значение


                Mean


                Low


                High


                Sequential ranks to unique values


                190


                1


                1


                1


                1


                187


                2,5


                2


                3


                2


                187


                2,5


                2


                3


                2


                185


                5


                4


                6


                3


                185


                5


                4


                6


                3


                185


                5


                4


                6


                3


                184


                7


                7


                7


                4

                •  Оставьте стандартную настройку и закройте диалоговое окно кнопкой Continue.

                •  Начните присвоение рангов, щелкнув на ОК.

                В файл данных будет добавлена переменная rtju1, содержащая ранги, присвоенные значениям переменной tju1. Для обозначения ранговой переменной к имени исходной переменной спереди дописывается буква г.


                Затем отсортируем файл данных по этой ранговой переменной.

                •  Для этого, как описано в разделе 7.3, выберите в меню команды Data (Данные) Son Cases... (Сортировать наблюдения) и в появившемся диалоговом окне выберите в качестве переменной сортировки rtjul. Примите предлагаемый по умолчанию порядок сортировки по возрастанию.

                •  Запустите сортировку кнопкой ОК. Теперь выведем значения переменных rtju1, land и tju1 в отсортированном виде.

                •  Для этого выберите в меню команды (см. раздел 4.8) Analyze (Анализ) Reports (Отчеты) Case summaries... (Итоги по наблюдениям) и перенесите в поле Variables переменные rtjul, land и tjul в указанной последовательности.

                •  Запустите создание отчета кнопкой ОК. В окне просмотра будет показана следующая таблица.

                Отсюда можно заключить, что Греция является самой теплой страной (ранг 1), за ней следует Италия (ранг 2), следующий ранг имеют две страны — Албания и Румыния (средний ранг 3,5) и т.д.


                Case Processing Summary a (Сводка случаев)


                RANK TJU


                LAN


                Средняя дневная температура в июле


                1


                1,00


                GRI


                33


                2


                2,00


                ITA


                31


                3


                3,50


                ALB


                30


                4


                3,50


                RUM


                30


                5


                5,50


                JUG


                29


                6


                5,50


                TUE


                29


                7


                7,50


                BUL


                28


                8


                7,50


                UNG


                28


                9


                9,50


                FOR


                27


                10


                9,50


                SPA


                27


                11


                13,00


                DEU


                25


                12


                13,00


                FRA


                25


                13


                13,00


                OES


                25


                14


                13,00


                SCH


                25


                15


                13,00


                TSC


                25


                16


                17,00


                DD


                24


                17


                17,00


                POL


                24


                18


                17,00


                SOW


                24


                19


                19,50


                BEL


                23


                20


                19,50


                LUX


                23


                21


                23,50


                DAE


                22


                22


                23,50


                FIN


                22


                23


                23,50


                GRO


                22


                24


                23,50


                NIE


                22


                25


                23,50


                NOR


                22


                26


                23,50


                SCH


                22


                27


                27,00


                IRL


                20


                28


                28,00


                ISL


                15

                Total (Всего)N  28 28 28

                 a. Limited to first 100 cases(Ограничено первыми 100 случаями)

                10.gif

                Изображение: 

                11.gif

                Изображение: 

                8.6.2 Типы рангов

                8.6.2 Типы рангов


                В диалоге Rank Cases можно, щелкнув на кнопке Rank Types... (Типы рангов), от-крыть диалоговое окно Rank Cases: Types (Ранги: Типы). В этом окне представлены шесть типов рангов; щелкнув на кнопке More » (Еще), можно увидеть еще два.


                Ниже приведено объяснение различных типы рангов.

                •  Rank (Ранг): Абсолютные значения рангов (см. раздел 8.6.1). Это установка по умолчанию.

                •  Savage score (Оценка Сэвиджа): Это значения ранга, полученное на основе экспоненциального распределения. При общем количестве значений переменной т оценка Сэвиджа для i-го ранга определяется по формуле

                 


                Рис. 8.12: Диалоговое окно Rank Cases: Types

                •  Fractional Rank (Относительный ранг): Это значение ранга деленное на количество наблюдений.

                •  Fractional Rank as % (Относительный ранг в %): Это численные значения относительных рангов, умноженные на 100. Например, процентный ранг 33,93 означает, что 33,93% всех наблюдений имеют более низкий ранг.

                •  Sum of case weights (Сумма весов наблюдений): Эта величина представляет интерес только при определении рангов для подгрупп и является постоянной в каждой подгруппе; она соответствует количеству случаев в подгруппе.

                •  Ntiles (N-процентили): Пользователь может задать число групп процентилей, на которые должны быть разбиты наблюдения (по умолчанию 4). Тогда каждому случаю присваивается значение процентильной группы, к которой он принадлежит.

                •  Proportion estimates (Долевые оценки): Вычисление накопленной доли при предположении нормальном распределении переменной. Для ранга г и количества наблюдений я соответствующие долевые оценки вычисляются по четырем нижеследующим формулам.


                Blom:


                (r-3/8)/(n+1/4)


                Tukey:


                (r-1/3)/(n+1/3)


                Rankit:


                (r-1/2)/n


                Van der Waerden:


                r/(n+1)

                •  Normal scores (Нормальные ранги): Значения процентилей, относящиеся к долевым оценкам.

                Для перечисленных рангов SPSS автоматически задает имена переменных, которые приведены в нижеследующей таблице. При этом имеет значение, был ли выбран единственный тип ранга или одновременно вычислялись ранги нескольких типов (что является исключением). В последнем случае, для обеспечения однозначности переменных имена должны различаться. В таблице приводятся также принятые в SPSS метки этих переменных. Для долевых оценок и нормальных рангов здесь приведен вариант, когда применяется формула Блома (Blom); при выборе других формул расчета этих рангов метки соответственно изменяются. Имя исходной переменной — lem (в нашем примере — это средняя ожидаемая продолжительность жизни мужчин).


                Тип ранга


                Единственный тип ранга


                Несколько типов


                Метка переменной


                Ранг


                rlem


                rlem


                RANK of LEM


                Оценка Сэвиджа


                slem


                slem


                SAVAGE of LEM


                Относительный ранг


                rlem


                rfrOO-1


                RFRACTION of LEM


                Относительный ранг в %


                plem


                perOO!


                PERCENT of LEM


                Сумма весов наблюдений


                nlem


                nOOl


                N of LEM


                N-процентили


                nlem


                ntiOOl


                NTILES of LEM


                Долевые оценки (по Блому)


                plern


                plem


                PROPORTION of LEM using BLOM


                Нормальные ранги (по Блому)


                nlem


                nlem


                NORMAL of LEM using BLOM


                Если провести ранговые преобразования всех возможных типов и вывести получившиеся значения с помощью средства формирования сводки наблюдений, мы получим следующую таблицу.


                Case Processinq Summary3 (Сводка наблюдений)



                LAN


                RANK LE


                SAVAG of


                RFRACT Nof


                PERCE of


                Nof


                NTILES LE


                PROPOR Nof using


                NORM of usin BLO


                1


                ALB


                3,00



                ,107


                10,7


                28


                1


                ,092



                2


                BEL


                11,50



                ,410


                41,0


                28


                2


                ,393



                3


                BUL


                15,50



                ,553


                55,3


                28


                3


                ,535


                ,088


                4


                DAE


                24,00


                ,843


                ,857


                85,7


                28


                4


                ,836


                ,979


                5


                DEU


                13,00



                ,464


                46,4


                28


                2


                ,446



                6


                DO


                17,00



                ,607


                60,7


                28


                3


                ,588


                ,223


                7


                FIN


                4,00



                ,142


                14,2


                28


                1


                ,128



                8


                FRA


                19.00


                ,098


                ,678


                67,8


                28


                3


                ,659


                ,410


                9


                GRI


                11,50



                ,410


                41,0


                28


                2


                ,393



                10


                GRO


                20,00


                ,209


                ,714


                71,4


                28


                3


                ,694


                ,509


                11


                IRL


                15,50



                ,553


                55,3


                28


                3


                ,535


                ,088


                12


                ISL


                27,00


                1,927


                ,964


                96,4


                28


                4


                ,942


                1,575


                13


                ITA


                18,00



                ,642


                64,2


                28


                3


                ,623


                ,315


                14


                JUG


                1,00



                ,035


                3,5


                28


                1


                ,022



                15


                LUX


                14,00



                ,500


                50,0


                28


                2


                ,482



                16


                NIE


                25,00


                1,093


                ,892


                89,2


                28


                4


                ,871


                1,134


                17


                NOR


                28,00


                2,927


                1,000


                100,0


                28


                4


                ,977


                2,011


                18


                OES


                9,00



                ,321


                32,1


                28


                2


                ,305



                19


                POL


                7,00



                ,250


                25,0


                28


                1


                ,234



                20


                POR


                2,00



                ,071


                7,1


                28


                1


                ,057



                21


                RUM


                6,00


                -


                ,214


                21,4


                28


                1


                ,199



                22


                SCH


                26,00


                1,427


                ,928


                92,8


                28


                4


                ,907


                1,323


                23


                SCH


                23,00


                ,643


                ,821


                82,1


                28


                4


                ,800


                ,844


                24


                sow


                22.00


                ,477


                ,785


                78,5


                28


                4


                ,765


                ,724


                25


                SPA


                21,00


                ,334


                ,750


                75,0


                28


                3


                ,730


                ,613


                26


                TSC


                5,00


                -


                ,178


                17,8


                28


                1


                ,163



                27


                TUE


                10,00


                -


                ,357


                35,7


                28


                2


                ,340


                -


                28


                UNG


                8,00



                ,285


                28,5


                28


                2


                ,269



                Total (Всего) N


                28


                28


                28


                28


                28


                28


                28


                28


                28


                a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями)

                12.gif

                Изображение: 

                13.gif

                Изображение: 

                8.7 Веса случаев

                8.7 Веса случаев


                SPSS предоставляет возможность определения веса данных. При этом данным, относящимся к разным наблюдениям, присваиваются различные весовые коэффициенты посредством так называемой переменной взвешивания. Эта процедура может быть полезной в следующих ситуациях:

                •  Данная выборка не является репрезентативной, то есть частотные характеристики выборки, состоящей из переменных, достаточных для обеспечения репрезентативности, не соответствуют частотным характеристикам генеральной совокупности.

                •  Анализ данных, которые уже представлены в виде частотных таблиц.

                Эти ситуации рассматриваются в двух следующих разделах. Подробнее о таблицах сопряженности, которые используются при этом, см. в главе 11.

                8.7.1 Коррекция при отсутствии репрезентативности

                8.7.1 Коррекция при отсутствии репрезентативности


                Перед служащими и представителями других социальных групп были поставлены четыре классических вопроса Инглхарта, уже известные нам из раздела 8.4.2, то есть, было предложено выбрать одну из четырех степеней важности для каждого из нижеследующих пунктов:


                1. Поддержание спокойствия и порядка


                2. Усиление влияния граждан на власть


                3. Борьба с инфляцией


                4. Обеспечение свободного выражения мнений


                Данные, взятые из опроса ALLBUS 1988 г., хранятся в файле beamte.sav. При этом переменной beamier присваивается кодировка 1 или 2 в зависимости от того, является ли респондент служащим; переменные themal-Hhema4 содержат оценки четырех вышеприведенных пунктов.

                •  Загрузите файл beamte.sav и командами меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты) создайте частотные таблицы переменных beamier и themaS:

                Служащий?


                Frequency


                Percent


                Valid Percent


                Cumulative Percent


                Valid


                Да


                137


                10,5


                10,5


                10,5


                Нет


                1162


                89,5


                89,5


                100,0


                Total


                1299


                100,0


                100,0


                Борьба с инфляцией


                Valid


                первостепенная важность


                Frequency 109


                Percent 8,4


                Valid Percent 8,4


                Cumulative Percent 8,4


                второстепенная важность


                237


                18,2


                18,2


                26,6


                важность третьей степени


                374


                28,8


                28,8


                55,4


                важность четвертой степени


                579


                44,6


                44,6


                100,0


                Total


                1299


                100,0


                100,0


                Из частотной таблицы переменной beamier можно заключить, что в данной выборке 10,5% респондентов являются служащими, хотя известно, что доля служащих в общем населении составляет только 8,4%.


                Прежде чем мы скорректируем это небольшое искажение при помощи переменной взвешивания, составим таблицу сопряженности для переменных themaS (строки) и beamter (столбцы).

                •  Командами меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности) создайте таблицу сопряженности из этих переменных.

                •  Дополнительно кнопкой Cells... (Ячейки) задайте вывод процентов по строкам (Percentages — Row) и столбцам (Column), а кнопкой Statistics... (Статистика) — выполнение теста %2(Chi-square):

                Таблица сопряженности Борьба с инфляцией* Служащий?


                Служащий?


                Да


                нет


                Total


                Борьба с инфля- цией


                первостепен ная важность


                Count (Коли- чество)


                6


                103


                109


                % от Борьба с инфляцией


                5,5%


                94,5%


                100,0%


                %от Служащий?


                4,4%


                8,9%


                8,4%


                второстепенн ая важность


                Count


                14


                223


                237


                % от Борьба с инфляцией


                5,9%


                94,1%


                100,0%


                %от Служащий?


                10,2%


                19,2%


                18,2%


                важность третьей степени


                Count


                37


                337


                374


                % от Борьба с инфляцией


                9,9%


                90,1%


                100,0%


                %от Служащий?


                27,0%


                29,0%


                28,8%


                важность четвертой степени


                Count


                80


                499


                579


                % от Борьба с инфляцией


                13,8%


                86,2%


                100,0%


                %от Служащий?


                58,4%


                42,9%


                44,6%


                Total


                Count


                137


                1162


                1299


                % от Борьба с инфляцией


                10,5%


                89,5%


                100,0%


                %от Служащий?


                100,0%


                100,0%


                100,0%


                Chi-Square Tests (Тесты хи-квадрат)


                Value (Значение)


                df


                Asymp. Sig. (2-sided) (Асимптотическая значимость (двусторонняя))


                Pearson Chi-Square хи-квадрат по Пирсону)


                15,077 (а)


                3


                ,002


                Likelihood Ratio (Степень правдоподобия)


                16,032


                3


                ,001


                Linearly-Linear Association (Зависимость линейный-линейный)


                14,302


                1


                ,000


                N of Valid Cases (Кол-во допустимых случаев)


                1299


                a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 11,50. (Ячейки с нулями (,0%) имеют ожидаемую частоту менее 5. Минимальная ожидаемая частота 11,50.)


                Результаты показывают, что для служащих борьба с инфляцией имеет меньшее значение, чем для остальных респондентов.


                Теперь путем взвешивания мы попробуем скорректировать искажение доли служащих, имеющееся в выборке. Принцип заключается в том, что для каждого значения переменной (в данном случае переменной beamier) вычисляется весовой коэффициент как отношение необходимого значения к существующему.


                 Весовой коэффициент = (необходимое значение)/(существующее значение)


                Для служащих весовой коэффициент равен


                8,4/10,5=0,8


                 а для остальных —


                91,5/89,5 = 1,023 

                •  Командами меню File (Файл) New (Создать) Syntax (Синтаксис) откройте редактор синтаксиса.

                •  Чтобы создать переменную взвешивания, введите следующие команды:

                IF beamter=1 gewicht=8.4/10.5 . 
                 IF beamter=2 gewicht=91.6/89. 5 . 
                  EXECUTE . 

                Исходя из соображений точности расчета рекомендуется вводить сами значения, а не их отношения, и предоставлять их вычисление компьютеру.

                •  Выделите введенные команды, выбрав в меню Edit (Правка) Select All (Выделить все)

                •  Щелкните на символе Run, и в файл данных будет добавлена новая переменная gewicht. Ее мы и будем использовать как переменную взвешивания.

                Для создания переменных взвешивания можно и не использовать команды синтаксиса SPSS, а повторить подход, описанный в разделе 8.4.1.

                •  Выберите в меню команды Data (Данные) ; Weight Cases... (Взвесить наблюдения)

                 Появится диалоговое окно Weight Cases.



                Рис. 8.13: Диалоговое окно Weight Cases

                •  Выберите в этом диалоговом окне опцию Weight cases by и перенесите переменную gewicht в поле под ней (в диалоге это поле называется Frequency Variable).

                •  Описанным выше путем создайте частотные таблицы переменных beamier и thema3 и таблицу сопряженности из этих переменных. Вы получите следующий результат:

                Служащий?


                Frequency


                Percent


                Valid Percent


                Cumulative Percent


                Valid


                да


                110


                8,4


                8,4


                8,4


                нет


                1189


                91,6


                61,6


                100,0


                Total


                1299


                100,0


                100,0


                Борьба с инфляцией


                Frequency


                Percent


                Valid Percent


                Cumulative Percent


                Valid


                первостепенная важность


                110


                8,5


                8,5


                8,5


                второстепенная важность


                239


                18,4


                18,4


                26,9


                важность третьей степени


                375


                28,8


                28,8


                55,8


                важность четвертой степени


                575


                44,2


                44,2 ,


                100,0


                Total


                1299


                100,0


                100,0


                Таблица сопряженности Борьба с инфляцией * Служащий?


                Служащий?


                да


                Нет


                Total


                Борьба с инфляцией


                первосте- пенная важность


                Count


                5


                105


                110


                % от Борьба с инфляцией


                4,5%


                95,5%


                100,0%


                %от Служащий?


                4,5%


                8,8%


                8,5%


                второсте- пенная важность


                Count


                11


                228


                239


                % от Борьба с инфляцией


                4,6%


                95,4%


                100,0%


                %от Служащий?


                10,0%


                19,2%


                18,4%


                важность третьей степени


                Count


                30


                345


                375


                % от Борьба с инфляцией


                ,U /0


                92,0%


                100,0%


                %от Служащий?


                27,3%


                29,0%


                28,9%


                важность четвертой степени


                Count


                64


                511


                575


                % от Борьба с инфляцией


                11,1%


                88,9%


                100,0%


                %от Служащий?


                58,2%


                43,0%


                44,3%


                Total


                Count


                110


                1189


                1299


                % от Борьба с инфляцией


                8,5%


                91,5%


                100,0%


                %от Служащий?


                100,0%


                100,0%


                100,0%


                Chi-Square Tests


                Value


                Df


                Asymp. Sig. (2-sided)


                Pearson Chi-Square


                12,156 a


                3


                ,007


                Likelihood Ratio


                12,972


                3


                ,005


                Linear-by-Linear Association


                11,410


                1


                ,001


                N of Valid Cases


                1299


                а. 0 cells (,0%) have expected count less than 5. The minimum expected count is 9,31. (Ячейки с нулями (,0%) имеют ожидаемую частоту менее 5. Минимальная ожидаемая частота 9,31.)


                Общая частота осталась неизменной — 1299, но взаимное отношение частот изменилось. В переменной beamter количество служащих снизилось с 137 до 110, что соответствует реальной доле служащих 8,4%. Также незначительно изменилась частотная таблица для переменной themaS; взвешивание повлияло и на нее.


                То же можно сказать и о таблице сопряженности. Однако здесь процентные значения по столбцам не изменились; сохранились соотношения между отдельными значениями переменных в ячейках.


                Установленное взвешивание будет действовать до тех пор, пока вы снова не выберете в диалоговом окне Weight Cases опцию Do not weight cases (He взвешивать наблюдения).


                Описанный метод взвешивания при отсутствии репрезентативности может привести к возникновению некоторых проблем, которые, впрочем, не проявляются в изученном примере.


                Если мы рассмотрим, например, взвешенную частотную таблицу переменной «Борьба с инфляцией», то обнаружим, что общее количество наблюдений (1299) не меняется при взвешивании. Это связано с тем, что сумма весовых коэффициентов по всем случаям равна числу случаев. Однако в варианте взвешивания, который будет изложен в разделе 8.7.2, это не так.


                Если вы попробуете вручную просуммировать частоты упоминания всех четырех вариантов ответов, то в результате вы также получите число 1299. Однако это не закономерность, а скорее счастливое совпадение, о чем свидетельствует следующий пример.

                •  Загрузите файл mai.sav, содержащий результаты опроса членов профсоюза на тему 1 мая (см. главу 24).

                •  С помощью команд меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты) создайте частотные таблицы переменных v2 (Пол) и v20 (Занятие).

                Пол


                Frequency


                Percent


                Valid Percent


                Cumulative Percent


                Valid


                женский


                77


                28,4


                28,4


                28,4


                мужской


                184


                71,6


                71,6


                100,0


                Total


                271


                100,0


                100,0


                Занятие


                Frequency


                Percent


                Valid Percent


                Cumulative Percent


                Valid


                Учащийся


                8


                3,0


                3,0


                3,0


                Рабочий


                47


                17,3


                17,3


                20,3


                Квалифици- рованный рабочий


                47


                17,3


                17,3


                37,6


                Специалист


                4


                1,5


                1,5


                39,1


                Служащий


                66


                24,4


                24,4


                63,5


                Менеджер


                8


                3,0


                3,0


                66,4


                Государствен- ный служащий


                31


                11,4


                11,4


                77,9


                Пенсионер


                42


                15,5


                15,5


                93,4


                Домохозяйка


                g


                3,3


                3,3


                96,7


                Нетрудоспо- собный


                1


                ,4


                ,4


                97,0


                Безработный Total


                8 271


                3,0 100,0


                3,0 100,0


                100,0

                •  Взвесим наблюдения так, чтобы устранить неравномерность между количествами респондентов обоих полов. Учитывая частотное распределение полов, характерное для имеющейся выборки, это выполняется при помощи следующих команд:

                IF v2=1 w=135.5/77. 


                IF v2=2 w=135.5/194.


                 EXECUTE

                •  Теперь описанным выше способом проведем взвешивание, используя только что полученную переменную w, и построим обе частотные таблицы заново:

                Пол


                Frequency


                Percent


                Valid Percent


                Cumulative Percent


                Valid


                женский


                135


                50,0


                50,0


                50,0


                мужской


                135


                50,0


                50,0


                100,0


                Total


                271


                100,0


                100,0


                Занятие


                Frequency


                Percent


                Valid Percent


                Cumulative Percent


                Valid


                Учащийся


                10


                3,6


                3,6


                3,6


                Рабочий


                46


                16,8


                16,8


                20,4


                Квалифици- рованный рабочий


                35


                12,9


                12,9


                33,3


                Специалист


                3


                1,0


                1,0


                34,4


                Служащий


                83


                30,7


                30,7


                65,1


                Менеджер


                7


                2,5


                2,5


                67,5


                Государствен- ный служащий


                32


                11,9


                11,9


                79,4


                Пенсионер


                36


                13,2


                13,2


                92,6


                Домохозяйка


                9


                3,5


                3,5


                96,1


                Нетрудоспо- собный


                2


                ,6


                ,6


                96,8


                Безработный


                9


                3,2


                3,2


                100,0


                Total


                271


                100,0


                100,0


                Хотя общее число наблюдений, 271, опять не изменилось, но суммирование частот по категориям дает несколько другие результаты.


                Это особенно заметно для переменной Пол. Так как после определения переменной взвешивания обе категории должны иметь одинаковые частоты, с самого начала ясно, что сумма не может быть нечетной. Для переменной занятие сложение частот по категориям также дает результат 272, что на единицу отличается от общего количества наблюдений — 271, выводимого в окне просмотра. SPSS всегда, в том числе при взвешивании, выдает целочисленные частоты. Поэтому негативное влияние округления будет неизбежным. Другие статистические программы, например, Stata, обходят эту ситуацию, вычисляя взвешенные частоты с дробной частью.


                Если сделать выборку наблюдений, то отображаемые программой суммы до и после взвешивания, как правило, также будут различаться. Это связано с тем, что в частичной выборке количество наблюдений обычно не соответствует сумме весовых коэффициентов, попадающих в эту выборку. Это можно проверить, создав на основе открытого файла данных частотную таблицу переменной «Занятие» до взвешивания и после взвешивания, но только для приверженцев партии СДПГ (v22=2). Тогда мы получим соответственно суммы 91 и 83.


                Взвешивание для выравнивания характеристик при нарушении репрезентативности применяется в первую очередь при эпидемиологических исследованиях. Так как при весовом коэффициенте, превосходящем единицу, количество наблюдений искусственно увеличивается по сравнению с фактически измеренным, к результатам теста на значимость следует подходить весьма критически.

                14.gif

                Изображение: 

                8.7.2 Анализ концентрированных данных

                8.7.2 Анализ концентрированных данных


                На предприятии с семнадцатью работниками девять из них удовлетворены условиями труда. Двое из этой последней группы в текущем году болели гриппом; из восьми работников, которые не удовлетворены условиями труда, гриппом болели пятеро. Это дает нам следующую таблицу:


                удовлетворены


                не уловлетворены


                болели 


                не болели


                1


                7



                3


                Следует выяснить, является ли значимой большая доля болевших среди неудовлетворенных условиями труда. Подходящим статистическим тестом для этой задачи будет точный тест Фишера и Йейтса, который выполняется после создания таблицы сопряженности в дополнении к обычному тесту %2, если количество наблюдений очень мало.


                Чтобы можно было решить эту задачу с применением SPSS, в первую очередь следует построить соответствующий файл данных, состоящий из наблюдений и переменных. Примером такого файла служит grippe.sav. Загрузите этот файл. В окне редактора данных вы получите структуру с четырьмя наблюдениями и тремя переменными.


                Она содержит переменную grippe с категориями 1 и 2 (болели — не болели), переменную zuf с категориями 1 и 2 (удовлетворены — не удовлетворены) и переменную freq, которая указывает частоту каждого сочетания и будет использоваться в качестве переменной взвешивания.

                •  Выберите в меню команды Data (Данные) Weight Cases... (Взвесить наблюдения)

                •  В диалоговом окне Weight Cases выберите опцию Weight cases by и перенесите переменную freq в поле Frequency variable.

                •  Закройте диалоговое окно и выберите команды меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

                •  Перенесите переменную grippe в список переменных строк (Rows), переменную zuf— в список переменных столбцов (Columns), и в диалоге, открываемом кнопкой Statistics..., задайте проведение теста %2 (Chi-square).

                В окне просмотра появится следующий результат:


                Таблица сопряженности Болели? * Удовлетворены?


                Count (Количество)


                Удовлетворены?


                Total


                 


                да                   нет


                Болели?


                Да


                2


                5


                7


                Нет


                7


                3


                10


                Total


                9


                8


                17


                Chi-Square Tests


                Value


                df


                Asymp. Sig. (2-sided)


                Exact Sig. (2-sided) (Точная значимость (двусторон-няя))


                Exact Sig. (1-sided) (Точная значимость (односторон-няя))


                Pearson Chi-Square (?2 пo Пирсону)


                2,837 "


                1


                ,092


                Continuity Correction (b) (Коррекция непреры-вности)


                1,418


                1


                ,234


                Likelihood Ratio (Отношение правдопо-добия)


                2,915


                1


                ,088


                Fisher's Exact Test (Точный тест Фишера)


                ,153


                ,117


                Linear-by-Linear Association (Зависимость линейный-линейный)


                2,670


                1


                ,102


                N of Valid Cases (Кол-во допустимых случаев)


                17


                a. Computed only for a 2x2 table (Вычислено только для таблицы 2Х2)


                b. 3 cells (75,0%) have expected count less than 5. The minimum expected count is 3,29 (3 ячейки (75%) имеют ожидаемую частоту менее 5. Минимальная ожидаемая частота 11,50.)


                Односторонний тест Фишера-Йейтса даст в этом случае р =0,117, т.е. отсутствие значимой разницы.


                Следующий пример взят из биологии. Исследовалось количество особей девяти различных видов кузнечиков на пяти разных лугах. Частоты сведены в следующую таблицу


                Луг


                Вид кузнечика


                1


                2


                3


                4


                5


                1


                0


                0


                1


                1


                1


                2


                1


                1


                1


                1


                0


                3


                61


                51


                17


                122


                54


                4


                36


                32


                23


                38


                11


                5


                2


                0


                2


                6


                0


                6


                3


                1


                2


                2


                1


                7


                0


                0


                0


                2


                0


                8


                26


                50


                25


                54


                22


                9


                35


                33


                36


                25


                12


                Следует выяснить, являются ли повышенная концентрация или недостаток отдельных видов кузнечиков на определенных лугах статистически значимыми. Для этого следует применить тест по критерию хи-квадрат.


                И в этом случае решение задачи SPSS должна начаться с составления файла данных, содержащего три переменные: переменную для вида кузнечиков (с категориями 1—9), переменную для луга (категории 1—5) и переменную, содержащую частоту данного вида на данном лугу.

                •  Загрузите файл wiese.sav и исследуйте его структуру в редакторе данных.

                •  Выберите в меню команды Data (Данные) Weight Cases... (Взвесить наблюдения) Откроется диалоговое окно Weight Cases.

                •  Выберите опцию Weight cases by и перенесите переменную h в поле Frequency variable.

                •  Закройте диалоговое окно кнопкой ОК и выберите команды меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности) 

                Появится диалоговое окно Crosstabs.

                •  Перенесите переменную heuschr в список переменных строк, переменную wiese — в список переменных столбцов, и в диалоге, открываемом кнопкой Cells..., кроме вывода наблюдаемых частот (флажок Observed в группе Counts), задайте также вывод ожидаемых частот (флажок Expected) и нормированных остатков (флажок Standardized в группе Residuals). После закрытия диалогового окна будет выведена следующая таблица.

                Таблица сопряженности HFUSflHR * WIFSF


                WIESE


                Total


                1


                2


                3


                4


                5


                HEUSCHR


                1


                Count (Количество)


                0


                0


                1


                1


                1


                3


                Expected Count (Ожидаемое количество)


                ,6


                ,6


                ,4


                1,0


                ,4


                3,0


                Std. Residual (Нормиро- ванный остаток)


                -,8


                -,8


                ,9


                ,0


                1,0


                2


                Count


                1


                1


                1


                1


                0


                4


                Expected Count


                ,8


                ,8


                ,5


                1,3


                ,5


                4,0


                Std. Residual


                ,2


                ,2


                ,6


                -,2


                -,7


                3


                Count


                61


                51


                17


                122


                54


                305


                Expected Count


                63,2


                64,8


                41,3


                96,8


                38,9


                305,0


                Std. Residual


                -,3


                -1,7


                -3,8


                2,6


                2,4


                4


                Count


                36


                32


                23


                38


                11


                140


                Expected Count


                29,0


                29,7


                18,9


                44,4


                17,9


                140,0


                Std. Residual


                1,3


                ,4


                ,9


                -1,0


                -1,6


                5


                Count


                2


                0


                2


                6


                0


                10


                Expected Count


                2,1


                2,1


                1,4


                3,2


                1,3


                10,0


                Std. Residual


                -,1


                -1,5


                ,6


                1,6


                -1,1


                6


                Count


                3


                1


                2


                2


                1


                9


                Expected Count


                1,9


                1,9


                1,2


                2,9


                1,1


                9,0


                Std. Residual


                ,8


                -,7


                ,7


                -,5


                -,1


                7


                Count


                0


                0


                0


                2


                0


                2


                Expected Count


                ,4


                ,4


                ,3


                ,6


                ,3


                2,0


                Std. Residual


                -,6


                -,7


                -,5


                1,7


                -,5


                8


                Count


                26


                50


                25


                54


                22


                177


                Expected Count


                36,7


                37,6


                23,9


                56,2


                22,6


                177,0


                Std. Residual


                -1,8


                2,0


                ,2


                -,3


                -,1


                9


                Count


                35


                33


                36


                25


                12


                141


                Expected Count


                29,2


                29,9


                19,1


                44,7


                18,0


                141,0


                Std. Residual


                1,1


                ,6


                3,9


                -3,0


                -1,4


                Total


                Count


                164


                168


                107


                251


                101


                791


                Expected Count


                164,0


                168,0


                107.0


                251,0


                101,0


                791,0


                В ячейках таблицы последовательно располагаются наблюдаемые частоты (fy), ожидаемые частоты (fg) и нормированные остатки, определяемые по формуле:


                Считается, что существует значимое различие между наблюдаемой и ожидаемой частотой, если нормированный остаток больше или равен 2. Другие предельные значения принимаются в соответствии со следующей таблицей.


                Нормированный остаток


                Уровень значимости


                >=2,0


                р<0,05 (*)


                >=2,6


                р<0,01 (**)


                >=3,3


                P<0,001 (***)


                Однако эти правила применимы, только в том случае, если ожидаемая частота не меньше 5. Если, к примеру, взять вид кузнечиков № 3, то для него наблюдается значимый недостаток на лугу 3, очень значимая концентрация на лугу 4 и значимая концентрация на лугу 5.

                15.gif

                Изображение: 

                8.8 Примеры вычисления новых переменных

                8.8 Примеры вычисления новых переменных


                Два следующих примера демонстрируют возможности языка программирования SPSS.

                8.8.1 Первый пример: вычисление расхода бензина

                8.8.1 Первый пример: вычисление расхода бензина


                Предположим, что мы ведем книгу учета расхода бензина. При каждой заправке в нее записывается дата, пробег в километрах и объем заправки в литрах:


                Дата


                Пробег


                Литров


                16.12.1992


                20580


                60,3


                23.12.1992


                21250


                57,4


                04.01.1993


                21874


                56,6


                17.01.1993


                22476


                56,3


                28.01.1993


                22954


                45,4


                12.02.1993


                23450


                48,6


                27.02.1993


                24020


                57,0


                14.03.1993


                24611


                56,7


                Эти данные записаны соответственно в переменных tag, monat, jaehr, kmstand и liter файла tank.sav. Для каждой даты (кроме первой, где это невозможно) требуется вычислить пробег за день и средний расход бензина в расчете на сто километров, а также вывести их через новые переменные.


                Это типичный случай, где рационально применить функций LAG и YRMODA. Используя пояснения к этим функциям, которые содержатся в разделе 8.1.2, попробуйте самостоятельно интерпретировать смысл следующих команд:

                 COMPUTE   ntage=yrmoda(jahr,monat,tag)     . 
                  COMPUTE difftage=ntage-lag(ntage,1) 
                  COMPUTE diffkm=kmstand-lag(kmstand/1). 
                  COMPUTE  verbr=liter*100/diffkm   . 
                  COMPUTE     kmtag=diffkm/difftage     . 
                  EXECUTE    . 
                •  Загрузите файл tank.sav.

                •  Введите приведенные выше команды в редактор синтаксиса или примените для этого диалоговое окно Compute Variable.

                •  В заключение командами меню Analyze (Анализ) Reports (Отчеты) Case summaries... (Сводка наблюдений) выведите значения переменных tag, monat, jahr, kmtag и verbr.

                8.8.2 Второй пример: вычисление даты пасхи

                8.8.2 Второй пример: вычисление даты пасхи


                Никейский собор в 325 г. установил, что пасху следует праздновать в первое воскресенье после первого весеннего полнолуния. На этом основан метод Гаусса для определения даты пасхального воскресенья. Согласно нему, если задан год jahr (например, 1994), то дату пасхального воскресенья, можно вычислить с помощью следующих операций:

                 k = целый результат деления jahr/100 
                  р = целый результат деления k/3 
                  q = целый результат деления k/4 
                  m = 15 + k — p — q 
                  ml = остаток от деления т/30 
                   n = 4 + k - q 
                  nl = остаток от деления п/7 
                  а = остаток от деления jahr/19 
                  Ь = остаток от деления jahr/4 
                  с = остаток от деления jahr/7 
                  d = 19 * а + ml 
                  dl = остаток от деления d/30 
                  e = 2*b + 4*c + 6*dl + nl 
                  el = остаток от деления е/7 
                  х = 22 + dl + el 

                Для определения х существует два исключения

                •  Если x=57, то х принимается равным 50

                •  Если d1=28 и el=6, а остаток деления в выражении (11*m+11)/30 меньше 19, то х принимается равным 49

                Пасхальное воскресенье выпадает на х-ое марта или, если х больше 31, — на х— 31-ое апреля. Этот алгоритм дает превосходный пример для знакомства с арифметическими функциями TRUNC и MOD (см. раздел 7.1.3). Кроме того, можно еще раз потренироваться в использовании оператора IF (раздел 8.4).


                Сначала в редакторе данных следует создать файл данных, содержащий единственную переменную jahr. Затем в строках редактора необходимо ввести годы, для которых вы желаете вычислить дату пасхи. Можно также загрузить файл примеров ostern.sav, содержащий годы с 1995 по 2030.


                Затем откройте редактор синтаксиса и введите следующую программу. Команды COMPUTE вплоть до вычисления х можно также ввести в соответствующем диалоговом окне (см. раздел 8.1). Команды, приведенные ниже, вводятся в редакторе синтаксиса. Для того, чтобы избежать ручного ввода этой программы, можно просто загрузить в редактор синтаксиса файл ostern.sps.

                COMPUTE k=TRUNC(jahr/100)  . 
                  COMPUTE p=TRUNC(k/3) . 
                  COMPUTE q=TRUNC(k/4)  . 
                  COMPUTE m=15+k-p-q . 
                  COMPUTE ml=MOD(m,30)  . 
                  COMPUTE n=4+k-g . 
                  COMPUTE nl=MOD(n,7)  . 
                  COMPUTE a=MOD(jahr,19)  . 
                  COMPUTE b=MOD(jahr,4)  . 
                  COMPUTE c=MOD(jahr,7)  
                  COMPUTE d=19*a+ml . 
                  COMPUTE dl=MOD(d,30)  . 
                  COMPUTE e=2*b+4*c+6*dl+nl . 
                  COMPUTE el=MOD(e,7)  . 
                  COMPUTE x=22+dl+el . 
                  IF x=57 x=50 . 
                  IF dl=28 AND el=6  
                   AND MOD (ll*m+ll,30)<19 x=49 . 
                  COMPUTE tag=x . 
                  COMPUTE monat=3 . 
                  IF (x > 31) tag=x-31 . 
                  IF (x > 31) monat=4 . 
                  COMPUTE odatum=DATE.MDY(raonat,tag,jahr)  . 
                  FORMATS odatum(DATEll)  . 
                  LIST odatum . 

                Переменные tag и monat определяют дату пасхального воскресенья заданного года (переменной jahr). На их основе функция DATE.MDY вычисляет значение времени во внутреннем формате SPSS (число секунд после введения григорианского календаря). Затем это значение записывается в переменную odatum, которая преобразуется в формат даты DATE11.


                После ввода программы или открытия файла в редакторе синтексиса с помощью меню Edit (Правка) выделите все строки и запустите программу. С помощью команды LIST в окне просмотра буде сформирована следующая таблица, фрагмент которой с 1995 до 2002 года, приводится ниже:

                 ODATUM 
                  16-APR-1995  
                   07-APR-1996  
                   30-MAR-1997  
                   12-APR-1998  
                   04-APR-1999  
                   23-APR-2000  
                   15-APR-2001  
                   31-MAR-2002 

                Обладая некоторой фантазией и знанием командного синтаксиса SPSS, можно решать задачи, не связанные непосредственно со статистическими вычислениями.

                Глава 9. Статистические характеристики

                Глава 9. Статистические характеристики

                  1. Статистические характеристики

                  Статистические характеристики


                  Статистические характеристики вычисляются в основном для переменных, относящихся к интервальной шкале. Для этого используются следующие четыре команды меню.


                  Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Descriptives.., (Описательная статистика). Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты). Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Explore... (Исследовать)Analyze (Анализ) Reports (Отчеты)Case summaries... (Итоги по наблюдениям)


                  Создание частотных таблиц рассматривается в главе 6, а исследование данных — в главе 10.


                  В нижеследующей таблице приведен обзор характеристик, рассчитываемых в SPSS. В меню Descriptives... можно также провести стандартизацию переменных (z-преобразование).


                  Характе- ристика


                  Descrip-tives


                  Frequen- cies


                  Explore


                  Case summaries


                  Среднее значение


                  X


                  X


                  X


                  X


                  Сумма


                  X


                  X


                  X


                  Медиана


                  X


                  X


                  X


                  Групповая медиана


                  X


                  X


                  Квартиль


                  X


                  Процеитиль


                  X


                  X


                  Мода


                  X


                  Стандартное отклонение


                  X


                  X


                  X


                  X


                  Стандартная ошибка


                  X


                  X


                  X


                  X


                  Дисперсия


                  X


                  X


                  X


                  X


                  Минимум


                  X


                  X


                  X


                  X


                  Максимум


                  X


                  X


                  X


                  X


                  Размах


                  X


                  X


                  X


                  X


                  Межквартильная широта


                  X


                  Эксцесс (вариация)


                  X


                  X


                  X



                  Асимметрия


                  X


                  X


                  X


                  X


                  Стандартная ошибка эксцесса


                  X


                  X


                  X


                  X


                  Стандартная ошибка асимметрии


                  X


                  X


                  X


                  X


                  Доверительный интервал


                  X


                  Гармоническое среднее


                  X


                  Геометрическое среднее


                  X


                  М-оценка (Хампеля)


                  X


                  Выброс


                  X


                  Усеченное среднее


                  X


                  Статистические характеристики, которые задаются в меню Case summaries, можно также вычислить раздельно по категориям группирующих переменных, относящихся к номинальной или порядковой шкале.


                  В качестве примера для этой и следующей главы мы рассмотрим исследование, относящееся к области медицины — анализ действия двух различных лекарств (с вымышленными названиями альфасан и бетасан) на снижение кровяного давления у гипертоников. Эти данные хранятся в файле hyper.sav, содержащем 174 наблюдения и значения следующих переменных:


                  nr


                  Номер пациента


                  med


                  Лекарство (1 = альфасан, 2 = бетасан)


                  g


                  Пол (1 = мужской, 2 = женский)


                  а


                  Возраст, лет


                  gr


                  Рост, см


                  gew


                  Вес, кг


                  rrs0


                  Систолическое кровяное давление, исходное значение


                  rrs1


                  то же, через 1 месяц


                  rrs6


                  то же, через 6 месяцев


                  rrs12


                  то же, через 12 месяцев


                  rrd0


                  Диастолическое кровяное давление, исходное значение


                  rrd1


                  то же, через 1 месяц


                  rrd6


                  то же, через 6 месяцев


                  rrd12


                  то же, через 12 месяцев


                  chol0


                  Холестерин, исходное значение


                  chol1


                  то же, через 1 месяц


                  chol6


                  то же, через 6 месяцев


                  chol12


                  то же, через 12 месяцев


                  bz0


                  Сахар в крови, исходное значение


                  bz1


                  то же, через 1 месяц


                  bz6


                  то же, через 6 месяцев


                  bz12


                  то же, через 12 месяцев


                  ak


                  Возрастной класс (1 = до 55 лет, 2 = 56-65 лет, 3 = 66-75 лет, 4 = более 75)

                  9.1 Описательная статистика

                  9.1 Описательная статистика


                  Для ознакомления с характеристиками описательной статистики рассмотрим переменную а, отражающую возраст.

                  •  Загрузите файл hyper, sav и выберите команды меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Descriptives... (Описательная статистика) Откроется диалоговое окно Descriptives.


                  Рис. 9.1: Диалоговое окно Descriptives

                  •  Перенесите переменную а в список тестируемых переменных, и щелкните на кнопке Options... (Параметры).

                  Здесь можно задать вычисление следующих статистических характеристик:

                  •  Среднего значения,

                  •  Суммы,

                  •  Стандартного отклонения,

                  •  Стандартной ошибки,

                  •  Дисперсии,

                  •  Минимума,

                  •  Максимума,

                  •  Размаха,

                  •  Эксцесса (вариации),

                  •  Асимметрии.

                  •  Установите флажки для вывода следующих характеристик: Mean (Среднее значение), Minimum (Минимум), Maximum (Максимум) и S.E. mean (Стандартная ошибка).

                  Если анализируется несколько переменных, можно также задать последовательность вывода:

                  •  в порядке возрастания средних значений,

                  •  в порядке убывания средних значений,

                  •  по алфавиту (по именам переменных),

                  •  согласно списку выбранных целевых переменных.

                  По умолчанию выбран последний вариант. Если имеется только одна переменная, как в данном примере, порядок не имеет значения.

                  •  Пометив желаемые характеристики, щелкните на кнопке Continue... (Далее). В главном диалоговом окне укажите, чтобы стандартизованные значения были сохранены в новой переменной открытого файла данных, для чего установите флажок Save standardized values as variables.

                  •  Запустите вычисление, щелкнув на кнопке ОК. Результат будет показан в окне просмотра:

                  Descriptive Statistics (Описательная статистика)


                  N


                  Minimum


                  Maximum


                  Mean


                  Statistic


                  Statistic


                  Statistic


                  Statistic


                  Std. Error

                  Statistic

                  Возраст


                  174


                  36


                  87


                  62,11


                  ,88


                  Valid N (listvise) (Допустимых значений (по списку))


                  174


                  О значении отдельных характеристик описательной статистики можно прочесть в главе 6.


                  Видно, что в файле данных появилась новая переменная za. Она содержит нормированные значения переменной а (Возраст). По умолчанию к имени исходной переменной спереди дописывается буква z. При этом стандартизация (z-преобразование) значения х выполняется по формуле


                  Здесь m — среднее значение переменной, a s — стандартное отклонение.


                  Проведение стандартизации переменных может быть целесообразным при использовании некоторых статистических методов. Его также можно выполнять в тех случаях, когда несколько переменных, которые имеют различный размах или отличаются на порядки по значению, должны быть приведены к общему показателю. В подобной ситуации сначала необходимо провести стандартизацию этих переменных, а затем, путем усреднения, вывести общее значение из полученных стандартизованых значений (z-зна-чений).

                  1.gif

                  Изображение: 

                  9.2 Сводка наблюдений

                  9.2 Сводка наблюдений


                  Этот пункт меню позволяет как выводить значения переменных по наблюдениям, так и вычислять статистические характеристики.


                  Первую из этих возможностей мы рассмотрели в разделе 4.7; сейчас мы опишем вычисление статистических характеристик. В качестве примера снова выберем файл hyper.sav.

                  •  Загрузите файл hyper.sav и выберите команды меню Analyze (Анализ) Reports (Отчеты) Case summaries... (Сводка наблюдений)

                  Откроется диалоговое окно Summarize Cases (Вывести сводку наблюдений) (см. рис. 9.2).

                  •  Перенесите переменную а в правый список и снимите флажок Display Cases (Показывать наблюдения).

                  •  Щелкните на кнопке Statistics... (Статистика). Откроется диалоговое окно Summary Report: Statistics (Сводка: Статистика) (см. рис. 9.3).

                  •  Выберите в списке вычисление среднего значения (Mean), медианы (Median), гармонического среднего (Harmonic Mean) и геометрического среднего (Geometric Mean).

                  •  Кнопка Options... позволяет задать заголовок для сводной таблицы и способ обработки пропущенных значений.


                  Рис. 9.2: Диалоговое окно Summarize Cases



                  Рис. 9.3: Диалоговое окно Summary Report: Statistics


                  В окне просмотра будут показаны следующие результаты:


                  Case Processing Summary (Обработанные наблюдения)


                  Cases (Случаи)


                  Included (Включенные)


                  Excluded (Исключенные)


                  Total (Всего)


                  N


                  Percent


                  N


                  Percent


                  N


                  Percent


                  Возраст


                  174


                  100,0%


                  0


                  ,0%


                  174


                  100,0%


                  Case Summaries (Сводка наблюдений)


                  Возраст


                  Mean


                  Median


                  Harmonic Mean


                  Geometric


                  Mean


                  62,11


                  63,00


                  59,80


                  60,98


                  Описательные характеристики можно также вычислить раздельно по категориям группирующей переменной.

                  •  Выберите в качестве тестируемой переменной chol0, а в качестве группирующей переменной — g.

                  •  Задайте вычисление среднего значения, стандартного отклонения, стандартной ошибки среднего (Std. Error of Mean) и медианы.

                  В окне просмотра будут показаны следующие результаты:


                  Case Processing Summary


                  Cases


                  Included


                  Excluded


                  Total


                  N


                  Percent


                  N


                  Percent


                  N


                  Percent


                  Холестерин, исходный * Пол


                  174


                  100,0%


                  0


                  ,0%


                  174


                  100,0%


                  Case Summaries


                  Холестерин, исходный


                  Пол


                  Mean


                  Std. Deviation


                  Std. Error Mean


                  Median


                  мужской


                  228,95


                  54,63


                  7,11


                  216,00


                  женский


                  241,54


                  46,19


                  4,31


                  241,00


                  Total


                  237,27


                  49,42


                  3,75


                  234,50


                  О настройках, предназначенных для вывода значений по наблюдениям см. раздел 4.8. Раздельное вычисление по категориям группирующей переменной можно также выполнить при помощи команд меню Analyze (Анализ) Compare Means (Сравнение средних) Means... (Средние). Analyze (Анализ) Reports (Отчеты) OLAP Cubes... (OLAP-кубы)


                  Здесь доступны те же характеристики, что и в меню Case summaries...


                  Метод вычисления в форме OLAP-кубов (Online Analytical Processing) впервые появился в версии 9 SPSS. Он отличается тем, что таблицы, получающиеся при разбиении по группирующим переменным, можно активировать, пользуясь мобильными таблицами.

                  3.gif

                  Изображение: 

                  4.gif

                  Изображение: 

                  Глава 10. Исследование данных

                  Глава 10. Исследование данных

                    1. Исследование данных

                    Исследование данных


                    Когда данные введены в компьютер, не следует сразу же приступать к анализу. На первом этапе сами данные следует подвергнуть подробному и всестороннему исследованию. Подобное исследование преследует три основных цели:

                    •  Обнаружение ошибок ввода,

                    •  Проверка закона распределения,

                    •  Описание данных подходящими статистическими характеристиками.

                    10.1 Обнаружение ошибок ввода

                    10.1 Обнаружение ошибок ввода


                    Самый точный метод проверки данных (то есть значений всех переменных) на ошибки при вводе состоит в том, чтобы командами меню Analyze (Анализ) Reports (Отчеты) Case summaries... (Сводка наблюдений) вывести их список (см. раздел 4.6) и сравнить каждое значение с оригиналом (например, анкетой). Однако этот способ требует очень много времени, особенно при большом объеме данных. Поэтому решиться на проведение такой скучной и утомительной работы можно только в редких случаях — как правило, когда объем данных ограничен. В общем случае рекомендуется проводить частотный анализ значений переменных; для этого служат команды меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты) (см. главу 6). Результаты этого анализа при внимательном рассмотрении позволяют выявить недопустимые значения. Например, если переменная содержит данные роста в сантиметрах, то значение 384, обнаруживаемое при частотном анализе, явно свидетельствует о том, что в данных имеется ошибка. После проведения частотного анализа это значение можно отыскать в файле данных и исправить. Следовательно, при изучении частотных таблиц особое внимание надо обращать на максимальное и минимальное значения. Однако если вместо возраста 65 лет было введено, например, значение 56, то при помощи частотной таблицы эту ошибку обнаружить невозможно. Часто имеется также возможность провести смысловой анализ данных путем создания таблиц сопряженности (см. главу 11). Например, если данные взяты из анкеты, в которой имелся вопрос о семейном положении (холост/не замужем, женат/замужем, вдовец/вдова, разведен(а)), то, построив таблицу сопряженности для этого вопроса и вопроса типа: «Если у вас есть семья, то приемлемо ли для вас проводить отпуск раздельно?», легко можно обнаружить, ответили ли на него только женатые/замужние опрашиваемые.


                    Обладая некоторыми практическими навыками и фантазией, с помощью описанных и им подобных способов можно выявить большое количество ошибок ввода. Все такие ошибки обязательно должны быть исправлены. Даже если наблюдений несколько тысяч, то даже одно-единственное противоречивое значение наносит вред вашему исследованию: создается впечатление, что работа по сбору о подготовке информации выполнена поверхностно.

                    10.2 Проверка закона распределения

                    10.2 Проверка закона распределения


                    В первую очередь представляет интерес закон распределения, особенно для переменных, относящихся к интервальной шкале и шкале отношений. Чаще всего при этом ставится вопрос, подчиняются ли значения переменных нормальному распределению. Именно от этого практически всегда зависит выбор соответствующих аналитических тестов.


                    В этом отношении самым распространенным и рекомендуемым является графическое изображение распределения данных в форме гистограммы (см. главы 6 и 22). Объективная проверка на нормальное распределение проводится с помощью подходящего статистического критерия (теста Колмогорова-Смирнова). Эта операция представлена в разделе 14.5.

                    10.3 Вычисление характеристик

                    10.3 Вычисление характеристик


                    SPSS предоставляет различные возможности для вычисления статистических характеристик, помогающих оценить положение вершины и разброс распределения. К таким характерам относятся, например, среднее значение, медиана, стандартное отклонение и т.д. Эти возможности перечислены в обзоре в начале главы 9.


                    В рамках исследования данных можно определить другие характеристики, называемые робастными оценками. Этот метод исследования данных также предоставляет возможности для обнаружения ошибок ввода (например, путем выявления выбросов) и проверки формы распределения.

                    10.4 Исследование данных

                    10.4 Исследование данных


                    Чтобы понять, что может предложить нам SPSS для решения этой задачи, возьмем для примера переменную а (Возраст) из исследования эффективности лекарств (см. главу 9).

                    •  Загрузите файл hyper.sav.

                    •  Перейдите к исследованию данных, выбрав команды меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Explore... (Исследовать) Откроется диалоговое окно Explore.


                    Рис. 10.1: Диалоговое окно Explore


                    Поначалу вас может смутить то, что в этом диалоговом окне проводится различие между зависимыми переменными и факторами. Это означает, что можно выполнять анализ раздельно по группам наблюдений. В этом случае анализируемой переменной будет зависимая переменная, а группирующей переменной — фактор. Если же такой раздельный анализ проводить не требуется, список факторов не используется.


                    В следующем разделе мы рассмотрим для начала такой анализ данных, который не должен производиться по группам раздельно.

                    1.gif

                    Изображение: 

                    10.4.1 Анализ без группирующей переменной

                    10.4.1 Анализ без группирующей переменной


                    Проведем анализ возраста пациентов.

                    •  Перенесите переменную а в список зависимых переменных (Dependent List). Так как сначала мы хотим выяснить, какие методы анализа выполняются по умолчанию, то не будем пока вносить никаких изменений в настройки.

                    •  Запустите вычисление, щелкнув на кнопке ОК. Будут созданы следующие таблицы:

                    Case Processing Summary (Обработанные наблюдения)


                    Cases (Случаи)


                    Valid (Допустимые)


                    Missing (Отсутствующие)


                    Total (Всего)


                    N


                    Percent


                    N Percent


                    N


                    Percent


                    Возраст


                    174


                    100,0%


                    0 ,0%


                    174


                    100,0%


                    Descriptives (Описательная статистика)


                    Statistic


                    Std. Error


                    Возраст


                    Mean (Среднее)


                    62,11


                    ,88


                    95% Confidence Interval for Mean (95% доверительный интервал среднего)


                    Lower Bound (Нижняя граница) Upper Bound (Верхняя граница)


                    60,38 63,84


                    5% Trimmed Mean (5% усеченное среднее)


                    62,25


                    Median (Медиана)


                    63,00


                    Variance (Дисперсия)


                    133,358


                    Std. Deviation (Стандартное отклонение)


                    11,55


                    Minimum (Минимум)


                    36


                    Maximum (Максимум)


                    87


                    Range (Размах)


                    51


                    Interquartile Range (Межквартильная широта)


                    17,25


                    Skewness (Асимметрия)


                    -,143


                    ,184


                    Kurtosis (Коэффициент вариации)


                    -,635


                    ,366


                    Возраст Stem-and-Leaf Plot (диаграмма ветвей и листьев)


                    Frequency


                    Stem &


                    Leaf


                    6,00


                    3 .


                    677999


                    7,00


                    4 .


                    0223333


                    14,00


                    4 .


                    66677788888999


                    23,00


                    5 .


                    01111111122223333333444


                    20,00


                    5 .


                    55667777778888888899


                    27,00


                    6 .


                    000011111222333333333444444


                    27,00


                    6 .


                    555555666666677888888999999


                    24,00


                    7 .


                    000000011111122233333444


                    13,00


                    7 .


                    5566666788899


                    11,00


                    8 .


                    00001111224


                    2,00


                    8 .


                    67


                    Stem width :


                    10


                    Each leaf:


                    1 case(s)


                    В этом случае окно вывода результатов содержит:

                    •  статистические характеристики,

                    •  диаграмму stem-and-leaf (ветвей и листьев)

                    •  коробчатую диаграмму (box plot).

                    Большую часть статистических характеристик мы уже рассмотрели в главах 6 и 9. Появились новые характеристики:

                    •  5% усеченное среднее: среднее значение, вычисленное без учета 5% наименьших и 5% наибольших значений.

                    •  95% доверительный интервал: доверительный интервал, в котором находится среднее значение с вероятностью 95%.

                    •  Межквартилъная широта: расстояние между первым и третьим квартилями.

                    Диаграмма ветвей и листьев представляет собой комбинацию гистограммы и табличного списка. Как на гистограмме, длина каждой строки соответствует количеству наблюдений, попадающих в определенный интервал. Но, сверх этого, на данной диаграмме выводится также наблюдаемое численное значение для каждого наблюдения. Для этой цели численное значения разбиваются на два компонента: ветвь, представляющую собой первую цифру или группу цифр и лист — последующие цифры. Ветвь соответствует тем разрядам численного значения наблюдаемой переменной, которые не изменяются, а листья — разрядам, которые изменяются в пределах избранного интервала. В рассматриваемом примере ветви разбиты на две части — одну для листьев с 0 по 4 и другую — для листьев с 5 по 9.


                    Коробчатая диаграмма состоит из прямоугольника, занимающего пространство от первого до третьего квартиля (то есть, от 25 до 75 процентиля). Линия внутри этого прямоугольника соответствует медиане. Кроме того, на коробчатой диаграмме отмечаются максимальное и минимальное значения, если только они не являются выбросами (см. ниже).


                    Значения, удаленные от границ более чем на три длины построенного прямоугольника (экстремальные значения), помечаются на диаграмме звездочками. Значения, удаленные более чем на полторы длины прямоугольника, помечаются кружками.


                    Теперь посмотрим, какие еще статистические характеристики можно вычислить в дополнение к стандартным.



                    Рис. 10.2: Коробчатая диаграмма

                    •  В диалоговом окне Explore щелкните на кнопке Statistics... (Статистика).

                    Откроется диалоговое окно Explore: Statistics (см. рис. 10.3).

                    •  Статистические характеристики, установленные по умолчанию уже вычислены, поэтому флажок для них (Descriptives) можно снять.

                    •  Установите флажки для вычисления М-оценок Губера, Тьюки, Эндрюса и Хампеля (М-estimators), выбросов (Outliers) и процентилей (Percentiles).

                    •  Закройте диалог, щелкнув на Continue, и запустите вычисления кнопкой ОК. Результат этих вычислений приводится ниже.

                     



                    Рис. 10.3: Диалоговое окно Explore: Statistics


                    M-Estimators


                    Huber's M-Estimator ia) (М-оценка Губера)


                    Tukey's Biweight (b) (Оценка Тьюки)


                    Hampel M-Estimator (с) (М-оценка Хампеля)


                    Andrews' Wave (d) (Волна Эндрюса)


                    Возраст


                    62,38


                    62,51


                    62,31


                    62,51


                    a. The weighting constant is 1,339 (Весовая константа равна 1,339).


                    b. The weighting constant is 4,685 (Весовая константа равна 4,685).


                    с. The weighting constants are 1,700, 3,400 and 8,500 (Весовые константы равны 1,700, 3,400 и 8,500).


                    d. The weighting constant is 1,340*pi (Весовая константа равна 1,340*pi).


                    Percentiles


                    Percentiles


                     


                    5


                    10


                    25


                    50


                    75


                    90

                    95

                    Weighted Возраст Average(Definition 1 ) (Взвешенное среднее, определение 1 )


                    42,00


                    47,00


                    53,00


                    63,00


                    70,25


                    78,00


                    81,00


                    Tukey's Hinges Возраст (угловые точки Тьюки)


                    53,00


                    63,00


                    70,00


                    Extreme Values (Экстремальные значения)


                    Case Number (Номер случая)


                    Value (Значение)


                    Возраст


                    Highest (Наибольшие значения)


                    1


                    96


                    87


                    2


                    53


                    86


                    3


                    99


                    84


                    4


                    86


                    82


                    5


                    62


                    82


                    Lowest (Наименьшие значения)


                    1


                    68


                    36


                    2


                    23


                    37


                    3


                    64


                    37


                    4


                    122


                    39


                    5


                    45



                    a. Only a partial list of cases with the value 39 are shown in the table of lower extremes (В таблице наименьших экстремальных значений показан только частичный список наблюдений со значением 39).


                    В этих таблицах выводятся М-оценки Губера, Тьюки, Хампеля и волна Эндрюса. Основная идея М-оценок состоит в том, чтобы перед вычислением среднего значения присвоить отдельным наблюдениям разные веса. В распространенных М-оценках применяются веса, уменьшающиеся с удалением от центра распределения. Следовательно, обычное среднее значение можно рассматривать как М-оценку с единичными весами для всех наблюдений.


                    Из возможных процентилей выводятся семь значений: для 5, 10, 25, 50, 75, 90 и 95 процентов. Дополнительно вычисляются угловые точки Тьюки: 25%, 50% и 75%-про-центили.


                    В таблице «Экстремальные значения» выводятся пять наибольших и пять наименьших значений (выбросы).


                    Теперь обратимся к диаграммам, которые можно построить при исследовании данных в SPSS.

                    •  В диалоговом окне Explore щелкните на кнопке Plots... (Диаграммы). Откроется диалоговое окно Explore: Plots (см. рис. 10.4).

                    С коробчатой диаграммой и диаграммой ветвей и листьев мы уже ознакомились.

                    •  Поэтому в поле Boxplots (Коробчатые диаграммы) выберите опцию None (Нет) и снимите флажок Stem-and-leaf;