Многомерный статистический анализ. Введение в многомерный статистический анализ Статистика многомерные исследовательские методы анализ факторов


Глава 2. Кластерный анализ

Глава 3. Факторный анализ

Глава 4. Дискриминантный анализ

Список используемой литературы

Введение

Исходная информация в социально-экономических исследованиях представляется чаще всего в виде набора объектов, каждый из которых характеризуется рядом признаков (показателей). Поскольку число таких объектов и признаков может достигать десятков и сотен, и визуальный анализ этих данных малоэффективен, то возникают задачи уменьшения, концентрации исходных данных, выявления структуры и взаимосвязи между ними на основе построения обобщенных характеристик множества признаков и множества объектов. Такие задачи могут решиться методами многомерного статистического анализа.

Многомерный статистический анализ - раздел математической статистики, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов.

Основное внимание в многомерном статистическом анализе уделяется математическим методам построения оптимальных планов сбора, систематизации и обработки данных, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов.

Исходным массивом многомерных данных для проведения многомерного анализа обычно служат результаты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений. Многомерный признак чаще всего интерпретируется как величина случайная, а последовательность наблюдений как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных статистических данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака.

1. Многомерный статистический анализ многомерных распределений и их основных характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: оценивание статистическое исследуемых многомерных распределений и их основных параметров; исследование свойств используемых статистических оценок; исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных.

2. Многомерный статистический анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и результаты, присущие таким методам и моделям, как регрессионный анализ, дисперсионный анализ, ковариационный анализ, факторный анализ и т.д. Методы, принадлежащие к этой группе, включают как алгоритмы, основанные на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки какой-либо вероятностной модели (последние чаще относят к методам анализа данных).

3.Многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и результаты, свойственные таким моделям и методам, как дискриминантный анализ, кластерный анализ, многомерное шкалирование. Узловым для этих моделей является понятие расстояния, либо меры близости между анализируемыми элементами как точками некоторого пространства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в объектном пространстве).

Прикладное значение многомерного статистического анализа состоит в основном в решении следующих трех задач:

    задача статистического исследования зависимостей между рассматриваемыми показателями;

    задача классификации элементов (объектов или признаков);

    задача снижения размерности рассматриваемого признакового пространства и отбора наиболее информативных признаков.

Множественный регрессионный анализ предназначен для построения модели, позволяющей по значениям независимых переменных получать оценки значений зависимой переменной.

Логистическая регрессия для решения задачи классификации. Это разновидность множественной регрессии, назначение которой состоит в анализе связи между несколькими независимыми переменными и зависимой переменной.

Факторный анализ занимается определением относительно небольшого числа скрытых (латентных) факторов, изменчивостью которых объясняется изменчивость всех наблюдаемых показателей. Факторный анализ направлен на снижение размерности рассматриваемой задачи.

Кластерный и дискриминантный анализ предназначены для разделения совокупностей объектов на классы, в каждый из которых должны входить объекты в определенном смысле однородные или близкие. При кластерном анализе заранее неизвестно, сколько получится групп объектов и какого они будут объема. Дискриминантный анализ разделяет объекты по уже существующим классам.

Глава 1. Множественный регрессионный анализ

Задание: Исследование рынка жилья в Орле (Советский и Северный районы).

В таблице приведены данные по цене квартир в Орле и по различным факторам, ее обусловливающим:

    общая площадь;

    площадь кухни;

    жилая площадь;

  • тип дома;

    количество комнат. (Рис.1)

Рис. 1 Исходные данные

В графе «Район» использованы обозначения:

3 – Советский (элитный, относится к центральным районам);

4 – Северный.

В графе «Тип дома»:

1 – кирпичный;

0 – панельный.

Требуется:

    Проанализировать связь всех факторов с показателем «Цена» и между собой. Отобрать факторы, наиболее подходящие для построения регрессионной модели;

    Сконструировать фиктивную переменную, отображающую принадлежность квартиры к центральным и периферийным районам города;

    Построить линейную модель регрессии для всех факторов, включив в нее фиктивную переменную. Пояснить экономический смысл параметров уравнения. Оценить качество модели, статистическую значимость уравнения и его параметров;

    Распределить факторы (кроме фиктивной переменной) по степени влияния на показатель «Цена»;

    Построить линейную модель регрессии для наиболее влиятельных факторов, оставив в уравнении фиктивную переменную. Оценить качество и статистическую значимость уравнения и его параметров;

    Обосновать целесообразность или нецелесообразность включения в уравнение п. 3 и 5 фиктивной переменной;

    Оценить интервальные оценки параметров уравнения с вероятностью 95%;

    Определить, сколько будет стоить квартира общей площадью 74,5 м² в элитном (периферийном) районе.

Выполнение:

    Проанализировав связь всех факторов с показателем «Цена» и между собой, были отобраны факторы, наиболее подходящие для построения регрессионной модели, используя метод включения «Forward »:

А) общая площадь;

В) количество комнат.

Включенные/исключенные переменные(a)

Включенные переменные

Исключенные переменные

Общая площадь

Включение (критерий: вероятность F-включения >= ,050)

Включение (критерий: вероятность F-включения >= ,050)

Кол-во комнат

Включение (критерий: вероятность F-включения >= ,050)

a Зависимая переменная: Цена

    Переменная Х4 «Район» является фиктивной переменной, так как имеет 2 значения: 3-принадлежность к центральному району «Советский», 4- к периферийному району «Северный».

    Построим линейную модель регрессии для всех факторов (включая фиктивную переменную Х4).

Полученная модель:

У = 348,349 + 35,788 Х1 -217,075 Х4 +305,687 Х7

Оценка качества модели.

Коэффициент детерминации R 2 = 0,807

Показывает долю вариации результативного признака под воздействием изучаемых факторов. Следовательно, около 89% вариации зависимой переменной учтено и обусловлено в модели влиянием включенных факторов.

Коэффициент множественной корреляции R = 0,898

Показывает тесноту связи между зависимой переменной У со всеми включенными в модель объясняющими факторами.

Стандартная ошибка = 126,477

Встречаются такие ситуации, в которых случайная изменчивость была представлена одной-двумя случайными пе­ременными, признаками.

Например, при исследовании статистической совокупности людей нас интересуют рост и вес. В этой ситуации, сколько бы людей в статистиче­ской совокупности ни было, мы всегда можем построить диаграмму рассея­ния и увидеть всю картину в целом. Однако если признаков три, например, добавляется признак - возраст человека, тогда диаграмма рассеяния долж­на быть построена в трехмерном пространстве. Представить совокупность точек в трехмерном пространстве уже довольно затруднительно.

В реально­сти на практике каждое наблюдение представляется не одним-двумя-тремя числами, а некоторым заметным набором чисел, которые описывают де­сятки признаков. В этой ситуации для построения диаграммы рассеяния потребовалось бы рассматривать многомерные пространства.

Раздел статистики, посвященный исследованиям экспе­риментов с многомерными наблюдениями, называется многомерным стати­стическим анализом.

Измерение сразу нескольких признаков (свойств объекта) в одном экс­перименте в общем более естественно, чем измерение какого-либо одного, двух. Поэтому потенциально многомерный статистический анализ имеет широкое поле для применения.

К многомерному статистическому анализу относят следую­щие разделы:

Факторный анализ;

Дискриминантный анализ;

Кластерный анализ;

Многомерное шкалирование;

Методы контроля качества.

Факторный анализ

При исследовании сложных объектов и систем (например, в психологии, биологии, социологии и т. д.) величины (факторы), определяющие свойства этих объектов, очень часто невозможно измерить непосредственно, а ино­гда неизвестно даже их число и содержательный смысл. Но для измерения могут быть доступны иные величины, так или иначе зависящие от инте­ресующих факторов. При этом когда влияние неизвестного интересующего нас фактора проявляется в нескольких измеряемых признаках, эти призна­ки могут обнаруживать тесную связь между собой и общее число факторов может быть гораздо меньше, чем число измеряемых переменных.

Для обнаружения факторов, влияющих на измеряемые переменные, ис­пользуются методы факторного анализа.

Примером применения факторного анализа может служить изучение свойств личности на основе психологических тестов. Свойства личности не поддаются прямому измерению, о них можно судить только по поведе­нию человека или характеру ответов на те или иные вопросы. Для объяс­нения результатов опытов их подвергают факторному анализу, который и позволяет выявить те личностные свойства, которые оказывают влияние на поведение испытуемых индивидуумов.


В основе различных моделей факторного анализа лежит следующая ги­потеза: наблюдаемые или измеряемые параметры являются лишь косвенны­ми характеристиками изучаемого объекта или явления, в действительности существуют внутренние (скрытые, латентные, не наблюдаемые непосред­ственно) параметры и свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято на­зывать факторами.

Задачей факторного анализа является представление наблюдаемых параметров в виде линейных комбинаций факторов и, быть может, некоторых дополнительных, несущественных возмущений.

Первый этап факторного анализа, как правило, – это выбор новых признаков, которые являются линейными комбинациями прежних и «вби­рают» в себя большую часть общей изменчивости наблюдаемых данных, а потому передают большую часть информации, заключенной в первоначаль­ных наблюдениях. Обычно это осуществляется с помощью метода главных компонент, хотя иногда используют и другие приемы (метод максимального правдоподобия).

Метод главных компонент сводится к выбору новой ортогональной си­стемы координат в пространстве наблюдений. В качестве первой главной компоненты избирают направление, вдоль которого массив наблюдений имеет наибольший разброс, выбор каждой последующей главной компонен­ты происходит так, чтобы разброс наблюдений был максимальным и чтобы эта главная компонента была ортогональна другим главным компонентам, выбранным ранее. Однако факторы, полученные методом главных компо­нент, обычно не поддаются достаточно наглядной интерпретации. Поэтому следующий шаг факторного анализа - преобразование, вращение факторов для облегчения интерпретации.

Дискриминантный анализ

Пусть имеется совокупность объектов, разбитая на несколько групп, и для каждого объекта можно определить, к какой группе он относится. Для каждого объекта имеются измерения нескольких количественных характе­ристик. Необходимо найти способ, как на основании этих характеристик можно узнать группу, к которой относится объект. Это позволит указывать группы, к которым относятся новые объекты той же совокупности. Для решения поставленной задачи применяются методы дискриминантного анализа.

Дискриминантный анализ - это раздел статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам.

Рассмотрим некоторые примеры.

Дискриминантный анализ оказывается удобным при обработке ре­зультатов тестирования отдельных лиц, когда дело касается приема на ту или иную должность. В этом случае необходимо всех кандида­тов разделить на две группы: «подходит» и «не подходит».

Использование дискриминантного анализа возможно банковской ад­министрацией для оценки финансового состояния дел клиентов при выдаче им кредита. Банк по ряду признаков классифицирует их на надежных и ненадежных.

Дискриминантный анализ может быть привлечен в качестве метода разбиения совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйствен­ной деятельности.

Методы дискриминантного анализа позволяют строить функции изме­ряемых характеристик, значения которых и объясняют разбиение объектов на группы. Желательно, чтобы этих функций (дискриминантных призна­ков) было немного. В этом случае результаты анализа легче содержательно толковать.

Благодаря своей простоте особую роль играет линейный дискриминант­ный анализ, в котором классифицирующие признаки выбираются как ли­нейные функции от первичных признаков.

Кластерный анализ

Методы кластерного анализа позволяют разбить изучаемую совокуп­ность объектов на группы «схожих» объектов, называемых кластерами.

Слово кластер английского происхождения - cluster переводится как кисть, пучок, группа, рой, скопление.

Кластерный анализ решает следующие задачи:

Проводит классификацию объектов с учетом всех тех признаков, которые характеризуют объект. Сама возможность классификации продвигает нас к более углубленному пониманию рассматриваемой совокупности и объектов, входящих в нее;

Ставит задачу проверки наличия априорно заданной структуры или классификации в имеющейся совокупности. Такая проверка дает воз­можность воспользоваться стандартной гипотетико-дедуктивной схе­мой научных исследований.

Большинство методов кластеризации (иерархической группы) являются агломеративными (объединительными) - они начинают с создания эле­ментарных кластеров, каждый из которых состоит ровно из одного исходно­го наблюдения (одной точки), а на каждом последующем шаге происходит объединение двух наиболее близких кластеров в один.

Момент остановки этого процесса может задаваться исследователем (на­пример, указанием требуемого числа кластеров или максимального рассто­яния, при котором достигнуто объединение).

Графическое изображение процесса объединения кластеров может быть получено с помощью дендрограммы - дерева объединения кластеров.

Рассмотрим следующий пример. Проведем классификацию пяти предприятий, каждое из которых характеризуется тремя переменными:

х 1 среднегодовая стоимость основных производственных фондов, млрд руб.;

х 2 – материальные затраты на 1 руб. произведенной продукции, коп.;

х 3 – объем произведенной продукции, млрд руб.

МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ

Раздел математич. статистики, посвященный математич. методам построения оптимальных планов сбора, систематизации и обработки многомерных статистич. данных, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практич. выводов. Под многомерным признаком понимается р-мерный показателей (признаков, переменных) среди к-рых могут быть: количественные, т. е. скалярно измеряющие в определенной шкале проявления изучаемого свойства объекта, п о-рядковые (или ординальные), т. е. позволяющие упорядочивать анализируемые объекты по степени проявления в них изучаемого свойства; и классификационные (или номинальные), т. е. позволяющие разбивать исследуемую совокупность объектов на не поддающиеся упорядочиванию однородные (по анализируемому свойству) классы. Результаты измерения этих показателей

на каждом из побъектов исследуемой совокупности образуют многомерных наблюдений, или исходный массив многомерных данных для проведения М. с. а. Значительная часть М. с. а. обслуживает ситуации, в к-рых исследуемый многомерный признак интерпретируется как многомерная и соответственно последовательность многомерных наблюдений (1) - как из генеральной совокупности. В этом случае выбор методов обработки исходных статистич. данных и анализ их свойств производится на основе тех или иных допущений относительно природы многомерного (совместного) закона распределения вероятностей

Многомерный статистический анализ многомерных распределений и их основных характеристик охватывает лишь ситуации, в к-рых обрабатываемые наблюдения (1) имеют вероятностную природу, т. е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: статистич. оценивание исследуемых многомерных распределений, их основных числовых характеристик и параметров; исследование свойств используемых статистич. оценок; исследование распределений вероятностей для ряда статистик, с помощью к-рых строятся статистич. критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных. Основные результаты относятся к частному случаю, когда исследуемый признак подчинен многомерному нормальному закону распределения функция плотности к-рого задается соотношением

где - вектор математич. ожиданий компонент случайной величины , т. е.- ковариационная матрица случайного вектора , т. е.- ковариации компонент вектора (рассматривается невырожденный случай, когда ; в противном случае, т. е. при ранге , все результаты остаются справедливыми, но применительно к подпространству меньшей размерности , в к-рой оказывается сосредоточенным исследуемого случайного вектора ).

Так, если (1) - последовательность независимых наблюдений, образующих случайную выборку из то оценками максимального правдоподобия для параметров и , участвующих в (2), являются соответственно статистики (см. , )

причем случайный вектор подчиняется р-мерному нормальному закону и не зависит от , а совместное распределение элементов матрицы описывается т. н. распределением Уиша р-т а (см. ), к-рого

В рамках этой же схемы исследованы распределения и моменты таких выборочных характеристик многомерной случайной величины, как коэффициенты парной, частной и множественной корреляции, обобщенная (т. е. ), обобщенная -статистике Хотеллинга (см. ). В частности (см. ), если определить в качестве выборочной ковариационной матрицы подправленную "на несмещенность" оценку , а именно:

то случайной величины стремится к при , а случайные величины

подчиняются F-распределениям с числами степеней свободы соответственно (р, п-р) и (р, п 1 +п 2 -р-1). В соотношении (7) п 1 и n 2 - объемы двух независимых выборок вида (1), извлеченных из одной и той же генеральной совокупности - оценки вида (3) и (4)-(5), построенные по i-й выборке, а

Общая выборочная ковариационная , построенная по оценкам и

Многомерный статистический анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет в себе понятия и результаты, обслуживающие такие методы и модели М. с. а., как множественная , многомерный дисперсионный анализ и ковариационный анализ, факторный анализ и метод главных компонент, анализ канонич. корреляций. Результаты, составляющие содержание этого подраздела, могут быть условно разделены на два основных типа.

1) Построение наилучших (в определенном смысле) статистич. оценок для параметров упомянутых моделей и анализ их свойств (точности, а в вероятностной постановке - законов их распределения, доверительных: областей и т. д.). Так, пусть исследуемый многомерный признак интерпретируется как векторная случайная , подчиненная р-мерному нормальному распределению , и расчленен на два подвектора--столбца и размерности qи р-qсоответственно. Это определяет и соответствующее расчленение вектора математич. ожиданий , теоретической и выборочной ковариационных матриц , а именно:

Тогда (см. , ) подвектора (при условии, что второй подвектор принял фиксированное значение ) будет также нормальным ). При этом оценками максимального правдоподобия. для матриц регрессионных коэффициентов и ковариацин этой классической многомерной модели множественной регрессии

будут взаимно независимые статистики соответственно

здесь распределение оценки подчинено нормальному закону , а оценки п - закону Уишарта с параметрами и (элементы ковариационной матрицы выражаются в терминах элементов матрицы ).

Основные результаты по построению оценок параметров и исследованию их свойств в моделях факторного" анализа, главных компонент и канонич. корреляций относятся к анализу вероятностно-статистич. свойств собственных (характеристических) значений и векторов различных выборочных ковариационных матриц.

В схемах, не укладывающихся в рамки классич. нормальной модели и тем более в рамки какой-либо вероятностной модели, основные результаты относятся к построению алгоритмов (и исследованию их свойств) вычисления оценок параметров, наилучших с точки зрения нек-poro экзогенно заданного функционала качества (пли адекватности) модели.

2) Построение статистич. критериев для проверки различных гипотез о структуре исследуемых взаимосвязей. В рамках многомерной нормальной модели (последовательности наблюдений вида (1) интерпретируются как случайные выборки из соответствующих многомерных нормальных генеральных совокупностей) построены, напр., статистич. критерии для проверки следующих гипотез.

I. Гипотезы о равенстве вектора математич. ожиданий исследуемых показателей заданному конкретному вектору ; проверяется с помощью -статистики Хотеллинга с подстановкой в формулу (6)

II. Гипотезы о равенстве векторов математич. ожиданий в двух генеральных совокупностях (с одинаковыми, но неизвестными ковариационными матрицами), представленных двумя выборками; проверяется с помощью статистики (см. ).

III. Гипотезы о равенстве векторов математич. ожиданий в нескольких генеральных совокупностях (с одинаковыми, но неизвестными ковариационными матрицами), представленных своими выборками; проверяется с помощью статистики

в к-рой есть i-е р-мерное наблюдение в выборке объема , представляющей j-ю генеральную совокупность, а и - оценки вида (3), построенные соответственно отдельно по каждой из выборок и по объединенной выборке объема

IV. Гипотезы об эквивалентности нескольких нормальных генеральных совокупностей, представленных своими выборками проверяется с помощью статистики

в к-рой - оценка вида (4), построенная отдельно по наблюдениям j- йвыборки, j=1, 2, ... , k.

V. Гипотезы о взаимной независимости подвекторов-столбцов размерностей соответственно на к-рые расчленен исходный р-мерный вектор исследуемых показателей проверяется с помощью статистики

в к-рой и - выборочные ковариационные матрицы вида (4) для всего вектора и для его подвектора x (i) соответственно.

Многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет в себе понятия и результаты таких моделей и схем, как дискриминантный анализ, смеси вероятностных распределений, кластер-анализ и таксономия, многомерное шкалирование. Узловым во всех этих схемах является понятие расстояния (меры близости, меры сходства) между анализируемыми элементами. При этом анализируемыми могут быть как реальные объекты, на каждом из к-рых фиксируются значения показателей ,- тогда геометрич. образом i-го обследованного объекта будет точка в соответствующем р-мерном пространстве, так и сами показатели - тогда геометрич. образом l-го показателя будет точка в соответствующем n-мерном пространстве.

Методы и результаты дискриминантного анализа (см. , , ) направлены на следующей задачи. Известно о существовании определенного числа генеральных совокупностей и у исследователя имеется по одной выборке из каждой совокупности ("обучающие выборки"). Требуется построить основанное на имеющихся обучающих выборках наилучшее в определенном смысле классифицирующее правило, позволяющее приписать нек-рый новый элемент (наблюдение ) к своей генеральной совокупности в ситуации, когда исследователю заранее не известно, к какой из совокупностей этот элемент принадлежит. Обычно под классифицирующим правилом понимается последовательность действий: по вычислению скалярной функции от исследуемых показателей, по значениям к-рой принимается решение об отнесении элемента к одному из классов (построение дискриминантной функции); по упорядочению самих показателей по степени их информативности с точки зрения правильного отнесения элементов к классам; по вычислению соответствующих вероятностей ошибочной классификации.

Задача анализа смесей распределений вероятностей (см. ) чаще всего (но не всегда) возникает также в связи с исследованием "геометрической структуры" рассматриваемой совокупности. При этом понятие r-го однородного класса формализуется с помощью генеральной совокупности, описываемой нек-рым (как правило, унимодальным) законом распределения так что распределение общей генеральной совокупности, из к-рой извлечена выборка (1), описывается смесью распределений вида где p r - априорная вероятность (удельный элементов) r-го класса в общей генеральной совокупности. Задача состоит в "хорошем" статистич. оценивании (по выборке ) неизвестных параметров а иногда и к. Это, в частности, позволяет свести задачу классификации элементов к схеме дискриминантного анализа, хотя в данном случае отсутствовали обучающие выборки.

Методы и результаты кластер-анализа (классификации, таксономии, распознавании образов "без учителя", см. , , ) направлены на решение следующей задачи. Геометрич. анализируемой совокупности элементов задана либо координатами соответствующих точек (т. е. матрицей ... , п), либо набором геометрич. характеристик их взаимного расположения, напр, матрицей попарных расстояний . Требуется разбить исследуемую совокупность элементов на сравнительно небольшое (заранее известное или нет) классов так, чтобы элементы одного класса находились на небольшом расстоянии друг от друга, в то время как разные классы были бы по возможности достаточно взаимоудалены один от другого и не разбивались бы на столь же удаленные друг от друга части.

Задача многомерного шкалирования (см. ) относится к ситуации, когда исследуемая совокупность элементов задана с помощью матрицы попарных расстояний и заключается в приписывании каждому из элементов заданного числа (р)координат таким образом, чтобы структура попарных взаимных расстояний между элементами, измеренных с помощью этих вспомогательных координат, в среднем наименее отличались бы от заданной. Следует заметить, что основные результаты и методы кластер-анализа и многомерного шкалирования развиваются обычно без каких-либо допущении о вероятностной природе исходных данных.

Прикладное назначение многомерного статистического анализа состоит в основном в обслуживании следующих трех проблем.

Проблема статистического исследования зависимостей между анализируемыми показателями. Предполагая, что исследуемый набор статистически регистрируемых показателей xразбит, исходя из содержательного смысла этих показателей и окончательных целей исследования, на q-мернын подвектор предсказываемых (зависимых) переменных и (р-q)-мерный подвектор предсказывающих (независимых) переменных, можно сказать, что проблема состоит в определении на основании выборки (1) такой q-мерной векторной функции из класса допустимых решений F, к-рая давала бы наилучшую, в определенном смысле, аппроксимацию поведения подвектора показателей . В зависимости от конкретного вида функционала качества аппроксимации и природы,анализируемых показателей приходят к тем или иным схемам множественной регрессии, дисперсионного, ковариационного или конфлюентного анализа.

Проблема классификации элементов (объектов или показателей) в общей (нестрогой) постановке заключается в том, чтобы всю анализируемую совокупность элементов, статистически представленную в виде матрицы или матрицы разбить на сравнительно небольшое число однородных, в определенном смысле, групп . В зависимости от природы априорной информации и конкретного вида функционала, задающего критерий качества классификации, приходят к тем или иным схемам дискриминантного анализа, кластер-анализа (таксономии, распознавания образов "без учителя"), расщепления смесей распределений.

Проблема снижения размерности исследуемого факторного пространства и отбора наиболее информативных показателей заключается в определении такого набора сравнительно небольшого числа показателен найденного в классе допустимых преобразований исходных показателей на к-ром достигается верхняя нек-рой экзогенно заданной меры информативности m-мерной системы признаков (см. ). Конкретизация функционала, задающего меру автоинформативности (т. е. нацеленное на максимальное сохранение информации, содержащейся в статистич. массиве (1) относительно самих исходных признаков), приводит, в частности, к различным схемам факторного анализа и главных компонент, к методам экстремальной группировки признаков. Функционалы, задающие меру внешней информативности, т. е. нацеленные на извлечение из (1) максимальной информации относительно нек-рых других, не содержащихся непосредственно в ж, показателен или явлений, приводят к различным методам отбора наиболее информативных показателей в схемах статистич. исследования зависимостей и дискриминантного анализа.

Основной математический инструментарий М. с. а. составляют специальные методы теории систем линейных уравнений и теории матриц (методы решения простой и обобщенной задачи о собственных значениях и векторах; простое обращение и псевдообращение матриц; процедуры диагонализации матриц и т. д.) и нек-рые оптимизационные алгоритмы (методы покоординатного спуска, сопряженных градиентов, ветвей и границ, различные версии случайного поиска и стохастич. аппроксимации и т. д.).

Лит. : Андерсон Т., Введение в многомерный статистический анализ, пер. с англ., М., 1963; Кендалл М. Дж.., Стьюарт А., Многомерный статистический анализ и временные ряды, пер. с англ., М., 1976; Большев Л. Н., "Bull. Int. Stat. Inst.", 1969, № 43, p. 425-41; Wishаrt .J., "Biometrika", 1928, v. 20A, p. 32-52: Hotelling H., "Ann. Math. Stat.", 1931, v. 2, p. 360-78; [в] Кruskal J. В., "Psychometrika", 1964, v. 29, p. 1-27; Айвазян С. А., Бежаева 3. И., . Староверов О. В., Классификация многомерных наблюдений, М., 1974.

С. А. Айвазян.


Математическая энциклопедия. - М.: Советская энциклопедия . И. М. Виноградов . 1977-1985 .

Справочник технического переводчика

Раздел статистики математической (см.), посвященный математич. методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака (см.) и предназначенным для получения научн. и практич.… …

В широком смысле раздел математической статистики (См. Математическая статистика), объединяющий методы изучения статистических данных, относящихся к объектам, которые характеризуются несколькими качественными или количественными… … Большая советская энциклопедия

АНАЛИЗ МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ - раздел математической статистики, предназначенный для анализа связей между тремя и более переменными. Можно условно выделить три основных класса задач А.М.С. Это исследование структуры связей между переменными и снижение размерности пространства … Социология: Энциклопедия

АНАЛИЗ КОВАРИАЦИОННЫЙ - – сово­купность методов математич. статистики, отно­сящихся к анализу моделей зависимости среднего значения нек рой случайной величины Y от набора неколичественных факторов F и одновременно от набора количественных факторов X. По отношению к Y… … Российская социологическая энциклопедия

Раздел математич. статистики, содержанием к рого является разработка и исследование статистич. методов решения следующей задачи различения (дискриминации): основываясь на результатах наблюдений, определить, какой из нескольких возможных… … Математическая энциклопедия, Орлова Ирина Владленовна, Концевая Наталья Валерьевна, Турундаевский Виктор Борисович. Книга посвящена многомерному статистическому анализу (МСА) и организации вычислений по МСА. Для реализации методов многомерной статистики используется программаобработки статистической…


Пример

Имеются данные о выпуске продукции группой предприятий по месяцам (млн. руб.):

Для выявления общей тенденции роста выпуска продукции произведем укрупнение интервалов. Для этой цели исходные (месячные) данные о выработке продукции объединяем в квартальные и получаем показатели выпуска продукции группой предприятий по кварталам:

В результате укрупнения интервалов общая тенденция роста выпуска продукции данной группой предприятий выступает отчетливо:

64,5 < 76,9 < 78,8 < 85,9.

Выявление общей тенденции ряда динамики можно произвести также путем сглаживания ряда динамики с помощью метода скользящей средней . Сущность этого приема состоит в том, что по исходным уровням ряда (эмпирическим данным) определяют расчетные (теоретические) уровни. При этом посредством осреднения эмпирических данных индивидуальные колебания погашаются, и общая тенденция развития явления выражается в виде некоторой плавной линии (теоретические уровни).

Основное условие применения этого метода состоит в вычислении звеньев подвижной (скользящей) средней из такого числа уровней ряда, которое соответствует длительности наблюдаемых в ряду динамики циклов.

Недостатком способа сглаживания рядов динамики является то, что полученные средние не дают теоретических закономерностей (моделей) рядов, в основе которых лежала бы математически выраженная закономерность и это позволяло бы не только выполнить анализ, но и прогнозировать динамику ряда на будущее.

Значительно более совершенным приемом изучения общей тенденции в рядах динамики является аналитическое выравнивание . При изучении общей тенденции методом аналитического выравнивания исходят из того, что изменения уровней ряда динамики могут быть с той или иной степенью точности приближения выражены усреднённо с помощью определенных математических функций. Путем теоретического анализа выявляется характер развития явления, и на этой основе выбирается то или иное математическое выражение типа изменения явления: по прямой, по параболе второго порядка, показательной (логарифмической) кривой и т.п.

Очевидно, что уровни временных рядов формируются под совокупным влиянием множества длительно и кратковременно действующих факторов, в т.ч. различного рода случайностей. Изменение условий развития явления приводит к более или менее интенсивной смене самих факторов, к изменению силы и результативности их воздействия и, в конечном счете, к вариации уровня изучаемого явления во времени.



Многомерный статистический анализ - раздел статистики математической, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов. Исходным массивом многомерных данных для проведения такого анализа обычно служат результаты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений. Многомерный признак чаще всего интерпретируется как многомерная величина случайная, а последовательность многомерных наблюдений - как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных статистических данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака.

1. Анализ многомерных распределений и их основных характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: оценивание статистическое исследуемых многомерных распределений и их основных параметров; исследование свойств используемых статистических оценок; исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных.
2. Анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и результаты, присущие таким методам и моделям, как анализ регрессионный, анализ дисперсионный, анализ ковариационнй, анализ факторный, анализ латентно-структурный, анализ логлинейный, поиск взаимодействий . Методы, принадлежащие к этой группе, включают как алгоритмы, основанные на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки какой-либо вероятностной модели (последние чаще относят к методам анализа данных).

3. Анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и результаты, свойственные таким моделям и методам, как анализ дискриминантный, анализ кластерный, шкалирование многомерное. Узловым для этих моделей является понятие расстояния, либо меры близости между анализируемыми элементами как точками некоторого пространства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в объектном пространстве).

Прикладное значение многомерного статистического анализа состоит в основном в обслуживании следующих трех проблем:

Проблемы статистического исследования зависимостей между рассматриваемыми показателями;

Проблемы классификации элементов (объектов или признаков);

Проблемы снижения размерности рассматриваемого признакового пространства и отбора наиболее информативных признаков.

Выбор редакции
Вице-адмирал Лиланд Ловетт (командовал эскадрой, которая 7 ноября 1942 года произвела высадку англо-американских войск в Северной Африке)...

При диагностике различных урогенитальных патологий у мужчин берут особый анализ, позволяющий выявить наличие инфекции, которая могла...

Регистрация счет-фактуры на аванс необходима только в том случае, если предоплата контрагентом поступила на счет продаваемой организации,...

Кондиломы остроконечные являются не чем иным, как телесными выростами или бородавками, которые, как правило, образуются в зоне наружных...
Для проведения инвентаризации есть специальный документ - «Инвентаризация товаров на складе». С помощью данного документа вы можете...
Выписка банка в 1С 8.3 Бухгалтерия необходима для отражения списания и поступления денежных средств по безналичному расчету. Она отражает...
У птиц очень развита забота о потомстве, которая проявляется, кроме строительства гнезда и насиживании кладки, в выкармливании птенцов, в...
Страшные сказки. Истории, полные ужаса и жути Посвящается Дот, с благодарностью Введение Не пугайте детей В самом начале XIX...
Алёша Попович — фольклорный собирательный образ богатыря в русском былинном эпосе. Алёша Попович как младший входит третьим по значению...