تحلیل آماری چند متغیره مقدمه ای بر تحلیل آماری چند متغیره روش های تحقیق چند متغیره آمار تحلیل عاملی
فصل 2. تجزیه و تحلیل خوشه ای
فصل 3. تحلیل عاملی
فصل 4. تجزیه و تحلیل تفکیک
کتابشناسی - فهرست کتب
معرفی
اطلاعات اولیه در مطالعات اجتماعی-اقتصادی اغلب به عنوان مجموعه ای از اشیاء ارائه می شود که هر کدام با تعدادی ویژگی (شاخص) مشخص می شوند. از آنجایی که تعداد این گونه اشیا و ویژگی ها می تواند به ده ها و صدها برسد و تحلیل بصری این داده ها بی اثر است، مشکلات کاهش، تمرکز داده های اولیه، شناسایی ساختار و ارتباط بین آنها بر اساس ساخت ویژگی های تعمیم یافته وجود دارد. مجموعه ای از ویژگی ها و مجموعه ای از اشیاء بوجود می آیند. چنین مسائلی را می توان با روش های تحلیل آماری چند متغیره حل کرد.
تحلیل آماری چند متغیره بخشی از آمار ریاضی است که به روشهای ریاضی با هدف شناسایی ماهیت و ساختار روابط بین مؤلفههای یک ویژگی چند متغیره مورد مطالعه اختصاص دارد و به منظور دستیابی به نتایج علمی و عملی است.
توجه اصلی در تحلیل آماری چند متغیره به روشهای ریاضی برای ساخت برنامههای بهینه برای جمعآوری، نظامبندی و پردازش دادهها با هدف شناسایی ماهیت و ساختار روابط بین مؤلفههای ویژگی چند متغیره مورد مطالعه معطوف شده و در نظر گرفته شده است تا نتایج علمی و عملی به دست آید.
آرایه اولیه داده های چند بعدی برای انجام تحلیل چند متغیره معمولاً نتایج اندازه گیری مولفه های یک ویژگی چند بعدی برای هر یک از اشیاء جمعیت مورد مطالعه است، یعنی. دنباله ای از مشاهدات چند متغیره یک ویژگی چند بعدی اغلب به عنوان یک مقدار تصادفی و دنباله ای از مشاهدات به عنوان نمونه ای از جمعیت عمومی تفسیر می شود. در این مورد، انتخاب روش پردازش داده های آماری اولیه بر اساس مفروضات خاصی در مورد ماهیت قانون توزیع ویژگی چند بعدی مورد مطالعه انجام می شود.
1. تجزیه و تحلیل آماری چند متغیره توزیعهای چند متغیره و ویژگیهای اصلی آنها موقعیتهایی را پوشش میدهد که مشاهدات پردازششده ماهیت احتمالی دارند، یعنی. به عنوان نمونه ای از جمعیت عمومی مربوطه تفسیر می شود. وظایف اصلی این بخش عبارتند از: برآورد آماری توزیع های چند متغیره مورد مطالعه و پارامترهای اصلی آنها. مطالعه خواص برآوردهای آماری مورد استفاده؛ مطالعه توزیعهای احتمال برای تعدادی آمار، که برای ایجاد معیارهای آماری برای آزمایش فرضیههای مختلف در مورد ماهیت احتمالی دادههای چند متغیره تحلیلشده استفاده میشوند.
2. تجزیه و تحلیل آماری چند متغیره ماهیت و ساختار روابط متقابل اجزای ویژگی چند متغیره مورد مطالعه، مفاهیم و نتایج ذاتی در روش ها و مدل هایی مانند تحلیل رگرسیون، تحلیل واریانس، تحلیل کوواریانس، تحلیل عاملی و غیره را ترکیب می کند. روشهای متعلق به این گروه، هم الگوریتمهای مبتنی بر فرض ماهیت احتمالی دادهها و هم روشهایی را شامل میشوند که در چارچوب هیچ مدل احتمالی قرار نمیگیرند.
3. تجزیه و تحلیل آماری چند بعدی ساختار هندسی مجموعه مورد مطالعه از مشاهدات چند متغیره، مفاهیم و نتایج ذاتی در مدل ها و روش هایی مانند تجزیه و تحلیل متمایز، تجزیه و تحلیل خوشه ای، مقیاس بندی چند بعدی را ترکیب می کند. گره برای این مدل ها مفهوم فاصله یا اندازه گیری مجاورت بین عناصر تجزیه و تحلیل شده به عنوان نقاطی از فضا است. در این حالت، هم اشیا (به عنوان نقاط مشخص شده در فضای ویژگی) و هم ویژگی ها (به عنوان نقاط مشخص شده در فضای شی) قابل تحلیل هستند.
ارزش کاربردی تحلیل آماری چند متغیره عمدتاً شامل حل سه مسئله زیر است:
وظیفه مطالعه آماری وابستگی بین شاخص های مورد بررسی؛
وظیفه طبقه بندی عناصر (اشیاء یا ویژگی ها)؛
وظیفه کاهش ابعاد فضای ویژگی مورد نظر و انتخاب آموزنده ترین ویژگی ها.
تحلیل رگرسیون چندگانه برای ساخت مدلی طراحی شده است که به مقادیر متغیرهای مستقل اجازه می دهد تا تخمینی از مقادیر متغیر وابسته به دست آورند.
رگرسیون لجستیک برای حل مسئله طبقه بندی. این یک نوع رگرسیون چندگانه است که هدف آن تحلیل رابطه بین چندین متغیر مستقل و یک متغیر وابسته است.
تحلیل عاملی با تعیین تعداد نسبتاً کمی از عوامل نهفته (مخفف) سروکار دارد که تغییرپذیری آنها تغییرپذیری همه شاخص های مشاهده شده را توضیح می دهد. تحلیل عاملی با هدف کاهش ابعاد مسئله مورد بررسی است.
تجزیه و تحلیل خوشه ای و تفکیک کننده برای تقسیم مجموعه ای از اشیاء به کلاس هایی طراحی شده اند که هر کدام باید شامل اشیایی باشد که به معنای خاصی همگن یا نزدیک هستند. در تجزیه و تحلیل خوشه ای، از قبل مشخص نیست که چند گروه از اشیاء و اندازه آنها چه خواهد بود. تجزیه و تحلیل متمایز، اشیا را به کلاس های از قبل موجود تقسیم می کند.
فصل 1 تجزیه و تحلیل رگرسیون چندگانه
تکلیف: تحقیق در مورد بازار مسکن در اورل (مناطق شوروی و شمالی).
جدول داده هایی را در مورد قیمت آپارتمان ها در اورل و عوامل مختلفی که آن را تعیین می کند نشان می دهد:
نوع خانه؛
تعداد اتاق ها. (عکس. 1)
مساحت کل؛
منطقه آشپزخانه؛
فضای زندگی؛
برنج. 1 اطلاعات اولیه
در ستون "منطقه" از عناوین استفاده می شود:
3 - شوروی (نخبگان، متعلق به مناطق مرکزی)؛
4 - شمال.
در ستون "نوع خانه":
1 - آجر؛
0 - پانل.
ضروری:
رابطه همه عوامل را با شاخص «قیمت» و بین خودشان تحلیل کنید. مناسب ترین عوامل برای ساخت مدل رگرسیونی را انتخاب کنید.
یک متغیر ساختگی بسازید که تعلق آپارتمان را به مناطق مرکزی و پیرامونی شهر منعکس کند.
یک مدل رگرسیون خطی برای همه عوامل از جمله یک متغیر ساختگی بسازید. معنای اقتصادی پارامترهای معادله را توضیح دهید. ارزیابی کیفیت مدل، اهمیت آماری معادله و پارامترهای آن؛
عوامل (به جز متغیر ساختگی) را با توجه به میزان تأثیر بر شاخص "قیمت" توزیع کنید.
یک مدل رگرسیون خطی برای تأثیرگذارترین عوامل بسازید و متغیر ساختگی را در معادله رها کنید. ارزیابی کیفیت و اهمیت آماری معادله و پارامترهای آن.
مصلحت یا عدم مصلحت گنجاندن یک متغیر ساختگی در معادله بندهای 3 و 5 را توجیه کنید.
تخمین فاصله زمانی پارامترهای معادله با احتمال 95٪.
تعیین کنید یک آپارتمان با مساحت کل 74.5 متر مربع در یک منطقه نخبه (پیرامونی) چقدر هزینه دارد.
کارایی:
پس از تجزیه و تحلیل رابطه همه عوامل با شاخص «قیمت» و در بین خود، مناسبترین عوامل برای ساخت مدل رگرسیونی با استفاده از روش گنجاندن «پیش» انتخاب شدند:
الف) مساحت کل؛
ج) تعداد اتاق ها.
متغیرهای گنجانده شده/استخراج شده (الف)
متغیرهای شامل |
متغیرهای حذف شده |
||
مساحت کل |
گنجاندن (معیارها: احتمال F-inclusion >= 0.050) |
||
گنجاندن (معیارها: احتمال F-inclusion >= 0.050) |
|||
تعداد اتاق ها |
گنجاندن (معیارها: احتمال F-inclusion >= 0.050) |
یک متغیر وابسته: قیمت
متغیر X4 "Region" یک متغیر ساختگی است، زیرا دارای 2 مقدار است: 3-متعلق به منطقه مرکزی "Soviet"، 4- به منطقه پیرامونی "Severny".
بیایید یک مدل رگرسیون خطی برای همه عوامل (از جمله متغیر ساختگی X4) بسازیم.
مدل دریافتی:
Y \u003d 348.349 + 35.788 X1 -217.075 X4 +305.687 X7
ارزیابی کیفیت مدل.
ضریب تعیین R 2 = 0.807
نسبت تغییرات صفت حاصل را تحت تأثیر عوامل مورد مطالعه نشان می دهد. در نتیجه حدود 89 درصد از تغییرات متغیر وابسته و با توجه به تأثیر عوامل وارد شده در مدل در نظر گرفته شده است.
ضریب همبستگی چندگانه R = 0.898
نزدیکی رابطه بین متغیر وابسته Y را با تمامی عوامل توضیحی موجود در مدل نشان می دهد.
خطای استاندارد = 126.477
موقعیت هایی وجود دارد که در آن متغیرهای تصادفی با یک یا دو متغیر تصادفی نشان داده می شود.
به عنوان مثال، هنگام مطالعه یک جامعه آماری از افراد، به قد و وزن علاقه مندیم. در این شرایط، مهم نیست که جامعه آماری چند نفر باشد، همیشه میتوانیم یک نمودار پراکنده ترسیم کنیم و کل تصویر را ببینیم. با این حال، اگر سه ویژگی وجود داشته باشد، به عنوان مثال، یک ویژگی اضافه شود - سن یک فرد، پس طرح پراکندگی باید در فضای سه بعدی ساخته شود. نمایش مجموعه ای از نقاط در فضای سه بعدی در حال حاضر بسیار دشوار است.
در واقع، در عمل، هر مشاهده نه با یک، دو یا سه عدد، بلکه با مجموعه ای قابل توجه از اعداد نشان داده می شود که ده ها ویژگی را توصیف می کند. در این شرایط برای ساختن یک پلات پراکنده، باید فضاهای چند بعدی را در نظر گرفت.
شاخه ای از آمار که به مطالعه آزمایشات با مشاهدات چند متغیره اختصاص دارد، تحلیل آماری چند متغیره نامیده می شود.
اندازه گیری چندین ویژگی (ویژگی یک شی) در یک آزمایش به طور کلی طبیعی تر از اندازه گیری یک یا دو مورد است. بنابراین، تجزیه و تحلیل آماری چند متغیره بالقوه دارای حوزه کاربرد گسترده ای است.
تجزیه و تحلیل آماری چند متغیره شامل بخش های زیر است:
تحلیل عاملی؛
تجزیه و تحلیل افتراقی؛
آنالیز خوشه ای؛
مقیاس بندی چند بعدی؛
روش های کنترل کیفیت
تحلیل عاملی
در مطالعه اشیاء و سیستم های پیچیده (مثلاً در روان شناسی، زیست شناسی، جامعه شناسی و غیره)، کمیت ها (عوامل) تعیین کننده ویژگی های این اشیاء اغلب نمی توانند مستقیماً اندازه گیری شوند و حتی گاهی اوقات تعداد و معنای معنی دار آنها قابل اندازه گیری نیست. شناخته شده نیستند. اما ممکن است کمیت های دیگری برای اندازه گیری در دسترس باشند، به هر طریقی بسته به عوامل مورد علاقه. علاوه بر این، هنگامی که تأثیر یک عامل ناشناخته مورد علاقه ما در چندین ویژگی اندازهگیری شده ظاهر میشود، این ویژگیها میتوانند رابطه نزدیکی با یکدیگر نشان دهند و تعداد کل عوامل میتواند بسیار کمتر از تعداد متغیرهای اندازهگیری شده باشد.
از روش های تحلیل عاملی برای شناسایی عوامل موثر بر متغیرهای اندازه گیری شده استفاده می شود.
نمونه ای از کاربرد تحلیل عاملی، بررسی ویژگی های شخصیتی بر اساس آزمون های روانشناختی است. ویژگیهای شخصیتی قابل اندازهگیری مستقیم نیستند، آنها را فقط میتوان بر اساس رفتار شخص یا ماهیت پاسخ به سؤالات خاص مورد قضاوت قرار داد. برای توضیح نتایج آزمایشها، آنها تحت تحلیل عاملی قرار میگیرند، که این امکان را میدهد تا آن خصوصیات شخصی را که بر رفتار افراد مورد آزمایش تأثیر میگذارند، شناسایی کنند.
مدلهای مختلف تحلیل عاملی بر این فرضیه استوار است: پارامترهای مشاهدهشده یا اندازهگیری شده تنها ویژگیهای غیرمستقیم شی یا پدیده مورد مطالعه هستند؛ در واقع، درونی (پنهان، نهفته،به طور مستقیم مشاهده نمی شود) پارامترها و ویژگی هایی که تعداد آنها کم است و مقادیر پارامترهای مشاهده شده را تعیین می کند. این پارامترهای داخلی فاکتور نامیده می شوند.
وظیفه تحلیل عاملینمایش پارامترهای مشاهده شده در قالب ترکیب خطی عوامل و شاید برخی اختلالات اضافی و ناچیز است.
اولین مرحله تحلیل عاملی، به عنوان یک قاعده، انتخاب ویژگی های جدید است، که ترکیبی خطی از ویژگی های قبلی است و بیشتر تغییرپذیری کل داده های مشاهده شده را "جذب" می کند و بنابراین بیشتر اطلاعات موجود در داده ها را منتقل می کند. مشاهدات اصلی این معمولا با استفاده از انجام می شود روش جزء اصلی،اگرچه گاهی از تکنیک های دیگری نیز استفاده می شود (روش حداکثر احتمال).
روش مؤلفه اصلی به انتخاب یک سیستم مختصات متعامد جدید در فضای مشاهده کاهش می یابد. به عنوان اولین مؤلفه اصلی، جهتی که آرایه مشاهدات دارای بیشترین پراکندگی است، انتخاب می شود، انتخاب هر جزء اصلی بعدی به گونه ای رخ می دهد که پراکندگی مشاهدات حداکثر باشد و این مؤلفه اصلی متعامد با سایر مؤلفه های اصلی انتخاب شده قبلی باشد. . با این حال، عوامل به دست آمده با روش اجزای اصلی معمولاً خود را به یک تفسیر بصری کافی نمیرسانند. بنابراین، گام بعدی در تحلیل عاملی، تبدیل، چرخش عوامل برای تسهیل تفسیر است.
تجزیه و تحلیل تشخیصی
بگذارید مجموعه ای از اشیاء به چندین گروه تقسیم شوند و برای هر شی می توان تعیین کرد که به کدام گروه تعلق دارد. برای هر جسم اندازه گیری هایی از چندین ویژگی کمی وجود دارد. باید راهی پیدا کرد که چگونه بر اساس این ویژگی ها می توان به گروهی که شی متعلق به آن است پی برد. این به شما امکان می دهد گروه هایی را مشخص کنید که اشیاء جدید همان مجموعه به آنها تعلق دارند. برای حل مشکل، درخواست دهید روش های تجزیه و تحلیل متمایز
تجزیه و تحلیل تشخیصی- این بخشی از آمار است که محتوای آن توسعه روش هایی برای حل مشکلات تمایز (تبعیض) اشیاء مشاهده با توجه به ویژگی های خاص است.
بیایید به چند نمونه نگاه کنیم.
تجزیه و تحلیل تفکیک کننده ثابت می کند که در رسیدگی به نتایج آزمون افراد در هنگام استخدام برای یک موقعیت خاص مفید است. در این صورت لازم است همه نامزدها به دو گروه «مناسب» و «نامناسب» تقسیم شوند.
استفاده از تجزیه و تحلیل تمایز توسط مدیریت بانکی برای ارزیابی وضعیت مالی امور مشتریان در هنگام اعطای وام به آنها امکان پذیر است. بانک با توجه به تعدادی از ویژگی ها، آنها را به قابل اعتماد و غیر قابل اعتماد طبقه بندی می کند.
تجزیه و تحلیل تمایز را می توان به عنوان روشی برای تقسیم مجموعه ای از شرکت ها به چندین گروه همگن با توجه به مقادیر هر شاخص تولید و فعالیت اقتصادی استفاده کرد.
روش های تجزیه و تحلیل متمایز امکان ساخت توابع ویژگی های اندازه گیری شده را فراهم می کند که مقادیر آنها تقسیم اشیاء به گروه ها را توضیح می دهد. مطلوب است که این توابع (ویژگی های متمایز کننده)کمی بود در این مورد، نتایج تجزیه و تحلیل آسانتر قابل تفسیر است.
تحلیل تفکیک خطی به دلیل سادگی، نقش ویژه ای ایفا می کند که در آن ویژگی های طبقه بندی به عنوان توابع خطی ویژگی های اولیه انتخاب می شوند.
آنالیز خوشه ای
روش های تجزیه و تحلیل خوشه ای این امکان را فراهم می کند که مجموعه ای از اشیاء مورد مطالعه را به گروه هایی از اشیاء "مشابه" که خوشه نامیده می شوند، تقسیم کنند.
کلمه خوشهمنشاء انگلیسی - cluster به عنوان ترجمه می شود قلم مو، دسته، گروه، ازدحام، خوشه.
تجزیه و تحلیل خوشه ای وظایف زیر را حل می کند:
طبقه بندی اشیا را با در نظر گرفتن تمام ویژگی هایی که شی را مشخص می کند انجام می دهد. خود امکان طبقه بندی ما را به درک عمیق تری از کلیت مورد بررسی و اشیاء موجود در آن سوق می دهد.
وظیفه بررسی وجود ساختار یا طبقه بندی پیشینی در جمعیت موجود را تعیین می کند. چنین تأییدی استفاده از طرح استاندارد فرضی-قیاسی تحقیقات علمی را ممکن می سازد.
اکثر روش های خوشه بندی (گروه سلسله مراتبی) هستند تجمعی(یکپارچه کننده) - آنها با ایجاد خوشه های ابتدایی شروع می شوند که هر کدام دقیقاً از یک مشاهده اولیه (یک نقطه) تشکیل شده است و در هر مرحله بعدی، دو نزدیکترین خوشه در یکی ترکیب می شوند.
لحظه توقف این فرآیند می تواند توسط محقق تعیین شود (مثلاً با تعیین تعداد خوشه های مورد نیاز یا حداکثر فاصله ای که در آن اتحاد حاصل می شود).
یک نمایش گرافیکی از فرآیند ترکیب خوشه ها را می توان با استفاده از آن به دست آورد دندروگرام ها- درخت اتحاد خوشه ای.
مثال زیر را در نظر بگیرید. بیایید پنج شرکت را طبقه بندی کنیم که هر کدام با سه متغیر مشخص می شوند:
x 1- میانگین هزینه سالانه دارایی های تولید ثابت، میلیارد روبل.
x 2- هزینه مواد در هر 1 روبل. محصولات تولیدی، کوپ.
x 3- حجم محصولات تولید شده، میلیارد روبل.
تجزیه و تحلیل آماری چند متغیره
بخش ریاضیات. آمار، اختصاص داده شده به ریاضیات. روشهای ساخت طرحهای بهینه برای جمعآوری، نظامبندی و پردازش آماری چند بعدی. داده هایی با هدف شناسایی ماهیت و ساختار رابطه بین اجزای صفت چند بعدی مورد مطالعه و در نظر گرفته شده برای به دست آوردن علمی و عملی است. نتیجه گیری یک ویژگی چند بعدی به عنوان شاخص های p-بعدی (ویژگی ها، متغیرها) درک می شود که در میان آنها می توان موارد زیر را با توجه به درجه تجلی ویژگی مورد مطالعه در آنها مرتب کرد. و طبقه بندی (یا اسمی)، یعنی اجازه می دهد مجموعه مورد مطالعه اشیاء را به کلاس هایی تقسیم کند که قابل نظم دادن به همگن نیستند (طبق ویژگی تجزیه و تحلیل شده). نتایج اندازه گیری این شاخص ها
روی هر یک از اشیاء جمعیت مورد مطالعه، مشاهدات چند بعدی یا یک آرایه اولیه از داده های چند بعدی برای انجام M.s تشکیل می دهند. آ. بخش قابل توجهی از م.س. آ. موقعیت هایی را ارائه می دهد که در آن ویژگی چند بعدی مورد مطالعه به عنوان چند بعدی و بر این اساس، دنباله مشاهدات چند بعدی (1) - از جمعیت عمومی تفسیر می شود. در این مورد، انتخاب روش برای پردازش آمار اصلی. داده ها و تجزیه و تحلیل ویژگی های آنها بر اساس مفروضات خاصی در مورد ماهیت قانون توزیع احتمال چند بعدی (مشترک) انجام می شود.
تجزیه و تحلیل آماری چند متغیره توزیعهای چند متغیره و ویژگیهای اصلی آنها تنها موقعیتهایی را پوشش میدهد که در آن مشاهدات پردازششده (1) ماهیت احتمالی دارند، یعنی به عنوان نمونهای از جمعیت عمومی متناظر تفسیر میشوند. وظایف اصلی این بخش عبارتند از: آماری. تخمین توزیع های چند متغیره مورد مطالعه، ویژگی ها و پارامترهای عددی اصلی آنها. بررسی خواص آماری مورد استفاده. رتبه بندی ها مطالعه توزیع احتمال برای تعدادی از آمار، که با کمک آن داده های آماری ساخته می شود. معیارهایی برای آزمایش فرضیه های مختلف در مورد ماهیت احتمالی داده های چند متغیره تحلیل شده. نتایج اصلی به یک مورد خاص مربوط می شود که ویژگی مورد مطالعه تابع قانون توزیع نرمال چند بعدی است که تابع چگالی آن توسط رابطه داده می شود.
بردار ریاضی کجاست انتظارات از اجزای متغیر تصادفی، به عنوان مثال. ماتریس کوواریانس بردار تصادفی است، یعنی کوواریانس اجزای بردار (مورد غیر انحطاط زمانی در نظر گرفته میشود که در غیر این صورت، یعنی برای رتبه، همه نتایج معتبر باقی میمانند، اما همانطور که در فضای فرعی اعمال میشود بعد پایین تر، که در آن مشخص می شود بردار تصادفی مورد مطالعه متمرکز است).
بنابراین، اگر (1) دنبالهای از مشاهدات مستقل باشد که یک نمونه تصادفی را تشکیل میدهد، حداکثر احتمال احتمال برای پارامترها و شرکت در (2) به ترتیب آمار است (نگاه کنید به، )
که در آن بردار تصادفی از قانون نرمال بعد p پیروی می کند و بستگی ندارد، و توزیع مشترک عناصر ماتریس توسط به اصطلاح توصیف می شود توزیع آرزو r-t a (نگاه کنید به)، to-rogo
در چارچوب همان طرح، توزیعها و گشتاورهای چنین ویژگیهای نمونه یک متغیر تصادفی چند بعدی مانند ضرایب همبستگیهای جفت، جزئی و چندگانه، تعمیمیافته (یعنی)، آمار هتلینگ تعمیمیافته (نگاه کنید به ). به طور خاص (نگاه کنید به )، اگر به عنوان ماتریس کوواریانس نمونه، تخمین اصلاح شده «برای بی طرفی» را تعریف کنیم، یعنی:
سپس متغیر تصادفی به عنوان و متغیرهای تصادفی تمایل دارد
از توزیع های F با اعداد درجه آزادی به ترتیب (p, n-p) و (p, n 1 + n 2-p-1). در رابطه (7) ص 1و n 2 - حجم دو نمونه مستقل از فرم (1)، استخراج شده از همان جمعیت عمومی - برآوردهای فرم (3) و (4)-(5)، ساخته شده بر روی نمونه i-ام، و
کوواریانس کل نمونه، بر اساس برآوردها و
تجزیه و تحلیل آماری چند متغیره از ماهیت و ساختار روابط متقابل اجزای ویژگی چند بعدی مورد مطالعه، مفاهیم و نتایجی را که در خدمت چنین روشها و مدلهایی از M.s هستند، ترکیب میکند. الف، به صورت جمع، چند بعدی تحلیل واریانسو تحلیل کوواریانس، تحلیل عاملیو تجزیه و تحلیل مؤلفه های اصلی، تجزیه و تحلیل متعارف. همبستگی ها نتایجی که محتوای این بخش فرعی را تشکیل می دهد را می توان تقریباً به دو نوع اصلی تقسیم کرد.
1) ساخت بهترین (به معنای خاص) آمار. تخمین پارامترهای مدل های ذکر شده و تجزیه و تحلیل خواص آنها (دقت و در فرمول احتمالی - قوانین توزیع آنها، اطمینان: مناطق و غیره). بنابراین، اجازه دهید ویژگی چند متغیره مورد مطالعه به عنوان یک بردار تصادفی، مشروط به توزیع نرمال p-بعدی تفسیر شود و به ترتیب به دو بردار فرعی - ستونها و ابعاد q و p-q تقسیم شود. این نیز تقسیم مربوط به بردار ریاضی را تعیین می کند. انتظارات، ماتریس های کوواریانس نظری و نمونه، یعنی:
سپس (نگاه کنید به , ) بردار فرعی (با فرض اینکه بردار فرعی دوم مقدار ثابتی گرفته است) نیز نرمال خواهد بود). در این مورد، حداکثر احتمال برآورد می شود. برای ماتریس های ضرایب رگرسیون و کوواریانس های این مدل رگرسیون چند متغیره کلاسیک
به ترتیب آمارهای مستقل متقابل وجود خواهد داشت
در اینجا توزیع برآورد تابع قانون عادی است ، و n - به قانون Wishart را با پارامترها و برآورد می کند (عناصر ماتریس کوواریانس بر حسب عناصر ماتریس بیان می شوند).
نتایج اصلی در ساخت تخمین پارامترها و بررسی ویژگیهای آنها در مدلهای تحلیل عاملی، مؤلفههای اصلی و همبستگیهای متعارف مربوط به تحلیل ویژگیهای احتمالی-آماری مقادیر ویژه و بردارهای ماتریسهای کوواریانس نمونههای مختلف است.
در طرح هایی که در چارچوب کلاسیک قرار نمی گیرند. مدل معمولی، و حتی بیشتر در چارچوب هر مدل احتمالی، نتایج اصلی مربوط به ساخت الگوریتمها (و مطالعه ویژگیهای آنها) برای محاسبه تخمینهای پارامتر است که از نقطه نظر برخی کیفیتهای دادهشده برونزا بهترین هستند. یا کفایت) عملکردی مدل.
2) ساخت آمار. معیارهایی برای آزمون فرضیه های مختلف در مورد ساختار روابط مورد مطالعه. در چارچوب یک مدل نرمال چند متغیره (توالی مشاهدات فرم (1) به عنوان نمونههای تصادفی از جمعیتهای عادی چند متغیره متناظر تفسیر میشوند)، به عنوان مثال، دادههای آماری ساخته میشوند. معیارهایی برای آزمون فرضیه های زیر.
I. فرضیه های مربوط به برابری بردار ریاضی. انتظارات شاخص های مورد مطالعه به یک بردار خاص معین. با استفاده از آمار هتلینگ با جایگزینی در فرمول (6) تأیید می شود.
II. فرضیه های ریاضی برابری بردارها. انتظارات در دو جامعه (با ماتریس های کوواریانس یکسان اما ناشناخته) که توسط دو نمونه نشان داده شده است. با استفاده از آمار بررسی شد (نگاه کنید به).
III. فرضیه های ریاضی برابری بردارها. انتظارات در چندین جمعیت عمومی (با ماتریس های کوواریانس یکسان اما ناشناخته) که توسط نمونه های آنها نشان داده شده است. با آمار تایید شد
که در آن مشاهدات p بعد i در اندازه نمونه وجود دارد که نشان دهنده jمین جمعیت عمومی است و تخمین هایی از فرم (3) به ترتیب برای هر یک از نمونه ها و برای نمونه ترکیبی به طور جداگانه ساخته شده است. از اندازه
IV. فرضیه در مورد هم ارزی چند جمعیت نرمال نشان داده شده توسط نمونه های آنها با استفاده از آمار تایید می شود
که در آن - تخمینی از فرم (4) که جدا از مشاهدات ساخته شده است j-نمونه، j=1، 2، ...، ک.
V. فرضیه های مربوط به استقلال متقابل بردارهای فرعی-ستون ابعاد، که بردار p-بعد اصلی شاخص های مورد مطالعه به آنها تقسیم می شود، با استفاده از آمار بررسی می شود.
که در آن ماتریس های کوواریانس نمونه ای از فرم (4) برای کل بردار و برای بردار فرعی آن هستند. ایکس(i) به ترتیب.
تحلیل آماری چند متغیره ساختار هندسی مجموعه مشاهدات چند متغیره مورد مطالعه، مفاهیم و نتایج مدلها و طرحهایی را با هم ترکیب میکند. تجزیه و تحلیل تمایز،مخلوطی از توزیعهای احتمال، تجزیه و تحلیل خوشهای و طبقهبندی، مقیاسبندی چند متغیره. گره در همه این طرح ها مفهوم فاصله (اندازه گیری های مجاورت، معیارهای شباهت) بین عناصر تجزیه و تحلیل شده است. در عین حال، آنها را می توان به عنوان اشیاء واقعی تجزیه و تحلیل کرد، که بر روی هر یک از آنها مقادیر شاخص ها ثابت می شوند - سپس هندسی. تصویر i-امین شی مورد بررسی نقطه ای در فضای p- بعدی مربوطه خواهد بود و خود شاخص ها - سپس هندسی. تصویر شاخص l یک نقطه در فضای n بعدی مربوطه خواهد بود.
روش ها و نتایج تجزیه و تحلیل متمایز (نگاه کنید به , , ) در وظایف زیر است. مشخص است که تعداد معینی از جمعیت وجود دارد و محقق از هر جامعه یک نمونه («نمونه های آموزشی») دارد. لازم است بهترین قاعده طبقه بندی بر اساس نمونه های آموزشی موجود به معنای خاصی ساخته شود، که به فرد امکان می دهد عنصر جدید خاصی (مشاهده) را به جمعیت عمومی خود در شرایطی که محقق از قبل نمی داند کدام یک از موارد زیر است، اختصاص دهد. جمعیت هایی که این عنصر به آنها تعلق دارد. معمولاً یک قانون طبقه بندی به عنوان دنباله ای از اقدامات درک می شود: با محاسبه یک تابع اسکالر از شاخص های مورد مطالعه، با توجه به مقادیر آن، تصمیم به اختصاص یک عنصر به یکی از کلاس ها گرفته می شود (ساخت یک عملکرد متمایز)؛ از نظر تخصیص صحیح عناصر به کلاس ها ، خود شاخص ها را با توجه به میزان اطلاعات آنها مرتب کنید. با محاسبه احتمالات طبقه بندی اشتباه مربوطه.
مشکل تجزیه و تحلیل مخلوطی از توزیع های احتمال (نگاه کنید به ) اغلب (اما نه همیشه) نیز در ارتباط با مطالعه "ساختار هندسی" جمعیت مورد بررسی ایجاد می شود. در این مورد، مفهوم کلاس همگن r با کمک یک جمعیت عمومی که توسط برخی از قوانین توزیع (معمولاً یکوجهی) توصیف میشود، رسمیت مییابد تا توزیع جمعیت عمومی، که نمونه (1) از آن استخراج میشود، توصیف شود. با مخلوطی از توزیعهای شکلی که p r - احتمال پیشینی (عناصر خاص) کلاس r-امین در جمعیت عمومی است. وظیفه این است که یک آمار "خوب" داشته باشیم. تخمین (بر اساس نمونه) پارامترهای ناشناخته و گاهی اوقات به.این، به ویژه، امکان کاهش مشکل طبقه بندی عناصر را به یک طرح تجزیه و تحلیل متمایز می دهد، اگرچه در این مورد هیچ نمونه آموزشی وجود نداشت.
روشها و نتایج تحلیل خوشهای (طبقهبندی، طبقهبندی، تشخیص الگوی "بدون معلم"، رجوع کنید به , , ) با هدف حل مسئله زیر است. هندسی مجموعه عناصر تجزیه و تحلیل شده یا با مختصات نقاط مربوطه (یعنی با ماتریس ... ، n) داده می شود. , یا مجموعه ای از هندسی ویژگی های موقعیت نسبی آنها، به عنوان مثال، توسط ماتریس فواصل زوجی. لازم است مجموعه عناصر مورد مطالعه به کلاسهای نسبتاً کوچک (از قبل شناخته شده یا غیر شناخته شده) تقسیم شود تا عناصر یک طبقه در فاصله کمی از یکدیگر قرار گیرند، در حالی که طبقات مختلف، در صورت امکان، به اندازه کافی متقابل باشند. از یکدیگر فاصله دارند و به بخش هایی که از یکدیگر دور هستند تقسیم نمی شوند.
مسئله مقیاس بندی چندبعدی (نگاه کنید به ساختار فواصل متقابل جفتی بین عناصر اندازه گیری شده با استفاده از این مختصات کمکی، به طور متوسط، کمترین تفاوت را با یک داده شده خواهد داشت. لازم به ذکر است که نتایج و روشهای اصلی تحلیل خوشهای و مقیاسبندی چند بعدی معمولاً بدون هیچ گونه فرضی در مورد ماهیت احتمالی دادههای اولیه توسعه مییابند.
هدف کاربردی تحلیل آماری چند متغیره عمدتاً خدمت به سه مسئله زیر است.
مشکل تحقیق آماری وابستگی بین شاخص های تحلیل شده. با فرض اینکه مجموعه مورد مطالعه از شاخص های آماری ثبت شده x، بر اساس معنای معنی دار این شاخص ها و اهداف نهایی تحقیق، به یک بردار فرعی q-بعدی متغیرهای پیش بینی کننده (وابسته) و یک بردار فرعی (p-q)-بعدی از تقسیم می شود. متغیرهای پیش بینی کننده (مستقل)، می توان گفت که مشکل این است که بر اساس نمونه (1) چنین تابع برداری q-بعدی از کلاس راه حل های قابل قبول تعیین شود. اف،بهترین تقریب را به معنایی خاص از رفتار زیربردار شاخص ها می دهد. بسته به نوع خاصی از عملکرد کیفیت تقریب و ماهیت شاخص های تجزیه و تحلیل شده، آنها به طرحی از رگرسیون چندگانه، پراکندگی، کوواریانس یا تحلیل همرو می رسند.
مشکل طبقه بندی عناصر (اشیاء یا شاخص ها) در یک فرمول بندی کلی (غیر دقیق) این است که کل مجموعه تجزیه و تحلیل شده از عناصر را که از نظر آماری در قالب یک ماتریس یا ماتریس ارائه می شود به تعداد نسبتاً کمی همگن تقسیم کنیم. حس خاص، گروه ها بسته به ماهیت اطلاعات پیشینی و نوع خاصی از عملکردی که معیار کیفیت طبقهبندی را تعیین میکند، این یا آن طرحی از تجزیه و تحلیل متمایز، تجزیه و تحلیل خوشهای (ردهبندی، تشخیص الگوی "بدون نظارت")، و تقسیم مخلوطهای توزیعها به دست میآیند. بودن.
مشکل کاهش ابعاد فضای عامل مورد مطالعه و انتخاب آموزنده ترین شاخص ها، تعیین چنین مجموعه ای از تعداد نسبتاً کمی از شاخص های موجود در کلاس تبدیل های قابل قبول شاخص های اصلی است. در Krom، به یک معیار خاص برون زا از محتوای اطلاعات یک سیستم m بعدی از ویژگی ها رسیده است (نگاه کنید به ). مشخص کردن عملکردی که معیار خوداطلاع رسانی را مشخص می کند (یعنی با هدف حفظ حداکثری اطلاعات موجود در آرایه آماری (1) نسبت به خود ویژگی های اصلی)، به ویژه به طرح های مختلف تحلیل عاملی و مؤلفه های اصلی منجر می شود. , به روش های گروه بندی افراطی ویژگی ها . کارکردهایی که معیاری از محتوای اطلاعات خارجی را مشخص می کنند، به عنوان مثال، با هدف استخراج از (1) حداکثر اطلاعات مربوط به برخی دیگر که مستقیماً در w، نشانگر یا پدیده ها نیستند، به روش های مختلفی برای انتخاب آموزنده ترین شاخص ها در طرح های آماری منجر می شوند. مطالعات وابستگی و تجزیه و تحلیل تمایز.
ابزارهای اصلی ریاضی M.s. آ. روشهای ویژهای برای تئوری سیستمهای معادلات خطی و نظریه ماتریسها (روشهایی برای حل مسائل ساده و تعمیمیافته مقادیر ویژه و بردارها؛ وارونگی ساده و شبه وارونگی ماتریسها؛ رویههای قطریسازی ماتریسها و غیره) و الگوریتمهای بهینهسازی خاص را تشکیل میدهند. (روشهای نزول مختصات، شیبهای مجاور، شاخهها و مرزها، نسخههای مختلف جستجوی تصادفی و تقریبهای تصادفی و غیره).
روشن شد: اندرسون تی، مقدمه ای بر تحلیل آماری چند متغیره، ترجمه. از انگلیسی، M., 1963; کندال ام جی، استوارت ای.، تحلیل آماری چند متغیره و سری های زمانی، ترجمه. از انگلیسی، م.، 1976; Bolshev L. N.، "Bull. Int. Stat. Inst."، 1969، شماره 43، ص. 425-41; Wishart.J.، "Biometrika"، 1928، v. 20 الف، ص. 32-52: Hotelling H., "Ann. Math. Stat.", 1931, v. 2، ص. 360-78; [c] Kruskal J. V., "Psychometrika"، 1964، v. 29، ص. 1-27; Ayvazyan S. A.، Bezhaeva Z. I.، . Staroverov O. V.، طبقه بندی مشاهدات چند بعدی، M.، 1974.
S. A.ایوازیان.
دایره المعارف ریاضی. - م.: دایره المعارف شوروی. I. M. Vinogradov. 1977-1985.
کتابچه راهنمای مترجم فنیبخش آمار ریاضی (نگاه کنید به)، اختصاص داده شده به ریاضی. روش هایی با هدف شناسایی ماهیت و ساختار رابطه بین اجزای ویژگی چند بعدی مورد مطالعه (نگاه کنید به) و در نظر گرفته شده برای به دست آوردن علمی. و کاربردی……
در معنای وسیع، شاخه ای از آمار ریاضی (به آمار ریاضی مراجعه کنید)، که ترکیبی از روش هایی برای مطالعه داده های آماری مربوط به اشیایی است که با چندین ویژگی کیفی یا کمی مشخص می شوند. دایره المعارف بزرگ شوروی
تجزیه و تحلیل آماری چند متغیره- بخشی از آمار ریاضی که برای تجزیه و تحلیل روابط بین سه یا چند متغیر طراحی شده است. به طور مشروط می توانیم سه کلاس اصلی A.M.S را تشخیص دهیم. این مطالعه ساختار روابط بین متغیرها و کاهش ابعاد فضا است. جامعه شناسی: دایره المعارف
تحلیل کوواریانس- - مجموعه ای از روش های ریاضی. آمار مربوط به تجزیه و تحلیل مدل های وابستگی میانگین مقدار متغیر تصادفی خاص Y به مجموعه ای از عوامل غیر کمی F و به طور همزمان به مجموعه ای از عوامل کمی X. در رابطه با Y ... ... دایره المعارف جامعه شناسی روسیه
بخش ریاضیات. آماری که محتوای آن توسعه و مطالعه آماری است. روش های حل مشکل تبعیض (تبعیض) زیر: بر اساس نتایج مشاهدات، تعیین کنید که کدام یک از چندین ... ... دایره المعارف ریاضی، اورلووا ایرینا ولادلنونا، کونتسوایا ناتالیا والریونا، توروندایفسکی ویکتور بوریسویچ. این کتاب به تجزیه و تحلیل آماری چند متغیره (MSA) و سازماندهی محاسبات بر اساس MSA اختصاص دارد. برای پیاده سازی روش های آمار چند متغیره از برنامه پردازش آماری ...
مثال
داده هایی در مورد خروجی محصولات توسط گروهی از شرکت ها بر اساس ماه (میلیون روبل) وجود دارد:
برای شناسایی روند کلی رشد تولید، فواصل زمانی را بزرگتر می کنیم. برای این منظور، دادههای اولیه (ماهانه) تولید تولید را با دادههای فصلی ترکیب میکنیم و شاخصهای خروجی را برای گروهی از شرکتها به تفکیک فصل به دست میآوریم:
در نتیجه افزایش فواصل، روند کلی رشد تولید توسط این گروه از بنگاهها مشخص است:
64,5 < 76,9 < 78,8 < 85,9.
شناسایی روند کلی سری های زمانی نیز می تواند با استفاده از هموارسازی سری های زمانی انجام شود روش میانگین متحرک. ماهیت این تکنیک این است که سطوح محاسبه شده (نظری) از سطوح اولیه سری (داده های تجربی) تعیین می شود. در این حالت، با میانگین گیری داده های تجربی، نوسانات فردی خاموش می شود و روند کلی در توسعه پدیده در قالب یک خط صاف خاص (سطوح نظری) بیان می شود.
شرط اصلی برای استفاده از این روش، محاسبه میانگین متحرک (متحرک) پیوندها از چنین تعدادی از سطوح سری است که با مدت زمان دینامیک چرخه مشاهده شده در سری مطابقت دارد.
نقطه ضعف روش هموارسازی سری دینامیک این است که میانگین های به دست آمده نظم های نظری (مدل) سری را ارائه نمی دهند که بر اساس یک نظم ریاضی بیان شده است و این نه تنها امکان انجام یک تجزیه و تحلیل، بلکه همچنین امکان پذیر است. برای پیش بینی پویایی سریال برای آینده.
یک تکنیک بسیار پیشرفته تر برای مطالعه روند کلی در سری های زمانی است هم ترازی تحلیلی. هنگام مطالعه روند کلی با روش هم ترازی تحلیلی، فرض می شود که تغییرات در سطوح یک سری از دینامیک را می توان به طور متوسط با کمک توابع ریاضی خاص با درجات مختلف دقت تقریبی بیان کرد. از طریق تجزیه و تحلیل نظری، ماهیت توسعه پدیده آشکار می شود و بر این اساس یک عبارت ریاضی مانند تغییر در پدیده انتخاب می شود: در امتداد یک خط مستقیم، در امتداد یک سهمی مرتبه دوم، نمایی (لگاریتمی) منحنی و غیره
بدیهی است که سطوح سری های زمانی تحت تأثیر ترکیبی بسیاری از عوامل بلندمدت و کوتاه مدت از جمله تشکیل می شوند. انواع تصادفات تغییر در شرایط توسعه یک پدیده منجر به تغییر کم و بیش شدید در خود عوامل، تغییر در قدرت و اثربخشی تأثیر آنها و در نهایت تغییر در سطح پدیده تحت تأثیر می شود. در طول زمان مطالعه کنید
تحلیل آماری چند متغیره- بخشی از آمار ریاضی که به روش های ریاضی با هدف شناسایی ماهیت و ساختار روابط بین مؤلفه های ویژگی چند بعدی مورد مطالعه اختصاص دارد و در نظر گرفته شده است تا نتایج علمی و عملی را به دست آورد. آرایه اولیه دادههای چند بعدی برای چنین تحلیلی معمولاً نتایج اندازهگیری اجزای یک ویژگی چند بعدی برای هر یک از اشیاء جمعیت مورد مطالعه است. دنباله ای از مشاهدات چند متغیره ویژگی چند بعدی اغلب به عنوان یک متغیر تصادفی چند متغیره، و دنباله ای از مشاهدات چند متغیره به عنوان نمونه ای از جمعیت عمومی تفسیر می شود. در این مورد، انتخاب روش پردازش داده های آماری اولیه بر اساس فرضیات خاصی در مورد ماهیت انجام می شود. قانون توزیعویژگی چند بعدی را مورد مطالعه قرار داد.
1. تجزیه و تحلیل توزیع های چند متغیره و ویژگی های اصلی آنها
شرایطی را پوشش می دهد که مشاهدات پردازش شده ماهیت احتمالی دارند، یعنی. به عنوان نمونه ای از جمعیت عمومی مربوطه تفسیر می شود. وظایف اصلی این بخش عبارتند از: برآورد آماری توزیع های چند متغیره مورد مطالعه و پارامترهای اصلی آنها. مطالعه خواص برآوردهای آماری مورد استفاده؛ مطالعه توزیعهای احتمال برای تعدادی آمار، که برای ایجاد معیارهای آماری برای آزمایش فرضیههای مختلف در مورد ماهیت احتمالی دادههای چند متغیره تحلیلشده استفاده میشوند.
2. تجزیه و تحلیل ماهیت و ساختار روابط بین اجزای ویژگی چند بعدی مورد مطالعهترکیبی از مفاهیم و نتایج ذاتی در روش ها و مدل هایی مانند تحلیل رگرسیون، تحلیل پراکندگی، تحلیل کوواریانس، تحلیل عاملی، تحلیل ساختاری پنهان، تحلیل لگ خطی، جستجوی برهمکنش ها
. روشهای متعلق به این گروه، هم الگوریتمهای مبتنی بر فرض ماهیت احتمالی دادهها و هم روشهایی را شامل میشوند که در چارچوب هیچ مدل احتمالی قرار نمیگیرند.
3. تحلیل ساختار هندسی مجموعه مشاهدات چند بعدی مورد مطالعه، مفاهیم و نتایج ذاتی در مدلها و روشهایی را با هم ترکیب میکند. تجزیه و تحلیل متمایز، تجزیه و تحلیل خوشه ای، مقیاس بندی چند بعدی. گره برای این مدل ها مفهوم فاصله یا اندازه گیری مجاورت بین عناصر تجزیه و تحلیل شده به عنوان نقاطی از فضا است. در این حالت، هم اشیا (به عنوان نقاط مشخص شده در فضای ویژگی) و هم ویژگی ها (به عنوان نقاط مشخص شده در فضای شی) قابل تحلیل هستند.
ارزش کاربردی تحلیل آماری چند متغیره عمدتاً شامل سه مشکل زیر است:
مشکلات تحقیق آماری وابستگی بین شاخص های در نظر گرفته شده.
مشکلات طبقه بندی عناصر (اشیاء یا ویژگی ها)؛
مشکلات کاهش ابعاد فضای ویژگی مورد نظر و انتخاب آموزنده ترین ویژگی ها.
- ارائه اکولوژی زیستگاه زمین-هوای زمین-هوا
- تقارن در معماری «معماری سه چیز اصلی دارد: زیبایی، آرامش و استحکام ساختمان.
- استانبول - معابد و کلیساهای ارتدکس استانبول
- مجلس فدرال دومای ایالتی شورای فدراسیون روسیه
- ارائه "هبیتات"
- لباس محلی اورال از چوب خشک ساکنان اورال در لباس های ملی
- ارائه "لباس محلی منطقه چلیابینسک" لباس ملی اورال
- ارائه ویلیام شکسپیر
- درباره ارائه دومای دولتی برای کودکان
- پارتیزان های جنگ بزرگ میهنی
- ارائه - حیواناتی که از سیاره ما ناپدید شده اند
- ارائه با موضوع "سه قانون نیوتن"
- اصطلاحات رنگی در انگلیسی ارائه با موضوع اصطلاحات در زبان انگلیسی
- درباره قارچ ارائه بیولوژی در مورد قارچ
- گرد، قرمز، من روی شاخه رشد می کنم. بزرگترها و بچه های کوچک من را دوست دارند
- بررسی اجمالی سواحل در اسرائیل: جایی که رایگان است، برای کودکان و نوجوانان استراحتگاه های ساحلی در اسرائیل در دریای مدیترانه
- بر اساس داستان یک گل ناشناخته نقاشی بکشید
- مؤلفه فرهنگی ارائه تکامل برای یک درس در علوم اجتماعی (پایه 10) با موضوع
- شوخی اقدام بدخواهانه وندالیسم وندالیسم: علل و پیامدها ارائه وندالیسم نوجوان
- خانواده مدرن: نگرانی ها و مشکلات آن