Analisis statistik multivariat. Pengantar Analisis Statistik Multivariat Statistika Metode Penelitian Multivariat Analisis Faktor


Bab 2. Analisis klaster

Bab 3. Analisis faktor

Bab 4. Analisis Diskriminan

Daftar literatur bekas

Perkenalan

Informasi awal dalam penelitian sosial ekonomi paling sering disajikan dalam bentuk sekumpulan objek yang masing-masing dicirikan oleh sejumlah karakteristik (indikator). Karena jumlah objek dan fitur tersebut dapat mencapai puluhan dan ratusan, dan analisis visual terhadap data ini tidak efektif, timbul masalah dalam mereduksi dan memusatkan data awal, mengidentifikasi struktur dan hubungan di antara keduanya berdasarkan konstruksi karakteristik umum dari sekumpulan fitur. dan sekumpulan objek. Permasalahan tersebut dapat diselesaikan dengan metode analisis statistik multivariat.

Analisis statistik multivariat adalah bagian statistik matematika yang dikhususkan untuk metode matematika yang bertujuan untuk mengidentifikasi sifat dan struktur hubungan antara komponen sifat multidimensi yang diteliti dan dimaksudkan untuk memperoleh kesimpulan ilmiah dan praktis.

Fokus analisis statistik multivariat adalah pada metode matematika membangun rencana optimal untuk pengumpulan, sistematisasi dan pengolahan data, yang bertujuan untuk mengidentifikasi sifat dan struktur hubungan antara komponen sifat multidimensi yang diteliti dan dimaksudkan untuk memperoleh kesimpulan ilmiah dan praktis.

Susunan awal data multidimensi untuk analisis multidimensi biasanya merupakan hasil pengukuran komponen-komponen karakteristik multidimensi dari setiap objek populasi yang diteliti, yaitu. urutan pengamatan multivariat. Karakteristik multivariat paling sering diartikan sebagai nilai acak, dan urutan observasi sebagai sampel dari populasi umum. Dalam hal ini, pemilihan metode pengolahan data statistik awal dilakukan berdasarkan asumsi tertentu mengenai sifat hukum distribusi karakteristik multidimensi yang diteliti.

1. Analisis statistik multivariat distribusi multivariat dan karakteristik utamanya mencakup situasi ketika observasi yang diproses bersifat probabilistik, yaitu. diinterpretasikan sebagai sampel dari populasi yang bersangkutan. Tujuan utama subbagian ini meliputi: penilaian statistik terhadap distribusi multivariat yang diteliti dan parameter utamanya; mempelajari sifat-sifat estimasi statistik yang digunakan; studi tentang distribusi probabilitas untuk sejumlah statistik, dengan bantuan kriteria statistik yang dibangun untuk menguji berbagai hipotesis tentang sifat probabilistik dari data multidimensi yang dianalisis.

2. Analisis statistik multidimensi terhadap sifat dan struktur hubungan antar komponen sifat multidimensi yang diteliti menggabungkan konsep dan hasil yang melekat pada metode dan model seperti analisis regresi, analisis varians, analisis kovarians, analisis faktor, dll. Metode yang termasuk dalam kelompok ini mencakup algoritma yang didasarkan pada asumsi sifat probabilistik data, dan metode yang tidak sesuai dengan kerangka model probabilistik (yang terakhir lebih sering diklasifikasikan sebagai metode analisis data).

3. Analisis statistik multidimensi dari struktur geometris dari kumpulan observasi multidimensi yang dipelajari menggabungkan konsep dan hasil yang melekat dalam model dan metode seperti analisis diskriminan, analisis cluster, penskalaan multidimensi. Konsep kunci dari model ini adalah konsep jarak, atau ukuran kedekatan antara elemen yang dianalisis sebagai titik pada suatu ruang. Dalam hal ini, objek (sebagai titik yang ditentukan dalam ruang fitur) dan fitur (sebagai titik yang ditentukan dalam ruang objek) dapat dianalisis.

Nilai penerapan analisis statistik multivariat terutama terdiri dari penyelesaian tiga masalah berikut:

    tugas mempelajari statistik ketergantungan antar indikator yang dipertimbangkan;

    tugas mengklasifikasikan unsur (benda atau ciri);

    tugas mengurangi dimensi ruang fitur yang dipertimbangkan dan memilih fitur yang paling informatif.

Analisis regresi berganda dimaksudkan untuk membangun model yang memungkinkan, berdasarkan nilai-nilai variabel independen, memperoleh estimasi nilai-nilai variabel dependen.

Regresi logistik untuk memecahkan masalah klasifikasi. Ini adalah jenis regresi berganda yang tujuannya adalah untuk menganalisis hubungan antara beberapa variabel independen dan variabel dependen.

Analisis faktor berkaitan dengan identifikasi sejumlah kecil faktor tersembunyi (laten), yang variabilitasnya menjelaskan variabilitas semua indikator yang diamati. Analisis faktor bertujuan untuk mereduksi dimensi masalah yang sedang dipertimbangkan.

Analisis klaster dan diskriminan dirancang untuk membagi kumpulan objek ke dalam kelas-kelas, yang masing-masing kelas harus mencakup objek-objek yang homogen atau serupa dalam arti tertentu. Dalam analisis cluster, tidak diketahui sebelumnya berapa kelompok objek yang akan dibentuk dan berapa ukurannya. Analisis diskriminan membagi objek ke dalam kelas-kelas yang sudah ada sebelumnya.

Bab 1. Analisis Regresi Berganda

Tugas: Penelitian pasar perumahan di Orel (distrik Soviet dan Utara).

Tabel tersebut menunjukkan data harga apartemen di Orel dan berbagai faktor yang menentukannya:

    luas keseluruhan;

    area dapur;

    ruang tamu;

  • jenis rumah;

    jumlah kamar. (Gbr.1)

Beras. 1 Data awal

Pada kolom “Distrik” digunakan sebutan sebagai berikut:

3 – Sovetsky (elit, milik wilayah tengah);

4 – Utara.

Di kolom "Tipe Rumah":

1 – batu bata;

0 – panel.

Diperlukan:

    Analisis hubungan semua faktor dengan indikator “Harga” dan satu sama lain. Pilih faktor yang paling cocok untuk membangun model regresi;

    Buatlah variabel dummy yang mencerminkan apakah apartemen tersebut termasuk dalam kawasan pusat dan pinggiran kota;

    Buatlah model regresi linier untuk semua faktor, termasuk variabel dummy. Menjelaskan pengertian ekonomi parameter persamaan. Kecepatan kualitas model, signifikansi statistik dari persamaan dan parameternya;

    Mendistribusikan faktor-faktor (kecuali variabel dummy) menurut tingkat pengaruhnya terhadap indikator “Harga”;

    Bangun model regresi linier untuk faktor-faktor yang paling berpengaruh, dengan menyisakan variabel dummy dalam persamaan. Menilai kualitas dan signifikansi statistik persamaan dan parameternya;

    Membenarkan layak atau tidaknya memasukkan variabel fiktif dalam persamaan paragraf 3 dan 5;

    Estimasi interval estimasi parameter persamaan dengan probabilitas 95%;

    Tentukan berapa harga apartemen dengan luas total 74,5 m² di kawasan elit (periferal).

Eksekusi:

    Setelah menganalisis hubungan semua faktor dengan indikator “Harga” dan satu sama lain, faktor-faktor yang paling cocok untuk membangun model regresi dipilih menggunakan metode inklusi “Maju”:

A) luas keseluruhan;

B) jumlah kamar.

Variabel yang disertakan/tidak termasuk(a)

Variabel yang Disertakan

Variabel yang Dikecualikan

luas keseluruhan

Inklusi (kriteria: probabilitas F-inklusi >= 0,050)

Inklusi (kriteria: probabilitas F-inklusi >= 0,050)

Jumlah kamar

Inklusi (kriteria: probabilitas F-inklusi >= 0,050)

variabel terikat: Harga

    Variabel X4 “Distrik” merupakan variabel dummy, karena memiliki 2 nilai: 3- milik distrik pusat “Sovetsky”, 4- milik distrik pinggiran “Severny”.

    Mari kita buat model regresi linier untuk semua faktor (termasuk variabel tiruan X4).

Model yang dihasilkan:

Y = 348.349 + 35.788 X1 -217.075 X4 +305.687 X7

Penilaian kualitas model.

Koefisien determinasi R2 = 0,807

Menunjukkan proporsi variasi sifat yang dihasilkan di bawah pengaruh faktor-faktor yang diteliti. Oleh karena itu, sekitar 89% variasi variabel dependen diperhitungkan dan disebabkan oleh pengaruh faktor-faktor yang dimasukkan dalam model.

Koefisien korelasi berganda R = 0,898

Menunjukkan keeratan hubungan antara variabel dependen Y dengan seluruh faktor penjelas yang dimasukkan dalam model.

Kesalahan standar = 126.477

Ada situasi di mana variabilitas acak diwakili oleh satu atau dua variabel acak, tanda.

Misalnya, ketika mempelajari statistik populasi orang, kita tertarik pada tinggi dan berat badan. Dalam situasi ini, tidak peduli berapa banyak orang yang ada dalam populasi statistik, kita selalu dapat menggambar diagram sebar dan melihat gambaran keseluruhan. Namun jika ada tiga atribut, misalnya umur seseorang dijumlahkan, maka scatterplot harus dibangun dalam ruang tiga dimensi. Sudah cukup sulit membayangkan kumpulan titik-titik dalam ruang tiga dimensi.

Pada kenyataannya, dalam praktiknya, setiap observasi tidak diwakili oleh satu, dua, atau tiga angka, namun oleh serangkaian angka yang menggambarkan lusinan fitur. Dalam situasi ini, membuat plot sebar memerlukan pertimbangan ruang multidimensi.

Cabang ilmu statistika yang mempelajari kajian eksperimen dengan observasi multivariat disebut analisis statistik multivariat.

Mengukur beberapa tanda (sifat suatu benda) sekaligus dalam satu percobaan umumnya lebih natural dibandingkan mengukur satu atau dua saja. Oleh karena itu, analisis statistik multivariat berpotensi memiliki penerapan yang luas.

Analisis statistik multivariat mencakup bagian berikut:

Analisis faktor;

Analisis diskriminan;

Analisis klaster;

Penskalaan multidimensi;

Metode pengendalian kualitas.

Analisis faktor

Ketika mempelajari objek dan sistem yang kompleks (misalnya, dalam psikologi, biologi, sosiologi, dll.), besaran (faktor) yang menentukan sifat-sifat objek tersebut seringkali tidak dapat diukur secara langsung, dan terkadang bahkan jumlah dan maknanya tidak diketahui. . Namun besaran lain mungkin tersedia untuk diukur, tergantung pada faktor yang diinginkan. Selain itu, ketika pengaruh suatu faktor yang tidak kita minati diwujudkan dalam beberapa karakteristik yang diukur, karakteristik ini mungkin menunjukkan hubungan yang erat satu sama lain dan jumlah total faktor mungkin jauh lebih sedikit daripada jumlah variabel yang diukur.

Untuk mengetahui faktor-faktor yang mempengaruhi variabel yang diukur digunakan metode analisis faktor.

Contoh penerapan analisis faktor adalah studi tentang ciri-ciri kepribadian berdasarkan tes psikologi. Sifat-sifat kepribadian tidak dapat diukur secara langsung; sifat-sifat tersebut hanya dapat dinilai dari perilaku seseorang atau sifat jawabannya terhadap pertanyaan-pertanyaan tertentu. Untuk menjelaskan hasil eksperimen, mereka dilakukan analisis faktor, yang memungkinkan kita mengidentifikasi sifat-sifat pribadi yang mempengaruhi perilaku individu yang diuji.


Pada intinya berbagai model Analisis faktor didasarkan pada hipotesis sebagai berikut: parameter yang diamati atau diukur hanyalah ciri-ciri tidak langsung dari objek atau fenomena yang diteliti dalam kenyataan, ada yang internal (tersembunyi, tersembunyi; terpendam, tidak dapat diamati secara langsung) parameter dan properti, yang jumlahnya kecil dan menentukan nilai parameter yang diamati. Parameter internal ini biasa disebut faktor.

Tugas analisis faktoradalah representasi parameter yang diamati dalam bentuk kombinasi faktor linier dan, mungkin, beberapa gangguan tambahan yang tidak penting.

Tahap pertama analisis faktor, biasanya, adalah pemilihan fitur baru, yang merupakan kombinasi linier dari fitur sebelumnya dan “menyerap” sebagian besar variabilitas total dalam data yang diamati, dan oleh karena itu menyampaikan sebagian besar informasi yang terkandung dalam data. pengamatan asli. Ini biasanya dilakukan dengan menggunakan metode komponen utama, meskipun terkadang teknik lain digunakan (metode kemungkinan maksimum).

Metode komponen utama adalah memilih sistem koordinat ortogonal baru di ruang observasi. Arah sepanjang larik observasi yang memiliki sebaran terbesar dipilih sebagai komponen utama pertama; setiap komponen utama berikutnya dipilih sehingga sebaran observasi maksimum dan komponen utama ini ortogonal terhadap komponen utama lainnya yang dipilih sebelumnya. Namun, faktor-faktor yang diperoleh dengan metode komponen utama biasanya tidak dapat diinterpretasikan dengan cukup jelas. Oleh karena itu, langkah selanjutnya dalam analisis faktor adalah transformasi, rotasi faktor untuk memudahkan interpretasi.

Analisis Diskriminan

Misalkan ada kumpulan benda yang dibagi menjadi beberapa kelompok, dan untuk setiap benda dapat ditentukan kelompok mana yang termasuk. Untuk setiap benda terdapat pengukuran beberapa sifat kuantitatif. Perlu dicari cara untuk mengetahui, berdasarkan ciri-ciri tersebut, kelompok yang termasuk dalam benda tersebut. Ini akan memungkinkan Anda untuk menunjukkan grup tempat objek baru dari koleksi yang sama berada. Untuk mengatasi masalah tersebut, mereka menggunakan metode analisis diskriminan.

Analisis Diskriminan- Merupakan salah satu cabang ilmu statistika yang isinya adalah pengembangan metode pemecahan masalah diskriminasi (diskriminasi) objek pengamatan menurut ciri-ciri tertentu.

Mari kita lihat beberapa contoh.

Analisis diskriminan berguna dalam memproses hasil tes individu dalam hal perekrutan untuk posisi tertentu. Dalam hal ini, semua calon perlu dibagi menjadi dua kelompok: “cocok” dan “tidak cocok”.

Penggunaan analisis diskriminan dimungkinkan oleh administrasi perbankan untuk menilai kondisi keuangan urusan klien saat mengeluarkan pinjaman. Bank mengklasifikasikannya menjadi andal dan tidak dapat diandalkan berdasarkan sejumlah kriteria.

Analisis diskriminan dapat digunakan sebagai metode untuk membagi sekumpulan perusahaan menjadi beberapa kelompok homogen menurut nilai setiap indikator produksi dan kegiatan ekonomi.

Metode analisis diskriminan memungkinkan untuk membangun fungsi karakteristik terukur, yang nilainya menjelaskan pembagian objek ke dalam kelompok. Sangat diharapkan bahwa fungsi-fungsi ini (karakteristik diskriminan) tidak banyak. Dalam hal ini, hasil analisis lebih mudah diinterpretasikan secara bermakna.

Karena kesederhanaannya, analisis diskriminan linier memainkan peran khusus, di mana fitur klasifikasi dipilih sebagai fungsi linier dari fitur utama.

Analisis klaster

Metode analisis cluster memungkinkan untuk membagi kumpulan objek yang dipelajari ke dalam kelompok objek “serupa” yang disebut cluster.

Kata gugus Asal bahasa Inggris - cluster diterjemahkan sebagai sikat, ikat, kelompok, segerombolan, cluster.

Analisis klaster memecahkan masalah berikut:

Mengklasifikasikan objek dengan mempertimbangkan semua fitur yang menjadi ciri objek tersebut. Kemungkinan klasifikasi menggerakkan kita menuju pemahaman yang lebih mendalam tentang totalitas yang sedang dipertimbangkan dan objek-objek yang termasuk di dalamnya;

Menetapkan tugas untuk memeriksa keberadaan struktur atau klasifikasi tertentu secara apriori dalam populasi yang ada. Tes semacam itu memungkinkan penggunaan skema standar penelitian ilmiah hipotetis-deduktif.

Kebanyakan metode pengelompokan (grup hierarki) adalah aglomeratif(penggabungan) - mereka memulai dengan membuat cluster dasar, yang masing-masing terdiri dari tepat satu observasi awal (satu titik), dan pada setiap langkah berikutnya, dua cluster terdekat digabungkan menjadi satu.

Saat untuk menghentikan proses ini dapat ditentukan oleh peneliti (misalnya, dengan menentukan jumlah cluster yang diperlukan atau jarak maksimum untuk mencapai penyatuan).

Representasi grafis proses penggabungan cluster dapat diperoleh dengan menggunakan dendrogram- pohon penggabungan cluster.

Perhatikan contoh berikut. Mari kita klasifikasikan lima perusahaan, yang masing-masing dicirikan oleh tiga variabel:

x 1biaya tahunan rata-rata aset produksi tetap, miliar rubel;

x 2– biaya bahan per 1 gosok. produk manufaktur, kopek;

x 3– volume produk yang dihasilkan, miliar rubel.

ANALISIS STATISTIK MULTIVARIAT

Bagian matematika statistik, didedikasikan untuk matematika. metode untuk membangun rencana optimal untuk mengumpulkan, mensistematisasikan, dan memproses statistik multivariat. data yang bertujuan untuk mengidentifikasi sifat dan struktur hubungan antar komponen sifat multidimensi yang diteliti dan dimaksudkan untuk memperoleh informasi ilmiah dan praktis. kesimpulan. Ciri multidimensi dipahami sebagai indikator p-dimensi (tanda, variabel), di antaranya dapat berupa: kuantitatif, yaitu mengukur secara skalar dalam skala tertentu manifestasi sifat-sifat yang dipelajari suatu benda, ordinal (atau ordinal), yaitu memungkinkan pengaturan objek yang dianalisis menurut tingkat manifestasi properti yang dipelajari di dalamnya; dan klasifikasi (atau nominal), yaitu memungkinkan untuk membagi kumpulan objek yang dipelajari menjadi kelas-kelas homogen (menurut sifat yang dianalisis) yang tidak dapat diurutkan. Hasil pengukuran indikator tersebut

pada setiap objek populasi yang diteliti, terbentuk observasi multidimensi, atau susunan awal data multidimensi untuk melakukan MS. A. Bagian penting dari M. s. A. melayani situasi di mana atribut multidimensi yang diteliti ditafsirkan sebagai multidimensi dan, karenanya, urutan pengamatan multidimensi (1) - seperti dari populasi umum.

Dalam hal ini, pemilihan metode pengolahan data statistik awal. data dan analisis sifat-sifatnya dilakukan berdasarkan asumsi tertentu mengenai sifat hukum distribusi probabilitas multidimensi (bersama)

Analisis statistik multivariat dari distribusi multivariat dan karakteristik utamanya hanya mencakup situasi di mana observasi yang diproses (1) bersifat probabilistik, yaitu ditafsirkan sebagai sampel dari populasi umum yang bersangkutan. Tujuan utama subbagian ini antara lain: statistik. penilaian distribusi multidimensi yang diteliti, karakteristik dan parameter numerik utamanya; mempelajari sifat-sifat data statistik yang digunakan. nilai; studi tentang distribusi probabilitas untuk sejumlah statistik, dengan bantuan statistik yang dibangun. kriteria untuk menguji berbagai hipotesis tentang sifat probabilistik dari data multidimensi yang dianalisis. Hasil utama berkaitan dengan kasus khusus ketika karakteristik yang diteliti tunduk pada hukum distribusi normal multidimensi, yang fungsi kepadatannya diberikan oleh relasi di mana matematika vektornya. komponen harapan variabel acak - matriks kovarians dari vektor acak, yaitu - kovarians komponen vektor (kasus non-degenerasi dipertimbangkan ketika; di jika tidak, yaitu, pada peringkat , semua hasil tetap valid, tetapi dalam kaitannya dengan subruang berdimensi lebih rendah , di mana vektor acak yang diteliti ternyata terkonsentrasi).

Jadi, jika (1) adalah rangkaian pengamatan independen yang membentuk sampel acak, maka perkiraan kemungkinan maksimum untuk parameter dan partisipasi dalam (2) masing-masing adalah statistik (lihat , )

dan vektor acak mematuhi hukum normal berdimensi p dan tidak bergantung pada , dan distribusi gabungan elemen-elemen matriks dijelaskan oleh apa yang disebut. sebaran distrik Wisha (lihat), to-rogo

Dalam kerangka skema yang sama, distribusi dan momen karakteristik sampel dari variabel acak multivariat seperti koefisien korelasi berpasangan, parsial dan berganda, digeneralisasi (yaitu), statistik -Hotelling umum (lihat). Khususnya (lihat), jika kita mendefinisikan estimasi yang dikoreksi “untuk unbias” sebagai matriks kovarians sampel, yaitu:

lalu variabel acak cenderung kapan , dan variabel acak

mematuhi distribusi F dengan jumlah derajat kebebasan masing-masing (p, p-p) dan (p, n 1 + n 2-р-1). Dalam perbandingan (7) n 1 dan n 2 - volume dua sampel independen tipe (1), diekstraksi dari populasi umum yang sama - perkiraan tipe (3) dan (4)-(5), dibangun dari sampel ke-i, dan

Kovariansi sampel total, dibangun dari perkiraan dan

Analisis statistik multidimensi tentang sifat dan struktur hubungan antara komponen sifat multidimensi yang diteliti menggabungkan konsep dan hasil yang disajikan oleh metode dan model MS tersebut. a., sebagai kelipatan, multidimensi analisis varians Dan analisis kovarians, analisis faktor dan analisis komponen utama, analisis kanonik. korelasi. Hasil-hasil yang menjadi isi subbagian ini dapat dibagi menjadi dua jenis utama.

1) Konstruksi data statistik terbaik (dalam arti tertentu). perkiraan parameter model yang disebutkan dan analisis propertinya (akurasi, dan dalam formulasi probabilistik - hukum distribusinya, wilayah kepercayaan, dll.). Jadi, biarkan fitur multidimensi yang diteliti diinterpretasikan sebagai vektor acak, tunduk pada distribusi normal berdimensi p, dan dibagi menjadi dua subvektor - kolom dan dimensi q dan p-q, masing-masing. Ini menentukan pembagian vektor yang bersesuaian secara matematis. ekspektasi, matriks kovarians teoretis dan sampel, yaitu:

Kemudian (lihat , ) subvektor (asalkan subvektor kedua mengambil nilai tetap) juga akan normal). Dalam hal ini, perkiraan kemungkinan maksimum. untuk matriks koefisien regresi dan kovariat model regresi berganda multivariat klasik ini

akan ada statistik yang saling independen

disini pembagian penilaiannya tunduk pada hukum normal , dan perkiraan n - hukum Wishart dengan parameter dan (elemen matriks kovarians dinyatakan dalam elemen matriks).

Hasil utama dalam membangun estimasi parameter dan mempelajari sifat-sifatnya dalam model analisis faktor, komponen utama, dan korelasi kanonik berkaitan dengan analisis sifat probabilistik-statistik dari nilai eigen dan vektor dari berbagai matriks kovarians sampel.

Dalam skema yang tidak sesuai dengan kerangka klasik. model normal, dan terutama dalam kerangka model probabilistik apa pun, hasil utamanya berkaitan dengan konstruksi algoritme (dan studi tentang propertinya) untuk menghitung estimasi parameter yang terbaik dari sudut pandang fungsi tertentu yang diberikan secara eksogen dari model tersebut. kualitas (atau kecukupan) model.

2) Konstruksi data statistik. kriteria untuk menguji berbagai hipotesis tentang struktur hubungan yang diteliti. Dalam kerangka model normal multivariat (urutan observasi tipe (1) diinterpretasikan sebagai sampel acak dari populasi normal multivariat yang sesuai), misalnya statistik kriteria untuk menguji hipotesis berikut.

I. Hipotesis tentang persamaan vektor matematis. ekspektasi indikator yang dipelajari terhadap vektor tertentu; diperiksa menggunakan Hotelling -statistics dengan substitusi ke rumus (6)

II. Hipotesis tentang persamaan vektor matematis. ekspektasi dalam dua populasi (dengan matriks kovarians yang identik tetapi tidak diketahui), diwakili oleh dua sampel; diverifikasi menggunakan statistik (lihat).

AKU AKU AKU. Hipotesis tentang persamaan vektor matematis. ekspektasi pada beberapa populasi umum (dengan matriks kovarians yang identik namun tidak diketahui) yang diwakili oleh sampel mereka; diverifikasi menggunakan statistik

yang di dalamnya terdapat observasi dimensi p ke-i dalam sampel bervolume , mewakili j umum populasi, dan dan merupakan perkiraan bentuk (3), masing-masing dibuat secara terpisah untuk masing-masing sampel dan untuk sampel gabungan volume

IV. Hipotesis tentang kesetaraan beberapa populasi normal yang diwakili oleh sampelnya diuji dengan menggunakan statistik

di bagian - perkiraan tipe (4), dibuat secara terpisah dari observasi J- contoh, j=1, 2, ... , k.

V. Hipotesis tentang independensi timbal balik dari subvektor-kolom dimensi, masing-masing, di mana vektor dimensi p asli dari indikator yang dipelajari dibagi, diverifikasi menggunakan statistik

di mana dan - contoh matriks kovarians berbentuk (4) untuk seluruh vektor dan subvektornya X(i) sebagaimana mestinya.

Analisis statistik multidimensi dari struktur geometris dari kumpulan pengamatan multidimensi yang dipelajari menggabungkan konsep dan hasil model dan skema seperti analisis diskriminan, campuran distribusi probabilitas, analisis cluster dan taksonomi, penskalaan multidimensi. Konsep kunci dalam semua skema ini adalah konsep jarak (ukuran kedekatan, ukuran kesamaan) antar elemen yang dianalisis. Dalam hal ini, mereka dapat dianalisis sebagai objek nyata, yang masing-masing nilai indikatornya dicatat - kemudian geometris. gambar objek ke-i yang diperiksa akan menjadi titik dalam ruang dimensi p yang sesuai, dan indikatornya sendiri - kemudian geometris. bayangan eksponen ke-l akan menjadi sebuah titik pada ruang berdimensi-n yang bersesuaian.

Metode dan hasil analisis diskriminan (lihat , , ) ditujukan untuk tugas berikut. Diketahui bahwa terdapat sejumlah populasi tertentu, dan peneliti memiliki satu sampel dari setiap populasi (“sampel pelatihan”). Hal ini diperlukan untuk membangun, berdasarkan sampel pelatihan yang tersedia, aturan klasifikasi terbaik, dalam arti tertentu, yang memungkinkan seseorang untuk menetapkan elemen baru tertentu (pengamatan) ke populasi umum dalam situasi di mana peneliti tidak mengetahuinya. memajukan populasi mana yang termasuk dalam elemen ini. Biasanya aturan klasifikasi dipahami sebagai rangkaian tindakan: dengan menghitung fungsi skalar dari indikator yang diteliti, berdasarkan nilai pemotongan, diambil keputusan untuk mengklasifikasikan suatu elemen ke salah satu kelas (konstruksi dari fungsi diskriminan); dengan mengurutkan indikator-indikator itu sendiri menurut tingkat kandungan informasinya dari sudut pandang penetapan elemen-elemen yang benar ke dalam kelas; dengan menghitung probabilitas kesalahan klasifikasi yang sesuai.

Tugas menganalisis campuran distribusi probabilitas (lihat) paling sering (tetapi tidak selalu) juga muncul sehubungan dengan studi tentang “struktur geometris” populasi yang sedang dipertimbangkan. Dalam hal ini konsep kelas homogen ke-r diformalkan dengan menggunakan populasi umum yang digambarkan oleh hukum distribusi tertentu (biasanya unimodal) sehingga distribusi populasi umum dari mana sampel (1) diambil dijelaskan oleh campuran distribusi bentuk dimana p r - probabilitas apriori (elemen spesifik) dari kelas ke-r dalam populasi umum. Tantangannya adalah statistik yang “baik”. memperkirakan (dari sampel) parameter yang tidak diketahui dan terkadang Ke. Hal ini, khususnya, memungkinkan kita untuk mereduksi tugas mengklasifikasikan elemen menjadi skema analisis diskriminan, meskipun dalam dalam hal ini tidak ada sampel pelatihan.

Metode dan hasil analisis klaster (klasifikasi, taksonomi, pengenalan pola tanpa pengawasan, lihat , , ) ditujukan untuk memecahkan masalah berikut. Geometris himpunan elemen yang dianalisis diberikan oleh koordinat titik-titik yang bersesuaian (yaitu, oleh matriks ..., n) , atau satu set geometris karakteristik posisi relatifnya, misalnya matriks jarak berpasangan. Himpunan unsur yang dipelajari harus dibagi menjadi kelas-kelas yang relatif kecil (dikenal atau tidak diketahui sebelumnya) sehingga unsur-unsur dalam satu kelas terletak pada jarak yang dekat satu sama lain, sedangkan kelas yang berbeda akan, jika memungkinkan, cukup berjauhan satu sama lain dan tidak akan terpecah menjadi bagian-bagian yang berjarak sama satu sama lain.

Masalah penskalaan multidimensi (lihat) mengacu pada situasi ketika himpunan elemen yang diteliti ditentukan menggunakan matriks jarak berpasangan dan terdiri dari penetapan sejumlah koordinat (p) ke masing-masing elemen sedemikian rupa sehingga struktur jarak timbal balik berpasangan antar elemen yang diukur menggunakan koordinat bantu ini, rata-rata akan berbeda paling kecil dari yang diberikan. Perlu dicatat bahwa hasil utama dan metode analisis klaster dan penskalaan multidimensi biasanya dikembangkan tanpa asumsi apa pun tentang sifat probabilistik dari sumber data.

Tujuan penerapan analisis statistik multivariat terutama untuk melayani tiga masalah berikut.

Masalah studi statistik ketergantungan antara indikator yang dianalisis. Dengan asumsi bahwa kumpulan indikator x yang tercatat secara statistik dibagi, berdasarkan makna makna dari indikator-indikator tersebut dan tujuan akhir penelitian, menjadi subvektor berdimensi q dari variabel yang diprediksi (terikat) dan subvektor berdimensi (pq) dari variabel prediktif (independen), kita dapat mengatakan bahwa masalahnya adalah menentukan, berdasarkan sampel (1), fungsi vektor berdimensi q dari kelas solusi yang dapat diterima F, edge akan memberikan perkiraan terbaik, dalam arti tertentu, terhadap perilaku subvektor indikator. Bergantung pada jenis fungsional tertentu, kualitas perkiraan dan sifat indikator yang dianalisis termasuk dalam satu atau lain skema analisis regresi berganda, varians, kovarians, atau pertemuan.

Masalah pengklasifikasian unsur-unsur (objek atau indikator) dalam suatu rumusan umum (tidak ketat) adalah membagi seluruh himpunan unsur-unsur yang dianalisis, yang disajikan secara statistik dalam bentuk matriks atau matriks, menjadi sejumlah kecil yang homogen, dalam suatu pengertian tertentu, kelompok. Bergantung pada sifat informasi apriori dan jenis fungsional spesifik yang menetapkan kriteria kualitas klasifikasi, seseorang sampai pada satu atau beberapa skema analisis diskriminan, analisis klaster (taksonomi, pengenalan pola “tanpa pengawasan”), dan pemisahan campuran distribusi. .

Masalah dalam mereduksi dimensi ruang faktor yang diteliti dan memilih indikator yang paling informatif adalah dengan menentukan sekumpulan indikator dalam jumlah yang relatif kecil yang terdapat pada kelas transformasi yang dapat diterima dari indikator awal. di mana kelompok tertentu atas dari ukuran konten informasi yang diberikan secara eksogen dari sistem fitur m-dimensi tercapai (lihat). Menentukan fungsi yang menentukan ukuran auto-informatif (yaitu, ditujukan untuk memaksimalkan pelestarian informasi yang terkandung dalam susunan statistik (1) relatif terhadap fitur aslinya), khususnya mengarah pada berbagai skema analisis faktor dan komponen utama, hingga metode pengelompokan karakteristik yang ekstrim. Fungsional yang menentukan ukuran kandungan informasi eksternal, yaitu bertujuan untuk mengekstraksi dari (1) informasi maksimal mengenai hal-hal tertentu yang tidak secara langsung terkandung dalam indikator atau fenomena, mengarah pada berbagai metode untuk memilih indikator yang paling informatif dalam skema statistik. penelitian ketergantungan dan analisis diskriminan.

Alat matematika dasar MS. A. menyusun metode khusus teori sistem persamaan linear dan teori matriks (metode untuk memecahkan masalah nilai eigen dan vektor yang sederhana dan umum; inversi sederhana dan pseudoinversi matriks; prosedur untuk mendiagonalisasi matriks, dll.) dan algoritma optimasi tertentu (metode penurunan koordinat, gradien konjugasi, cabang dan batas, berbagai versi pencarian acak dan perkiraan stokastik, dll.).

menyala.: Anderson T., Pengantar analisis statistik multivariat, trans. dari bahasa Inggris, M., 1963; Kendall M.J., Stewart A., Analisis statistik multivariat dan deret waktu, trans. dari bahasa Inggris, M., 1976; Bolshev L.N., "Bull. Int. Stat. Inst.", 1969, No. 43, hal. 425-41; Wishart .J., "Biometrika", 1928, v. 20A, hal. 32-52: Hotelling H., "Ann. Math. Stat.", 1931, v. 2, hal. 360-78; [c] Kruskal J.V., "Psikometrika", 1964, v. 29, hal. 1-27; Ayvazyan S.A., Bezhaeva Z.I., . Staroverov O.V., Klasifikasi pengamatan multidimensi, M., 1974.

S.A. Aivazyan.


Ensiklopedia matematika. - M.: Ensiklopedia Soviet.

I.M.Vinogradov.

1977-1985.

Dalam arti luas, bagian dari statistik matematika (Lihat Statistik matematika), menggabungkan metode untuk mempelajari data statistik yang berkaitan dengan objek yang dicirikan oleh beberapa kualitatif atau kuantitatif... ... Ensiklopedia Besar Soviet

ANALISIS STATISTIK MULTIVARIAT- bagian statistik matematika yang dirancang untuk menganalisis hubungan antara tiga variabel atau lebih. Secara kondisional kita dapat membedakan tiga kelas utama masalah A.M.S. Ini adalah studi tentang struktur hubungan antar variabel dan pengurangan dimensi ruang... Sosiologi: Ensiklopedia

ANALISIS KOVARIANSI- – seperangkat metode matematika. statistika yang berkaitan dengan analisis model ketergantungan nilai rata-rata suatu variabel acak tertentu Y pada himpunan faktor nonkuantitatif F dan sekaligus pada himpunan faktor kuantitatif X. Sehubungan dengan Y... . .. Ensiklopedia Sosiologi Rusia

Bagian matematika statistika, yang isinya adalah pengembangan dan penelitian statistika. cara-cara penyelesaian masalah diskriminasi berikut: berdasarkan hasil pengamatan, tentukan yang mana dari beberapa kemungkinan... ... Ensiklopedia Matematika, Orlova Irina Vladlenovna, Kontsevaya Natalya Valerievna, Turundaevsky Viktor Borisovich. Buku ini dikhususkan untuk analisis statistik multivariat (MSA) dan pengorganisasian perhitungan menggunakan MSA. Untuk menerapkan metode statistik multivariat digunakan program pengolah statistik...


Contoh

Ada data tentang hasil produksi sekelompok perusahaan berdasarkan bulan (juta rubel):

Untuk mengidentifikasi tren umum pertumbuhan output produk, kami akan memperbesar intervalnya. Untuk tujuan ini, kami menggabungkan data awal (bulanan) tentang keluaran produk menjadi data triwulanan dan memperoleh indikator keluaran produk oleh sekelompok perusahaan per triwulan:

Sebagai hasil dari peningkatan interval, tren umum pertumbuhan output kelompok perusahaan ini terlihat jelas:

64,5 < 76,9 < 78,8 < 85,9.

Mengidentifikasi tren umum deret dinamika juga dapat dilakukan dengan menghaluskan deret dinamika menggunakan metode rata-rata bergerak. Inti dari teknik ini adalah level-level yang dihitung (teoretis) ditentukan dari level-level awal rangkaian (data empiris). Dalam hal ini, dengan merata-ratakan data empiris, fluktuasi individu ditekan, dan tren umum perkembangan fenomena tersebut dinyatakan dalam bentuk garis halus tertentu (tingkat teoritis).

Syarat utama untuk menggunakan metode ini adalah menghitung keterkaitan rata-rata bergerak (moving) dari jumlah level deret yang sesuai dengan durasi siklus yang diamati dalam deret dinamika.

Kerugian dari metode pemulusan deret dinamis adalah bahwa rata-rata yang dihasilkan tidak memberikan pola teoritis (model) deret tersebut, yang akan didasarkan pada pola yang dinyatakan secara matematis dan ini memungkinkan tidak hanya untuk melakukan analisis, tetapi juga untuk memprediksi. dinamika seri ini untuk masa depan.

Metode yang jauh lebih maju untuk mempelajari tren umum dalam deret waktu adalah keselarasan analitis. Ketika mempelajari suatu kecenderungan umum dengan menggunakan metode pemerataan analitik, diasumsikan bahwa perubahan tingkat suatu rangkaian dinamika dapat dinyatakan rata-rata menggunakan fungsi matematika tertentu dengan tingkat akurasi perkiraan yang bervariasi. Melalui analisis teoretis, sifat perkembangan fenomena terungkap, dan atas dasar ini satu atau beberapa ekspresi matematis dari jenis perubahan fenomena tersebut dipilih: sepanjang garis lurus, sepanjang parabola orde kedua, eksponensial (logaritma ) kurva, dll.

Jelas sekali bahwa tingkat deret waktu terbentuk di bawah pengaruh gabungan dari banyak faktor jangka panjang dan pendek, termasuk. berbagai macam kecelakaan. Perubahan kondisi perkembangan suatu fenomena menyebabkan perubahan yang kurang lebih intens pada faktor-faktor itu sendiri, perubahan kekuatan dan efektivitas pengaruhnya, dan pada akhirnya variasi tingkat fenomena yang diteliti. seiring berjalannya waktu.



Analisis statistik multivariat- bagian statistik matematika, yang didedikasikan untuk metode matematika yang bertujuan untuk mengidentifikasi sifat dan struktur hubungan antara komponen sifat multidimensi yang diteliti dan dimaksudkan untuk memperoleh kesimpulan ilmiah dan praktis. Kumpulan awal data multidimensi untuk melakukan analisis tersebut biasanya merupakan hasil pengukuran komponen-komponen karakteristik multidimensi untuk setiap objek populasi yang diteliti, yaitu. urutan pengamatan multivariat. Sifat multidimensi paling sering diartikan sebagai variabel acak multivariat, dan rangkaian observasi multivariat sebagai sampel dari populasi umum. Dalam hal ini pemilihan metode pengolahan data statistik awal dilakukan berdasarkan asumsi-asumsi tertentu mengenai sifatnya hukum distribusi sifat multidimensi yang sedang dipelajari.

1. Analisis distribusi multivariat dan ciri-ciri utamanya mencakup situasi di mana pengamatan yang diproses bersifat probabilistik, yaitu. diinterpretasikan sebagai sampel dari populasi yang bersangkutan. Tujuan utama subbagian ini meliputi: penilaian statistik terhadap distribusi multivariat yang diteliti dan parameter utamanya; mempelajari sifat-sifat estimasi statistik yang digunakan; studi tentang distribusi probabilitas untuk sejumlah statistik, dengan bantuan kriteria statistik yang dibangun untuk menguji berbagai hipotesis tentang sifat probabilistik dari data multidimensi yang dianalisis.
2. Analisis sifat dan struktur hubungan antar komponen sifat multidimensi yang diteliti menggabungkan konsep dan hasil yang melekat dalam metode dan model seperti analisis regresi, analisis varians, analisis kovarians, analisis faktor, analisis struktur laten, analisis loglinear, pencarian interaksi . Metode yang termasuk dalam kelompok ini mencakup algoritma yang didasarkan pada asumsi sifat probabilistik data, dan metode yang tidak sesuai dengan kerangka model probabilistik (yang terakhir lebih sering diklasifikasikan sebagai metode analisis data).

3. Analisis struktur geometris dari kumpulan pengamatan multidimensi yang dipelajari menggabungkan konsep dan hasil yang khas dari model dan metode seperti analisis diskriminan, analisis klaster, penskalaan multidimensi. Konsep kunci dari model ini adalah konsep jarak, atau ukuran kedekatan antara elemen yang dianalisis sebagai titik pada suatu ruang. Dalam hal ini, objek (sebagai titik yang ditentukan dalam ruang fitur) dan fitur (sebagai titik yang ditentukan dalam ruang objek) dapat dianalisis.

Nilai penerapan analisis statistik multivariat terutama terdiri dari melayani tiga masalah berikut:

Masalah studi statistik tentang ketergantungan antara indikator yang dipertimbangkan;

Masalah klasifikasi unsur (benda atau ciri);

Masalah pengurangan dimensi ruang fitur yang dipertimbangkan dan pemilihan fitur yang paling informatif.

Pilihan Editor
Jalannya politik Rusia terkadang bergantung pada perubahan kecil yang dapat diprediksi dalam elit politik masyarakat Moskow, pada...

(7 suara: 4,4 dari 5) Exarchate - (dari bahasa Yunani Έξαρχος (exarchos) - kepala, pemimpin) - wilayah gereja besar yang terletak di belakang ...

Denda atas tunggakan yang timbul karena tidak dibayarnya pembayaran asuransi wajib dihitung untuk setiap hari keterlambatan...

Kromatin dan kromosom adalah jenis kompleks genetik yang dapat bertransformasi menjadi satu sama lain. Bahan kimia mereka...
Merupakan penyakit yang memerlukan hukuman sesuai dengan hukum pidana apabila menulari seseorang disekitarnya...
"Sepatah Kata tentang Kesalehan dan Kualitas Moral Dokter Hipokrates."
Munculnya Kievan Rus
Tahun Babi (Babi Hutan) menurut horoskop Cina: ideal dalam segala hal atau orang yang berkemauan lemah?
Tafsir mimpi tentang mimpi: mengapa anda bermimpi tentang sebuah ikon?