روش حداقل مربعات در کجا اعمال می شود؟ روش حداقل مربعات در اکسل. تحلیل رگرسیون رگرسیون حداقل مربعات


انتخاب نوع تابع رگرسیون، یعنی. نوع مدل در نظر گرفته شده وابستگی Y به X (یا X به Y)، به عنوان مثال، یک مدل خطی y x \u003d a + bx، لازم است مقادیر خاص ضرایب را تعیین کنید. مدل.

برای مقادیر مختلف a و b می توان تعداد بی نهایت وابستگی به شکل y x =a+bx ساخت، یعنی تعداد بی نهایت خط در صفحه مختصات وجود دارد، اما ما به چنین وابستگی نیاز داریم که به بهترین شکل با مقادیر مشاهده شده مطابقت دارد. بنابراین، مشکل به انتخاب بهترین ضرایب کاهش می یابد.

ما به دنبال یک تابع خطی a + bx هستیم که فقط بر اساس تعداد معینی از مشاهدات موجود است. برای یافتن تابعی با بهترین تناسب با مقادیر مشاهده شده، از روش حداقل مربعات استفاده می کنیم.

نشان دهید: Y i - مقدار محاسبه شده با معادله Y i =a+bx i . y i - مقدار اندازه گیری شده، ε i =y i -Y i - تفاوت بین مقادیر اندازه گیری شده و محاسبه شده، ε i =y i -a-bx i.

روش حداقل مربعات مستلزم این است که εi، تفاوت بین y i اندازه گیری شده و مقادیر Y i محاسبه شده از معادله، حداقل باشد. بنابراین، ضرایب a و b را پیدا می کنیم به طوری که مجذور انحرافات مقادیر مشاهده شده از مقادیر روی خط رگرسیون مستقیم کوچکترین باشد:

با بررسی این تابع از آرگومان‌های a و با کمک مشتق‌های یک منتهی، می‌توان ثابت کرد که اگر ضرایب a و b جواب‌های سیستم باشند، تابع حداقل مقدار را به خود می‌گیرد:

(2)

اگر هر دو طرف معادلات عادی را بر n تقسیم کنیم، به دست می آید:

با توجه به اینکه (3)

گرفتن ، از اینجا، با جایگزینی مقدار a در معادله اول، به دست می آوریم:

در این حالت b ضریب رگرسیون نامیده می شود. a عضو آزاد معادله رگرسیون نامیده می شود و با فرمول محاسبه می شود:

خط مستقیم حاصل تخمینی برای خط رگرسیون نظری است. ما داریم:

بنابراین، معادله رگرسیون خطی است.

رگرسیون می تواند مستقیم (b>0) و معکوس (b مثال 1) باشد. نتایج اندازه گیری مقادیر X و Y در جدول آورده شده است:

x i -2 0 1 2 4
y من 0.5 1 1.5 2 3

با فرض وجود رابطه خطی بین X و Y y=a+bx، ضرایب a و b را با استفاده از روش حداقل مربعات تعیین کنید.

راه حل. در اینجا n=5
x i =-2+0+1+2+4=5;
x i 2 =4+0+1+4+16=25
x i y i =-2 0.5+0 1+1 1.5+2 2+4 3=16.5
y i =0.5+1+1.5+2+3=8

و سیستم نرمال (2) دارای فرم است

با حل این سیستم به دست می آید: b=0.425، a=1.175. بنابراین y=1.175+0.425x.

مثال 2. یک نمونه 10 مشاهده ای از شاخص های اقتصادی (X) و (Y) وجود دارد.

x i 180 172 173 169 175 170 179 170 167 174
y من 186 180 176 171 182 166 182 172 169 177

لازم است یک معادله رگرسیون نمونه Y بر روی X پیدا کنید. یک خط رگرسیون نمونه Y بر روی X بسازید.

راه حل. 1. بیایید داده ها را بر اساس مقادیر x i و y i مرتب کنیم. ما یک جدول جدید دریافت می کنیم:

x i 167 169 170 170 172 173 174 175 179 180
y من 169 171 166 172 180 176 177 182 182 186

برای ساده تر شدن محاسبات، یک جدول محاسباتی تهیه می کنیم که در آن مقادیر عددی لازم را وارد می کنیم.

x i y من x i 2 x i y i
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑x i =1729 ∑y i =1761 ∑x i 2 299105 ∑x i y i =304696
x=172.9 y=176.1 x i 2 = 29910.5 xy=30469.6

طبق فرمول (4) ضریب رگرسیون را محاسبه می کنیم

و با فرمول (5)

بنابراین، معادله رگرسیون نمونه مانند y=-59.34+1.3804x است.
بیایید نقاط (x i ; y i) را در صفحه مختصات رسم کنیم و خط رگرسیون را مشخص کنیم.


شکل 4

شکل 4 نشان می دهد که چگونه مقادیر مشاهده شده نسبت به خط رگرسیون قرار می گیرند. برای تخمین عددی انحراف y i از Y i، که در آن y i مقادیر مشاهده شده و Y i مقادیری هستند که با رگرسیون تعیین می شوند، جدولی را می سازیم:

x i y من Y من Y i -y i
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

مقادیر Y i با توجه به معادله رگرسیون محاسبه می شود.

انحراف قابل توجه برخی از مقادیر مشاهده شده از خط رگرسیون با تعداد کم مشاهدات توضیح داده می شود. هنگام مطالعه درجه وابستگی خطی Y به X، تعداد مشاهدات در نظر گرفته می شود. قدرت وابستگی با مقدار ضریب همبستگی تعیین می شود.

روش حداقل مربعات یکی از رایج ترین و پیشرفته ترین روش ها به دلیل داشتن آن است سادگی و کارایی روش‌ها برای تخمین پارامترهای خطی. در عین حال، هنگام استفاده از آن باید احتیاط کرد، زیرا مدل های ساخته شده با استفاده از آن ممکن است تعدادی از الزامات کیفیت پارامترهای خود را برآورده نکنند و در نتیجه، الگوهای توسعه فرآیند را "به خوبی" منعکس نکنند.

اجازه دهید روند تخمین پارامترهای یک مدل اقتصاد سنجی خطی با استفاده از روش حداقل مربعات را با جزئیات بیشتری در نظر بگیریم. چنین مدلی را می توان به صورت کلی با معادله (1.2) نشان داد:

y t = a 0 + a 1 x 1 t +...+ a n x nt + ε t .

داده های اولیه هنگام تخمین پارامترهای a 0, a 1,..., a n بردار مقادیر متغیر وابسته است. y= (y 1 , y 2 , ... , y T)" و ماتریس مقادیر متغیرهای مستقل

که در آن ستون اول، متشکل از یکی، با ضریب مدل مطابقت دارد.

روش حداقل مربعات نام خود را بر اساس این اصل اساسی گرفته است که تخمین پارامترهای بدست آمده بر اساس آن باید برآورده شود: مجموع مربعات خطای مدل باید حداقل باشد.

نمونه هایی از حل مسائل به روش حداقل مربعات

مثال 2.1.شرکت تجاری دارای شبکه ای متشکل از 12 فروشگاه است که اطلاعات فعالیت های آن در جدول ارائه شده است. 2.1.

مدیریت شرکت مایل است بداند که اندازه سالانه چقدر به منطقه فروش فروشگاه بستگی دارد.

جدول 2.1

شماره مغازه

گردش مالی سالانه، میلیون روبل

منطقه تجاری، هزار متر مربع

راه حل حداقل مربعاتاجازه دهید تعیین کنیم - گردش مالی سالانه فروشگاه -میلیون روبل. - متراژ فروش فروشگاه هزار متر مربع.

شکل 2.1. Scatterplot برای مثال 2.1

برای تعیین شکل رابطه عملکردی بین متغیرها و ساختن نمودار پراکندگی (شکل 2.1).

بر اساس نمودار پراکندگی، می‌توان نتیجه گرفت که گردش مالی سالانه به طور مثبت به منطقه فروش وابسته است (یعنی با رشد y افزایش می‌یابد). مناسب ترین شکل اتصال عملکردی - است خطی.

اطلاعات برای محاسبات بیشتر در جدول ارائه شده است. 2.2. با استفاده از روش حداقل مربعات، پارامترهای مدل اقتصادسنجی خطی تک عاملی را تخمین می زنیم

جدول 2.2

به این ترتیب،

بنابراین، با افزایش 1000 متر مربع در منطقه تجاری، با مساوی بودن سایر موارد، میانگین گردش مالی سالانه 67.8871 میلیون روبل افزایش می یابد.

مثال 2.2.مدیریت شرکت متوجه شد که گردش مالی سالانه نه تنها به منطقه فروش فروشگاه (نگاه کنید به مثال 2.1)، بلکه به میانگین تعداد بازدیدکنندگان نیز بستگی دارد. اطلاعات مربوطه در جدول ارائه شده است. 2.3.

جدول 2.3

راه حل.نشان می دهد - میانگین تعداد بازدیدکنندگان از فروشگاه هفتم در روز، هزار نفر.

برای تعیین شکل رابطه عملکردی بین متغیرها و ساختن یک نمودار پراکندگی (شکل 2.2).

بر اساس نمودار پراکندگی، می‌توان نتیجه گرفت که گردش مالی سالانه با میانگین تعداد بازدیدکنندگان در روز رابطه مثبت دارد (یعنی با رشد y افزایش می‌یابد). شکل وابستگی عملکردی خطی است.

برنج. 2.2. Scatterplot برای مثال 2.2

جدول 2.4

به طور کلی تعیین پارامترهای مدل اقتصادسنجی دو عاملی ضروری است

y t \u003d a 0 + a 1 x 1 t + a 2 x 2 t + ε t

اطلاعات مورد نیاز برای محاسبات بیشتر در جدول ارائه شده است. 2.4.

اجازه دهید پارامترهای یک مدل اقتصادسنجی خطی دو عاملی را با استفاده از روش حداقل مربعات تخمین بزنیم.

به این ترتیب،

ارزیابی ضریب = 61.6583 نشان می دهد که همه چیزهای دیگر برابر هستند، با افزایش سطح فروش 1000 متر مربع، گردش مالی سالانه به طور متوسط ​​61.6583 میلیون روبل افزایش می یابد.

که گسترده ترین کاربرد را در زمینه های مختلف علمی و عملی می یابد. این می تواند فیزیک، شیمی، زیست شناسی، اقتصاد، جامعه شناسی، روانشناسی و غیره و غیره باشد. به خواست سرنوشت، من اغلب باید با اقتصاد سر و کار داشته باشم، و بنابراین امروز برای شما بلیط یک کشور شگفت انگیز به نام اقتصاد سنجی=) ... چطور این را نمی خواهی؟! آنجا خیلی خوب است - فقط باید تصمیم بگیرید! ... اما چیزی که احتمالاً قطعاً می خواهید این است که یاد بگیرید چگونه مشکلات را حل کنید کمترین مربعات. و به خصوص خوانندگان سخت کوش یاد خواهند گرفت که آنها را نه تنها به طور دقیق، بلکه بسیار سریع نیز حل کنند ;-) اما ابتدا بیان کلی مشکل+ مثال مرتبط:

اجازه دهید شاخص هایی در برخی از حوزه های موضوعی مورد مطالعه قرار گیرند که بیان کمی دارند. در عین حال، دلایل زیادی برای این باور وجود دارد که شاخص به شاخص بستگی دارد. این فرض هم می تواند یک فرضیه علمی باشد و هم بر اساس عقل سلیم ابتدایی. با این حال، بیایید علم را کنار بگذاریم و مناطق اشتها آورتر - یعنی فروشگاه های مواد غذایی - را بررسی کنیم. نشان دادن با:

- فضای خرده فروشی یک فروشگاه مواد غذایی، متر مربع،
- گردش مالی سالانه یک فروشگاه مواد غذایی، میلیون روبل.

کاملاً واضح است که هر چه مساحت فروشگاه بزرگتر باشد، در اکثر موارد گردش مالی آن بیشتر است.

فرض کنید پس از انجام مشاهدات / آزمایش / محاسبات / رقصیدن با تنبور، داده های عددی در اختیار داریم:

در مورد فروشگاه های مواد غذایی، فکر می کنم همه چیز روشن است: - این منطقه اولین فروشگاه است، - گردش مالی سالانه آن، - منطقه فروشگاه دوم، - گردش مالی سالانه آن و غیره. به هر حال ، دسترسی به مواد طبقه بندی شده اصلاً ضروری نیست - ارزیابی نسبتاً دقیقی از گردش مالی را می توان با استفاده از آمار ریاضی. با این حال، منحرف نشوید، دوره جاسوسی تجاری قبلاً پرداخت شده است =)

داده های جدولی را نیز می توان به صورت نقطه ای نوشت و به روش معمول برای ما ترسیم کرد. سیستم دکارتی .

بیایید به یک سوال مهم پاسخ دهیم: برای یک مطالعه کیفی چند امتیاز لازم است؟

هرچه بزرگتر بهتر. حداقل مجموعه قابل قبول شامل 5-6 امتیاز است. علاوه بر این، با مقدار کمی داده، نتایج "غیر طبیعی" نباید در نمونه گنجانده شود. بنابراین، برای مثال، یک فروشگاه کوچک نخبه می‌تواند بیشتر از «همکاران خود» به سفارش‌های بزرگ کمک کند، در نتیجه الگوی کلی را که باید پیدا کرد، مخدوش می‌کند!

اگر خیلی ساده است، باید یک تابع را انتخاب کنیم، برنامهکه تا حد امکان نزدیک به نقاط می گذرد . چنین تابعی نامیده می شود تقریبی (تقریبی - تقریبی)یا عملکرد نظری . به طور کلی، در اینجا بلافاصله یک "تظاهر" آشکار ظاهر می شود - یک چند جمله ای با درجه بالا، که نمودار آن از تمام نقاط عبور می کند. اما این گزینه پیچیده است و اغلب به سادگی نادرست است. (زیرا نمودار همیشه "باد" می شود و روند اصلی را به خوبی منعکس می کند).

بنابراین، تابع مورد نظر باید به اندازه کافی ساده باشد و در عین حال وابستگی را به اندازه کافی منعکس کند. همانطور که ممکن است حدس بزنید، یکی از روش های یافتن چنین توابعی نامیده می شود کمترین مربعات. ابتدا اجازه دهید ماهیت آن را به صورت کلی تحلیل کنیم. اجازه دهید برخی از تابع ها به داده های تجربی تقریب داشته باشند:


چگونه می توان صحت این تقریب را ارزیابی کرد؟ اجازه دهید تفاوت (انحرافات) بین مقادیر تجربی و عملکردی را نیز محاسبه کنیم (ما نقاشی را مطالعه می کنیم). اولین فکری که به ذهن خطور می کند این است که مقدار مجموع را تخمین بزنیم، اما مشکل اینجاست که تفاوت ها می تواند منفی باشد. (مثلا، ) و انحرافات در نتیجه چنین جمع آوری یکدیگر را خنثی می کنند. بنابراین، به عنوان تخمینی از دقت تقریب، خود را پیشنهاد می کند که مجموع را بگیرد ماژول هاانحرافات:

یا به صورت تا شده: (ناگهان، کسی که نمی داند: نماد جمع است و یک متغیر کمکی است - "counter" که مقادیری از 1 تا را می گیرد).

با تقریب نقاط آزمایشی با توابع مختلف مقادیر متفاوتی از را بدست می آوریم و بدیهی است که در جایی که این مجموع کوچکتر است آن تابع دقت بیشتری دارد.

چنین روشی وجود دارد و نامیده می شود روش حداقل مدول. با این حال، در عمل بسیار گسترده تر شده است. روش حداقل مربع، که در آن مقادیر منفی احتمالی نه با مدول، بلکه با مربع کردن انحرافات حذف می شوند:

، پس از آن تلاش ها برای انتخاب چنین تابعی است که مجموع انحرافات مجذور تا حد امکان کوچک بود در واقع، از این رو نام روش است.

و اکنون به یک نکته مهم دیگر باز می گردیم: همانطور که در بالا ذکر شد، تابع انتخاب شده باید کاملاً ساده باشد - اما بسیاری از توابع از این دست نیز وجود دارد: خطی , هذلولی, نمایی, لگاریتمی, درجه دوم و غیره. و البته در اینجا بلافاصله می خواهم "زمینه فعالیت را کاهش دهم." کدام دسته از کارکردها را برای تحقیق انتخاب کنیم؟ تکنیک ابتدایی اما موثر:

- ساده ترین راه برای رسم امتیاز بر روی نقاشی و تجزیه و تحلیل مکان آنها. اگر آنها تمایل دارند در یک خط مستقیم باشند، پس باید به دنبال آن باشید معادله خط مستقیم با مقادیر بهینه و . به عبارت دیگر، وظیفه یافتن چنین ضرایبی است - به طوری که مجموع انحرافات مجذور کوچکترین باشد.

اگر نقاط، به عنوان مثال، در امتداد قرار دارند هایپربولی، پس واضح است که تابع خطی تقریب ضعیفی به دست می دهد. در این مورد، ما به دنبال "مطلوب ترین" ضرایب برای معادله هذلولی هستیم - آنهایی که حداقل مجموع مربع ها را می دهند .

حال توجه کنید که در هر دو مورد صحبت می کنیم توابع دو متغیر، که استدلال های آن است گزینه های وابستگی را جستجو کرد:

و در اصل، ما باید یک مشکل استاندارد را حل کنیم - پیدا کنیم حداقل یک تابع از دو متغیر.

مثال ما را به یاد بیاورید: فرض کنید که نقاط "فروشگاه" در یک خط مستقیم قرار دارند و هر دلیلی برای باور وجود وجود دارد. وابستگی خطیگردش مالی از منطقه تجاری بیایید چنین ضرایبی "a" و "be" را پیدا کنیم تا مجذور انحرافات کوچکترین بود همه چیز طبق معمول - اول مشتقات جزئی از مرتبه 1. مطابق با قانون خطی بودنمی توانید درست در زیر نماد جمع متمایز کنید:

اگر می‌خواهید از این اطلاعات برای یک مقاله یا دوره آموزشی استفاده کنید، از پیوند موجود در فهرست منابع بسیار سپاسگزار خواهم بود، چنین محاسبات دقیقی را در هیچ کجا پیدا نمی‌کنید:

بیایید یک سیستم استاندارد بسازیم:

هر معادله را یک "دو" کاهش می دهیم و علاوه بر این، مجموع را "از هم جدا می کنیم":

توجه داشته باشید : به طور مستقل تجزیه و تحلیل کنید که چرا می توان "a" و "be" را از نماد جمع خارج کرد. به هر حال، به طور رسمی این را می توان با مجموع انجام داد

بیایید سیستم را به شکل "کاربردی" بازنویسی کنیم:

پس از آن الگوریتم حل مسئله ما شروع به ترسیم می کند:

آیا مختصات نقاط را می دانیم؟ ما میدانیم. مبالغ می توانیم پیدا کنیم؟ به آسانی. ما ساده ترین ها را می سازیم سیستم دو معادله خطی با دو مجهول(«الف» و «به»). ما سیستم را حل می کنیم، به عنوان مثال، روش کرامر، منجر به یک نقطه ثابت می شود. چک کردن شرایط کافی برای یک افراطی، می توانیم تأیید کنیم که در این مرحله تابع دقیقا می رسد کمترین. تأیید با محاسبات اضافی همراه است و بنابراین ما آن را در پشت صحنه رها می کنیم. (در صورت لزوم، قاب گم شده قابل مشاهده است). نتیجه نهایی را می گیریم:

عملکرد بهترین راه (حداقل در مقایسه با هر تابع خطی دیگری)نقاط تجربی را به هم نزدیک می کند . به طور کلی، نمودار آن تا حد ممکن به این نقاط نزدیک می شود. در سنت اقتصاد سنجیتابع تقریبی حاصل نیز نامیده می شود معادله رگرسیون خطی زوجی .

مسئله مورد بررسی اهمیت عملی زیادی دارد. در وضعیت مثال ما، معادله به شما اجازه می دهد تا نوع گردش مالی را پیش بینی کنید ("یگ")در فروشگاه با یک یا مقدار دیگری از منطقه فروش خواهد بود (یک یا یک معنی دیگر از "x"). بله، پیش‌بینی حاصل تنها یک پیش‌بینی خواهد بود، اما در بسیاری از موارد کاملاً دقیق خواهد بود.

من فقط یک مشکل را با اعداد "واقعی" تجزیه و تحلیل می کنم ، زیرا هیچ مشکلی در آن وجود ندارد - همه محاسبات در سطح برنامه درسی مدرسه در کلاس های 7-8 است. در 95 درصد موارد، از شما خواسته می شود که فقط یک تابع خطی را پیدا کنید، اما در انتهای مقاله نشان خواهم داد که یافتن معادلات هذلولی بهینه، توان و برخی توابع دیگر دشوارتر نیست.

در واقع، توزیع خوبی های وعده داده شده باقی مانده است - به طوری که یاد بگیرید چگونه چنین نمونه هایی را نه تنها با دقت، بلکه به سرعت حل کنید. ما استاندارد را به دقت مطالعه می کنیم:

یک وظیفه

در نتیجه مطالعه رابطه بین دو شاخص، جفت اعداد زیر به دست آمد:

با استفاده از روش حداقل مربعات، تابع خطی را که بهترین تقریب تجربی را دارد، پیدا کنید (با تجربه)داده ها. یک نقاشی بکشید که در یک سیستم مختصات مستطیلی دکارتی، نقاط آزمایشی و نموداری از تابع تقریبی را ترسیم کنید. . مجموع مجذور انحرافات بین مقادیر تجربی و نظری را بیابید. ببینید آیا عملکرد بهتر است یا خیر (از نظر روش حداقل مربعات)نقاط آزمایشی تقریبی

توجه داشته باشید که مقادیر "x" مقادیر طبیعی هستند و این یک معنای معنی دار مشخصه دارد که کمی بعد در مورد آن صحبت خواهم کرد. اما آنها، البته، می توانند کسری باشند. علاوه بر این، بسته به محتوای یک کار خاص، هر دو مقدار "X" و "G" می توانند به طور کامل یا تا حدی منفی باشند. خوب، به ما یک وظیفه "بی چهره" داده شده است و ما آن را شروع می کنیم راه حل:

ما ضرایب تابع بهینه را به عنوان یک راه حل برای سیستم پیدا می کنیم:

برای یک نماد فشرده تر، می توان متغیر "counter" را حذف کرد، زیرا از قبل مشخص است که جمع بندی از 1 تا .

محاسبه مقادیر مورد نیاز به صورت جدولی راحت تر است:


محاسبات را می توان بر روی یک ریز ماشین حساب انجام داد، اما استفاده از Excel بسیار بهتر است - هم سریعتر و هم بدون خطا. تماشای یک ویدیوی کوتاه:

بنابراین، موارد زیر را بدست می آوریم سیستم:

در اینجا می توانید معادله دوم را در 3 ضرب کنید و عدد 2 را از معادله 1 کم کنید. اما این شانس است - در عمل، سیستم ها اغلب با استعداد نیستند و در چنین مواردی باعث صرفه جویی می شود روش کرامر:
، بنابراین سیستم یک راه حل منحصر به فرد دارد.

بیا چک کنیم می‌دانم که نمی‌خواهم، اما چرا از اشتباهاتی که نمی‌توانی آنها را از دست ندهی، بگذریم؟ جواب پیدا شده را در سمت چپ هر معادله سیستم جایگزین کنید:

قسمت های مناسب معادلات مربوطه به دست می آید، یعنی سیستم به درستی حل شده است.

بنابراین، تابع تقریبی مورد نظر: – از همه توابع خطیداده های تجربی به بهترین وجه توسط آن تقریب می شوند.

بر خلاف سر راست وابستگی گردش مالی فروشگاه به منطقه آن، وابستگی یافت شده است معکوس (اصل "هرچه بیشتر - کمتر")، و این واقعیت بلافاصله توسط منفی آشکار می شود ضریب زاویه ای. عملکرد به ما اطلاع می دهد که با افزایش 1 واحد در یک شاخص خاص، مقدار اندیکاتور وابسته کاهش می یابد میانگین 0.65 واحد همانطور که می گویند، هر چه قیمت گندم سیاه بیشتر باشد، کمتر فروخته می شود.

برای رسم تابع تقریبی، دو مقدار از آن را پیدا می کنیم:

و نقشه را اجرا کنید:


خط ساخته شده نامیده می شود خط روند (یعنی یک خط روند خطی، یعنی در حالت کلی، یک روند لزوما یک خط مستقیم نیست). همه با تعبیر "در ترند بودن" آشنا هستند و فکر می کنم این اصطلاح نیاز به توضیح اضافی ندارد.

مجموع انحرافات مجذور را محاسبه کنید بین ارزش های تجربی و نظری از نظر هندسی، این مجموع مجذور طول قطعات "زرشکی" است (دوتا از آنها آنقدر کوچک هستند که حتی نمی توانید آنها را ببینید).

بیایید محاسبات را در یک جدول خلاصه کنیم:


آنها دوباره می توانند به صورت دستی انجام شوند، فقط در صورتی که برای نکته 1 مثالی بزنم:

اما انجام روشی که قبلاً شناخته شده است بسیار کارآمدتر است:

تکرار کنیم: منظور از نتیجه چیست؟از جانب همه توابع خطیعملکرد توان کوچکترین است، یعنی بهترین تقریب در خانواده خود است. و در اینجا، اتفاقاً، سؤال نهایی مسئله تصادفی نیست: اگر تابع نمایی پیشنهادی چه می‌شود؟ آیا بهتر است نقاط تجربی را تقریب کنیم؟

بیایید مجموع متناظر انحرافات مربع را پیدا کنیم - برای تشخیص آنها، آنها را با حرف "epsilon" مشخص می کنم. تکنیک دقیقاً مشابه است:


و دوباره برای هر محاسبه آتش برای نقطه 1:

در اکسل از تابع استاندارد استفاده می کنیم انقضا (سینتکس را می توان در راهنمای اکسل یافت).

نتیجه: بنابراین تابع نمایی نقاط آزمایشی را بدتر از خط مستقیم تقریب می کند .

اما در اینجا باید توجه داشت که «بدتر» است هنوز به این معنی نیست، چه اشکالی دارد. اکنون من یک نمودار از این تابع نمایی ساختم - و همچنین نزدیک به نقاط عبور می کند - به حدی که بدون مطالعه تحلیلی نمی توان گفت کدام تابع دقیق تر است.

این راه حل را کامل می کند و من به سؤال ارزش های طبیعی استدلال برمی گردم. در مطالعات مختلف، به طور معمول، اقتصادی یا جامعه شناختی، ماه ها، سال ها یا سایر فواصل زمانی مساوی با "X" طبیعی شماره گذاری می شوند. به عنوان مثال، چنین مشکلی را در نظر بگیرید.

روش حداقل مربعات (LSM) به شما امکان می دهد با استفاده از نتایج بسیاری از اندازه گیری های حاوی خطاهای تصادفی، مقادیر مختلف را تخمین بزنید.

MNC مشخصه

ایده اصلی این روش این است که مجموع مربعات خطاها به عنوان معیاری برای صحت حل مسئله در نظر گرفته می شود که درصدد به حداقل رساندن آن است. هنگام استفاده از این روش می توان از هر دو روش عددی و تحلیلی استفاده کرد.

به طور خاص، به عنوان یک پیاده سازی عددی، روش حداقل مربعات مستلزم اندازه گیری هر چه بیشتر یک متغیر تصادفی ناشناخته است. علاوه بر این، هر چه محاسبات بیشتر باشد، راه حل دقیق تر خواهد بود. در این مجموعه از محاسبات (داده های اولیه)، مجموعه دیگری از راه حل های پیشنهادی به دست می آید که از بین آنها بهترین راه حل انتخاب می شود. اگر مجموعه راه حل ها پارامتری باشد، روش حداقل مربعات به یافتن مقدار بهینه پارامترها کاهش می یابد.

به عنوان یک رویکرد تحلیلی برای اجرای LSM بر روی مجموعه داده های اولیه (اندازه گیری ها) و مجموعه راه حل های پیشنهادی، مقداری (عملکردی) تعریف شده است که می تواند با فرمولی به دست آمده به عنوان یک فرضیه خاص بیان شود که نیاز به تأیید دارد. . در این حالت، روش حداقل مربعات به یافتن حداقل این تابع در مجموعه مجذور خطاهای داده های اولیه کاهش می یابد.

توجه داشته باشید که نه خود خطاها، بلکه مربع های خطاها. چرا؟ واقعیت این است که اغلب انحرافات اندازه گیری ها از مقدار دقیق هم مثبت و هم منفی است. هنگام تعیین میانگین، جمع بندی ساده می تواند منجر به نتیجه گیری نادرست در مورد کیفیت تخمین شود، زیرا لغو متقابل مقادیر مثبت و منفی، قدرت نمونه برداری مجموعه اندازه گیری ها را کاهش می دهد. و در نتیجه، دقت ارزیابی.

برای جلوگیری از این اتفاق، انحرافات مجذور خلاصه می شوند. حتی بیشتر از آن، برای یکسان سازی بعد مقدار اندازه گیری شده و تخمین نهایی، از مجموع مجذور خطاها برای استخراج استفاده می شود.

برخی از کاربردهای MNC ها

MNC به طور گسترده در زمینه های مختلف استفاده می شود. به عنوان مثال، در تئوری احتمال و آمار ریاضی، از این روش برای تعیین چنین مشخصه ای از یک متغیر تصادفی به عنوان انحراف استاندارد استفاده می شود که عرض محدوده مقادیر یک متغیر تصادفی را تعیین می کند.

پس از تراز، تابعی به شکل زیر بدست می آوریم: g (x) = x + 1 3 + 1 .

ما می توانیم این داده ها را با یک رابطه خطی y = a x + b با محاسبه پارامترهای مناسب تقریب بزنیم. برای این کار باید از روش به اصطلاح حداقل مربعات استفاده کنیم. همچنین باید یک نقشه بکشید تا بررسی کنید که کدام خط داده های آزمایشی را به بهترین شکل تراز می کند.

OLS دقیقا چیست (روش حداقل مربعات)

مهمترین کاری که باید انجام دهیم این است که چنین ضرایب وابستگی خطی را پیدا کنیم که در آن مقدار تابع دو متغیر F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 کوچکترین باشد. . به عبارت دیگر، برای مقادیر معینی از a و b، مجموع انحرافات مجذور داده های ارائه شده از خط مستقیم به دست آمده دارای حداقل مقدار خواهد بود. این معنای روش حداقل مربعات است. تنها کاری که ما برای حل مثال باید انجام دهیم این است که حد فاصل تابع دو متغیر را پیدا کنیم.

نحوه استخراج فرمول برای محاسبه ضرایب

برای استخراج فرمول های محاسبه ضرایب، باید یک سیستم معادلات با دو متغیر تشکیل و حل شود. برای انجام این کار، مشتقات جزئی عبارت F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 را نسبت به a و b محاسبه کرده و آنها را با 0 برابر می کنیم.

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ a i = ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

برای حل یک سیستم معادلات می توانید از هر روشی مانند جایگزینی یا روش کرامر استفاده کنید. در نتیجه باید فرمول هایی بدست آوریم که ضرایب را با استفاده از روش حداقل مربعات محاسبه می کنند.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n

ما مقادیر متغیرهایی را که تابع آنها هستند محاسبه کرده ایم
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 حداقل مقدار را خواهد گرفت. در پاراگراف سوم ثابت می کنیم که چرا چنین است.

این کاربرد روش حداقل مربعات در عمل است. فرمول او که برای یافتن پارامتر a استفاده می شود شامل ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 و پارامتر
n - مقدار داده های تجربی را نشان می دهد. ما به شما توصیه می کنیم که هر مقدار را جداگانه محاسبه کنید. مقدار ضریب b بلافاصله بعد از a محاسبه می شود.

بیایید به مثال اصلی برگردیم.

مثال 1

در اینجا n برابر با پنج داریم. برای راحت تر کردن محاسبه مقادیر مورد نیاز موجود در فرمول های ضریب، جدول را پر می کنیم.

i = 1 i = 2 i = 3 من = 4 من = 5 ∑ i = 1 5
x i 0 1 2 4 5 12
y من 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

راه حل

ردیف چهارم شامل داده هایی است که از ضرب مقادیر ردیف دوم در مقادیر ردیف سوم برای هر فرد i . خط پنجم شامل داده های مربع دوم است. ستون آخر مجموع مقادیر هر ردیف را نشان می دهد.

بیایید از روش حداقل مربعات برای محاسبه ضرایب a و b مورد نیاز خود استفاده کنیم. برای انجام این کار، مقادیر مورد نظر را از ستون آخر جایگزین کرده و مجموع را محاسبه کنید:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 3 x 1 n - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

دریافتیم که خط مستقیم تقریبی مورد نظر مانند y = 0، 165 x + 2، 184 خواهد بود. اکنون باید تعیین کنیم که کدام خط به بهترین شکل به داده ها تقریب می کند - g (x) = x + 1 3 + 1 یا 0 , 165 x + 2 , 184 . بیایید با استفاده از روش حداقل مربعات تخمین بزنیم.

برای محاسبه خطا، باید مجموع انحرافات مجذور داده ها را از خطوط σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 و σ 2 = ∑ i = 1 n (y i -) پیدا کنیم. g (x i)) 2، حداقل مقدار با خط مناسب تری مطابقت دارد.

σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0، 165 x i + 2، 184)) 2 ≈ 0، 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0 , 096

پاسخ:از آنجا که σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0 , 165 x + 2 , 184 .

روش حداقل مربعات به وضوح در تصویر گرافیکی نشان داده شده است. خط قرمز خط مستقیم g (x) = x + 1 3 + 1 را نشان می دهد، خط آبی y = 0، 165 x + 2، 184 را نشان می دهد. داده های خام با نقاط صورتی مشخص شده اند.

اجازه دهید توضیح دهیم که چرا دقیقاً به تقریب هایی از این نوع نیاز است.

آنها را می توان در مسائلی که نیاز به هموارسازی داده ها دارند، و همچنین در مواردی که داده ها نیاز به درون یابی یا برون یابی دارند استفاده می شوند. به عنوان مثال، در مسئله ای که در بالا بحث شد، می توان مقدار کمیت مشاهده شده y را در x = 3 یا در x = 6 پیدا کرد. ما مقاله جداگانه ای را به چنین نمونه هایی اختصاص داده ایم.

اثبات روش LSM

برای اینکه تابع هنگام محاسبه a و b حداقل مقدار را بگیرد، لازم است که در یک نقطه داده شده ماتریس شکل درجه دوم دیفرانسیل تابع شکل F (a, b) = ∑ i = 1 n باشد. (y i - (a x i + b)) 2 مثبت قطعی باشد. بیایید به شما نشان دهیم که چگونه باید به نظر برسد.

مثال 2

ما یک دیفرانسیل مرتبه دوم به شکل زیر داریم:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

راه حل

δ 2 F (a ; ب) δ a 2 = δ δ F (a ; ب) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ؛ b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + ب)) δ b = 2 ∑ i = 1 n (1) = 2 n

به عبارت دیگر، می توان آن را به صورت زیر نوشت: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

ماتریسی به شکل درجه دوم M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n به دست آورده ایم.

در این مورد، مقادیر عناصر جداگانه بسته به a و b تغییر نمی کند. آیا این ماتریس مثبت قطعی است؟ برای پاسخ به این سوال، اجازه دهید بررسی کنیم که آیا مینورهای زاویه ای آن مثبت هستند یا خیر.

مینور زاویه ای مرتبه اول را محاسبه کنید: 2 ∑ i = 1 n (x i) 2 > 0 . از آنجایی که نقاط x i منطبق نیستند، نابرابری شدید است. این را در محاسبات بعدی در نظر خواهیم داشت.

ما مینور زاویه ای مرتبه دوم را محاسبه می کنیم:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

پس از آن، با استفاده از استقراء ریاضی به اثبات نابرابری n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 ادامه می دهیم.

  1. بیایید بررسی کنیم که آیا این نابرابری برای n دلخواه معتبر است یا خیر. بیایید 2 را بگیریم و محاسبه کنیم:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

برابری صحیح را بدست آوردیم (اگر مقادیر x 1 و x 2 مطابقت نداشته باشند).

  1. بیایید فرض کنیم که این نابرابری برای n درست خواهد بود، یعنی. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 - درست است.
  2. حالا بیایید اعتبار n + 1 را ثابت کنیم، یعنی. که (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0 اگر n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

محاسبه می کنیم:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i = n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

عبارت محصور شده در پرانتزهای فرفری بزرگتر از 0 خواهد بود (بر اساس آنچه در مرحله 2 فرض کردیم)، و بقیه عبارت ها بزرگتر از 0 خواهند بود زیرا همه آنها مربع اعداد هستند. ما نابرابری را ثابت کرده ایم.

پاسخ: a و b یافت شده با کوچکترین مقدار تابع F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 مطابقت دارد، به این معنی که آنها پارامترهای مورد نظر روش حداقل مربعات هستند. (LSM).

اگر متوجه اشتباهی در متن شدید، لطفاً آن را برجسته کرده و Ctrl+Enter را فشار دهید

انتخاب سردبیر
توسط یادداشت های یک بانوی وحشی گل های زیادی وجود دارد زیبا، محتاطانه. اما من همه چنار معمولی را دوست دارم. شاید برایش سخت تر باشد...

) یک گروه کند انبوه. در پیش بینی تور ماه مه در کشور، حزب از رهبر خود سوالاتی در مورد خلاقیت و نه تنها پرسید. تور از...

رئیس جمهور بلاروس پیشنهاد کرد که موضوع شروع کلاس های مدرسه نه در ساعت 8 صبح، بلکه در ساعت 9 صبح در پارلمان بررسی شود.

برای هر والدینی که فرزندشان به مدرسه رفته است ، مهم است که بدانند مؤسسه آموزشی هنگام انتخاب بار از چه قوانینی هدایت می شود ...
پاسخ: خداوند متعال فرمود: «إِنَّ اللَّهُ أَعْلَى الْعَظیم». زنان 34
در 12 اکتبر، اسکناس های جدید 200 و 2000 روبلی در روسیه به گردش در آمد. شهرهایی که بر روی آنها تصویر شده است سواستوپل و ...
نمایندگان برخی از گونه های غیر معمول قورباغه ها و وزغ ها در اینجا جمع آوری می شوند.دوزیستان مهره دارانی هستند که هم در آب و هم در ...
تعریف. به یک نقطه منفرد از یک تابع گفته می شود که در برخی از همسایگی های این نقطه، یک تابع تحلیلی باشد (یعنی ...
در تعدادی از موارد با بررسی ضرایب سری های فرم (C) یا می توان دریافت که این سری ها همگرا هستند (شاید بدون احتساب نقاط منفرد) ...