Minsta kvadraters metod exempel på problemlösning. Utveckling av en prognos med minsta kvadratmetoden. Ett exempel på att lösa ett problem Lösa ett ekvationssystem med minsta kvadratmetoden


Vi approximerar funktionen med ett polynom av 2:a graden. För att göra detta beräknar vi koefficienterna för det normala ekvationssystemet:

, ,

Låt oss komponera ett normalt system av minsta kvadrater, som har formen:

Systemets lösning är lätt att hitta:, , .

Således hittas polynomet av 2:a graden: .

Teoretisk bakgrund

Tillbaka till sidan<Введение в вычислительную математику. Примеры>

Exempel 2. Hitta den optimala graden av ett polynom.

Tillbaka till sidan<Введение в вычислительную математику. Примеры>

Exempel 3. Härledning av ett normalt ekvationssystem för att hitta parametrarna för ett empiriskt beroende.

Låt oss härleda ett ekvationssystem för att bestämma koefficienter och funktioner , som utför rot-medelkvadrat-approximationen av den givna funktionen med avseende på punkter. Komponera en funktion och skriv det nödvändiga extrema villkoret för det:

Då kommer det normala systemet att ta formen:

Vi har erhållit ett linjärt ekvationssystem för okända parametrar och som är lätt att lösa.

Teoretisk bakgrund

Tillbaka till sidan<Введение в вычислительную математику. Примеры>

Exempel.

Experimentella data om värdena på variabler X och anges i tabellen.

Som ett resultat av deras anpassning, funktionen

Använder sig av minsta kvadratmetoden, approximera dessa data med ett linjärt beroende y=ax+b(hitta alternativ a och b). Ta reda på vilken av de två linjerna som är bättre (i betydelsen av minsta kvadratmetoden) anpassar experimentdata. Gör en ritning.

Kärnan i metoden för minsta kvadrater (LSM).

Problemet är att hitta de linjära beroendekoefficienterna för vilka funktionen av två variabler a och btar det minsta värdet. Det vill säga med tanke på uppgifterna a och b summan av de kvadratiska avvikelserna för experimentdata från den hittade räta linjen kommer att vara den minsta. Detta är hela poängen med minsta kvadratmetoden.

Sålunda reduceras lösningen i exemplet till att hitta extremumet för en funktion av två variabler.

Härledning av formler för att hitta koefficienter.

Ett system med två ekvationer med två okända kompileras och löses. Hitta partiella derivator av funktioner genom variabler a och b likställer vi dessa derivator till noll.

Vi löser det resulterande ekvationssystemet med vilken metod som helst (till exempel substitutionsmetod eller Cramers metod) och få formler för att hitta koefficienter med minsta kvadratmetoden (LSM).

Med data a och b fungera tar det minsta värdet. Beviset för detta ges nedan i texten i slutet av sidan.

Det är hela metoden med minsta kvadrater. Formel för att hitta parametern a innehåller summorna , , och parametern när mängden experimentella data. Värdena på dessa summor rekommenderas att beräknas separat.

Koefficient b hittas efter beräkning a.

Det är dags att komma ihåg det ursprungliga exemplet.

Lösning.

I vårt exempel n=5. Vi fyller i tabellen för att underlätta beräkningen av beloppen som ingår i formlerna för de nödvändiga koefficienterna.

Värdena i den fjärde raden i tabellen erhålls genom att multiplicera värdena på den andra raden med värdena på den 3:e raden för varje nummer i.

Värdena i den femte raden i tabellen erhålls genom att kvadrera värdena på den andra raden för varje nummer i.

Värdena i den sista kolumnen i tabellen är summan av värdena över raderna.

Vi använder minsta kvadratmetodens formler för att hitta koefficienterna a och b. Vi ersätter i dem motsvarande värden från den sista kolumnen i tabellen:

Följaktligen, y=0,165x+2,184är den önskade approximativa räta linjen.

Det återstår att ta reda på vilken av raderna y=0,165x+2,184 eller bättre approximerar originaldata, dvs att göra en uppskattning med minsta kvadratmetoden.

Uppskattning av felet i metoden för minsta kvadrater.

För att göra detta måste du beräkna summorna av kvadrerade avvikelser av originaldata från dessa linjer och , motsvarar ett mindre värde en linje som bättre approximerar originaldatan i termer av minsta kvadratmetoden.

Sedan , då linjen y=0,165x+2,184 approximerar originaldata bättre.

Grafisk illustration av minsta kvadratmetoden (LSM).

Allt ser bra ut på listorna. Den röda linjen är den hittade linjen y=0,165x+2,184, är den blå linjen , de rosa prickarna är originaldata.

Vad är det till för, vad är alla dessa uppskattningar till för?

Jag använder personligen för att lösa datautjämningsproblem, interpolations- och extrapolationsproblem (i det ursprungliga exemplet kan du bli ombedd att hitta värdet på det observerade värdet yx=3 eller när x=6 enligt MNC-metoden). Men vi kommer att prata mer om detta senare i ett annat avsnitt av sajten.

Förstasidan

Bevis.

Så att när den hittas a och b funktionen tar det minsta värdet, är det nödvändigt att vid denna punkt matrisen för kvadratformen av andra ordningens differential för funktionen var definitivt positivt. Låt oss visa det.

Den andra ordningens differential har formen:

Det är

Därför har matrisen för den kvadratiska formen formen

och elementens värden beror inte på a och b.

Låt oss visa att matrisen är positiv bestämd. Detta kräver att vinkelminors är positiva.

Kantig moll av första ordningen . Ojämlikheten är strikt, eftersom punkterna inte sammanfaller. Detta kommer att antydas i det följande.

Kantig moll av andra ordningen

Låt oss bevisa det metod för matematisk induktion.

Slutsats: hittade värden a och b motsvarar funktionens minsta värde därför är de önskade parametrarna för minsta kvadratmetoden.

Har du någonsin förstått?
Beställ en lösning

Förstasidan

Utveckling av en prognos med minsta kvadratmetoden. Exempel på problemlösning

Extrapolering — Detta är en metod för vetenskaplig forskning som bygger på spridning av tidigare och nuvarande trender, mönster, samband med den framtida utvecklingen av prognosobjektet. Extrapoleringsmetoder inkluderar metod för glidande medelvärde, metod för exponentiell utjämning, metod för minsta kvadrater.

Väsen minsta kvadratmetoden består i att minimera summan av kvadratavvikelser mellan de observerade och beräknade värdena. De beräknade värdena hittas enligt den valda ekvationen - regressionsekvationen. Ju mindre avståndet är mellan de faktiska värdena och de beräknade, desto mer exakt blir prognosen baserat på regressionsekvationen.

Den teoretiska analysen av essensen av fenomenet som studeras, vars förändring visas av en tidsserie, fungerar som grund för att välja en kurva. Överväganden om karaktären av tillväxten av seriens nivåer tas ibland med i beräkningen. Så om produktionstillväxten förväntas i en aritmetisk progression, utförs utjämning i en rak linje. Om det visar sig att tillväxten är exponentiell, bör utjämning göras enligt exponentialfunktionen.

Arbetsformeln för minsta kvadratmetoden : Yt+1 = a*X + b, där t + 1 är prognosperioden; Уt+1 – förutspådd indikator; a och b är koefficienter; X är en symbol för tid.

Koefficienterna a och b beräknas enligt följande formler:

där, Uf - de faktiska värdena för serien av dynamik; n är antalet nivåer i tidsserien;

Utjämningen av tidsserier med minsta kvadratmetoden tjänar till att spegla utvecklingsmönstren för det fenomen som studeras. I det analytiska uttrycket av en trend betraktas tid som en oberoende variabel, och seriernas nivåer fungerar som en funktion av denna oberoende variabel.

Utvecklingen av ett fenomen beror inte på hur många år som har gått sedan utgångspunkten, utan på vilka faktorer som påverkade dess utveckling, i vilken riktning och med vilken intensitet. Av detta är det tydligt att utvecklingen av ett fenomen i tiden uppträder som ett resultat av verkan av dessa faktorer.

Korrekt inställning av typen av kurva är typen av analytiskt beroende av tid en av de svåraste uppgifterna för pre-prediktiv analys. .

Valet av typ av funktion som beskriver trenden, vars parametrar bestäms av minsta kvadratmetoden, är i de flesta fall empiriskt, genom att konstruera ett antal funktioner och jämföra dem med varandra enligt värdet av rot- medelkvadratfel, beräknat med formeln:

där Uf - de faktiska värdena för serien av dynamik; Ur – beräknade (utjämnade) värden för tidsserien; n är antalet nivåer i tidsserien; p är antalet parametrar som definieras i formlerna som beskriver trenden (utvecklingstrend).

Nackdelar med minsta kvadratmetoden :

  • när man försöker beskriva det ekonomiska fenomenet som studeras med hjälp av en matematisk ekvation, kommer prognosen att vara korrekt under en kort tidsperiod och regressionsekvationen bör räknas om när ny information blir tillgänglig;
  • komplexiteten i valet av regressionsekvationen, som är lösbar med hjälp av vanliga datorprogram.

Ett exempel på hur man använder minsta kvadratmetoden för att ta fram en prognos

En uppgift . Det finns data som kännetecknar arbetslöshetsnivån i regionen, %

  • Skapa en prognos för arbetslösheten i regionen för månaderna november, december, januari, med hjälp av metoderna: glidande medelvärde, exponentiell utjämning, minsta kvadrater.
  • Beräkna felen i de resulterande prognoserna med varje metod.
  • Jämför de erhållna resultaten, dra slutsatser.

Minsta kvadraters lösning

För lösningen kommer vi att sammanställa en tabell där vi kommer att göra de nödvändiga beräkningarna:

e = 28,63/10 = 2,86 % prognosprecision hög.

Slutsats : Jämföra resultaten som erhållits i beräkningarna glidande medelvärde , exponentiell utjämning och minsta kvadratmetoden kan vi säga att det genomsnittliga relativa felet i beräkningar med den exponentiella utjämningsmetoden faller inom 20-50%. Detta betyder att prediktionsnoggrannheten i detta fall endast är tillfredsställande.

I det första och tredje fallet är prognosnoggrannheten hög, eftersom det genomsnittliga relativa felet är mindre än 10 %. Men metoden med glidande medelvärde gjorde det möjligt att få mer tillförlitliga resultat (prognos för november - 1,52%, prognos för december - 1,53%, prognos för januari - 1,49%), eftersom det genomsnittliga relativa felet vid användning av denna metod är det minsta - 1 ,13%.

Minsta kvadratiska metod

Andra relaterade artiklar:

Lista över använda källor

  1. Vetenskapliga och metodologiska rekommendationer i frågorna om att diagnostisera sociala risker och förutse utmaningar, hot och sociala konsekvenser. Russian State Social University. Moskva. 2010;
  2. Vladimirova L.P. Prognos och planering under marknadsförhållanden: Proc. ersättning. M .: Publishing House "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. Prognos för nationalekonomin: utbildnings- och metodguide. Jekaterinburg: Förlaget Ural. stat ekonomi universitet, 2007;
  4. Slutskin L.N. MBA-kurs i affärsprognoser. Moskva: Alpina Business Books, 2006.

MNE-program

Ange data

Data och approximation y = a + b x

i- numret på den experimentella punkten.
x i- värdet på den fasta parametern vid punkten i;
y i- värdet på den uppmätta parametern vid punkten i;
ω i- mätvikt vid punkt i;
yi, beräkn.- skillnaden mellan det uppmätta värdet och det värde som beräknats från regressionen y vid punkten i;
S x i (x i)- feluppskattning x i vid mätning y vid punkten i.

Data och approximation y = k x

i x i y i ω i yi, beräkn. Δy i S x i (x i)

Klicka på diagrammet

Användarmanual för onlineprogrammet MNC.

I datafältet anger du värdena för "x" och "y" på varje separat rad vid en experimentell punkt. Värden måste separeras med blanksteg (mellanslag eller tabb).

Det tredje värdet kan vara poängvikten för "w". Om punktvikten inte anges är den lika med en. I den överväldigande majoriteten av fallen är vikterna av experimentpoängen okända eller inte beräknade; alla experimentella data anses likvärdiga. Ibland är vikterna i det studerade värdeintervallet definitivt inte ekvivalenta och kan till och med beräknas teoretiskt. Inom spektrofotometri kan exempelvis vikter beräknas med enkla formler, även om i princip alla försummar detta för att minska arbetskostnaderna.

Data kan klistras in genom urklippet från ett kalkylblad för kontorspaket, som Excel från Microsoft Office eller Calc från Open Office. För att göra detta, i kalkylarket, välj intervallet av data som ska kopieras, kopiera till urklipp och klistra in data i datafältet på den här sidan.

För att beräkna med minsta kvadratmetoden krävs minst två punkter för att bestämma två koefficienter "b" - tangenten för lutningsvinkeln för den räta linjen och "a" - värdet avskuret av den räta linjen på "y ` axel.

För att uppskatta felet för de beräknade regressionskoefficienterna är det nödvändigt att ställa in antalet experimentella punkter till mer än två.

Minsta kvadratmetoden (LSM).

Ju fler experimentella poäng, desto mer exakt är den statistiska uppskattningen av koefficienterna (på grund av minskningen av elevens koefficient) och desto närmare skattningen är uppskattningen av det allmänna urvalet.

Att erhålla värden vid varje experimentell punkt är ofta förknippat med betydande arbetskostnader, därför utförs ofta ett kompromiss antal experiment, vilket ger en lättsmält uppskattning och inte leder till alltför höga arbetskostnader. Som regel väljs antalet experimentella punkter för ett linjärt minsta kvadratberoende med två koefficienter i området 5-7 punkter.

En kort teori om minsta kvadrater för linjärt beroende

Anta att vi har en uppsättning experimentella data i form av par av värden [`y_i`, `x_i`], där `i` är numret på en experimentell mätning från 1 till `n`; `y_i` - värdet på det uppmätta värdet vid punkten `i`; `x_i` - värdet på parametern vi ställer in vid punkten `i`.

Ett exempel är hur Ohms lag fungerar. Genom att ändra spänningen (potentialskillnaden) mellan sektioner av den elektriska kretsen mäter vi mängden ström som passerar genom denna sektion. Fysiken ger oss beroendet som finns experimentellt:

`I=U/R`,
där "I" - strömstyrka; `R` - motstånd; `U` - spänning.

I detta fall är "y_i" det uppmätta strömvärdet och "x_i" är spänningsvärdet.

Som ett annat exempel, betrakta absorptionen av ljus av en lösning av ett ämne i lösning. Kemi ger oss formeln:

`A = εl C`,
där "A" är lösningens optiska densitet; "ε" - transmittans av lösta ämnen; `l` - väglängd när ljus passerar genom en kyvett med en lösning; `C` är koncentrationen av det lösta ämnet.

I det här fallet är "y_i" den uppmätta optiska densiteten "A", och "x_i" är koncentrationen av ämnet som vi ställer in.

Vi kommer att överväga fallet när det relativa felet i inställningen "x_i" är mycket mindre än det relativa felet vid mätningen av "y_i". Vi kommer också att anta att alla uppmätta värden för `y_i` är slumpmässiga och normalfördelade, dvs. följa normalfördelningslagen.

I fallet med ett linjärt beroende av "y" på "x", kan vi skriva det teoretiska beroendet:
"y = a + bx".

Ur en geometrisk synvinkel betecknar koefficienten "b" tangenten för linjens lutningsvinkel till "x"-axeln, och koefficienten "a" - värdet av "y" vid skärningspunkten för linje med `y`-axeln (för `x = 0`).

Hitta parametrarna för regressionslinjen.

I ett experiment kan de uppmätta värdena för `y_i` inte ligga exakt på den teoretiska linjen på grund av mätfel, som alltid är inneboende i det verkliga livet. Därför måste en linjär ekvation representeras av ett ekvationssystem:
`y_i = a + b x_i + ε_i` (1),
där "ε_i" är det okända mätfelet för "y" i det "i":e experimentet.

Beroende (1) kallas också regression, dvs. de två storheternas beroende av varandra med statistisk signifikans.

Uppgiften att återställa beroendet är att hitta koefficienterna `a` och `b` från experimentpunkterna [`y_i`, `x_i`].

För att hitta koefficienterna används vanligtvis `a` och `b` minsta kvadratmetoden(MNK). Det är ett specialfall av principen om maximal sannolikhet.

Låt oss skriva om (1) som `ε_i = y_i - a - b x_i`.

Då blir summan av kvadratfel
`Φ = summa_(i=1)^(n) ε_i^2 = summa_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Principen för minsta kvadratmetoden är att minimera summan (2) med avseende på parametrarna `a` och `b`.

Minimum uppnås när de partiella derivatorna av summan (2) med avseende på koefficienterna "a" och "b" är lika med noll:
`frac(partiell Φ)(partiell a) = frac(partiell summa_(i=1)^(n) (y_i - a - b x_i)^2)(partiell a) = 0`
`frac(partiell Φ)(partiell b) = frac(partiell summa_(i=1)^(n) (y_i - a - b x_i)^2)(partiell b) = 0`

Om vi ​​expanderar derivatorna får vi ett system av två ekvationer med två okända:
`sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = summa_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = summa_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Vi öppnar parenteserna och överför summorna oberoende av de önskade koefficienterna till den andra hälften, vi får ett system med linjära ekvationer:
`sum_(i=1)^(n) y_i = a n + b summa_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = a summa_(i=1)^(n) x_i + b summa_(i=1)^(n) x_i^2`

När vi löser det resulterande systemet hittar vi formler för koefficienterna `a` och `b`:

`a = frac(sum_(i=1)^(n) y_i summa_(i=1)^(n) x_i^2 - summa_(i=1)^(n) x_i summa_(i=1)^(n) ) x_iy_i) (n summa_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n summa_(i=1)^(n) x_iy_i - summa_(i=1)^(n) x_i summa_(i=1)^(n) y_i) (n summa_(i=1)^ (n) x_i^2 - (sum_(i=1)^(n) x_i)^2)` (3.2)

Dessa formler har lösningar när `n > 1` (linjen kan dras med minst 2 punkter) och när determinanten `D = n summa_(i=1)^(n) x_i^2 — (sum_(i= 1) )^(n) x_i)^2 != 0`, dvs. när "x_i"-punkterna i experimentet är olika (dvs. när linjen inte är vertikal).

Uppskattning av fel i regressionslinjens koefficienter

För en mer exakt uppskattning av felet vid beräkning av koefficienterna "a" och "b", är ett stort antal experimentella punkter önskvärt. När `n = 2` är det omöjligt att uppskatta felet för koefficienterna, eftersom den approximativa linjen kommer unikt att passera genom två punkter.

Felet för den slumpmässiga variabeln "V" bestäms felackumulationslag
`S_V^2 = summa_(i=1)^p (frac(partial f)(partial z_i))^2 S_(z_i)^2`,
där `p` är antalet `z_i`-parametrar med `S_(z_i)`-fel som påverkar `S_V`-felet;
`f` är en beroendefunktion av `V` på `z_i`.

Låt oss skriva lagen för ackumulering av fel för felet för koefficienterna `a` och `b`
`S_a^2 = summa_(i=1)^(n)(frac(partial a)(partial y_i))^2 S_(y_i)^2 + summa_(i=1)^(n)(frac(partial a )(partiell x_i))^2 S_(x_i)^2 = S_y^2 summa_(i=1)^(n)(frac(partiell a)(partiell y_i))^2 `,
`S_b^2 = summa_(i=1)^(n)(frac(partiell b)(partiell y_i))^2 S_(y_i)^2 + summa_(i=1)^(n)(frac(partiell b) )(partiell x_i))^2 S_(x_i)^2 = S_y^2 summa_(i=1)^(n)(frac(partiell b)(partiell y_i))^2 `,
därför att `S_(x_i)^2 = 0` (vi gjorde tidigare en reservation för att felet för `x` är försumbart).

`S_y^2 = S_(y_i)^2` - felet (varians, kvadratisk standardavvikelse) i `y`-dimensionen, förutsatt att felet är enhetligt för alla `y`-värden.

Genom att ersätta formler för att beräkna "a" och "b" i de resulterande uttrycken får vi

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i summa_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n summa_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) summa_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n summa_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

I de flesta verkliga experiment mäts inte värdet på "Sy". För att göra detta är det nödvändigt att utföra flera parallella mätningar (experiment) vid en eller flera punkter i planen, vilket ökar tiden (och eventuellt kostnaden) för experimentet. Därför antas det vanligtvis att avvikelsen för `y` från regressionslinjen kan betraktas som slumpmässig. Variansuppskattningen "y" i detta fall beräknas med formeln.

`S_y^2 = S_(y, vila)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)".

Divisorn `n-2` visas eftersom vi har minskat antalet frihetsgrader på grund av beräkningen av två koefficienter för samma urval av experimentella data.

Denna uppskattning kallas också den kvarvarande variansen i förhållande till regressionslinjen `S_(y, rest)^2`.

Bedömningen av koefficienternas betydelse görs enligt Studentens kriterium

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Om de beräknade kriterierna "t_a", "t_b" är mindre än tabellkriterierna "t(P, n-2)", anses det att motsvarande koefficient inte skiljer sig signifikant från noll med en given sannolikhet "P".

För att bedöma kvaliteten på beskrivningen av ett linjärt samband kan du jämföra `S_(y, vila)^2` och `S_(stapel y)` i förhållande till medelvärdet med Fisher-kriteriet.

`S_(stapel y) = frac(sum_(i=1)^n (y_i - takt y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i= 1)^n y_i) /n)^2) (n-1)` - provuppskattning av variansen för "y" i förhållande till medelvärdet.

För att utvärdera effektiviteten av regressionsekvationen för att beskriva beroendet, beräknas Fisher-koefficienten
`F = S_(stapel y) / S_(y, vila)^2`,
som jämförs med den tabellformade Fisher-koefficienten `F(p, n-1, n-2)`.

Om "F > F(P, n-1, n-2)", anses skillnaden mellan beskrivningen av beroendet "y = f(x)" med hjälp av regressionsekvationen och beskrivningen med medelvärdet statistiskt signifikant med sannolikhet "P". De där. regressionen beskriver beroendet bättre än spridningen av `y` runt medelvärdet.

Klicka på diagrammet
för att lägga till värden till tabellen

Minsta kvadratiska metod. Metoden för minsta kvadrater innebär bestämning av okända parametrar a, b, c, det accepterade funktionella beroendet

Metoden med minsta kvadrater innebär bestämning av okända parametrar a, b, c,... accepterat funktionsberoende

y = f(x,a,b,c,...),

vilket skulle ge ett minimum av medelkvadraten (variansen) av felet

, (24)

där x i , y i - uppsättning av talpar erhållna från experimentet.

Eftersom villkoret för extremumet av en funktion av flera variabler är villkoret att dess partiella derivator är lika med noll, då a, b, c,... bestäms utifrån ekvationssystemet:

; ; ; … (25)

Man måste komma ihåg att minsta kvadratmetoden används för att välja parametrar efter funktionens form y = f(x) definierat.

Om det utifrån teoretiska överväganden är omöjligt att dra några slutsatser om vad den empiriska formeln bör vara, så måste man vägledas av visuella representationer, i första hand en grafisk representation av de observerade data.

I praktiken oftast begränsad till följande typer av funktioner:

1) linjär ;

2) kvadratisk a .

(se bild). Det krävs att hitta ekvationen för en rät linje

Ju mindre tal i absolut värde, desto bättre väljs den räta linjen (2). Som en egenskap för noggrannheten i valet av en rät linje (2) kan vi ta summan av kvadrater

Minimivillkoren för S kommer att vara

(6)
(7)

Ekvationerna (6) och (7) kan skrivas i följande form:

(8)
(9)

Från ekvationerna (8) och (9) är det lätt att hitta a och b från experimentvärdena x i och y i . Linjen (2) som definieras av ekvationerna (8) och (9) kallas linjen som erhålls med minsta kvadratmetoden (detta namn understryker att summan av kvadraterna S har ett minimum). Ekvationerna (8) och (9), från vilka den räta linjen (2) bestäms, kallas normalekvationer.

Det är möjligt att ange ett enkelt och generellt sätt att sammanställa normala ekvationer. Med hjälp av experimentpunkter (1) och ekvation (2) kan vi skriva ner ekvationssystemet för a och b

y 1 \u003d axe 1 +b,
y 2 \u003dax 2 +b,
...
(10)
yn=axn+b,

Multiplicera de vänstra och högra delarna av var och en av dessa ekvationer med koefficienten vid det första okända a (d.v.s. x 1 , x 2 , ..., x n) och addera de resulterande ekvationerna, vilket resulterar i den första normalekvationen (8).

Vi multiplicerar vänster och höger sida av var och en av dessa ekvationer med koefficienten för det andra okända b, dvs. med 1 och addera de resulterande ekvationerna, vilket resulterar i den andra normalekvationen (9).

Denna metod för att erhålla normala ekvationer är generell: den lämpar sig till exempel för funktionen

är ett konstant värde och det måste bestämmas från experimentella data (1).

Ekvationssystemet för k kan skrivas:

Hitta linjen (2) med minsta kvadratmetoden.

Lösning. Vi hittar:

xi=21, yi=46,3, xi2=91, xiyi=179,1.

Vi skriver ekvationerna (8) och (9)

Härifrån finner vi

Uppskattning av noggrannheten för minsta kvadratmetoden

Låt oss ge en uppskattning av metodens noggrannhet för det linjära fallet när ekvation (2) äger rum.

Låt experimentvärdena x i vara exakta, och experimentvärdena y i har slumpmässiga fel med samma varians för alla i.

Vi introducerar notationen

(16)

Då kan lösningarna av ekvationerna (8) och (9) representeras som

(17)
(18)
var
(19)
Från ekvation (17) finner vi
(20)
På liknande sätt får vi från ekvation (18).

(21)
därför att
(22)
Från ekvationerna (21) och (22) finner vi
(23)

Ekvationerna (20) och (23) ger en uppskattning av noggrannheten hos de koefficienter som bestäms av ekvationerna (8) och (9).

Observera att koefficienterna a och b är korrelerade. Genom enkla transformationer hittar vi deras korrelationsmoment.

Härifrån finner vi

0,072 vid x=1 och 6,

0,041 vid x=3,5.

Litteratur

Strand. Ya. B. Statistiska metoder för analys och kvalitetskontroll och tillförlitlighet. M.: Gosenergoizdat, 1962, sid. 552, sid. 92-98.

Den här boken är avsedd för ett brett spektrum av ingenjörer (forskningsinstitut, designbyråer, testplatser och fabriker) som är involverade i att fastställa kvaliteten och tillförlitligheten hos elektronisk utrustning och andra massindustriprodukter (maskinbyggnad, instrumenttillverkning, artilleri, etc.).

Boken ger en tillämpning av metoderna för matematisk statistik för bearbetning och utvärdering av testresultat, där kvaliteten och tillförlitligheten hos de testade produkterna bestäms. För läsarnas bekvämlighet ges den nödvändiga informationen från matematisk statistik, liksom ett stort antal matematiska hjälptabeller som underlättar nödvändiga beräkningar.

Framställningen illustreras av ett stort antal exempel hämtade från området radioelektronik och artilleriteknik.

Minsta kvadratmetoden är en av de vanligaste och mest utvecklade på grund av sin enkelhet och effektivitet av metoder för att uppskatta parametrarna för linjär. Samtidigt bör en viss försiktighet iakttas när du använder den, eftersom de modeller som byggs med den kanske inte uppfyller ett antal krav på kvaliteten på deras parametrar och som ett resultat inte "väl" återspeglar mönstren för processutveckling.

Låt oss överväga proceduren för att uppskatta parametrarna för en linjär ekonometrisk modell med hjälp av minsta kvadratmetoden mer i detalj. En sådan modell i allmän form kan representeras av ekvation (1.2):

y t = a 0 + a 1 x 1 t +...+ a n x nt + εt.

De initiala data vid uppskattning av parametrarna a 0 , a 1 ,..., a n är vektorn av värden för den beroende variabeln y= (y 1 , y 2 , ... , y T)" och matrisen av värden för oberoende variabler

där den första kolumnen, bestående av ettor, motsvarar modellens koefficient .

Metoden med minsta kvadrater fick sitt namn baserat på den grundläggande principen att parameteruppskattningarna som erhålls på grundval av den ska uppfylla: summan av kvadrater av modellfelet bör vara minimal.

Exempel på att lösa problem med minsta kvadratmetoden

Exempel 2.1. Handelsföretaget har ett nätverk som består av 12 butiker, information om vilkas verksamhet presenteras i tabell. 2.1.

Företagets ledning skulle vilja veta hur storleken på årstiden beror på butikens försäljningsområde.

Tabell 2.1

Butiksnummer

Årlig omsättning, miljoner rubel

Handelsområde, tusen m 2

Minsta kvadraters lösning. Låt oss ange - den årliga omsättningen för den -th butiken, miljoner rubel; - försäljningsyta av den -e butiken, tusen m 2.

Fig.2.1. Scatterplot för exempel 2.1

Att bestämma formen för det funktionella sambandet mellan variablerna och konstruera ett spridningsdiagram (Fig. 2.1).

Baserat på spridningsdiagrammet kan vi dra slutsatsen att den årliga omsättningen är positivt beroende av försäljningsområdet (dvs y kommer att öka med tillväxten av ). Den lämpligaste formen av funktionell anslutning är − linjär.

Information för ytterligare beräkningar presenteras i tabell. 2.2. Med hjälp av minsta kvadratmetoden uppskattar vi parametrarna för den linjära enfaktors ekonometriska modellen

Tabell 2.2

På det här sättet,

Därför, med en ökning av handelsområdet med 1 tusen m 2, allt annat lika, ökar den genomsnittliga årliga omsättningen med 67,8871 miljoner rubel.

Exempel 2.2. Ledningen för företaget märkte att den årliga omsättningen inte bara beror på butikens försäljningsområde (se exempel 2.1), utan också på det genomsnittliga antalet besökare. Den relevanta informationen presenteras i tabellen. 2.3.

Tabell 2.3

Lösning. Beteckna - det genomsnittliga antalet besökare till den e butiken per dag, tusen personer.

Att bestämma formen på det funktionella sambandet mellan variablerna och konstruera ett spridningsdiagram (Fig. 2.2).

Baserat på spridningsdiagrammet kan vi dra slutsatsen att den årliga omsättningen är positivt relaterad till det genomsnittliga antalet besökare per dag (dvs y kommer att öka med tillväxten av ). Formen av funktionellt beroende är linjär.

Ris. 2.2. Scatterplot till exempel 2.2

Tabell 2.4

I allmänhet är det nödvändigt att bestämma parametrarna för den tvåfaktors ekonometriska modellen

y t \u003d a 0 + a 1 x 1 t + a 2 x 2 t + ε t

Den information som krävs för ytterligare beräkningar presenteras i tabell. 2.4.

Låt oss uppskatta parametrarna för en linjär tvåfaktors ekonometrisk modell med hjälp av minsta kvadratmetoden.

På det här sättet,

Utvärdering av koefficienten = 61,6583 visar att, allt annat lika, med en ökning av försäljningsytan med 1 tusen m 2, kommer den årliga omsättningen att öka med i genomsnitt 61,6583 miljoner rubel.

  • introduktionslektion är gratis;
  • Ett stort antal erfarna lärare (infödda och rysktalande);
  • Kurser INTE för en viss period (månad, sex månader, år), utan för ett specifikt antal lektioner (5, 10, 20, 50);
  • Över 10 000 nöjda kunder.
  • Kostnaden för en lektion med en rysktalande lärare - från 600 rubel, med en infödd talare - från 1500 rubel

Kärnan i minsta kvadratmetoden är att hitta parametrarna för den trendmodell som bäst beskriver utvecklingstrenden för varje slumpmässigt fenomen i tid eller rum (en trend är en linje som kännetecknar trenden för denna utveckling). Minsta kvadratmetodens (OLS) uppgift är att inte bara hitta någon trendmodell, utan att hitta den bästa eller optimala modellen. Denna modell kommer att vara optimal om summan av de kvadrerade avvikelserna mellan de observerade faktiska värdena och motsvarande beräknade trendvärden är minimal (minst):

var är standardavvikelsen mellan det observerade verkliga värdet

och motsvarande beräknade trendvärde,

Det faktiska (observerade) värdet av fenomenet som studeras,

Uppskattat värde av trendmodellen,

Antalet observationer av fenomenet som studeras.

MNC används sällan på egen hand. Som regel används det oftast bara som en nödvändig teknik i korrelationsstudier. Man bör komma ihåg att informationsbasen för LSM endast kan vara en tillförlitlig statistisk serie, och antalet observationer bör inte vara mindre än 4, annars kan utjämningsprocedurerna för LSM förlora sitt sunda förnuft.

OLS-verktygslådan reduceras till följande procedurer:

Första proceduren. Det visar sig om det överhuvudtaget finns någon tendens att ändra det resulterande attributet när det valda faktorargumentet ändras, eller med andra ord om det finns ett samband mellan " "och" X ».

Andra proceduren. Det bestäms vilken linje (bana) som bäst kan beskriva eller karakterisera denna trend.

Tredje förfarandet.

Exempel. Antag att vi har information om den genomsnittliga solrosskörden för den gård som studeras (tabell 9.1).

Tabell 9.1

Observationsnummer

Produktivitet, c/ha

Eftersom tekniknivån i produktionen av solros i vårt land inte har förändrats mycket under de senaste 10 åren, betyder det att fluktuationerna i avkastningen under den analyserade perioden mest troligt berodde mycket på fluktuationer i väder- och klimatförhållanden. Är det sant?

Första MNC-proceduren. Hypotesen om förekomsten av en trend i förändringen i solrosskörd beroende på förändringar i väder- och klimatförhållanden under de analyserade 10 åren håller på att testas.

I det här exemplet, för " y » det är tillrådligt att ta avkastningen av solros, och för « x » är numret på det observerade året under den analyserade perioden. Testa hypotesen om förekomsten av något samband mellan " x "och" y » kan göras på två sätt: manuellt och med hjälp av datorprogram. Naturligtvis, med tillgången till datorteknik löses detta problem av sig självt. Men för att bättre förstå OLS-verktygslådan är det tillrådligt att testa hypotesen om förekomsten av ett samband mellan " x "och" y » manuellt, när bara en penna och en vanlig miniräknare finns till hands. I sådana fall kontrolleras hypotesen om förekomsten av en trend bäst visuellt av platsen för den grafiska bilden av den analyserade tidsserien - korrelationsfältet:

Korrelationsfältet i vårt exempel är placerat runt en långsamt ökande linje. Detta i sig indikerar att det finns en viss trend i förändringen av solrosavkastningen. Det är omöjligt att tala om förekomsten av någon trend endast när korrelationsfältet ser ut som en cirkel, en cirkel, ett strikt vertikalt eller strikt horisontellt moln, eller består av slumpmässigt spridda punkter. I alla andra fall är det nödvändigt att bekräfta hypotesen om förekomsten av ett förhållande mellan " x "och" y och fortsätta forskningen.

Andra MNC-proceduren. Det bestäms vilken linje (bana) som bäst kan beskriva eller karakterisera trenden i solrosavkastningsförändringar för den analyserade perioden.

Med tillgången till datorteknik sker valet av den optimala trenden automatiskt. Med "manuell" bearbetning utförs valet av den optimala funktionen som regel på ett visuellt sätt - av platsen för korrelationsfältet. Det vill säga, beroende på typen av diagram väljs linjens ekvation, som är bäst lämpad för den empiriska trenden (till den faktiska banan).

Som du vet finns det ett stort utbud av funktionella beroenden i naturen, så det är extremt svårt att visuellt analysera även en liten del av dem. Lyckligtvis, i verklig ekonomisk praxis, kan de flesta relationer korrekt beskrivas antingen med en parabel, en hyperbel eller en rak linje. I detta avseende, med det "manuella" alternativet för att välja den bästa funktionen, kan du begränsa dig till endast dessa tre modeller.

Hyperbel:

Parabol av andra ordningen: :

Det är lätt att se att i vårt exempel kännetecknas trenden i solrosavkastningsförändringar under de analyserade 10 åren bäst av en rät linje, så regressionsekvationen blir en rätlinjeekvation.

Tredje förfarandet. Parametrarna för regressionsekvationen som kännetecknar denna linje beräknas, eller med andra ord bestäms en analytisk formel som beskriver den bästa trendmodellen.

Att hitta värdena för parametrarna i regressionsekvationen, i vårt fall, parametrarna och , är kärnan i LSM. Denna process reduceras till att lösa ett system av normala ekvationer.

(9.2)

Detta ekvationssystem löses ganska enkelt med Gaussmetoden. Kom ihåg att som ett resultat av lösningen, i vårt exempel, hittas parametrarnas värden och. Således kommer den hittade regressionsekvationen att ha följande form:

Det används i stor utsträckning inom ekonometri i form av en tydlig ekonomisk tolkning av dess parametrar.

Linjär regression reduceras till att hitta en ekvation av formen

eller

Typ ekvation tillåter givna parametervärden X har teoretiska värden för den effektiva funktionen, och ersätter de faktiska värdena för faktorn i den X.

Att bygga en linjär regression handlar om att uppskatta dess parametrar − a och i. Uppskattningar av linjära regressionsparameter kan hittas med olika metoder.

Den klassiska metoden för att uppskatta linjära regressionsparametrar är baserad på minst kvadrater(MNK).

LSM tillåter en att erhålla sådana parameteruppskattningar a och i, under vilken summan av de kvadrerade avvikelserna för de faktiska värdena för den resulterande egenskapen (y) från beräknat (teoretiskt) minimiminimum:

För att hitta minimum av en funktion är det nödvändigt att beräkna de partiella derivatorna med avseende på var och en av parametrarna a och b och likställ dem till noll.

Beteckna med S, sedan:

Genom att transformera formeln får vi följande system med normala ekvationer för att uppskatta parametrarna a och i:

Genom att lösa systemet med normala ekvationer (3.5) antingen genom metoden för successiv eliminering av variabler eller genom metoden för determinanter, hittar vi de önskade parameteruppskattningarna a och i.

Parameter i kallas regressionskoefficienten. Dess värde visar den genomsnittliga förändringen i resultatet med en förändring av faktorn med en enhet.

Regressionsekvationen kompletteras alltid med en indikator på förhållandets täthet. När linjär regression används fungerar den linjära korrelationskoefficienten som en sådan indikator. Det finns olika modifieringar av den linjära korrelationskoefficientformeln. Några av dem är listade nedan:

Som ni vet ligger den linjära korrelationskoefficienten inom gränserna: -1 1.

För att bedöma kvaliteten på valet av en linjär funktion beräknas kvadraten

En linjär korrelationskoefficient kallas bestämningskoefficient . Bestämningskoefficienten kännetecknar andelen av variansen för den effektiva egenskapen y, förklaras av regression, i den totala variansen av den resulterande egenskapen:

Följaktligen kännetecknar värdet 1 - spridningsandelen y, orsakas av påverkan av andra faktorer som inte tagits med i modellen.

Frågor för självkontroll

1. Kärnan i minsta kvadratmetoden?

2. Hur många variabler ger en parvis regression?

3. Vilken koefficient avgör tätheten i sambandet mellan förändringarna?

4. Inom vilka gränser bestäms bestämningskoefficienten?

5. Uppskattning av parameter b i korrelations-regressionsanalys?

1. Christopher Dougherty. Introduktion till ekonometri. - M.: INFRA - M, 2001 - 402 sid.

2. S.A. Borodich. Ekonometri. Minsk LLC "New Knowledge" 2001.


3. R.U. Rakhmetova Kort kurs i ekonometri. Handledning. Almaty. 2004. -78 år.

4. I.I. Eliseeva Ekonometri. - M.: "Finans och statistik", 2002

5. Månadsinformation och analytisk tidning.

Icke-linjära ekonomiska modeller. Icke-linjära regressionsmodeller. Variabel konvertering.

Icke-linjära ekonomiska modeller..

Variabel konvertering.

elasticitetskoefficient.

Om det finns icke-linjära samband mellan ekonomiska fenomen, så uttrycks de med motsvarande icke-linjära funktioner: till exempel en liksidig hyperbel , paraboler av andra graden, etc.

Det finns två klasser av icke-linjära regressioner:

1. Regressioner som är icke-linjära med avseende på de förklarande variablerna som ingår i analysen, men linjära med avseende på de uppskattade parametrarna, till exempel:

Polynom av olika grader - , ;

Liksidig hyperbol - ;

Semilogaritmisk funktion - .

2. Regressioner som är icke-linjära i de uppskattade parametrarna, till exempel:

Kraft - ;

Demonstrerande -;

Exponentiell - .

Den totala summan av de kvadrerade avvikelserna för de individuella värdena för det resulterande attributet från medelvärdet orsakas av inverkan av många faktorer. Vi delar villkorligt upp hela uppsättningen av skäl i två grupper: studerade faktor x och andra faktorer.

Om faktorn inte påverkar resultatet är regressionslinjen på grafen parallell med axeln åh och

Då beror hela spridningen av det resulterande attributet på inverkan av andra faktorer och den totala summan av kvadrerade avvikelser kommer att sammanfalla med residualet. Om andra faktorer inte påverkar resultatet, då du band Med X funktionellt, och restsumman av kvadrater är noll. I det här fallet är summan av kvadrerade avvikelser som förklaras av regressionen densamma som den totala summan av kvadrater.

Eftersom inte alla punkter i korrelationsfältet ligger på regressionslinjen, sker deras spridning alltid som på grund av faktorns inverkan X, dvs regression X, och orsakas av verkan av andra orsaker (oförklarad variation). Regressionslinjens lämplighet för prognosen beror på vilken del av egenskapens totala variation står för den förklarade variationen

Uppenbarligen, om summan av kvadrerade avvikelser på grund av regression är större än restsumman av kvadrater, så är regressionsekvationen statistiskt signifikant och faktorn X har en betydande inverkan på resultatet. y.

, d.v.s. med antalet friheter för oberoende variation av funktionen. Antalet frihetsgrader är relaterat till antalet enheter av populationen n och antalet konstanter som bestäms utifrån det. I förhållande till det undersökta problemet bör antalet frihetsgrader visa hur många oberoende avvikelser från P

Bedömningen av regressionsekvationens betydelse som helhet ges med hjälp av F- Fishers kriterium. I detta fall läggs en nollhypotes om att regressionskoefficienten är lika med noll, d.v.s. b= 0, och därav faktorn X påverkar inte resultatet y.

Den direkta beräkningen av F-kriteriet föregås av en analys av variansen. Centralt för det är expansionen av den totala summan av kvadratiska avvikelser för variabeln från medelvärdet i två delar - "förklarat" och "oförklarat":

Totalsumman av kvadrerade avvikelser;

Summan av kvadrater av avvikelse förklaras av regression;

Restsumman av kvadrerad avvikelse.

Varje summa av kvadrerade avvikelser är relaterad till antalet frihetsgrader , d.v.s. med antalet friheter för oberoende variation av funktionen. Antalet frihetsgrader är relaterat till antalet befolkningsenheter n och med antalet konstanter bestämt från det. I förhållande till det undersökta problemet bör antalet frihetsgrader visa hur många oberoende avvikelser från P möjligt krävs för att bilda en given summa av kvadrater.

Spridning per frihetsgradD.

F-förhållanden (F-kriterium):

Om nollhypotesen är sann, då skiljer sig inte faktorn och restvarianserna från varandra. För H 0 är en vederläggning nödvändig så att faktorvariansen överstiger residualet med flera gånger. Den engelska statistikern Snedecor utvecklade tabeller med kritiska värden F-relationer på olika nivåer av betydelse av nollhypotesen och olika antal frihetsgrader. Tabellvärde F-kriterium är det maximala värdet av förhållandet mellan varianser som kan uppstå om de divergerar slumpmässigt för en given sannolikhetsnivå för närvaron av en nollhypotes. Beräknat värde F-förhållandet erkänns som tillförlitligt om o är större än den tabellformade.

I det här fallet förkastas nollhypotesen om frånvaron av ett förhållande av egenskaper och en slutsats görs om betydelsen av detta förhållande: F fakta > F-tabell H 0 avvisas.

Om värdet är mindre än tabellen F faktum ‹, F-tabell, då är sannolikheten för nollhypotesen högre än en given nivå och den kan inte förkastas utan en allvarlig risk att dra fel slutsats om förekomsten av ett förhållande. I detta fall anses regressionsekvationen vara statistiskt insignifikant. N o avviker inte.

Standardfel för regressionskoefficienten

För att bedöma betydelsen av regressionskoefficienten jämförs dess värde med dess standardfel, dvs det verkliga värdet bestäms t-Elevens test: som sedan jämförs med tabellvärdet vid en viss signifikansnivå och antalet frihetsgrader ( n- 2).

Parameter Standardfel a:

Signifikansen av den linjära korrelationskoefficienten kontrolleras baserat på storleken på felet korrelationskoefficient r:

Total varians för en funktion X:

Multipel linjär regression

Modellbyggnad

Multipel regressionär en regression av ett effektivt särdrag med två eller flera faktorer, det vill säga en modell av formen

Regression kan ge ett bra resultat vid modellering om påverkan av andra faktorer som påverkar studieobjektet kan negligeras. Beteendet hos enskilda ekonomiska variabler kan inte kontrolleras, det vill säga det är inte möjligt att säkerställa likvärdigheten mellan alla andra villkor för att bedöma inverkan av en faktor som studeras. I det här fallet bör du försöka identifiera påverkan av andra faktorer genom att introducera dem i modellen, dvs bygga en multipel regressionsekvation: y = a+b 1 x 1 + b 2 +…+b p x p + .

Huvudmålet med multipel regression är att bygga en modell med ett stort antal faktorer, samtidigt som man bestämmer inflytandet av var och en av dem individuellt, såväl som deras kumulativa inverkan på den modellerade indikatorn. Specifikationen av modellen omfattar två frågeområden: valet av faktorer och valet av typ av regressionsekvation

Redaktörens val
By Notes of a Wild Lady Det finns många blommor Vackra, diskreta. Men jag gillar all vanlig groblad. Det kan vara svårare för honom...

) en massabärande slowcore-grupp. I väntan på maj-turnén i landet ställde PARTYET sina ledare frågor om kreativitet och inte bara. Rundtur i...

Vitrysslands president föreslog att man i parlamentet skulle överväga frågan om att börja skolklasser inte klockan 8 utan klockan 9. "Timme...

För varje förälder vars barn gick i skolan är det viktigt att veta vilka regler utbildningsinstitutionen styrs av när man väljer en belastning ...
Svar: Allah den Allsmäktige sa: "Allah är verkligen Hög, Stor." Kvinnor 34
Den 12 oktober sattes nya sedlar på 200 och 2000 rubel i omlopp i Ryssland. Städerna som är avbildade på dem är Sevastopol och ...
Här samlas representanter för några ovanliga arter av grodor och paddor. Amfibier är ryggradsdjur som lever både i vatten och på...
Definition. En singular punkt i en funktion sägs vara isolerad om, i något område av denna punkt, är en analytisk funktion (dvs...
I ett antal fall, genom att undersöka koefficienterna för serier av formen (C) eller, kan det fastställas att dessa serier konvergerar (kanske exklusive enskilda punkter) ...