Vad är en regressionsanalys och hur gör man?

Att vi blir mer datadrivna har knappast undgått någon, men hur går man från att samla in och spara stora mängder data till att faktiskt ta fram insikter och kunskap från den? Ett verktyg du kan använda är regressionsanalysen.

Illustration av en regressionsanalys

I den här artikeln får du reda på vad en regressionsanalys är, hur den används, och vad du ska tänka på när du analyserar din data.

Regressionsanalys hjälper dig att på ett enkelt sätt se samband i din data vilket gör det till användbart verktyg för att fatta välgrundade beslut. Enligt SCB använder du regressionsanalysen när du vill ta reda på vilka bakomliggande faktorer som styr ett visst resultat.

Det finns flera olika typer av regressionsanalyser, några av de vanligaste är:

Linjär regression: Den mest grundläggande typen av regressionsmodell. Som namnet antyder, antar den att förhållandet mellan variablerna är linjärt, vilket innebär att en förändring i den ena variabeln är konstant baserat på varje ändring i den andra variabeln.

Multipel regression: Denna typ av regressionsmodell innehåller mer än en oberoende variabel. Den används för att förutsäga värdet på den beroende variabeln baserat på värdena för flera oberoende variabler.

Logistisk regression: Denna typ av regression används när den beroende variabeln är binär (dvs. den kan bara anta två värden, som "ja" eller "nej"). Den används för att förutsäga sannolikheten att en händelse inträffar baserat på värdena för de oberoende variablerna.

Den vanligaste och enklaste formen av regressionsanalys är linjär regressionsanalys och det är den vi kommer lägga extra fokus på i den här artikeln.

Vad är linjär regressionsanalys?

Enligt Harvard Business Review är den linjära regressionsanalysen ett matematiskt sätt att sortera fram de variabler som har en verklig inverkan på utfallet.

Man kan säga att analysen hjälper till att svara på frågorna: Vilka faktorer har störst betydelse? Vilka kan vi ignorera? Hur interagerar dessa faktorer med varandra? Och, kanske viktigast, hur säkra är vi på alla dessa faktorer?

Regressionsanalys används för att undersöka sambandet mellan en beroende variabel och en eller flera oberoende variabler:

Beroende variabel (independent variable eller response variable) är en variabel som antas bero på värdet av en eller flera andra variabler, kända som oberoende variabler.

Oberoende variabel (dependent variable eller predictor variable) är en variabel där dess värde antas inte beror på värdet av någon annan variabel i analysen.

Syftet med regressionsanalysen är att försöka förklara hur mycket variansen i beroende variabeln kan förklaras av varianterna i den/de oberoende variablerna. Andra relevanta begrepp att hålla reda på är:

Korrelation: Anger inom statistiken styrkan och riktningen av ett samband mellan två eller flera variabler.

Kausalitet: Om kausalitet råder mellan två variabler, kallas det ena orsak och det andra verkan. Kausalitet benämns också som orsakssamband.

Varians: Ett mått på hur utspridd en uppsättning data är och hjälper till att förstå hur mycket de enskilda datapunkterna i en uppsättning skiljer sig från medelvärdet eller genomsnittet av uppsättningen. Varians är av central betydelse inom statistiken.

Koefficient: Ett numeriskt värde som beskriver styrkan och riktningen av sambandet mellan en oberoende variabel och den beroende variabeln. Koefficienter används i ekvationen för att bestämma riktningen på linjen som bäst passar datamängden.

Variabel: En variabel är ett mätbart attribut som kan variera, exempelvis en persons längd eller antal och pris på en vara.

När gör man linjär regressionsanalys?

Den linjära regressionsanalysen används vanligtvis när du vill förutsäga en kontinuerlig utfallsvariabel (t.ex. pris, temperatur, etc.) baserat på en eller flera variabler. Regressionsanalys är användbar för att förstå och analysera sambandet mellan variabler och för att göra förutsägelser baserade på det förhållandet. 

Regressionsanalysen är ett viktigt verktyg inom många områden. Exempelvis inom ekonomi, psykologi, medicin och marknadsföring, där det kan användas för att förutsäga hur olika faktorer påverkar ett mått på intresse.

Hur gör man en regressionsanalys?

För att göra en regressionsanalys, oavsett om den är linjär eller ej, måste du ha en datauppsättning med minst en oberoende variabel och en beroende variabel.

Generellt kan man beskriva stegen för en regressionsanalys så här:

1. Samla och organisera data: Se till att inkludera de oberoende och beroende variablerna i din datauppsättning. Som alltid, var noga med kvalitén på din data.

2. Välj lämplig regressionsmodell: Det finns flera olika typer av regressionsmodeller, inklusive linjär regression, multipel regression, logaritmisk regression, med mera. Välj den modell som passar din data bäst.

3. Uppskatta modellparametrarna: Använd statistiska tekniker för att uppskatta koefficienterna (dvs. lutningen och skärningen) för den bäst passande linjen eller kurvan. Det finns flera verktyg och program som hjälper dig med detta.

4. Utvärdera modellen: Använd statistiska tester för att avgöra hur väl modellen passar data och för att bedöma betydelsen av koefficienterna.

5. Analysera resultatet: Använd modellen för att se samband i din data och försöka göra förutsägelser om den beroende variabeln baserat på nya värden för den oberoende variabeln.

6. Finjustera modellen: Om modellen inte passar din data väl kan du behöva gå tillbaka och justera modellen och/eller samla in mer data.

Användning av linjär regressionsanalys – ett praktiskt exempel

Låt oss säga att du är en fastighetsmäklare och att du vill förutsäga försäljningspriset för ett hus baserat på dess storlek, antal sovrum, läge och byggnadsår. Då blir i det här fallet:

Beroende variabel:

  • Husets försäljningspris

Oberoende variabler:

  • Storlek
  • Antal sovrum
  • Läge
  • Byggnadsår

Genom att utföra en regressionsanalys kan du bestämma styrkan i sambandet mellan försäljningspriset och dessa andra variabler och använda information för att göra förutsägelser om försäljningspriset för liknande hus i framtiden. Med andra ord, hur stor påverkan har exempelvis antal sovrum för huset försäljningspris.

Utmaningar med att använda regressionsmodeller

Vanliga utmaningar som är bra att känna till och vara uppmärksam på när det kommer till att använda regressionsmodeller är:

Icke-linjära samband: Linjär regression förutsätter ett linjärt samband mellan beroende variabeln och oberoende variabeln, men så är kanske inte alltid är fallet i verkliga data. Om förhållandet mellan variablerna är olinjärt är möjligen en linjär modell inte att föredra kommer ge dig inte exakta förutsägelser.

Outliers: Outliers, eller extrema värden som skiljer sig väsentligt från resten av data, kan ha stor inverkan på lutningen och skärningen av linjen med bästa passform i en linjär regressionsmodell. Detta kan leda till felaktiga förutsägelser och en dålig anpassning av modellen till data.

Kollinearitet: Kollinearitet uppstår när två eller flera oberoende variabler är starkt korrelerade med varandra. Detta kan orsaka problem med tolkningen av koefficienterna för de oberoende variablerna, eftersom det kan vara svårt att urskilja varje oberoende variabels individuella bidrag till den beroende variabeln. Korrelation anger inom statistiken styrkan och riktningen av ett samband mellan två eller flera variabler.

Andra metoder och verktyg

Regressionsanalysen är en av de vanligaste metoderna inom det som kallas statistisk analys. Andra metoder är korrelationsanalys och variansanalys. Ett vanligt sätt att arbeta med analysen är i verktyg som Excel.

Men precis som inom andra processer som handlar om analys finns risken att arbetet då blir för manuellt och svårt att ta vidare i verksamheten. Många företag och organisationer väljer därför att arbeta med sin analys, uppföljning och rapportering i en bredare mjukvara med fler möjligheter.

Ta en titt denna 10 minuters videodemo genom att fylla i formuläret nedan: