Handleiding data analyseren met R: 2.7 Een enkelvoudige regressie analyse uitvoeren in R

Enkelvoudige lineaire regressieanalyse.

Met een regressieanalyse kunt u net als met de correlatie de samenhang tussen variabelen vinden. Bij een regressieanalyse krijgt u echter wel een formule waarbij u toekomstige uitkomsten over een variabele kunt voorspellen. Bij een regressieanalyse zit het hem vooral in de interpretatie van de uitkomst.

Variabelen in een regressie

In dit hoofdstuk beperken we ons tot de eenvoudige lineaire regressieanalyse. Dit betekend dat er een variabele wordt voorspeld aan de hand van een andere variabele. De voorspelde variabele wordt de afhankelijke variabele genoemd. De variabele waarmee de afhankelijke variabele voorspeld wordt, heet de verklarende variabele.

Code

De code die R gebruikt om een eenvoudige regressieanalyse uit te voeren is lm(*Afhankelijke variabele* ~*Verklarende variabele*, *variabele van de dataset*). U kunt elke numerieke variabele gebruiken voor de regressie. Echter kunt u met de ene combinatie beter voorspellingen doen dan met de ander.
Om de regressie te kunnen interpreteren, moet u de regressie in naam geven. Dit doet u met de code <- . Als u een regressieanalyse wilt uitvoeren en deze later wilt interpreteren gebruikt u dus de code *naam die u de regressie wilt geven* <- lm(*Afhankelijke variabele* ~*Verklarende variabele*, *variabele van de dataset*).[1]

Bij het voorbeeld in afbeelding 24 wordt de volgende code gebruikt Regressie1<-lm(TevredenheidKlant~Afstand.Klant, Projecten).

Afbeelding 24 Een regressieanalyse uitvoeren met R.

Het geschatte model
Bij het voorbeeld in afbeelding 24 wordt de tevredenheid van de klant verklaard met de afstand die tussen het bedrijf en de klant is. R geeft aan de hand van de regressie de volgende formule: TevredenheidKlant = 2.524811 + - 0,003409X, waarbij x staat voor het aantal kilometers. Deze formule heet het geschatte model. Als u alleen de naam van de regressie invoert, verschijnt het geschatte model.

De regressieanalyse uitvoeren
Met de code summary(*naam van de regressie*) krijgt u het overzicht van de regressie. Hierbij moet u kijken naar het gedeelte dat onder de tekst Coefficients staat. U ziet in achter de rijen (Intercept) en (Afstand.Klant) dezelfde waarden als in het geschatte model staan.[2]

In het voorbeeld van afbeelding 24 zijn dezelfde waarden te zien als bij de uitkomst van de regressieanalyse.

Significantie
Achter de rijen staan 3 sterren weergegeven. De sterren geven aan dat de betreffende rij significant is, dit wil zeggen dat het voor deze regressie van belang is dat deze variabele wordt gebruikt. Een aanduiding met één ster is al genoeg om aan te tonen dat de variabele significant is. Des te meer sterren achter de rij staan, des te meer significantie de variabele heeft.
Als er achter de betreffende rij geen sterren staan, is de variabele niet significant en kan het dus weg gelaten worden in de regressie. De variabele is dan niet verklarend genoeg in de regressie.

Voorspellingskracht van de regressie / Adjusted R-squared[3]
In het resultaat vindt ook de Adjusted R-squared. Deze geeft de voorspellingskracht van het geschatte model aan. Het percentage dat het geschatte model juist voorspelt wordt achter de Adjusted R-squared weergegeven in decimalen. Een Adjusted R-squared van 1 betekent dus dat 100% van de voorspellingen die met het geschatte model gedaan worden juist zijn. Een Adjusted R-squared van 0,5 betekend dat 50% van de voorspellingen die met het geschatte model gedaan worden juist zijn.
Het is aan de gebruiker zelf om te beoordelen, aan de hand van Adjusted R-squared, of het geschatte model goed genoeg is. Over het algemeen is een model met een Adjusted R-squared boven de 0,5 een redelijk model.

Bij het voorbeeld dat wordt gegeven in afbeelding 24 is de Adjusted R-squared 0.1041. Dit betekent dat in 10,41% van de gevallen het geschatte model de tevredenheid van de klant juist voorspeld. Omdat dit vrij laag is kan het geschatte model TevredenheidKlant = 2.524811 + - 0,003409x als slecht beoordeeld worden.

In afbeeldin25 wordt er een andere regressie uitgevoerd. Hier wordt er naar een voorspellingsmodel gezocht om de opbrengst van het project te voorspellen met het aantal uren dat er in is gestoken.
Hiervoor wordt de volgende code gebruikt Regressie2<-lm(OpbrengstProject~UrenProject, Projecten).

Door de code Regressie2 in te voeren, komt het volgende geschatte model tevoorschijn: OpbrengstProject = 0 + 40X. Hierin is x het aantal uren dat er in het project wordt gestoken.

Met de code Summary(Regressie2) komen de gegevens van de regressie tevoorschijn. Daarin is te zien dat alleen de variabele Uren Project significant is (Intercept kan net zo goed weggehaald worden omdat deze 0 is).
Verder is te zien dat de Adjusted R-squared gelijk aan 1 is. Dat wil zeggen dat met het geschatte model 100% betrouwbaar is. Dit is logisch want blijkbaar rekent het bedrijf 40 per uur en stijgt de opbrengst met 40 voor elk uur dat er in het project gestoken wordt.

Afbeelding 25 Een nieuwe regressieanalyse uitvoeren met R.

Naar de volgende stap: 2.8 Een meervoudige lineaire regressie analyse uitvoeren in R

[1] U hoeft niet constant de regressie een andere naam te geven. Als u dezelfde naam gebruikt voor nieuwe regressie, wordt deze over de andere regressie opgeslagen. Als u uw oude regressie dus wilt bewaren moet u voor de volgende regressies wel andere namen kiezen.

[2] Op de kolommen Std.Error, t value en Pr(>ItI) hoeft u niet te letten. De waarden onder deze kolommen zijn voor sommige statistische berekeningen van waarde, echter niet in deze cursus.

[3] Word ook wel de determinatie coëfficiënt genoemd.

Handleiding data analyseren met R

Pagina's

maandag 23 december 2013

2.7 Een enkelvoudige regressie analyse uitvoeren in R

Enkelvoudige lineaire regressieanalyse.

Variabelen in een regressie

Code

Geen opmerkingen:

Een reactie posten