maandag 23 december 2013

2.9 Een eenvoudige of meervoudige lineaire regressie analyse uitvoeren met R met categorische variabelen

Meervoudige of enkelvoudige regressieanalyse met categorische variabelen.


In de vorige twee hoofdstukken is er een regressieanalyse gedaan met numerieke variabelen, variabelen met een numerieke waarde. Het kan wel eens voorkomen dat u in een databestand niet-numerieke variabelen of waarden tegenkomt. Deze worden categorische variabelen genoemd. Dit zijn variabelen die namen of categorieën bevatten.

Het voorbeeldbestand

Bij de laatste twee hoofdstukken wordt er in de voorbeelden gebruik gemaakt van het databestand Projecten2.csv.
U kunt zien dat het dezelfde data bevat als het bestand Projecten.csv.Echter zijn er aan dit bestand 3 nieuwe, categorische, variabelen toegevoegd: Werkgroep(A,B of C), Maand (januari t/m december) en TypeProject(Alfa, Beta, Gamma, Delta).

Afbeelding 27 Het nieuwe databestand Projecten 2 importeren.
Afbeelding 27 Het nieuwe databestand Projecten 2 importeren.


De code

De code die gebruikt wordt voor een regressieanalyse met categorische variabelen verschild niet veel met de regressie met alleen numerieke variabelen.
Het verschil is dat de categorische variabele in de code omgezet moet worden in een numerieke variabele. Dit gaat met de code factor(*naam van de categorische variabele*). Dit stukje code moet u in de regressie toepassen. Om dit duidelijk aan u te kunnen laten zien, wordt hier een voorbeeld voor gebruikt.

Enkelvoudige regressieanalyse met categorische variabelen

Bij het voorbeeld in afbeelding 28 wordt de afhankelijke variabele Winst voorspeld met de verklarende variabele Werkgroep. Omdat werkgroep een categorische variabele is en er voor een regressieanalyse met numerieke waarden gerekend moet worden, moet de categorische variabele Werkgroep omgezet worden in een numerieke variabele. In het voorbeeld wordt dit gedaan met de volgende code: Regressie<-lm(Winst~factor(Werkgroep), Projecten2). Door Regressie in te toetsen wordt het geschatte model gepresenteerd. Het geschatte model bij deze regressieanalyse is Winst = 1479.1 +( 0 A) + (1987 B) + (4097.1 C) [1]. Hierbij wordt alleen de waarde opgeteld voor de betreffende werkgroep. Als de winst dus geschat moet worden als Werkgroep C het project doet, is de berekening: 1479.1 + 1987 = 3.466.1. Door de code summary(Regressie) wordt de regressieanalyse gepresenteerd.
U kunt zien dat het de code factor() in de code van de regressie wordt geplaatst. Het kan gezien worden als een kleine toevoeging aan de categorische variabele.
Meervoudige regressieanalyse met categorische variabelen
Een regressieanalyse uitvoeren met meerdere categorische variabelen gaat volgens hetzelfde principe als bij een enkelvoudige regressieanalyse met categorische variabelen. Hiervoor gebruikt u de volgende code *naam van de regressie*<-lm(*Afhankelijke variabele*~ factor(*Verklarende variabele 1*) + as.numeric(*Verklarende variabele 2*)+ factor(*Verklarende variabele x…*), variabele van het bestand).
Bij het voorbeeld in afbeelding 28 ziet u dat de afhankelijke variabele Winst voorspeld wordt met de verklarende variabelen Werkgroep en Type.Project. Hiervoor wordt de volgende code gebruikt:
Regressie<-lm(Winst~factor(Werkgroep)+as.numeric(Type.Project), Projecten2).

Afbeelding 28 Categorische variablen bij de regressieanalyse gebruiken.
Afbeelding 28 Categorische variablen bij de regressieanalyse gebruiken.

Door Regressie in te voeren verschijnt het geschatte model: Winst = 2706 + (0 A) + (1123 B) +(3274 C) + (-1121 Beta)+ (-2562 Delta) + (-140 Gamma). Ook in deze regressie met categorische variabelen wordt alleen de waarde opgeteld als de categorie van toepassing is. Als bijvoorbeeld de winst voorspeld moet worden als werkgroep C type project Gamma gaat doen, is de voorspelde winst 2706 + 3274  -140 = 5840.
Door de code summary(Regressie) in te voeren, wordt de regressieanalyse gepresenteerd.
Aan de rijen van variabelen kunt u zien dat niet alle variabelen even significant zijn. Bij het voorbeeld in afbeelding 29 is de rij met de factor Gamma bijvoorbeeld niet significant. Dit betekend dat de voorspellingen die worden gedaan als gamma er bij wordt betrokken, niet erg betrouwbaar zijn. Het is niet erg om de factor Gamma in de formule te laten staan, maar de voorspellingen die worden gedaan met betrekking tot Gamma zijn niet betrouwbaar.
Afbeelding 29 De meervoudige regressieanalyses met categorische variabelen interpreteren.
Afbeelding 29 De meervoudige regressieanalyses met categorische variabelen interpreteren.

De Adjusted R-square van 0.5759 laat zien dat de kwaliteit van het geschatte model redelijk hoog is.


- EINDE VAN DEEL 2 -


[1] U vraagt zich misschien af waarom de waarde bij A nul is. Deze zit al in de Intercept (1479) verwerkt.

Geen opmerkingen:

Een reactie posten