maandag 23 december 2013

1.4 De basisfuncties van R voor het analyseren van data

Basisfuncties voor analyseren met R.


In het vorige hoofdstuk wordt uitgelegd hoe er een variabele aangemaakt kan worden voor een databestand. Daarbij is ook uitgelegd hoe er van de aangemaakte variabele een matrix gemaakt kan worden met de code attach().

Samenvatting van het databestand weergeven in R:

Met de code summary(*naam van de variabele*) wordt er een samenvatting gegeven van het databestand die aan de variabele gekoppeld is. In afbeelding 5 wordt een voorbeeld gegeven van een samenvatting over het bestand Bloemenverkoop.csv.


Afbeelding 5 Samenvatting van het databestand en diverse statistische functies in R
Afbeelding 5 Samenvatting van het databestand en diverse statistische functies in R


Omdat het bestand is omgezet in een variabele, kan een samenvatting eenvoudig weergegeven worden met de code: summary(Bloemenverkoop). Na het drukken op Enter verschijnt de samenvatting van het bestand.
Onder de categorie Maand wordt simpelweg geteld hoe veel keer een betreffende maand in het bestand voor komt. Dit komt omdat de categorie Maand geen cijfers bevat, maar alleen namen van maanden. De categorie maand is hierom geen numerieke categorie maar een categorische categorie.

Merk op dat de variabele Bloemenverkoop ook weer bestaat uit een aantal variabelen, namelijk: Maand, Rozen, Tulpen en Viooltjes.

Over de categorieën Rozen, Tulpen en Viooltjes wordt de volgende informatie weergegeven:


Min. (Minimum) en Max. (Maximum):

Min. geeft aan wat het minimum is van een variabele. In het voorbeeld bij afbeelding 5 wordt aangegeven dat er in de minste maand 12 rozen zijn verkocht. Minder dan 12 rozen in een maand zijn er in het hele jaar niet verkocht omdat 12 het minimum is.
Hetzelfde geldt voor Max., dat aangeeft wat de verkoopcijfers zijn in de maand waar in het meeste aantal rozen zijn verkocht.


1st Qu. En 3rd Qu. en Median:

Hier worden het eerste en het derde kwartiel weergegeven van de categorie. Het eerste kwartiel wordt aangegeven met 1st Qu.. Bij het eerste kwartiel worden de laagste 25% van de getalswaarden bij elkaar opgeteld. Bij het voorbeeld in afbeelding 5 geeft 1st Qu. bij Rozen aan dat de 25% laagste verkoopaantallen bij elkaar 29 Rozen zijn. Bij het derde kwartiel 3rd Qu. worden de 25% hoogste verkoopaantallen opgeteld met 58,25 als uitkomst.
Median weergeeft de mediaan van de variabele, dit is in theorie het tweede kwartiel. Median geeft aan dat als de verkoopcijfers op volgorde van laag naar hoog worden gezet, wat het middelste getal zal zijn[1].


Mean:

Mean. geeft het gemiddelde aan van de categorie. In het voorbeeld van afbeelding 5 is het gemiddelde aantal verkochte rozen per maand 57,42.

Analyseren van data in R met grafieken en diagrammen:

Met R kan een databestand eenvoudig met verschillende statistische functies geanalyseerd worden. Door al het werk dat hiervoor is gedaan, zoals het aanmaken van variabelen en het maken van een matrix, kunnen de functies worden toegepast met eenvoudige codes. Hier worden een paar voorbeelden gegeven van de functies die gebruikt kunnen worden om het bestand Bloemenverkoop.csv te analyseren.


Histogram hist() weergeven in R:

Met de code hist(*variabele*), kunt u R een histogram laten weergeven van de variabele die u kiest. In afbeelding 6 wordt een histogram weergeven van de categorie Viooltjes. Hiervoor is de volgende code gebruikt: hist(Viooltjes)


Afbeelding 6 Histogram van de variabele Viooltjes in R
Afbeelding 6 Histogram van de variabele Viooltjes.


Grafiek plot() weergeven in R:

Met de code plot(*variabele 1*, *variabele 2*), kunt u R een grafiek laten weergeven van de variabelen die u kiest. In afbeelding 7 wordt een grafiek weergeven over de verkoop van het aantal tulpen per maand over het hele jaar. Hiervoor is de volgende code gebruikt: plot(Maanden, Tulpen).

Let op! De tussen de haakjes gaat de variabele op de x-as op plek 1 en de categorie voor de y-as op plek 2. Let ook op de hoofdlettergevoeligheid van R.


Afbeelding 7 Grafiek van de variabelen Maand en Tulpen in R
Afbeelding 7 Grafiek van de variabelen Maand en Tulpen in R



Cirkeldiagram pie() weergeven in R:

Met de code pie(*variabele*), kunt u R een cirkeldiagram laten weergeven van de categorie die u kiest. In afbeelding 8 wordt een cirkeldiagram weergeven van de categorie Rozen. Het valt op dat in maand 2, februari, veruit de meeste rozen zijn verkocht. Waarschijnlijk vanwege Valentijnsdag.


Afbeelding 8: Cirkeldiagram weergeven in R
Afbeelding 8: Cirkeldiagram weergeven in R



Analyseren van data in R met overige statistische functies:

Omdat het databestand gekoppeld is aan een variabele en er van de variabele een matrix is gemaakt, kunnen er met R eenvoudig overige statistische functies gebruikt worden om de data te analyseren. Achter een functie hoeft u namelijk telkens alleen maar de variabele die u wilt analyseren tussen de haakjes achter de code te zetten waarbij u na het drukken van Enter het resultaat krijgt. Op deze pagina vindt u de codes voor specifieke statistische functies. Hier worden de meest gebruikte statistische functies en codes besproken.

Let op! Bij het invoeren van statistische functies is het belangrijk om
te letten op de hoofdlettergevoeligheid, in afbeelding is te zien dat bij het invoeren van Max (met hoofdletter) een foutmelding geeft als resultaat. Codes voor statistische functies worden altijd ingevoerd met een kleine letter.



Afbeelding 9 Eenvoudige statistische functies uitvoeren met R
Afbeelding 9 Eenvoudige statistische functies uitvoeren met R



Gemiddelde/ mean() weergeven in R:

Het gemiddelde van een variabele kunt u berekenen met de code:
mean(*variabele*) In afbeelding 9 geeft de code mean(Rozen) het resultaat 57.41.667. Het gemiddeld aantal rozen verkocht per maand is 57.


Minimum/ min():

Het minimum van een categorie kunt u berekenen met de code min(*variabele*)In afbeelding 9 geeft de code min(Tulpen) het resultaat 12. In de maand waarin de verkoop van de tulpen minimaal was, zijn er 12 tulpen verkocht.



Maximum/ max():

Het maximum van een categorie kunt u berekenen met de code max(*variabele*) In afbeelding 9 geeft de code max(Viooltjes) het resultaat 67. In de maand waarin de verkoop van de viooltjes maximaal was, zijn er 67 viooltjes verkocht.

Merk op uit de afbeelding dat u ook berekeningen kunt doen met verschillende gegevens. In het voorbeeld dat wordt gegeven ziet u dat het minimum van de tulpen wordt verminderd met het gemiddeld aantal verkochte rozen waarbij de standaarddeviatie van het aantal verkochte viooltjes wordt opgeteld. Om het maken van berekeningen in de vingers krijgen kunt u experimenteren met het maken van berekeningen.


Totaal / sum():

Het totaal van een categorie kunt u berekenen met de code sum(*variabele*)[2]. In afbeelding 10 wordt het totaal aantal verkochte viooltjes weergegeven door middel van de code sum(Viooltjes). Het resultaat is 403, dat concludeert dat er in het jaar totaal (alle maanden in het databestand opgeteld) 403 Viooltjes zijn verkocht.

Bereik / range() :

De code range(*variabele*) weergeeft het bereik, het minimum en maximum, van de betreffende categorie. In afbeelding 10 wordt naar het bereik van de categorie Rozen gezocht met de code range(Rozen). Dit geeft het resultaat 12 216. Het minimum en maximum aantal rozen dat verkocht is in het betreffende jaar zijn respectievelijk 12 en 216.


Standaardafwijking(standaarddeviatie) / sd() en variantie / var()  :

De standaardafwijking en variantie worden gebruikt om de spreiding en mate waarin verschillende waarden van een categorie verschillen aan te geven. De standaardafwijking van een categorie kunt u vinden met de code sd(*variabele*) en de variantie met var(*variabele*). In afbeelding 10 wordt de standaardafwijking van de categorie Tulpen gevonden met de code sd(Tulpen). Dit geeft het resultaat 93,08008[3]. De variantie van de categorie Tulpen wordt gevonden met de code var(Tulpen) en geeft 8663,902 als resultaat (Valt het u op dat de standaarddeviatie de wortel is van de variantie?)

Afbeelding 10 Overige statistische functies uitvoeren met R
Afbeelding 10 Overige statistische functies uitvoeren met R



Correlatie / cor() :

Met de correlatie-functie kunt u de samenhang vinden tussen twee verschillende variabelen of in dit geval categorieën. Een correlatie van 1 staat hierbij voor een perfecte positieve samenhang, een correlatie van -1 staat voor een perfecte negatieve samenhang. Een correlatie van 0 betekent geen samenhang.
Om de correlatie tussen twee verschillende variabelen of categorieën te vinden gebruikt u de volgende code: cor(*naam1*,*naam2*). In afbeelding 10 wordt de correlatie tussen de verkopen van rozen en viooltjes opgezocht met de code cor(Rozen,Viooltjes), dit heeft 0.5384868 als uitkomst. Er is in dit databestand dus een enige vorm van samenhang tussen verkoop van rozen en viooltjes.



Getallen of gegevens weergeven/opzoeken uit de matrix

Als u informatie over gegevens wilt weergeven over een bepaalde fractie van een categorie, heeft R hier ook codes voor. Hiervoor typt u als eerst de betreffende variabele in. Daarachter typt u tussen de vierhoekige haakjes de rij, de kolom of het interval dat u wilt weergeven. Aan de hand van een paar voorbeelden wordt laten zien hoe u dit kunt doen.

Interval / *naam variabele van het databestand*[interval] :

In afbeelding 10 wordt er met de code Rozen[2:5] verkoopcijfers van de rozen weergeven voor de maanden februari tot en met mei. De verkopen voor deze maanden zijn respectievelijk 216, 23, 31 en 43 geweest.

Rijen / * naam variabele van het databestand *[*naam van de rij*, ] en kolommen / *naam variabele van het databestand*[,*naam van de kolom*]:

Als u informatie uit een bepaalde rij wilt weergeven gebruikt u de code
* naam variabele van het databestand *[*rijnummer*, ]. In afbeelding 10 worden de gegevens over de maand februari (rij 2) weergegeven met de code Bloemenverkoop[2, ]. Er wordt weergegeven dat er in de maand februari 216 rozen, 54 tulpen en 13 viooltjes zijn verkocht. Dit kunt u ook doen met de code Bloemenverkoop[februari, ]
U kunt ook informatie vinden over kolommen, in dit geval de categorieën van de bloemen. In afbeelding 10 wordt met de code Bloemenverkoop[ ,3] informatie gegeven over de derde kolom, in dit geval Tulpen. Dit kunt u ook doen met de code Bloemenverkoop[ ,”Tulpen”].

Op deze manier kunt u eenvoudig naar specifieke informatie zoeken uit het databestand. Als u bijvoorbeeld wilt weten hoeveel rozen er in november zijn verkocht gebruikt u de code Bloemenverkoop[november,’Rozen’].[4]

Afbeelding 12 Specifiek informatie zoeken uit het databestand.
Afbeelding 12 Specifiek informatie zoeken uit het databestand.


Let op! Gebruik altijd de naam van de variabele waaraan het databestand gekoppeld is in deze code. De namen Matrix of m werken niet en geven een foutmelding.

Naar de volgende stap1.5 Een R-sessie opslaan en laden



[1] Als er geen middelste getal is, weergeeft de mediaan het gemiddelde van de middelste twee getallen.
[2] Hier ziet u uiteindelijk waarom het verstandig is om in het excel- of csv-bestand de totalen van de categorieën weg te halen. Als u de totalen heeft laten staan telt de sum-functie ook het totaal bij de maanden op. Hierdoor wordt met de sum-functie het totaal twee keer zo veel weergegeven.
[3] Bij geavanceerde en handmatige statistische berekeningen zijn de standaardafwijking en variantie redelijk belangrijke waarden, bijvoorbeeld voor het berekenen van een betrouwbaarheidsinterval. Voor deze cursus zijn de standaardafwijking en variantie echter niet belangrijk, maar is het wel handig om te weten dat u deze eenvoudig kunt vinden met de daarbij horende codes. Handmatig berekenen van de variantie en standaardafwijking neemt namelijk veel tijd in beslag.
[4] De naam van de variabele die u wilt opzoeken moet u tussen aanhalingstekens plaatsen. 

Geen opmerkingen:

Een reactie posten