maandag 23 december 2013

1.2 De dataset voorbewerken voor analyse met R

Data klaarmaken voor gebruik met R


Databestanden zijn er in verschillende vormen en maten. Bij de inleiding van deze manual is aangegeven hoe u een xls-bestand om kan zetten naar een csv-bestand. R kan in zijn standaardvorm namelijk geen xls-bestanden lezen, wel csv-bestanden.[1]

Controle.
Het is echter ook belangrijk om in het xls-bestand of csv-bestand zelf te controleren of de data goed geschikt is om meet te analyseren. Om te kunnen bepalen of de data van een goede kwaliteit is, kunnen de volgende vier criteria gebruikt worden:

Nauwkeurigheid
Controle over de juistheid en betrouwbaarheid van de data.

Tijdigheid
Controle of de data up-to-date is of in ieder geval over de juiste tijd gaat.

Compleetheid          
Controle of er geen missende data is en de controle of het databestand breed en diep genoeg is om analyses op uit te voeren.

Consistentie
Controle of bij de data dezelfde waardes en termen gebruikt worden over de verschillende databestanden en bronnen.

Transformatie.
Om een databestand zo goed mogelijk te kunnen analyseren met R, is het verstandig om het bestand zo simpel en eenvoudig mogelijk in te delen. Allerlei soorten tekst, kleurgebruik of afbeeldingen kunnen het best uit het bestand verwijderd worden als u het met R wilt analyseren. Zo voorkomt u mogelijke foutmeldingen of andere vervelende complicaties bij R. In afbeelding 3 is een voorbeeld weergegeven van het eenvoudige bestand Bloemenverkoop.csv. Het bestand is al geconverteerd van xls-bestand naar csv-bestand.

Afbeelding 3 Een eenvoudig csv-bestand in OpenOffice.org Calc.
Afbeelding 3 Een eenvoudig csv-bestand in OpenOffice.org Calc.

Let op! In de afbeelding is ook te zien dat er in het bestand de totalen van de verkoop van de verschillende bloemen worden weergegeven. R leest bij een csv-bestand de bovenste regel als categorieën (hier dus Maand, Rozen, Tulpen en Viooltjes) en de overige regels als data over die categorieën. R herkent hier de regel Totaal niet. Bij wijze van spreken denkt R dat Totaal een dertiende maand is. Het is dus verstandig om de regel Totaal te verwijderen. Dit levert in het verdere verloop bij het analyseren geen problemen op, R kan naderhand namelijk alle totalen zelf weer berekenen als daar om gevraagd wordt.

Naar de volgende stap: 1.3 De dataset in de R console downloaden



[1] Om R in staat te maken voor het lezen van meer typen bestanden, kunnen er verschillende Packages worden geïnstalleerd. Op deze pagina van de manual wordt kunt u zien hoe Packages kunnen worden geïnstalleerd. Voor de vaardigheden met R die in deze cursus worden geleerd hoeft u echter geen gebruik te maken van Packages.

Geen opmerkingen:

Een reactie posten