Data klaarmaken voor gebruik met R
Databestanden zijn er in verschillende vormen en
maten. Bij de inleiding van deze manual is aangegeven hoe u een xls-bestand om
kan zetten naar een csv-bestand. R kan in zijn standaardvorm namelijk geen
xls-bestanden lezen, wel csv-bestanden.[1]
Controle.
Het is echter ook belangrijk om in het xls-bestand of
csv-bestand zelf te controleren of de data goed geschikt is om meet te analyseren.
Om te kunnen bepalen of de data van een goede kwaliteit is, kunnen de volgende
vier criteria gebruikt worden:
Nauwkeurigheid
Controle over de
juistheid en betrouwbaarheid van de data.
Tijdigheid
Controle of de
data up-to-date is of in ieder geval over de juiste tijd gaat.
Compleetheid
Controle of er
geen missende data is en de controle of het databestand breed en diep genoeg is
om analyses op uit te voeren.
Consistentie
Controle of bij
de data dezelfde waardes en termen gebruikt worden over de verschillende
databestanden en bronnen.
Transformatie.
Om een databestand zo goed mogelijk te kunnen
analyseren met R, is het verstandig om het bestand zo simpel en eenvoudig
mogelijk in te delen. Allerlei soorten tekst, kleurgebruik of afbeeldingen
kunnen het best uit het bestand verwijderd worden als u het met R wilt
analyseren. Zo voorkomt u mogelijke foutmeldingen of andere vervelende
complicaties bij R. In afbeelding 3
is een voorbeeld weergegeven van het eenvoudige bestand Bloemenverkoop.csv. Het bestand is al geconverteerd van xls-bestand
naar csv-bestand.
Afbeelding 3 Een eenvoudig csv-bestand in OpenOffice.org
Calc.
|
Let op! In de afbeelding is ook te
zien dat er in het bestand de totalen van de verkoop van de verschillende
bloemen worden weergegeven. R leest bij een csv-bestand de bovenste regel als
categorieën (hier dus Maand, Rozen, Tulpen en Viooltjes) en de overige regels
als data over die categorieën. R herkent hier de regel Totaal niet. Bij wijze van
spreken denkt R dat Totaal een dertiende maand is. Het is dus verstandig om de
regel Totaal te verwijderen. Dit levert in het verdere verloop bij het
analyseren geen problemen op, R kan naderhand namelijk alle totalen zelf weer
berekenen als daar om gevraagd wordt.
Naar de volgende stap: 1.3 De dataset in de R console downloaden
[1] Om R in staat te maken voor het
lezen van meer typen bestanden, kunnen er verschillende Packages worden geïnstalleerd. Op deze pagina van de manual wordt
kunt u zien hoe Packages kunnen
worden geïnstalleerd. Voor de vaardigheden met R die in deze cursus worden
geleerd hoeft u echter geen gebruik te maken van Packages.
Geen opmerkingen:
Een reactie posten