maandag 23 december 2013

2.2 De dataset voorbereiden voor bewerkingen met R

Bestand klaar maken voor gebruik


In dit deel wordt een uitgebreider bestand gebruikt als voorbeeld, het bestand Projecten.xls/Projecten.csv[1]. Ook hier is het belangrijk om na te gaan of het bestand geschikt is om te importeren voor analyse met R. Deze controle kunt u doen aan de hand van de 4 criteria die in het eerste deel worden genoemd:

  • Nauwkeurigheid.
  • Compleetheid.
  • Tijdigheid.
  • Consistentie.
Eerst moet het databestand worden geopend.

Een bestaand csv-bestand openen met OpenOffice.org Calc

Met OpenOffice.org Calc kunt u ook csv-bestanden openen. Omdat dit een bestand is dat alleen maar bestaat uit tekst, cijfers en tekens moet er van te voren ingesteld worden hoe het in de spreadsheet terecht komt.
U kunt een csv-bestand als volgt openen met OpenOffice.org Calc:
  1. Selecteer het csv-bestand dat u wilt openen met de rechtermuisknop. Klik op Openen met. en selecteer daar OpenOffice.org Calc.
  2. Het venster Tekstimport verschijnt, zie afbeelding 16.
    In dit venster is het gedeelte Opties voor scheidingstekens belangrijk. Hierbij kunt u namelijk aangeven wat er in dit csv-bestand als scheidingsteken moet worden gezien.
    Als het csv-bestand is opgeslagen met een komma als scheidingsteken, vinkt u hier alleen Komma en Tabulator (tabs) aan als scheidingstekens[2]. In het voorbeeld onderaan het venster ziet u een voorbeeld van hoe uw spreadsheet er uit gaat zien. In het voorbeeld in afbeelding 16 zijn de instellingen juist geselecteerd. Als dit ook bij u het geval is, klikt u op OK in het venster.
  3. Het csv-bestand wordt door OpenOffice.org Calc in de vorm van een spreadsheet weergegeven.
Afbeelding 16 Een csv-bestand met OpenOffice.org Calc openen en de Tekstimport instellen.
Afbeelding 16 Een csv-bestand met OpenOffice.org Calc openen en de Tekstimport instellen.


Uw databestand controleren in OpenOffice.org Calc
Als u met OpenOffice.org Calc een databestand of spreadsheet heeft geopend, kunt u cellen op maken door ze te selecteren en op de rechtermuisknop te klikken.
Hiermee opent u het venster Cellen opmaken (zie afbeelding 17). Hier kunt u de op verschillende manieren de opmaak van de cellen en vormen van de getallen wijzigen.

Het kan wel eens voorkomen dat u te maken heeft met decimalen. In het Nederlands worden decimale getallen achter een komma worden weergegeven.
R gebruikt hiervoor echter een punt in plaats van een komma (Engels-VS instelling). Met het venster Cellen opmaken kunt u onder het keuzemenu Taal voor Engels(VS) kiezen. Dit is de manier waarop R getallen leest en dus beter beschikbaar gemaakt om te analyseren.
Verder kunt u in het venster Cellen opmaken de categorieën van de cellen , zoals percentages en valuta, wijzigen. Het is aan te raden om voor het analyseren met R altijd te kiezen voor de categorie Getal.

Afbeelding 17 Cellen opmaken in OpenOffice.org Calc
Afbeelding 17 Cellen opmaken in OpenOffice.org Calc
Naar de volgende stap: 2.3 Een dataset importeren en omzetten in een matrix



[1] Zie op pagina 4 hoe u een xls-bestand opslaat als csv-bestand met een komma als scheidingsteken.
[2] Het kan voorkomen dat u ook Spatie moet instellen als scheidingsteken. Aan de hand van het voorbeeld dat in het venster Tekstimport wordt gegeven, kunt u zien wat in uw geval de juiste instelling is. 

Geen opmerkingen:

Een reactie posten