practica quanti (2018)

Apunte Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Sociología - 1º curso
Asignatura Mètodes quantitatius
Año del apunte 2018
Páginas 11
Fecha de subida 13/01/2018
Descargas 0
Subido por

Vista previa del texto

Facultat de Ciències Polítiques i de Sociologia Grau de Sociologia Mètodes Quantitatius de Recerca Social Pràctica 1. Introducció a R1 L’objectiu d’aquesta primera pràctica és presentar les principals característiques del programari R i de la seva utilització a partir de senzills exercicis de reconeixement de l’entorn de treball.
Una vegada realitzada la pràctica, desareu un arxiu amb els resultats que us han sortit a la consola d’R i el lliurareu a través del Campus Virtual-Aula Moodle de l’assignatura. Nom de l’arxiu: CognomsNom_Practica1R.
1. Presentació d’R2 El programari R és un llenguatge de programació potent (del tipus “orientat a objectes”) i que serveix per a realitzar anàlisi estadística i representació de dades. Una definició alternativa d’R és que “és un paquet estadístic d’última generació al mateix temps que un llenguatge de programació” (Maurandi et al., 2013: 1). Cal destacar que R és un software lliure i obert, per tant, la seva utilització és totalment gratuïta i lliure. Actualment, aquest programa ha adquirit molta rellevància dins la comunitat científica a nivell internacional, fet pel qual és un clar candidat a esdevenir “lingua franca” en matèria d’anàlisi de dades, destacant que s’ha implantant ja en moltes universitats d’arreu del món i en l’àmbit empresarial.
Avui en dia podem fer estadística de moltes maneres, que van des de la utilització dels múltiples i diversos paquets estadístics3 a la utilització de les clàssiques fulles de càlcul (MS-EXCEL, OpenOffice Calc,...). Segons (Maurandi et al., 2013) els principals avantatges d’R són: - És lliure i la seva distribució es duu a terme sota la llicència GNU, de manera que hom pot utilitzar-lo i, a més a més, modificar-lo i millorar-lo.
- Aquest és un programa multiplataforma i, per tant, existeixen versions per Mac, iPhone, Linux, Windows, etc.
- A través del programari R, és possible analitzar qualsevol tipus de dades.
- Té una capacitat gràfica molt bona en relació als altres paquets estadístics.
- Destaca per la seva compatibilitat amb “tots els formats de dades” (txt, dat, csv, xls, sav, sas...), per tant es pot utilitzar per analitzar diverses bases de dades.
- És ampliable mitjançant extensions, anomenades ‘paquets’ (i existeixen anàlisis específics per a infinitat de disciplines).
- Actualment ja existeixen milers de tècniques estadístiques que s’han implementat en R, i segueixen augmentant dia rere dia.
1 Adaptació a R i Deducer de la pràctica amb l'autoria inicial de Pedro López-Roldán i realitzada en col·laboració amb Sandra Fachelli. Tanmateix es basa en el material docent introductori elaborat pel professorat del Departament de Sociologia: Ajenjo, M; López-Roldán, P.; Miguel, F.; Parcerisa, L.: Montes, A. (2014). RRS – R per a Recerca Social. Versió 0.6. Departament de Sociologia, UAB.
2 A l’adreça: http://pagines.uab.cat/plopez/content/r es poden consultar diverses referències bibliogràfiques i enllaços d’interès en relació al programari R.
3 http://en.wikipedia.org/wiki/List_of_statistical_packages 1 El sistema R emmagatzema a una memòria de treball tota la informació en forma “d’objectes”( pot ser un vector, un factor, el resultat d'una operació, una funció, un gràfic...). Tota aquesta informació està a l’anomenat workspace de la sessió actual. El workspace està a la memòria temporal (es perd en sortir de R), tot i que abans de sortir el programa demana si es vol desar l’espai de treball al disc dur de manera que en arrencar una nova sessió el podríem recuperar i es començaria a treballar exactament on es va deixar en la sessió de treball anterior.
Els objectes més rellevants al sistema d’anàlisi R són les dades, que obeeixen a estructures diferents. Els tipus de dades són: - Vectors: són un seguit de valors d’una dimensió que contenen valors numèrics, alfanumèrics i valors lògics.
- Factors: són vectors que contenen variables qualitatives o categòriques.
- Dataframe: és una generalització de les matrius on cada columna pot contenir tipus de dades diferents. Habitualment treballarem amb dataframe i els anomenarem també com a “base de dades” o “matriu de dades”.
- Matriu: són objectes de dues dimensions, amb files i columnes, que contenen valors d’un mateix tipus.
- Llistat: consisteix en un conjunt d'objectes, que poden ser iguals o diferents, i que poden tenir diferents dimensions i tipus de dades.
►R ja està instal·lat a les Aules d’Informàtica de CC. Socials de la UAB. Ara podeu obrir el programa (Darrera versió: R version 3.1.3). En ser un programari lliure és molt recomanable instal·lar-lo en els vostres ordinadors personals. Trobareu les passes per fer la instal·lació a: López-Roldán, P.; Fachelli, S. (2015). Metodología de la investigación social cuantitativa. Bellaterra (Barcelona): Dipòsit Digital de Documents, Universitat Autònoma de Barcelona. 1a. edició. (links al campus) Vista de la consola d’R Paquets addicionals Si bé és cert que amb la simple instal·lació d’R ja es disposa de moltes possibilitats, cal advertir de l’existència d’un gran nombre de mòduls de caràcter opcional, que s’anomenen paquets (packages). Els paquets “són col·leccions de funcions i dades”, i s’emmagatzemen a un directori del nostre PC que s’anomena library.
2 Paquet = noves funcions per a R + dades d’exemple Per tal de visualitzar els diferents paquets instal·lats cal utilitzar la instrucció: library (). En aquest sentit, serà necessari introduir la instrucció library () a dins la consola i pulsar [intro]. Una vegada haguem fet això se’ns obrirà una finestra anomenada “R packages available” on podrem visualitzar els diferents paquets.
Finestra R packages available Per tal de saber quins paquets tenim instal·lat al PC i, a més, estan carregats al sistema, a punt per ser utilitzats, existeix la instrucció: search () Vista consola R - search () Cal remarcar la distinció entre instal·lar i carregar un paquet, ja que no és el mateix. Els paquets carregats són el subconjunt de paquets instal·lats que s’han “activat”, tot carregant-los a la memòria RAM del PC per a la seva utilització immediata. Els paquets instal·lats s’han descarregat des de CRAN (Veure Annexe) al disc dur del nostre PC i estan disponibles per poder ser utilitzats.
Amb el programari R hi ha dues formes possibles de treball: 3 1. Interactivament. L'execució de les instruccions es realitza una a una, veient els resultats de cada acció. Això ho podem fer a través de: - L’editor de sintaxis de la finestra de la consola (tal com ja hem fet) en què cal escriure les instruccions en el llenguatge de comandaments d’R i s’executen.
- El sistema de menús de Deducer en què la instrucció s’elabora a través dels quadres de diàlegs i l’execució de les quals es produeix quan cliquem «OK». D’aquesta manera treballarem habitualment a l’inici i per a la realització d’algunes de les tasques que ens facilita Deducer (ho veiem seguidament).
2. Però també amb l’elaboració de programes de sintaxis o d’instruccions anomenats scripts4. Es pot elaborar un arxiu de sintaxis amb Deducer o amb d’altres interfícies especialment pensades per treballar amb comandaments o instruccions d’aquest programari, com R-Studio.
2. Deducer: interfície gràfica per a usuaris d’R Deducer és un complement del programari R: un paquet desenvolupat amb l’objectiu de convertir el sistema R en una alternativa lliure a d’altres programaris de pagament d'anàlisi de dades com SAS, SPSS, Stata o Minitab. És una interfície que compta amb un sistema de menús per editar les bases de dades, gestionar-les i manipular-les, així com analitzar-les.
Deducer està orientat cap a usuaris de SPSS amb nivell bàsic d’estadística.
Deducer proveeix una interfície gràfica per a usuaris d’R (JGR), encoratjant als usuaris no tècnics a aprendre i realitzar anàlisis sense necessitat de conèixer el llenguatge de programació d’R, alhora que permet l'ús del mateix sense limitar les opcions als usuaris ja experts en la matèria.
R = Programació estadística d’anàlisi R + JGR() + Deducer = Anàlisi estadística amb R mitjançant menús Consola, Menús i Visor de dades de Deducer Quan s’obre Deducer apareix la seva pròpia consola (diferent de la d’R), la qual explicarem tot seguit. Ara tenim un conjunt de nous menús: Data, Analysis, Plots.
Deducer s'estructura en dues finestres: la consola i el visor de dades.
1. La consola recull tots els menús per treballar amb les dades i realitzar les anàlisis estadístiques, alhora que també és per on es poden introduir els comandaments manualment (part inferior). A més és on es veuran els resultats de les anàlisis (part central).
Obrir document Desfer o refer Stop de l’execució d’instruccions Buscar 4 El que s’anomenaria treballar en mode batch o amb processament per lots en terminologia de l’antic sistema operatiu MS-DOS.
4 Crear nou document script Ajuda d’R Desa: Tot, Comandaments o Resultats de les anàlisis Retallar, copiar, enganxar Consola de Deducer La Consola no l’hem de tancar mai sense guardar la informació perquè perdríem el treball realitzat. Les bases de dades poden estar gravades en diferents formats.
 Com a objecte d’R. (.robj)  Com a espai de treball. Grava totes les bases de dades que hi ha obertes en un únic espai de treball (.rda o .rdata).
 Com a full de càlcul. Separat per comes (.clv).
 Com a fitxer de text. Separat per tabuladors (.txt).
 Com a base de dades (.dbf)  Com a fitxer Stata (.dta) ATENCIÓ: Quan treballem amb R no podem tenir els arxius o rutes en les carpetes amb noms accentuats o símbols estranys al món anglosaxó (ç, ñ, etc.).
És important tenir en compte que els missatges d’avís surten reflectits exclusivament a la Consola (en forma de sintaxi) i que per tant s’ha d’estar atent per a que no passin desapercebuts missatges rellevants, com per exemple, la invalidació d’algun procediment.
2. El visor de dades, molt semblat a un full de càlcul, és un segon espai on es poden veure i editar les dades i les variables amb les quals treballarem. Prèviament a l’obertura d’aquest sorgeix una primera pantalla on podrem escollir entre obrir una nova base de dades o 5 carregar una ja construïda. Des d’aquí és des d’on obrirem la matriu de dades amb la que vulguem treballar.
Data Viewer (crear una matriu de dades o carregar-la) Un cop carregada una base de dades s’obre el Visor de Dades (vista de dades i vista de variables) amb la forma següent: Exemple de Vista de variables És recomanable tenir sempre una còpia de la base de dades abans de començar a treballar com a mesura de seguretat.
►Exercici 1 Des del visor de dades de Deducer podeu obrir una base de dades. Cliqueu Open Data i seleccioneu la matriu Mundo95.rda (que podeu localitzar en el campus virtual).
Aquest arxiu a la finestra de l’editor de dades (Data Viewer) es visualitza de la forma següent: 6 Una matriu de dades és un conjunt de files i columnes a partir de la qual s’organitza la informació estadística. El format més habitual de matriu de dades és aquell en què cada línia, anomenada registre (record), constitueix un cas o unitat sobre el que se expressen els valors codificats corresponents a les variables considerades a les columnes - Quants casos té aquesta matriu de dades? Quantes variables? ►Exercici 2 Feu el mateix amb la matriu de dades CIS2987.rda. Les característiques de l’estudi 2987 del CIS es poden consultar a l’apartat de Cuestionario a: http://www.cis.es/cis/opencm/ES/1_encuestas/estudios/ver.jsp?estudio=14010 Una vegada oberta veureu com disposem de les dues matrius de dades o dataframes al desplegable Data Set.
- Veus la variable P0 a la matriu de dades? Quantes categories de resposta té? - I la variable P1? A les pràctiques de l’assignatura acostumarem a obrir arxius de dades existents i també crearem petites matrius per a realitzar alguns exercicis (propera sessió).
La interfície Deducer afegeix a R funcionalitats per a la realització entre altres de tasques les següents: - Carregar dades des d’arxius originals en diversos formats (txt, CSV, SPSS, etc.).
- Visualitzar les dades i els tipus de variables en el visor de dades per separat.
- Realitzar transformacions de les dades (recodificació, editar funcions, transformacions, traslladar, fusionar).
- Anàlisi estadística (taules de freqüències, comparació de mitjanes, taules de contingència, anàlisi de regressió, etc.).
- Una interfície gràfica d’usuari per a la creació de gràfics utilitzant el paquet ggplot2.
Deducer incorpora una pestanya d’ajuda (Help) que obre en una nova pestanya un dipòsit de materials d’ajuda i guia en el desenvolupament de les diverses tasques d’R. Aquest, a més d’informació en torn a les tasques pròpies d’R també afegeix informació corresponent a l’ús del programa Deducer i dels diversos paquets instal·lats en el programari.
7 Vista de recursos de la pestanya d'ajuda.
Tractament i anàlisi de dades: visualització de la informació a través de la consola La finestra de la consola recull tres tipus de materials: text ( amb les instruccions executades o missatges de resposta del programari), taules i gràfics.
►Exercici 3 Amb la matriu de dades CIS2987.rda i a través del menú “Analysis”, feu una taula de freqüències de la variable P31 que correspon al sexe de l’entrevistat.
A continuació feu un gràfic de barres d’aquesta variable a través del menú “Plots”.
Per obtenir les freqüències despleguem el menú “Analysis”, i cliquem sobre “Frequencies”: Apareix el quadre de diàleg que segueix. Al menú de variables de la dreta seleccionem la variable Sexe i la col·loquem al requadre de “Run Fequencies On” clicant sobre la icona 8 i finalment executem el procediment de treure les freqüències clicant sobre “OK”.
La taula de freqüències ens surt a la consola d’aquesta manera: Ara demanarem el gràfic de barres a través de “Plots / Template / bar” o “Plots / Quick / bar”, depenent de la versió de deducer. També ho podem fer o modificar aspectes del gràfic a través del “Plot Builder”: 9 De nou triem la P31 i la passem al requadre “X”: Si cliquem a sobre de “Run”, s’obtindrà el gràfic en una finestra independent, de la forma que apareix tot seguit.
10 Si volem desar els resultats de la sessió cal diferenciar els resultats de la consola dels resultats del gràfics.
Desem els resultats de la finestra de la consola mitjançant:  A través del menú: File / Save .
 Amb les tecles: Ctrl+S.
 Clicant sobre el botó .
En qualsevol cas ens demanarà el nom de l’arxiu i ens dóna 3 opcions per triar: Desem el gràfic5 des de la seva finestra a través de: File / Save as i escollim el tipus de format entre els següents: Els resultats de la consola i de la finestra dels gràfics també es poden copiar directament i enganxar en un processador de textos o en un full de càlcul.
Cal copiar cada gràfic generat per no perdre’l.
► Exercici 4 També amb la matriu de dades CIS2987.rda, demaneu les taules de freqüències de les variables següents: P10, P1101 a P1106, P30A i P33A.
Recordeu que el nom de les variables no ens informa sobre el contingut de les mateixes, per la qual cosa cal mirar el qüestionari per tal de tenir tota la informació de la variable, a l’adreça: http://www.cis.es/cis/export/sites/default/-Archivos/Marginales/2980_2999/2987/cues2987.pdf .
Observeu les taules de freqüències i determineu el nivell de mesura de les variables.
Deseu els resultats de la consola en un arxiu de nom CognomsNom_Practica1.rda, aquest arxiu el lliurareu després a través del Campus Virtual en l’espai indicat.
5 Si tenim instal·lat el Deducer RichOutput, l’arxiu de resultats, es generarà en format html extensió .htm i es pot visualitzar des de qualsevol navegador. Sinó apareixeria en format de text pla.
11 ...