Introducción.

La propuesta que aquí ofrecemos consta de una serie de módulos que guiarán a los interesados por las distintas etapas de la investigación de fenómenos sociales utilizando herramientas de análisis cuantitativo. El abordaje es práctico, orientado a resolver los problemas y dudas que surgen cuando se investigan estos fenómenos. La perspectiva es aplicada, queremos que los resultados de su investigación contribuyan de manera clave al logro de los objetivos de su organización. Lo haremos ofreciendo las herramientas teóricas, metodológicas y técnicas necesarias para conducir con éxito una investigación social, desde el diseño hasta la presentación de resultados, pasando la recolección de datos, exploración y análisis.

Valor agregado para las organizaciones.

La propuesta de valor que hacemos a su organización se realiza en el desarrollo más valioso de organización: el humano. Además de enseñar el uso de una colección de herramientas teóricas, metodológicas y técnicas aspiramos a transmitir un método de trabajo que ofrece consistentemente resultados de calidad. Destacamos los siguientes beneficios para su organización:

  • Mover al ámbito interno de la organización la formulación, diseño e implementación de proyectos de investigación en el área social, con el consiguiente ahorro en consultorías externas.
  • Explotar el potencial de información del que la organización ya dispone: sistematizarla, analizarla y obtener resultados.
  • Desarrollar buenos hábitos de manejo de la información, aplicables a proyectos de investigación y otros ámbitos de trabajo.

Modalidades y versiones.

Los módulos cubren todas las etapas del proceso de la investigación y, para una formación integral, se sugiere tomarlos en su totalidad en la modalidad diplomado. Quienes concluyan esta modalidad estarán en condiciones de conducir todas las etapas de una investigación social aplicada con métodos cuantitativos. Para la atención a problemas puntuales -desde la exploración del catálogo de métodos hasta la familiarización con algunos de ellos- se ofrecen modalidades más breves con objetivos puntuales. La cotización reflejará la cantidad de horas de clase. Cada modalidad tiene un cupo mínimo de estudiantes, siempre que se reúna ese mínimo el curso se abrirá a pedido de el o los interesados. Se abrirá la convocatoria para la modalidad diplomado anualmente por iniciativa del área de Educación Contínua del Instituto Mora, publicándose plazos y condiciones en la página web del Instituto.

Modalidades y objetivos.
Modalidades Perfil Objetivos Duración Cupo Mínimo
Curso Sensibilización Conocer los principales problemas y métodos, explorar el potencial 16hs 10
Curso/Taller Uso práctico Conocer el uso de las herramientas a nivel usuario, resolver problemas comunes 24hs 8
Taller Inmersión Familiarizarse con algunos métodos, aplicarlos a problemas nuevos 36hs 5
Diplomado Integral Conducir de principio a fin un proceso de investigación social. 90hs 15

Los módulos se organizan en tres bloques. El primero reúne a los módulos 1 a 3 y se enfoca en la epistemología de las ciencias sociales y el diseño de investigación. De este modo podrá delimitar su problema de investigación, formularlo de manera consistente con los supuestos epistemológicos y teóricos de las ciencias sociales, producir los datos que darán sustento empírico a sus resultados o utilizar de manera crítica datos ya disponibles. El segundo incluye los módulos 4 al 6 y se centra en los fundamentos del análisis de datos con el software R. Al concluirlo el usuario estará familiarizado con el uso del software libre R para análisis de datos y las técnicas básicas de análisis cuantitativo, descriptivas y de asociacióm. El tercer bloque cubre los módulos 7 al 9 y es de especialización, basado en métodos sofisticados en términos matemáticos y teóricos. El egresado conocerá y podrá poner en práctica métodos multivariados, modelado y automatización de procesos de análisis con R. Asimismo estará habilitado para el uso de paquetes avanzados de R.

Bloques y módulos.
Bloque Módulos Aplicaciones

Epistemología y diseño de investigación.

Formulación de un proyecto de investigación
Diseño de la investigación social
Diseño de instrumentos de recolección de datos

Identificación y diagnóstico de las necesidades de información en la organización.
Aprovechamiento de la información disponible.

Análisis de datos cuantitativos con R.
Exploración de datos cuantitativos con R
Análisis y manejo de datos con R
Análisis de correlación y regresión
Creación y administración de sistemas de información.
Diagnóstico de Programas de intervención.

Análisis de datos cuantitativos con R (avanzado)

Análisis multivariado
Técnicas de clasificación
Gráficos, reportes avanzados y programación.

Evaluación de impacto de programas. Identificación de poblaciones objetivo.

En todos los casos dejaremos de lado los “ejemplos de manual”, en los que los datos siempre están completos y todo marcha bien. Utilizaremos, en cambio, ejemplos y datos reales de investigaciones, para conocer desde un principio los desafíos de una investigación y aprender a resolverlos.

Público objetivo.

La propuesta está dirigida a funcionarios y personal técnico de organismos gubernamentales y no gubernamentales (Fundaciones, agencias de cooperación, empresas sociales, etc.), principalmente aquellos que se desempeñan en áreas de investigación o gestión de la información.
Para aprovecharlo sólo es necesario un nivel básico de matemáticas2 y no hay requisito mínimo de conocimientos de estadística: iremos desarrollando los conocimientos en cada módulo, siempre orientándonos a las necesidades prácticas de cada grupo y cada persona. Tampoco es requisito tener formación previa en ciencias sociales o en manejo de software estadístico, a menos que quiera tomar solamente el Bloque 3. El único requisito obligatorio es estar dispuesto y comprometido a participar en un espacio educativo dinámico y, sobre todo, muchas ganas de aprender.

Materiales de trabajo.

Cada uno de los módulos cuenta con una ficha de estudio en formato digital elaborada por el profesor especialmente para este curso y que refleja el enfoque y método que proponemos. Dicha ficha servirá al alumno de guía durante el curso y como material de referencia futuro. Asimismo incluye ejercicios prácticos para continuar el proceso educativo fuera del salón de clase, así como bases de datos sobre las que aplicar los conocimentos.
En todos los casos se proporcionará bibliografía complementaria en español e inglés para profundizar en los temas de interés. Para facilitar el aprendizaje práctico dentro y fuera del salón de clases sugerimos que cada participante traiga su propia computadora portátil, en la que podremos fácilmente instalar R y tener al alcance de la mano el material de estudio.

Software y manejo de la información.

El enfoque que proponemos es basado en datos -data driven-, es decir, ponemos a los datos en el centro de todos los procesos. Por lo tanto la familiaridad y el manejo de herramientas de software especializadas tiene un lugar privilegiado en la formación que ofrecemos. Hemos diagnosticado un problema: la mayoría de las organizaciones utilizan planillas de cálculo como Excel para la mayor parte de sus necesidades de registro, almacenamiento, manejo y análisis de datos. Esto se explica mejor por la fuerza de la costumbre y el desconocimiento de mejores herramientas que por su idoneidad. Las planillas de cálculos son propensas a errores silenciosos, carecen de funciones analíticas avanzadas y no tienen mecanismos intrínsecos para garantizar la reproductibilidad de resultados.3.
Para el análisis de datos proponemos herramientas de software libre (R y RStudio) que pondrán a su disposición los métodos más avanzados para el manejo, exploración y análisis de datos, así como la presentación de resultados con calidad profesional.4 R es un software libre, gratuito y de código abierto. Es decir, tendrá a su disposición las herramientas analíticas más poderosas de la actualidad sin gastar un centavo en licencias o instalar software pirata en sus computadoras. R es compatible con Windows, Mac y Linux y tiene bajos requisitos de hardware, casi cualquier computadora hecha en los últimos 5 años puede correr R sin problemas. Además R cuenta con documentación en castellano y una activa comunidad de usuarios y desarrolladores que lo están mejorando permanentemente.

Evaluación.

La evaluación dependerá de la modalidad elegida. Para la modalidad curso se tendrá en consideración la asistencia, resolución de los ejercicios para la casa y un examen de conocimientos básicos. La modalidad taller no se evalúa con un examen, sino con un ensayo final breve en el que se pongan en práctica los conocimientos adquiridos. La modalidad diplomado considera la asistencia, un examen por cada bloque y un reporte final en el que se apliquen los conocimientos adquiridos a un trabajo. Este reporte final puede llevarse a cabo en equipos, reflejando el carácter colectivo del trabajo de análisis de datos.

Módulo 1. Formulación de un proyecto de investigación social.

La investigación social tiene algunos desafíos y limites que le son propios y se derivan del tipo de objetos de investigación que construye. Sus fundamentos epistemológicos son distintos a los convencionales en las ciencias lógicas y naturales y esto está dado por un hecho fundamental: el investigador y el investigado comparten el mismo medio, pueden comunicarse. Si bien usamos términos como “medición” o “causa-efecto” el sentido que le damos es diferente al de uso común en otras ciencias. “Medir” en muchos casos no es registrar atributos inmutables de los objetos. Para la ciencia social es registrar estados subjetivos, opiniones, gustos, preferencias que pueden ser volátiles. La validez de la noción de “causalidad” tampoco tiene un consenso entre los científicos sociales. Nuestros intentos de establecer cadenas causales necesarias chocan -afortunadamente- contra el hecho de que los seres humanos estamos dotados de agencia, de la capacidad de cambiar el curso de nuestras vidas dentro de ciertos marcos.
Para lograrlo el primer paso es formular con claridad nuestro proyecto. Es fundamental aclararnos a nosotros mismos qué es lo que queremos saber y cómo haremos para saberlo. La respuesta a esta y otras preguntas dan como resultado un proyecto de investigación claramente formulado que servirá guía en todo el proceso. Una forma de no perder nunca de vista los objetivos de la investigación es formulando una pregunta. De esa pregunta general surgirán preguntas derivadas, a cada una le asignaremos tareas que iremos llevando a cabo hasta alcanzar el objetivo. Formular un proyecto también es organizar el trabajo: delimitar responsabilidades, fijar plazos, identificar puntos críticos.

En la práctica: Hemos identificado que, a pesar de nuestros mejores esfuerzos, uno de los programas de nuestra organización no está logrando la cobertura que esperábamos. Consultando a expertos en la materia identificamos dos posibles causas de la baja cobertura, que formulamos como dos hipótesis: 1) las estrategias de comunicación no están funcionando y la población objetivo no se entera de la existencia del programa y 2) los procedimientos para acceder al programa requieren ciertas habilidades y recursos carentes en la población objetivo: aunque estén al tanto de la existencia del programa no pueden convertirse en beneficiarios. Formularemos el proyecto de investigación Barreras de acceso al programa X, que atenderá simultáneamente ambas hipótesis. Lo haremos diseñando e implementando una encuesta que se administrará a una muestra de la población objetivo, incluyendo a beneficiarios y no beneficiarios. Comparando ambos grupos identificaremos diferencias relevantes entre ellos que hacen que unos accedan al programa y otros no. Si encontramos, por ejemplo, que los beneficiarios ven principalmente televisión mientras que los no beneficiarios se informan escuchando radio podemos concluir que un spot televisivo no es el mejor estrategia para difundir nuestro programa. Si encontramos, en cambio, que hay diferencias significativas en los niveles de escolaridad de beneficiarios y no beneficiarios inferimos que los trámites complicados son una barrera que impide la entrada de personas con menor nivel educativo.

1.1. El diseño de la investigación social: fundamentos epistemológicos.

Lo dicho en la introducción a este módulo no cuestiona en modo alguno la validez y el carácter científico del conocimiento producido por las ciencias sociales, sólo señala su especificidad. El constructivismo que proponemos no supone que dé lo mismo hacer las cosas bien o mal, argumentando que al fin y al cabo todo es una construcción social. Como una casa, podemos construir al conocimiento con los mejores materiales y técnicas o con técnicas y materiales defectuosos. Y en ambos casos si lo hacemos mal tarde o temprano se nos caerá el edificio encima.

  • Constructivismo social.
  • Individualismo y holismo metodológicos.
  • La ética de la investigación social.

1.2. Delimitación del problema de investigación.

No todos los problemas pueden atenderse a través de la investigación social y aún en aquellos en los que es posible necesitamos previamente delimitarlos de manera cuidadosa. Si planteamos nuestro problema en términos muy generales en el proceso de la investigación perderemos seguramente el rumbo y nos iremos “por las ramas”. Si lo planteamos de manera muy restrictiva alcanzaremos seguramente con facilidad nuestros resultados, pero seguramente serán triviales y no muy útiles.

  • ¿Sobre qué queremos saber más?
  • ¿Es posible saberlo a través de una investigación empírica?
  • ¿Cuál es el ámbito más propicio para estudiar el fenómeno en cuestión?
  • ¿En qué momento lo estudiaremos?

1.3. Evaluación y aprovechamiento de los antecedentes.

Con toda certeza hay algunos antecedentes sobre el tema que se propone investigar. No aprovecharlos sería sumamente costoso, los antecedentes son una fuente de inmensa de conocimientos acumulados que le servirán para delimitar mejor su problema, proponer hipótesis o desarrollar indicadores. También le permitirán conocer hasta donde llega el conocimiento actual sobre el tema y en qué direcciones es conveniente extenderlo.
En la actualidad las bases de datos de revistas científicas en línea ponen a su disposición buena parte de este conocimiento, con referencias directas a los autores y como resultado de un minucioso proceso de dictamen. Son algunas de las fuentes más fiables que podemos encontrar en el Internet.
Por último, no hay nada de malo en emplear las ideas de otras personas, todo lo contrario. Los científicos publicamos nuestros resultados para que sean útiles y nada refleja mejor la utilidad de nuestro trabajo que ver a nuestras ideas puestas en práctica. Sólo utilice correctamente las citas para dar crédito a quién le está ofreciendo semejante ayuda y evitará incurrir en el plagio.

  • Marco teórico y estado del arte.
  • Plataformas de búsqueda de artículos en revistas científicas de ciencias sociales (Jstor, Elsevier, Redalyc).
  • Sistematización de antecedentes.
  • Uso correcto de las citas.

Módulo 2. Diseño de la investigación social.

No importa la capacidad de análisis cuantitativo que tenga, si la investigación no está bien diseñada simplemente no logrará sus objetivos. El diseño nos permite poner en operación el proyecto que hemos formulado, nos señala métodos y caminos probados para lograrlo y da claridad a lo que podemos -y no podemos- esperar como resultado de nuestra investigación. En el diseño las hipótesis generales pasan a ser hipótesis empíricas, aquellas que podremos poner a prueba con datos. Esto es válido cuando usamos fuentes de información de segunda mano, pero especialmente cuando estamos desarrollando nuestro propio instrumento y tenemos -casi- todas las posibilidades al alcance de la mano.

En la práctica: Los resultados del proyecto Barreras de acceso al programa X no fueron concluyentes: pudimos descartar al nivel educativo como un factor, pues en el grupo de beneficiarios y en el de no beneficiarios hay proporciones similares de personas con distintos niveles educativos. El análisis de la difusión televisiva, sin embargo, nos dejó algo perplejos. Hay un número muy bajo de espectadores televisivos hombres entre los beneficiarios y una proporción alta de mujeres. Una hipótesis es que el spot del programa X se transmite en horarios en los que ven TV principalmente mujeres. Para probar la hipótesis deberemos conocer los hábitos televisivos de la población objetivo y, de paso, conocer la efectividad de la TV como medio de difusión de programas sociales. Diseñaremos un experimento. Registraremos en una línea de tiempo la cantidad de beneficiarios que se han ido inscribiendo en el programa en tres Estados de la República relativamente similares entre sí por todo lo demás, A, B y C. En el Estado A iniciaremos un intensa campaña televisiva con spots durante juegos de fútbol, en el Estado B mantendremos la pauta publicitaria que teníamos y en el Estado C suspenderemos toda difusión por esa vía. El Estado B nos servirá de grupo control, a A y C le administraremos tratamientos diferentes. De este modo comparación del número de inscriptos durante el mes del experimento entre los Estados A y B vs. C nos indicará el efecto del factor difusión televisiva en el número de inscriptos, mientras que la diferencia en la composición de sexo de los nuevos inscriptos en los Estados A y B dilucidará el sesgo que impone el horario televisivo en las probabilidades de enterarse de la existencia del Programa X.

2.1. Tipos de diseño.

Muchas de las decisiones más importantes sobre el diseño de investigación dependerán de sus objetivos de investigación. Si quiere conocer cómo varía un fenómeno en un momento dado un diseño transversal es la mejor opción, si quiere saber cómo varía a lo largo del tiempo opte por un diseño longitudinal. En las ciencias sociales es poco frecuente que se realicen experimentos, en muchos casos por cuestiones éticas.5 Sin embargo los diseños cuasi-experimentos o el aprovechamiento de experimentos naturales pueden ayudarnos mucho a ponderar las causas que intervienen en un fenómeno, confiando en que el azar controlará a todas las demás.

  • Diseños exploratorios y explicativos.
  • Diseños transversales y longitudinales.
  • Diseños experimentales, cuasi-experimentales y experimentos naturales.

2.2. De la teoría a los datos: operacionalización de las variables.

Las teorías suelen expresar relaciones entre conceptos, generalmente abstractos. Por ejemplo, la teoría de la distinción del sociólogo Pierre Bourdieu sostiene que los bienes que consumimos expresan más los gustos de la clase social a la que pertenecemos que unos gustos propiamente individuales. Para hacer ciencia social empírica es necesario pasar de los conceptos abstractos a variables directamente medibles en un proceso que llamamos operacionalización. Siguiendo con el ejemplo anterior Bourdieu operacionalizó a la clase registrando la categoría laboral de sus encuestados -obreros, patrones, campesinos, etc.- y los gustos a través de una serie de preguntas sobre sus músicos favoritos, los lugares a los que salían a comer o el automóvil que poseían. En ambos casos construyó variables directamente medibles a través de preguntas en un cuestionario que reflejan la definición de los conceptos abstractos.

  • Variables, dimensiones e indicadores.
  • Más allá de los indicadores: la construcción de observables.
  • Variables proxy.
  • De los indicadores a los constructos. Construcción de una variable teórica a partir de muchas variables observadas.

2.3. Formulación de hipótesis.

No todas las investigaciones deben estar guiadas por una hipótesis. En los casos en lo que haya muy poco conocimiento sobre un tema quizás el objetivo de la investigación sea explorarlo y obtener como resultado un conjunto de hipótesis, que se probarán luego por otros medios. De todos modos la formulación de hipótesis es un esfuerzo necesario para aclarar todavía más nuestro diseño y hacer explícitas la expectativas del investigador sobre los datos con los que trabajará.

  • Hipótesis teóricas e hipótesis empíricas.
  • Consecuencias observables de las hipótesis.
  • Hipótesis de trabajo.
  • Hipótesis de nulidad.

2.4. Medición y niveles de medición.

Un paso adicional en el diseño es tener aclarar el tipo de datos que necesitaremos, sobre todo si estamos interesados en aplicar alguna procedimiento estadístico que requiere datos registrados en cierto nivel de medición. No podremos hacer un Análisis de Varianza sin al menos una variable continua o correlaciones policóricas con variables nominales. Además, es necesario conocer y distinguir nuestra unidad de análisis y nuestra unidad de observación: no siempre coinciden directamente y debemos planear estrategias para inferir a la primera a partir de la segunda.

  • Unidad de análisis y unidad de observación.
  • Niveles de medición de las variables.
  • Tipos de variables.

2.5. Confiabilidad y validez.

Un instrumento de medición es válido si realmente mide lo que debe medir y es confiable si, repitiendo la medición, arroja aproximadamente los mismos resultados. Una balanza puede ser muy confiable para medir el peso, pero no es válida para medir la estatura. Una pregunta en un cuestionario formulada usando palabras usuales en la Ciudad de México puede ser muy válido, pero no es confiable si se usa en contextos en los que esas palabras significan otras cosas.

  • Conceptos de confiabilidad y validez.
  • Confiabilidad interna y externa.
  • Validez de un constructo.

Módulo 3. Diseño de los instrumentos de recolección de datos (encuestas).

Una vez que sabemos qué es lo que queremos saber y hemos logrado formalizar el diseño (incluido el desarrollo de indicadores) es necesario reunir los datos que serán analizados y darán respuesta a nuestras preguntas. Una posibilidad es utilizar bases de datos ya existentes: información sistematizada de censos o encuestas que ya se han realizado, dentro o fuera de la organización. En este caso podremos ahorrarnos los pasos de diseñar, validar e implementar en campo nuestro instrumento, aunque deberemos ser muy cuidadosos y evaluar críticamente de la forma en que se construyeron los datos que vamos a utilizar. Es posible que los datos de una encuesta previa no estén creados con objetivos distintos a los nuestros, que las definiciones y construcción de indicadores de las variables sean diferentes a los que nuestra teoría señala. Aún para utilizar bases de datos de terceros necesitamos saber hacer un instrumento de recolección de datos. Sólo conociendo los detalles de este proceso podremos evaluar críticamente el trabajo de los demás. Sin embargo cabe la posibilidad de que no exista la información que nuestro diseño requiere, o que la disponible no sea suficientes. En esos casos deberemos diseñar, validar y hacer pruebas piloto de nuestro propio instrumento de recolección de datos. Esto implica no solamente generar un cuestionario con las preguntas y reactivos necesarios, también diagramar estrategias para que las respuestas se registren de manera estructurada, minimizando posibles errores y facilitando el análisis posterior. Este módulo se centra en un tipo de instrumento ampliamente utilizado en las ciencias sociales: la encuesta. El término encuesta remite a un tipo de instrumento de estandarizado que se aplica a toda una población estadística (censo) o a un subconjunto de esa población (muestra).

En la práctica: Nuestra organización quiere saber si las estrategias de comunicación de uno de sus programas está funcionando y por qué. Hasta ahora lo ha evaluado por el número de llamadas a un 0-800 destinado a tales fines, pero sabemos que muchos potenciales beneficiarios no disponen de línea telefónica o simplemente prefieren no llamar. Hacer una encuesta a población objetivo para preguntar si conocen el programa y otras preguntas que nos podrían dar información sobre por qué del conocimiento/desconocimiento nos serviría mucho para mejorar las estrategias. Dado que nuestra organización tiene delegaciones en todo el país y personal calificado podemos llevar a cabo la encuesta internamente. El grupo encargado de esta tarea diseñará un cuestionario con preguntas relevantes, consultará con informantes clave si las preguntas son comprensibles en los contextos sociales y culturales en los que se aplicará, diseñará el proceso de captura y registro de datos, capacitará a los encargados de hacer las entrevistas y, durante el operativo de campo, visitará o llamará telefónicamente a algunos de los encuestados para verificar que el trabajo se está haciendo correctamente. El resultado será una base de datos que podremos analizar para dar respuesta a nuestras preguntas.

3.1. Diseño de cuestionarios de encuesta.

El cuestionario de encuesta se diseña tomando en cuenta nuestra pregunta de investigación (que seguramente contempla una o más variables) y los métodos de análisis que planeamos aplicar. Esto último es de gran importancia, pues debemos hacer coincidir el nivel de medición requerido por los métodos de análisis con el tipo de variables que se producirá nuestra encuesta.6 Es unidad cubre los siguientes temas:

  • Campos básicos de una encuesta.
  • Formulación de preguntas y reactivos.
    • Uso de los antecedentes metodológicos.
    • Lluvias de ideas.
    • Entrevistas y grupos de enfoque como generadores de reactivos y preguntas.
  • Preguntas abiertas y cerradas.
  • Uso de escalas Likert para crear variables ordinales.
  • Uso de subcuestionarios para poblaciones específicas (preguntas censuradas).

3.2. Validación de cuestionarios de encuesta y de base de datos.

Llevar una encuesta a terreno suele ser costoso en términos de recursos humanos, materiales y financieros. Usualmente tenemos una sola oportunidad para hacerlo y para aprovecharla al máximo deberíamos estar seguro de que nuestra mide correctamente lo que esperamos que mida y lo registre de una manera que nos será útil en el futuro. Para eso es necesaria la validación del instrumento. Esta unidad cubre los siguientes temas:

  • Validación semántica: ¿entienden los entrevistados las preguntas?7
  • Unidad de análisis y unidad de observación: ¿nuestros informantes tienen las respuestas?
  • De las preguntas a la base de datos ¿cómo quedarán registrados los datos de nuestra encuesta?
  • Pruebas piloto.
    • Criterios de selección de reactivos.
    • Identificación de problemas en la cadena de datos.
    • Identificación de problemas de entrada a campo.

3.4. Creación y administración de formularios en línea.

La existencia de herramientas para la creación y administración de encuestas en línea como Google Forms o SurveyMonkey ha revolucionado el campo de las encuestas, reduciendo los costos de implementación y vaciado de datos. Los formularios en línea hacen viables a las encuestas autoadministradas -en las que es el propio entrevistado/a el que completa el formulario- o facilitan el trabajo de nuestros encuestadores. En ese caso también permiten monitorear el trabajo de los encuestadores en tiempo real.

  • Alcances y límites de los formularios en línea: cuando usarlos y cuando no.
  • Diseño de formularios en las plataformas gratuita GoogleForms y SurveyMonkey.
  • Administración, implementación y recuperación de bases de datos en GoogleForms.

3.5. Operativo de campo.

Ya sea con un formulario en línea, con papel y lápiz o con una aplicación en dispositivos portátiles nos referimos al proceso de recolectar la información como operativo de campo. La simpleza o complejidad de un operativo de campo dependerá del tamaño y accesibilidad/inaccesibilidad de nuestra muestra8, así como del tipo de marco muestral. En cualquier caso es necesario formar un grupo de trabajo capacitado, con responsabilidades delimitadas y buena comunicación interna. Si los problemas que puedan aparecer a nivel terreno no se comunican oportunamente a quienes coordinan el trabajo no será sorprenderá a nadie que el resultado de la encuesta no sea el esperado. Para lograrlo deberá considerar al menos:

  • Capacitación del personal de campo.
  • Monitoreo del operativo de campo (y de los encuestadores).
  • Seguimiento y revisita.
  • Tazas de rechazo aceptables.

Módulo 4. Análisis de datos cuantitativos con R.

Consideramos que R es la plataforma más avanzada para el análisis de datos cuantitativos. R es al mismo tiempo un completo programa para análisis estadístico y un lenguaje de programación9, por lo que es extensible a través de librerías. Además R es open source y está basado en estándares abiertos y públicos, con el consiguiente ahorro en licencias de software y la seguridad de que sus datos siempre serán suyos. La dificultad inicial de inicial de cargar comandos escritos en la consola, en lugar de seleccionar opciones en un menú, se supera rápidamente10 y tiene el inmenso beneficio de garantizar resultados consistentes: la sintaxis de R es muy fácil de leer e interpretar, por lo que podemos rastrear paso a paso el proceso que nos llevó al resultado. R permite un nivel de manejo de datos imposible con otros programas estadísticos. Podemos modificar la estructura o representación de nuestros datos con facilidad, limpiar bases de datos problemáticas, separar cadenas de textos, agrupar y desagrupar datos.

En la práctica: En este ejemplo calcularemos, usando R, la media una variable. Primero crearemos la variable x y le asignaremos algunos valores (normalmente tomaríamos esos valores directamente desde una base de datos, para este ejemplo crearemos un vector con números del 1 al 5). Luego sumaremos esos valores y los dividiremos entre la N o total de observaciones de x. Alternativamente presentamos un método mucho más directo para obtener el mismo resultado. En R el símbolo # se utiliza para hacer comentarios al código, es decir, anotaciones que el programa no ejecuta pero que sirven de recordatorio para el usuario.

x <- 1:5 # Crea el objeto "x" con valores numéricos del 1 al 5. 
sumatoria <- sum(x) # Guarda en el objeto "sumatoria" la sumatoria del vector "x".
n <- length(x) <- # Guarda en el objeto "n" la cantidad de obsevaciones que hay en "x". 
media <- sumatoria/n #Divide la sumatoria de x entre la n, obtenemos la media de x. 
mean(x) # Devuelve directamente la media de x, sin las operaciones intermedias. 
[1] 3 # Devolución en consola: la media de x es 3.

4.1. Instalación y comandos básicos de R y RStudio.

Hasta hace unos pocos años usar R implicaba usar exclusivamente comandos escritos, repitiéndolos una y otra vez para ver qué era lo que estaba pasando. La aparición de entornos de trabajo como RStudio han facilitado enormemente el trabajo con R, ofreciendo una manera organizada y productiva de conducir nuestros análisis. Asimismo la vinculación con CRAN11 pone a nuestro alcance miles de librerías y funciones adicionales que permiten extender el tipo de análisis o facilitan los ya existentes. Si tiene una idea, seguro que hay una librería para ponerla en práctica. La sintaxis de R es de fácil lectura, cuando decimos que es un lenguaje tómelo de manera casi literal: los comandos de R generalmente son una serie de verbos (funciones) que se aplican sobre sustantivos (objetos) y producen otros sustantivos. Esta unidad lo guiará por los pasos básicos para el uso de R cubriendo los siguientes temas:

  • Instalación de R, RStudio y vinculación con CRAN.
  • El entorno de trabajo RStudio: consola, sintaxis, área de gráficos, entorno.
  • Operadores básicos del lenguaje R <- , [] () $ ~ +
  • Sintaxis básica de R: objetos y funciones.

4.2. Tipos y estructuras de datos en R.

Lo que hace dar el paso desde la información a los datos es la estructura que le demos. R permite varios tipos y estructuras de datos. La mayor parte del tiempo utilizaremos la estructura data.frame, una estructura bidimensional que corresponde a las bases de datos. Con frecuencias las funciones nos devuelven listas como resultados listas. Sin embargo familiarizarse con todas las estructuras de datos nos permitirá evitar errores frecuentes. Dado el carácter estructurado de los objetos de R es fácil navegarlos y encontrar rápidamente lo que estamos buscando (inclusive: tomar los resultados de un proceso como entrada para el que sigue).

  • Numéricos, factores, factores ordenados y cadenas de textos.
  • Vectores, matrices, dataframes y listas.
  • Navegación de datos con los operadores $ y [,].
  • Atributos de los datos: nombres de columna, fila, etiquetas.

4.3. Importación de datos y manejo de archivos de sintaxis.

R tiene funciones para importar datos de prácticamente cualquier origen, bases de datos reunidas en Excel, otros programas estadísticos, archivos de texto. En uso avanzado es posible conectarlo con bases de datos relacionales o entrenarlo para busque él solo datos por la Internet (webscraping). Nos concentraremos en los casos más frecuentes y, de paso, aprenderemos a guardar archivos con sintaxis para hacer reproducibles nuestros hallazgos. En general el principio de uso de datos de R es nunca guardar cambios en los datos: guardamos el procedimiento con el que los modificamos y lo ejecutamos nuevamente cada vez que sea necesario. Olvídese de datos corrompidos por un simple error, el método R lo hace imposible.

  • Uso interactivo del menú Importar datos de RStudio desde archivos de SPSS, STATA, Excel, CSV, TSV, etc.
  • Clasificación de variables al momento de la importación.
  • Guardado y carga de archivos de sintaxis .r
  • Uso de comentarios para “explicar” nuestro código.

4.4. Sumario de datos para una variable.

Con los datos cargados seguramente queramos saber qué es lo que tenemos y qué podemos hacer. El primer paso es conocer el nombre con que los llamaremos y conocer aproximadamente su estructura (por ejemplo, cuantos observaciones hay, cuantas variables y de qué tipo.). Luego quizás queramos saber qué hay en cada variable en términos de datos: si son continuas las medias y desvíos, si son categóricas los conteos de cada categoría y las proporciones -por ejemplo, porcentajes. En esta unidad aprenderemos a explorar la estructura de nuestros datos y haremos las primeras preguntas a R.

  • Estructura de los datos en uso con la función str() o el navegador de entorno de RStudio.
  • Medidas de tendencia central y dispersión: media, mediana, desvío estándar y varianza.
  • Conteos y proporciones.
  • Uso de la función summary().

4.5. Gráficos para el análisis exploratorio univariado.

Lo bueno para el final: el motor de gráficos de R genera gráficas de gran calidad profesional con sólo un sencillo comando. Generalmente basta con mencionar el tipo de gráfico y los datos a los que queremos aplicarlos y ya está. RStudio facilita su guardado en alta calidad como archivo PDF o formato de gráficos. En esta unidad aprenderemos ha generar los gráficos básicos para la exploración de una variable y los parámetros para ajustar los gráficos a nuestro gusto12.

  • Gráfico de barras y puntos.
  • Histograma.
  • Kernel de densidad.

Módulo 5. Análisis y manejo de datos de datos con R. (Intermedio)

Una vez que tenemos los datos para el análisis es conveniente explorarlos, familiarizarnos con ellos y conocer cómo están estructurados. R cuenta con muchas herramientas que facilitan la exploración de conjuntos de datos, tanto de manera gráfica como a través de estadísticos descriptivos. Los gráficos harán visibles proporciones, distribuciones de frecuencias, categorías modales y posibles sesgos. Las tablas de contingencia nos permitirán explorar las relaciones entre dos variables y averiguar si existen entre ellas alguna relación. Combinando estas funciones con las de selección, filtrado y orden podremos ver con claridad las variaciones en diferentes grupos de observaciones.

En la práctica: Volvamos a nuestro proyecto de investigación Barreras de acceso al programa X. En el Módulo 1 mencionamos que, para saber si el nivel educativo era un factor vinculado con ser o no beneficiario del programa habíamos comparado ambos grupos. Pero ¿cómo lo hicimos? A través de tablas de contingencia. La Tabla 3 presenta los conteos de la variables13 beneficiario (sí/no) y nivel educativo (Primaria/Secundaria). Para mayor seguridad calculamos realizamos la prueba \(\chi\)2 de independencia estadística. El p-value de 0.7401 es muy alto con respecto a los criterios usual p \(\leq\) 0.05. Aceptamos la hipótesis de nulidad del modelo estadístico y concluimos que no hay una relación entre el nivel educativo y la probabilidad de ser o no beneficiario del Programa X.

Beneficarios y nivel educativo del Programa X
  Primaria Secundaria
Beneficiario 51 28
NoBeneficiario 15 6
Prueba de independencia Chi2 para la Tabla 3
Test statistic df P value
0.11 1 0.7401

5.1. Tablas de contingencia para una o dos variables.

Las tablas de contingencia muestran los conteos cruzados de dos o más variables y son una herramienta básica para la exploración de datos categóricos. Con más de dos variables las tablas se hacen más complicadas de interpretar, pero hay opciones para facilitar su visualización. Por último introduciremos nociones básicas de probabilidad y las pondremos en uso para con la prueba \(\chi\)2 (ji cuadrada) de independencia estadística. Esta prueba básica nos señalará la probabilidad de que la distribución en datos en nuestras tablas sea aleatoria, si esta es alta deberemos aceptar que nuestras variables no tienen más relación entre sí que la que el azar les da.

  • Creación de tablas de contingencia con la función table().
  • Proporciones y frecuencias marginales.
  • Visualización de tablas de contingencia de más de dos dimensiones con structable()
  • Prueba de independencia estadística \(\chi\)2 para tablas de contingencia.

5.2. Filtro de observaciones, selección de variables y reordenamiento de datos.

Difícilmente usamos toda nuestra base de datos en un análisis. Ya sea que seleccionemos sólo algunas variables de interés o queramos ver qué pasa con sólo una parte de las observaciones generalmente definiremos subconjuntos. R tiene varios métodos para hacer subconjuntos, aquí nos enfocaremos en los incluidos en la librería dplyr. Si bien a veces no tienen la potencia necesaria para operaciones muy complejas son fáciles de usar, dan resultados consistentes y permiten operaciones encadenadas. Quedará sorprendido de lo que se puede hacer con una línea de código.

  • Uso de las función filter() para filtrar datos de acuerdo a uno o más criterios.
  • Uso de la función select() para seleccionar una o más variables.
  • Uso de la función order() para ordenar resultados.

5.3. Codificación, recodificación y transformación de datos.

Aunque hayamos diseñado nuestro propio cuestionario y especificado con todo detalle como quedan registradas las variables seguramente deberemos recodificarlas en algún momento. Ya sea para corregir errores o transformar a las variables de modo que podamos analizar de mejor modo pasaremos buena parte de nuestro tiempo preparando los datos para analizarlos posteriormente. Es mejor aprender a hacerlo bien, un error de codificación invalidará nuestros resultados.

  • Uso de la función mutate() para transformar variables continuas.
  • Uso de subconjuntos con [,]y asignación <- para recodificación cadenas de textos.14
  • Uso de la librería forcats() para recodificar y compactar factores (variables nominales).
  • Uso de la función dummie() para la creación de variables dicotómicas (dummies).
  • Uso básico de programación funcional para evitar recodificar datos.

5.4. Manejo de casos perdidos.

A todos nos gustaría que nuestras bases de datos estén completas, todos los encuestados hayan respondido cada pregunta y cada cruce de observación y variable tenga un dato válido. Lamentablemente no suele ser el caso y nos encontramos con casos perdidos. En reconocimiento a este problema R tiene un modo especial de datos llamado NA para señalar que en esa celda no hay información válida, que lo siente mucho, pero que is.na(x) = TRUE. Esto permite evaluar la salud de nuestros datos y tomar las medidas necesarias para controlar el daño.

  • Uso de las funciones is.na() y complete.cases() para excluir casos perdidos.
  • Uso del paquete Amelia para diagnosticar problemas por casos perdidos. (Gráfico de missing cases)

5.5. Gráficos para el análisis exploratorio bivariado.

Ya sea para la exploración o la presentación de resultados los gráficos son una forma fantástica de presentar la información de un conjunto de datos de manera visual. Aprenderemos algunas reglas básicas para generar gráficos de calidad15 y a reconocer y crear algunos gráficos conocidos (y otros menos conocidos por el simple hecho de estar disponibles en Excel) para representar visualmente las relaciones entre dos variables.

  • Gráficos de dispersión para dos variables continuas.
  • Gráficos de caja para una variable continua y otra categórica.
  • Gráfico de mosaico para dos variables categóricas.
  • Gráficos de asociación (análisis de los residuos \(\chi\)2 de una tabla.)

Módulo 6. Análisis de correlación y regresión.

El análisis de correlación y regresión nos permite conocer en profundidad las relaciones que se presentan entre dos variables. La correlación nos da una medida sucinta (coeficiente) de la relación entre dos variables, expresada generalmente como un número que varía en -1 y 1. La regresión con modelos lineales nos permite estimar el valor una variable y a partir de otra variable x. Se trata de técnicas de gran utilidad tanto para la exploración de las relaciones entre las variables de un conjunto de datos -una matriz de correlaciones nos permite visualizar rápidamente que variables están relacionadas y cuales no- y para la prueba de hipótesis teóricas.

En la práctica:. Nuestra hipótesis es que el aprovechamiento escolar de un alumno medido por sus calificaciones escolares está relacionado con el nivel educativo alcanzado por su madre. La correlación entre estas dos variables puede señalarnos si ese es el caso, si dicha correlación es muy baja o poco significativa podremos sostener que no hay relación entre el nivel educativo de la madre y las calificaciones escolares de su hijo. En caso de existir una correlación el análisis de regresión nos permite cuantificar el efecto de la educación de la madre en las calificaciones, es decir, estimar cuanto mejoran las calificaciones de un alumno a medida que sube el nivel educativo de su madre. Utilizamos la función cor para encontrar que el coeficiente R de Pearson, dado que hemos medido la escolaridad de madre en años de escolaridad y el desempeño del alumno como promedio escolar del 1 al 10. El valor del coeficiente es 0.7185595, un valor positivo y muy alto16

6.1. Medidas de asociación y correlación entre variables.

Para saber qué relación hay entre dos variables ¿qué mejor que un número? Las medidas de asociación nos ponen un valor numérico a la intuición: no sólo creo que estas dos variables están asociadas, tengo un valor de la magnitud de esa asociación y puedo reconocer su dirección. Sin embargo es necesario conocer en qué casos se aplica cada tipo de correlación y en qué casos no. La creación de matrices de correlación y sus gráficos nos permiten concentrar muchísima información sobre la estructura de nuestros datos. Es un método sumamente inductivo, casi de fuerza bruta, para conocer qué relación tienen todas nuestras variables entre sí.

  • Supuestos y utilización de los diferentes coeficientes de correlación de uso frecuente en las ciencias sociales.
  • Implementación en R de los coeficientes R de Pearson, V de Cramer, Policórica, Tetracórica, Poliserial.
  • Creación de matrices de correlación heterogéneas con pruebas de significancia.
  • Gráficos para matrices.

6.2. Análisis de varianza.

En este paso comenzamos el análisis de datos propiamente dicho. El Análisis de Varianza o ANOVA de Fisher es el tipo más simple dentro de la familia de los Modelos Lineales Generalizados. Aunque su uso no es muy frecuente fuera de diseños experimentales conocerlo en profundidad propiciará la comprensión y el uso apropiado de modelos lineales más sofisticados como regresiones lineales o modelos logit, ampliamente utilizados en las ciencias sociales.

  • Supuestos y fundamentos teóricos del análisis de varianza y modelos lineales.
  • Prueba de hipótesis, significancia y p-values.
  • Concepto de error estándar.
  • Aplicación del ANOVA de un factor en la investigación social.

6.3. Modelos lineales (regresión).

Los modelos lineales -comúnmente llamados regresión- nos permiten vincular en una función los datos de dos variables de modo de predecir el valor de una conociendo solamente el valor de la otra.17 Como si esto fuera poco poco también nos permite conocer con cierto margen de certeza qué categorías de una variable discreta tienen un efecto sobre otra. Además generan una salida con mucha información, suficiente para diagnosticar nuestro modelo e identificar posibles problemas. Esta unidad cubre los modelos lineales cuando la variable dependiente -o de salida y- es continua y la dependiente -o predictora o x- es continua o categórica.

  • Modelos predictivos vs. modelos explicativos. Dos estrategias, un mismo método.
  • Formulación, ajuste e interpretación de modelos lineales con y continua y x continua.
  • Formulación, ajuste e interpretación de modelos lineales con y continua y x categórica.

6.4. Modelos lineales para variables dependientes categóricas (logit binomial).

En ciencias sociales frecuentemente el fenómeno que queremos predecir o explicar no se presenta de manera continua, sino a través de categorías. Por ejemplo, si queremos predecir si el género tiene un impacto en la probabilidad de ser beneficiario de cierto programa social, nuestra variable dependiente es dicotómica y tiene dos categorías: beneficiario/no beneficiario. Los modelos logit permiten modelar ese tipo de variables. Los modelos logit son un tipo de Modelo Lineal Generalizado y, si bien son un poco más complejos en su interpretación y diagnóstico lineales convencionales, abren un abanico de posibilidades enorme para las ciencias sociales. Como regla general, si puede separarlo en dos categorías, puede modelarlo con logit.

  • Formulación, ajuste e interpretación de modelos lineales con y categórica y x continua.
  • Formulación, ajuste e interpretación de modelos lineales con y categórica y x categórica.

Módulo 7. Análisis multivariado.

En análisis multivariado nos permite generar modelos más complejos en los que podemos incorporar múltiples variables dependientes e independientes. De este modo podemos controlar el efecto de una variable cuando otra está presente o saber que ocurre cuando dos o más variables interactúan. Otra familia de métodos multivariados (la familia del análisis factorial) nos permite compactar la información de muchas variables en una variable nueva o factor. De este modo podemos cuantificar variables latentes, es decir, variables que no son directamente observables, pero que podemos inferir a partir de variables observadas.

En la práctica: Hemos descubierto una relación entre la escolaridad de la madre y el promedio de calificaciones escolares de sus hijos. Sin embargo es posible que las calificaciones estén influidas por otras características, como el ingreso familiar medido en Pesos M.N. al mes. Una regresión múltiple nos permite separar el efecto de la escolaridad de la madre y el ingreso en las calificaciones y obtener un modelo más ajustado de las calificaciones del niño. Sin embargo el efecto del ingreso puede ser distinto si se trata de un niño o una niña. En ese caso la interacción entre ingreso y género nos permite captar esta diferencia y saber si el ingreso familiar afecta por igual o de manera diferente a niños y niñas.

7.1. Modelos lineales con y continua y múltiples x.

Los modelos lineales simples nos permiten conocer como se relacionan dos variables y cuánto predice una el comportamiento de la otra. Sin embargo los marcos explicativos de las ciencias sociales suelen ser pluricausales. Es decir, no hay una sola causa sino una varios factores que se suman o interactúan entre sí para producir determinado efectos. Los modelos lineales con múltiples variables independientes nos permiten valorar como varios factores se combinan en una explicación. Podremos controlar unas variables por otras y separar el efecto de cada una, identificar y controlar variables intervinientes y confusoras. Además aprovechar esta riqueza de información para diagnosticar y validar nuestros modelos.18

  • Ajuste de modelos con más de una variable independiente.
  • Ajuste de modelos con variables independientes mixtas.
  • Interpretación de coeficientes y significancia.
  • Modelos con interacciones entre variables.

7.2.Modelos lineales con y dicotómica y múltiples x.

Prácticamente todas las herramientas que se pueden usar para predecir o explicar variables dependientes continuas pueden aplicarse a variables dicotómicas con modelos logit múltiples. Una vez más, debemos considerar esa especificidad a la hora de interpretar los modelos.

  • Ajuste de modelos logit con más de una variable independiente.
  • Ajuste de modelos logit con variables independientes mixtas.
  • Interpretación de coeficientes y significancia. Exponenciales de \(\beta\).
  • Modelos con interacciones entre variables.

7.3. Análisis de Componentes Principales.

Durante años las ciencias sociales vivieron la dualidad de tener teorías basadas en conceptos inobservables -como la clase social o la motivación- e investigaciones empíricas que se apoyan solamente en variables observadas. El análisis factorial se creó para salvar esa distancia. Su principal virtud es que nos permiten identificar variables latentes dentro de un conjunto de variables observadas y, sobre todo, asociar esas variables latentes con constructos teóricos complejos. El ACP es la modalidad más simple -en términos relativos- de la familia del análisis factorial. Más allá de esta capacidad para reunir teoría y datos el ACP es también por sí mismo una formidable técnica para compactar los datos, hacerlos inteligibles. Le permitirá crear dos o tres variables que captan la mayor parte de la variabilidad de un conjunto de variables muchísimo más grande. Algunos índices muy utilizados como el IDH se basan en el ACP.

  • Supuestos del ACP.
  • Extracción de componentes y representaciones gráficas.
  • Número óptimo de componentes.

Módulo 8. Técnicas de clasificación.

En ciencias sociales trabajamos frecuentemente con variables categóricas como el sexo, lugar de residencia o la pertenencia a un partido político. Dichas variables no permiten operaciones aritméticas propiamente dichas -no podemos promediar el lugar de residencia de un conjunto de personas, nadie es 0.8 regiomontano o 0.25 poblano. Sin embargo hay herramientas disponibles para análisis este tipo de variables. Al ACM, por ejemplo, nos permite explorar las relaciones entre diferentes categorías, para saber cuales se dan frecuentemente en conjunto. El análisis de conglomerados agrupa observaciones similares.

En la práctica: Queremos conocer el nivel de satisfacción de los beneficiarios de un programa social y que factores explican la satisfacción o insatisfacción. Nuestra hipótesis es que la satisfacción depende de la puntualidad en la entrega de beneficios, la valoración de esos beneficios y la facilidad para obtenerlos. Aplicamos una encuesta que registra dos niveles de satisfacción (satisfecho-insatisfecho) y pregunta también sobre la puntualidad en la recepción de beneficios (puntual-inpuntual), el valor que otorgan a ese beneficios (valioso-no valioso), si consideran fácil o difícil hacer los trámites necesarios para obtenerlos (fácil-difícil) y el Estado en el que viven. El Análisis de Correspondencias Múltiples permite visualizar la cercanía o lejanía de esas categorías y, en este caso, identificar las fuentes de la insatisfacción con un programa social en cada Estado. Los niveles de insatisfacción en dos estados pueden ser los mismos, pero para mejorarlos vale la pena saber si en cada caso se produce por impuntualidad, poco valor del beneficio o dificultad administrativa. Posteriormente sería conveniente reunir en grupos distintos perfiles de usuarios insatisfechos, para diseñar soluciones que se adapten a cada grupo. Eso es fácil de lograr utilizando el análisis de conglomerados.

8.1. Análisis de Correspondencias y Correspondencias Múltiples (ACM).

El ACM es la versión del ACP para variables categóricas. Se trata de una herramienta exploratoria sumamente valiosa, especialmente por los gráficos que produce. Los gráficos de correspondencia permiten conocer la correlación -cercanía o lejanía- entre diferentes categorías en múltiples dimensiones. La interpretación de esas dimensiones también da información valiosa sobre la estructura latente de los datos (podemos interpretarlas como variables latentes). Dado que los datos deben cumplir muy pocos supuestos para analizar correspondencias múltiples es un método versátil que debería estar en la caja de herramientas de todo analista.

  • Uso de AC para dos variables categóricas (nominales) y de ACM para más de dos variables categóricas.
  • Salidas gráficas del ACM: mapa de categorías y mapa de individuos.
  • Número óptimo de dimensiones (varianza)
  • Interpretación de las dimensiones (inercias principales)
  • Uso de variables suplementarias.

8.2. Análisis de Conglomerados Jerárquicos.

Muchas veces además de querer conocer las relaciones estructurales entre nuestras variables queremos formar grupos de observaciones similares entre sí. El análisis de conglomerados en todas sus variantes atiende este problema, produciendo dos o más grupos de observaciones en función de su cercanía o lejanía de acuerdo a un conjunto amplio de variables. Consideraremos especialmente el caso de los conglomerados jerárquicos por los pocos supuestos que requieren o imponen a los datos. Además es un método que su utiliza frecuentemente después del ACM con excelentes resultados.

  • Extracción de conglomerados jerárquicos.
  • Número óptimo de conglomerados.
  • Extracción de conglomerados a partir de las dimensiones de un ACM o ACP. (Reducción de los niveles de ruido)

8.3. Análisis de Clases Latentes (ACL).

El ACL es una forma especialmente poderosa del análisis de conglomerados. Su principal virtud es que generan un modelo inteligible que “explica” por qué ciertos individuos pertenecen a determinada clase y asigna probabilidades de pertenencia, más que ubicarlos en un grupo de manera determinista y en un proceso poco inteligible. El ACL lo hace extrayendo una variable latente categórica, a cuyas modalidades pertenecen las observaciones. Esto permite posteriormente agregar covariadas al análisis y establecer relaciones entre esa variable latente de clasificación y otra variable que no fue utilizada en su extracción.

  • Supuestos de los modelos de mixtura finita.
  • Extracción de clases latentes a partir de variables categóricas.
  • Análisis de clases latentes con covariadas (Regresión de Clases Latentes)

Módulo 9. Gráficos y reportes avanzados en R.

Los gráficos estándar que genera el paquete base de con la función plot() son un método rápido y efectivo para visualizar resultados. Sin embargo la sintaxis de esa función dificulta la creación de gráficos personalizados. Para obtener gráficos con calidad de publicación la mejor alternativa es ggplot, una avanzada librería de gráficos que nos permite ajustar con facilidad todos los parámetros de un gráfico o crear nuevos tipos de gráficos que se ajusten mejor a los datos que tenemos. Para integrar en un sólo documento la redacción del texto, el código de R y los resultados del análisis nada mejor que rmarkdown. Este simple lenguaje permite generar reportes de investigación (o un artículo o hasta un libro) al mismo tiempo que hacemos el análisis y segundos después hacerlo público en una página web, como documento impreso o en formato Word. Un mismo reporte, tres formatos con calidad profesional. Por último el uso de técnicas más avanzadas de programación (bucles for i, programación condicional con if o funciones vectoriales apply, lapply) permite automatizar el análisis de datos y la generación de reportes. Si tiene que realizar el mismo informe mes a mes con datos actualizados, mejor haga un script con estas funciones y el trabajo se hará solo.

9.1. Gráficos avanzados con ggplot2.

Ggplot2 es un motor de gráficos diferentes a plot. Se basa en capas: los gráficos se crean agregando, de una a la vez, capas de información y señalando la manera en que queremos que se plasmen en el gráfico. Si bien su sintaxis puede ser innecesariamente complicada para gráficos básicos, en cuanto aumenta la complejidad el control fino que ofrece ggplot sale a relucir. Aproveche los estilos para garantizar la homogeneidad de sus gráficos, trace rectas de ajuste acompañadas de bandas de error, cambie fácilmente los colores o la simbología, cambie el tamaño de un gráfico sin hacerlo ilegible en el proceso.

  • La gramática de los gráficos.
  • Control detallado de títulos, subtítulos, etiquetas, leyendas, colores, simbología.
  • Superposición de elementos.

9.2. Generación de reportes con rmarkdown con salida a PDF, HTML y Word.

Habrá notado que la forma en que se distribuyen los caracteres en la página de este documento se parece más a la de un libro que a la de un típico documento de Word. Eso es porque no está hecho con Word, sino con rmardown. Por sí mismo rmarkdown no tiene mucho de interesante, es un sencillo lenguaje de markup que da opciones básicas de formateo de texto. Pero combinado con las librerías pandoc, knitr y R permite generar con gran facilidad reportes de calidad profesional con salida a múltiples formatos. RStudio integra de manera transparente estas librerías, por lo que trabajar de este modo no es más difícil que hacerlo con un procesador de textos. Sólo que nunca más tendrá que padecer a Word cortando sus tablas en partes al azar, comportándose erráticamente cuando agrega un gráfico -sí, estoy hablando del gráfico pequeño con un salto de página debajo- o presentando un formateado del texto inconsistente. Un simple comando y rmarkdown genera el reporte en versión Word, PDF -a través de LaTeX- y html, listo para subir en línea. Como si esto fuera poco puede incluir el análisis llevado a cabo en R directamente en sus documentos. En rmarkdown usted no hace el análisis con un software, formatea los resultados con otros y los pega una vez más en el reporte. Hace todo junto en una plataforma coherente. ¿Cambiaron los datos? No hay problema, sólo cambie el comando de carga de datos al principio y todo el análisis (incluyendo gráficos y tablas) se actualizará. ¿Reportes trimestrales? Sólo agregue datos nuevos. Esta unidad cubre los siguientes temas:

  • El lenguaje rmarkdown.
  • Incorporación de resultados de R en un documento de rmarkdown.
  • Incorporación y formateo de gráficos.
  • Incorporación y formateo de tablas.
  • Parámetros YAML para un documento (márgenes, tamaño de papel, tipografías, etc.)

9.3. R como lenguaje de programación funcional.

R no es solamente una plataforma de análisis de datos. También es un lenguaje de programación que le permite crear funciones a medida o encadenar funciones ya disponibles para lograr resultados novedosos. Aún en el uso interactivo en la consola las estrategias de programación funcional le permitirán obtener resultados más rápidos y garantizar que nunca se corromperán los datos. Además a través de las funciones vectoriales de R y los bucles if y for i podrá automatizar procesos de análisis. En esta unidad aprenderá:

  • El paradigma de programación funcional: pizza(horno(queso(salsa(masa(c(harina,agua,levadura))))))19
  • Uso de funciones vectoriales para aplicaciones que requieren alto desempeño.
  • Uso de bucles para análisis en serie.

  1. mpaladino@mora.edu.mx

  2. Conocimientos básicos de aritmética, funciones y teorías de conjuntos serán suficientes.

  3. El método de trabajo y las herramientas que proponemos favorece inherentemente la reproductibilidad de resultados: pienso, planeo, ejecuto y documento todos los pasos.

  4. ¡Esta propuesta está hecha con R!

  5. Para conocer los efectos del alcohol en la violencia en los estadios podríamos dividir en dos grupos al azar los juegos de fútbol de una fecha, en un grupo prohibir tajantemente el consumo de alcohol y en el otro distribuirlo gratuitamente en grandes cantidades, para comparar después los resultados. Jamás lo haríamos por motivos éticos, si en efecto el alcohol provoca incidentes violentos seremos responsables de las víctimas de esa violencia.

  6. Afortunadamente la multiplicación de métodos de análisis hace este problema sea cada menos acuciante, pero una de las ventajas de diseñar nuestros propios instrumentos es poder planear con anticipación algunos problemas que podrían visibilizarse demasiado tarde.

  7. A modo de ejemplo anecdótico: en un Estado del interior de República este investigador realizó una pequeña encuesta en la que preguntaba a un grupo de estudiantes cuantos hermanos tenían. El resultado fue sorprendente, dado que conocía previamente a algunos de los estudiantes y ya sabía las respuestas que esperaba: todos parecían tener pocos hermanos. Conversando con los estudiantes pude saber en sus comunidades sólo usaban la palabra hermanos para los mayores y a los que eran menores que ellos los llamaban hermanitos. Corolario: que usted entienda la pregunta de una manera no quiere decir que los encuestados vayan a entenderla de la misma manera.

  8. Por definición el operativo de campo para encuestar a una muestra de habitantes que viven en comunidades aisladas será complejo. Las encuestas dentro de una organización en la que están definidos canales de comunicación y jerarquías deberían ser menos problemáticas.

  9. No se alarme, no es necesario ser programador para usar R.

  10. La lógica de R es piense primero, ejecute después. Esto reduce notablemente la aparición de “falsos positivos”, resultados que parecen buenos pero no podemos reproducir la forma en que llegamos a ellos. Al mismo tiempo una vez que desarrollamos un método de trabajo lo podemos aplicar a muchos otros casos similares. El tiempo adicional que invierta al principio le reportará beneficios por muchísimo tiempo.

  11. Comprehensive R Archive Network, un depósito en línea de librerías para R.

  12. Un gráfico sin título y etiquetas en los ejes puede ser una bonita obra de arte abstracto, pero no nos dice nada de la información que se supone representa.

  13. Los datos son simulados, corresponden a una distribución binomial aleatoria.

  14. O como corregir un error presente en miles observaciones con un sólo comando y en pocos segundos.

  15. Aquí sólo algunas: 1) Los gráficos son para mostrar la información, no para generar impacto visual, 2) Las escalas no se alteran, si quiere falsificar sus resultados cambie directamente los números que no le gustan, estará haciendo lo mismo pero será más honesto en su deshonestidad, 3) si usted tienen problemas para entender un gráfico su público tendrá muchos más.

  16. Sospeche de correlaciones tan altas, como en este caso provienen frecuentemente de datos simulados.

  17. Más el invaluable aporte del error…

  18. Es siempre saludable recordar que nuestros modelos, en sentido estricto, no explican nada. La que explica es la teoría. Si perdemos este punto de contacto entre el modelo y la teoría produciremos muchísimas salidas que en la consola que vinculan números con números, pero eso es vacío si no podemos inferir qué conceptos hay detrás de esos números. Muchos asteriscos (coeficientes significativos) no hacen por sí solos una explicación.

  19. Cuando haya terminado el curso quizás le cause gracia.

Dr. Martín Paladino1