Analizando Datos Censales con Pandas

Sergio Sánchez Zavala

¿Quién soy?

Mi nombre es Sergio Sánchez y soy investigador asociado en el PPIC (Instituto de Políticas Públicas de California) en el Centro de Educación Superior. El trabajo que hago allí cubre reformas de la educación de desarrollo en los colegios comunitarios de California, la movilidad económica y algunas cuestiones de inmigración.

¿Quién soy? (parte 2)

Estoy muy interesado en la visualización de datos. Soy un facilitador en la recién formada Sociedad de Visualización de Datos. Mi proyecto más reciente es @tacosdedatos - tacosdedatos.com donde espero construir un lugar para aprender mejor el análisis de datos y la visualización de datos. Mejores prácticas, técnicas y conocimientos en español.

Antes de empezar

Los materiales se encuentran en GitHub en https://github.com/chekos/analizando-datos-censales

git clone https://github.com/chekos/analizando-datos-censales
cd analizando-datos-censales

Solo necesitas Jupyter y Pandas si deseas seguir el taller desde tu computadora personal.

Estaremos utilizando Jupyter Lab pero puedes seguirnos en Jupyter Notebooks si lo prefieres.

MyBinder.org

Estaremos utilizando mybinder.org para este tutorial.

Binder te permite crear entornos informáticos/computacionales personalizados que pueden ser compartidos y utilizados por muchos usuarios remotos. BinderHub es la tecnología que lo mantiene, la cual es una herramienta de código abierto que implementa el servicio Binder en la nube. Uno de esos despliegues vive aquí, en mybinder.org, y es de uso gratuito. Para obtener más información sobre la implementación de mybinder.org y el equipo que la ejecuta, consulte Acerca de mybinder.org.

Datos Censales (de Estados Unidos)

El Censo de Estados Unidos implementa más de 130 encuestas cada año. Tienen encuestas de hogares con datos sobre educación, salúd, empleo, migración y muchos más temas.

En el siguiente vínculo puedes ver una lista completa de las encuestas para el hogar: https://www.census.gov/programs-surveys/are-you-in-a-survey/survey-list/household-survey-list.html

También tienen encuestas comerciales sobre comercios minoristas, mayoristas, importaciones / exportaciones, emprendimientos y bibliotecas públicas entre muchas, muchas otras cosas.

En el siguiente vínculo puedes ver una lista completa de las encuestas comerciales: https://www.census.gov/programs-surveys/are-you-in-a-survey/survey-list/business-survey-list.html

Una de las encuestas de hogares más populares es American Community Survey o ACS, que utilizaremos hoy para nuestro análisis.

La Encuesta sobre la Comunidad Estadounidense (ACS) ayuda a los funcionarios locales, líderes comunitarios y empresas a comprender los cambios que se están produciendo en sus comunidades. Es la principal fuente de información detallada sobre población y vivienda sobre nuestra nación.

¿Cómo obtenerlos?

El sitio web del Censo provee muchas maneras de acceder sus datos.

AmericanFactFinder

  • American FactFinder proporciona acceso a datos sobre los Estados Unidos, Puerto Rico y las Áreas de la Isla. Los datos en American FactFinder provienen de varios censos y encuestas.

¿Cómo obtenerlos?

Tablas Pre-computadas

También proporcionan tablas pre-computadas para temas populares como logros educativos o ingresos medios en varios niveles geográficos (región, área metropolitana, estado, condado, etc.)

https://www.census.gov/data/tables.html

¿Cómo obtenerlos?

IPUMS

IPUMS proporciona datos de censos y encuestas de todo el mundo integrados en el tiempo y el espacio. La integración y documentación de IPUMS facilita el estudio del cambio, la realización de investigaciones comparativas, la combinación de información entre los tipos de datos y el análisis de individuos dentro del contexto familiar y comunitario. Datos y servicios disponibles de forma gratuita.

IPUMS son las siglas de Integrated Public Microdata Series ipums

¿Cómo obtenerlos utilizando python?

Hay algunos paquetes de python en pypi.org relacionados con los datos del Censo. Aquí hay cuatro notables:

census - pypi

Un envoltorio simple para la API de la Oficina del Censo de los Estados Unidos. Proporciona acceso a los conjuntos de datos ACS, SF1 y SF3.

from census import Census
from us import states

c = Census("MY_API_KEY")
c.acs5.get(('NAME', 'B25034_010E'),
          {'for': 'state:{}'.format(states.MD.fips)})

cenpy - pypi

Una interfaz para explorar y consultar la API del censo de EE. UU. Y devolver los marcos de datos (DataFrames) de Pandas. Idealmente, este paquete está destinado para el análisis de datos exploratorios y se inspira en las interfaces y acs.R.

La documentación incluye un notebook introductorio

census-data-downloader - GitHub también es instalable por pip

census-data-downloader es una interfaz de línea de comandos desarrollada por Los Angeles Times para descargar datos de censos y reformatearlos para humanos.

export CENSUS_API_KEY='<your API key>'
censusdatadownloader --year 2010 medianage states

censusdata - pypi

Este paquete maneja los detalles de la interacción con la API de Census, para que pueda concentrarse en trabajar con los datos. Proporciona una clase para representar geografías del censo. También proporciona funciones para obtener más información sobre variables y tablas específicas y para buscar variables.

¡Analicemos algunos datos del censo!