Mi nombre es Sergio Sánchez y soy investigador asociado en el PPIC (Instituto de Políticas Públicas de California) en el Centro de Educación Superior. El trabajo que hago allí cubre reformas de la educación de desarrollo en los colegios comunitarios de California, la movilidad económica y algunas cuestiones de inmigración.
Estoy muy interesado en la visualización de datos. Soy un facilitador en la recién formada Sociedad de Visualización de Datos. Mi proyecto más reciente es @tacosdedatos - tacosdedatos.com donde espero construir un lugar para aprender mejor el análisis de datos y la visualización de datos. Mejores prácticas, técnicas y conocimientos en español.
Los materiales se encuentran en GitHub en https://github.com/chekos/analizando-datos-censales
git clone https://github.com/chekos/analizando-datos-censales
cd analizando-datos-censales
Solo necesitas Jupyter y Pandas si deseas seguir el taller desde tu computadora personal.
Estaremos utilizando Jupyter Lab pero puedes seguirnos en Jupyter Notebooks si lo prefieres.
Estaremos utilizando mybinder.org para este tutorial.
Binder te permite crear entornos informáticos/computacionales personalizados que pueden ser compartidos y utilizados por muchos usuarios remotos. BinderHub es la tecnología que lo mantiene, la cual es una herramienta de código abierto que implementa el servicio Binder en la nube. Uno de esos despliegues vive aquí, en mybinder.org, y es de uso gratuito. Para obtener más información sobre la implementación de mybinder.org y el equipo que la ejecuta, consulte Acerca de mybinder.org.
El Censo de Estados Unidos implementa más de 130 encuestas cada año. Tienen encuestas de hogares con datos sobre educación, salúd, empleo, migración y muchos más temas.
En el siguiente vínculo puedes ver una lista completa de las encuestas para el hogar: https://www.census.gov/programs-surveys/are-you-in-a-survey/survey-list/household-survey-list.html
También tienen encuestas comerciales sobre comercios minoristas, mayoristas, importaciones / exportaciones, emprendimientos y bibliotecas públicas entre muchas, muchas otras cosas.
En el siguiente vínculo puedes ver una lista completa de las encuestas comerciales: https://www.census.gov/programs-surveys/are-you-in-a-survey/survey-list/business-survey-list.html
Una de las encuestas de hogares más populares es American Community Survey o ACS, que utilizaremos hoy para nuestro análisis.
La Encuesta sobre la Comunidad Estadounidense (ACS) ayuda a los funcionarios locales, líderes comunitarios y empresas a comprender los cambios que se están produciendo en sus comunidades. Es la principal fuente de información detallada sobre población y vivienda sobre nuestra nación.
El sitio web del Censo provee muchas maneras de acceder sus datos.
Tablas Pre-computadas
También proporcionan tablas pre-computadas para temas populares como logros educativos o ingresos medios en varios niveles geográficos (región, área metropolitana, estado, condado, etc.)
IPUMS
IPUMS proporciona datos de censos y encuestas de todo el mundo integrados en el tiempo y el espacio. La integración y documentación de IPUMS facilita el estudio del cambio, la realización de investigaciones comparativas, la combinación de información entre los tipos de datos y el análisis de individuos dentro del contexto familiar y comunitario. Datos y servicios disponibles de forma gratuita.
IPUMS son las siglas de Integrated Public Microdata Series
python
?¶Hay algunos paquetes de python en pypi.org relacionados con los datos del Censo. Aquí hay cuatro notables:
census
- pypi
Un envoltorio simple para la API de la Oficina del Censo de los Estados Unidos.
Proporciona acceso a los conjuntos de datos ACS, SF1 y SF3.
from census import Census
from us import states
c = Census("MY_API_KEY")
c.acs5.get(('NAME', 'B25034_010E'),
{'for': 'state:{}'.format(states.MD.fips)})
cenpy
- pypi
Una interfaz para explorar y consultar la API del censo de EE. UU. Y devolver los marcos de datos (DataFrames) de Pandas. Idealmente, este paquete está destinado para el análisis de datos exploratorios y se inspira en las interfaces y acs.R.
La documentación incluye un notebook introductorio
census-data-downloader
- GitHub también es instalable por pip
census-data-downloader es una interfaz de línea de comandos desarrollada por Los Angeles Times para descargar datos de censos y reformatearlos para humanos.
export CENSUS_API_KEY='<your API key>'
censusdatadownloader --year 2010 medianage states
censusdata
- pypi
Este paquete maneja los detalles de la interacción con la API de Census, para que pueda concentrarse en trabajar con los datos. Proporciona una clase para representar geografías del censo. También proporciona funciones para obtener más información sobre variables y tablas específicas y para buscar variables.