#!/usr/bin/env python
# coding: utf-8
#
# # NumPy: Entrada/Salida
# Con E/S (I/O en inglés) entendemos leer y escribir datos archivos. Es algo que necesitaremos hacer con relativa frecuencia, y en NumPy es muy sencillo de hacer. Para el caso de la **lectura** se usa la función `np.loadtxt`.
# ## Ejemplo datos calidad del aire
# In[1]:
from IPython.display import HTML
HTML('')
# In[2]:
from IPython.display import HTML
HTML('')
# In[ ]:
# aeropython: preserve
# Linux command
#!head ../data/barrio_del_pilar-20160322.csv
# Windows
get_ipython().system('type ..\\data\\barrio_del_pilar-20160322.csv')
# Primero, importamos las librerías que vamos a usar: Numpy y Matplotlib. También usaremos `plt.ion()` para activar el modo interactivo de matplotlib.
# In[4]:
import numpy as np
import matplotlib.pyplot as plt
# In[5]:
plt.ion()
# ### Cargando los datos
#
# Usaremos la función `loadtxt` para cargar los datos en un array. Usaremos los argumentos opcionales `skiprows`, `delimiter` y `usecols` para captar los datos que queremos.
# In[6]:
# loading the data:
# ./data/barrio_del_pilar-20160322.csv
data1 = np.loadtxt('../data/barrio_del_pilar-20160322.csv', skiprows=3, delimiter=';', usecols=(2,3,4))
data1[:10,:]
# ### Valores inexistentes
#
# El archivo que contiene los datos de 2015 tiene algunos agujeros por errores de medida. Como alternativa a `loadtxt`, podremos usar la función `genfromtxt`, teniendo cuidado de que el ella el argumento opcional de saltar líneas pasa a llamarse `skip_header`.
# In[7]:
#Loading the data 2:
#../data/barrio_del_pilar-20151222.csv
data2 = np.genfromtxt('../data/barrio_del_pilar-20151222.csv', skip_header=3, delimiter=';', usecols=(2,3,4))
data2[:10,:]
# Podemos comprobar como afecta la existencia de estos valores a algunas funciones de Numpy, como `np.mean`. A veces es posible esquivar estos problemas con otras funciones como `np.nanmean`.
# In[8]:
np.mean(data2, axis=0)
# In[9]:
np.nanmean(data2, axis=0)
# Probemos a calcular la diferencia entre ambos años:
# In[10]:
data_dif = data1 - data2
data_dif[:10,:]
# ### Guardar los datos nuevos
#
# Supongamos que ahora queremos guardar nuestra tabla de datos en un archivo txt, para poder cargarlo ya modificado más adelante. Una manera fácil de hacerlo sería con otra función de NumPy: `np.savetxt`. Lo usaremos con los argumentos opcionales `fmt='%9.3f', newline = '\r\n'` para obtener un fichero bonito que podamos entender de un vistazo.
# In[11]:
np.savetxt('diferencia_interanual.txt', data_dif, fmt='%9.3f', newline = '\r\n')
# ### Pintando los datos
# **Valores máximos ** obtenidos de: http://www.mambiente.munimadrid.es/opencms/export/sites/default/calaire/Anexos/valores_limite_1.pdf
# * NO2
# - Media anual: 40 µg/m3
# - **Media horaria: 200 µg/m3 **
# In[12]:
plt.plot(data1[:, 1], label='2016')
plt.plot(data2[:, 1], label='2015')
plt.legend()
plt.hlines(200, 0, 200, linestyles='--')
plt.hlines(40, 0, 200, linestyles='--')
plt.ylim(0, 220)
# * CO
# - **Máxima diaria de las medias móviles octohorarias: 10 mg/m³**
# In[13]:
# aeropython: preserve
# http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.convolve.html
def moving_average(x, N=8):
return np.convolve(x, np.ones(N)/N, mode='same')
# In[14]:
plt.plot(moving_average(data1[:, 0]), label='2016')
plt.plot(moving_average(data2[:, 0]), label='2015')
plt.hlines(10, 0, 250, linestyles='--')
plt.ylim(0, 11)
plt.legend()
# * O3
# - **Máxima diaria de las medias móviles octohorarias: 120 µg/m3**
# - Umbral de información. 180 µg/m3
# - Media horaria. Umbral de alerta. 240 µg/m3
# In[15]:
plt.plot(moving_average(data1[:, 2]), label='2016')
#plt.plot(data1[:, 2])
plt.plot(moving_average(data2[:, 2]), label='2015')
#plt.plot(data2[:, 2])
plt.hlines(180, 0, 250, linestyles='--')
plt.ylim(0, 190)
plt.legend()
# ## ¿Cómo leeríamos un archivo sin usar NumPy?
# In[16]:
data_file = '../data/barrio_del_pilar-20151222.csv'
# In[ ]:
data = []
with open(data_file) as f:
# Saltamos las tres primeras líneas
for ii in range(3):
f.readline()
for line in f:
line_string = line
line_list = line.split(';')
date = line_list[0]
hour = line_list[1]
components_data = []
for c in line_list[2:]:
if '-' not in c:
components_data.append(float(c))
else:
components_data.append(np.nan)
data.append(components_data)
print(np.array(data))
# ---
# _Ya hemos aprendido a efectuar algunas operaciones útiles con NumPy e incluso hemos hecho nuestro primer ejercicio de lectura de datos. Estamos en condiciones de empezar a escribir programas más interesantes, pero aún queda lo mejor._
#
# Si quieres saber más sobre lectura y escritura de ficheros en Python, puedes consultar al documentación oficial:
#
# https://docs.python.org/3.6/tutorial/inputoutput.html#reading-and-writing-files
# ---
#
# ####