Python для сбора данных¶

Алла Тамбовцева, НИУ ВШЭ

Работа с файлами: доступ и изменение¶

Импортируем модуль os (от operating system), который позволяет работать с локальными (т.е. находящимися на компьютере) файлами и папками.

In [1]:

import os

Для начала определим рабочую папку – папку, которая используется по умолчанию (из неё по умолчанию запускается Jupyter, в неё сохраняются файлы и прочее, именно она отображается во вкладке Home).

In [3]:

os.getcwd()  # от get current working directory

Out[3]:

'/Users/allat/Desktop'

На Windows в начале строки будет название диска (C: или D:), плюс, слэши могут быть обратными (\ или \\). В дальнейшем при создании папки или при указании пути к папке/файлу нужно помнить, что Python распознаёт только прямые слэши / (на Windows ещё двойные \\, но иногда бывают сбои).

Добавим пустую папку на рабочий стол (Desktop) и назовём её to-test:

In [4]:

os.mkdir('/Users/allat/Desktop/to-test')

Совет: если работаете с такого рода операциями впервые (никогда не создавали/удаляли файлы и папки через командную строку или подобные), лучше потестить всё в специально созданной папке или работать с копиями файлов. Python не будет уточнять, действительно ли вы хотите удалить файл или заменить файл новым с таким же названием, он молча удалит его или перезапишет. Будьте бдительны!

Сделаем только что созданную папку рабочей:

In [5]:

os.chdir('/Users/allat/Desktop/to-test')  # chdir - от change directory

Посмотрим на содержимое этой папки:

In [6]:

os.listdir()

Out[6]:

[]

Пока пусто. Это ожидаемо. Исправим: создадим два txt-файла, один пустой, а другой – с двумя строками.

In [7]:

f1 = open('file1.txt', 'w')
f1.close()
f2 = open('file2.txt', 'w')

# вписываем строки file = f2
print("Hello", file = f2)  
print("World", file = f2) 
f2.close()

Проверим теперь:

In [8]:

os.listdir()  #  появились!

Out[8]:

['file2.txt', 'file1.txt']

Функция listdir() возвращает список файлов/папок. По умолчанию, если ничего не указано в круглых скобках, возвращается содержимое текущей рабочей папки. Но в скобках можно указать путь к любой папке:

In [9]:

os.listdir('/Users/allat/Documents/github')

Out[9]:

['py-icef',
 'allatambov.github.io',
 'misc',
 '.nbgrader.log',
 '.DS_Store',
 'PyMasters',
 'LingData',
 'py-dat18',
 'RprogData',
 'PyDat-0919',
 'py-dat19',
 'CognTech',
 'py-basics-19',
 'r20-homeworks',
 'Py-programming-3',
 'PyProg-2018',
 'HSE-PEP',
 'pydat19-ap',
 'R-programming-3',
 'rprog-2019',
 'PsyMS']

Вернёмся к нашей папке и сохраним её содержимое одним списком:

In [10]:

files = os.listdir()

In [11]:

files

Out[11]:

['file2.txt', 'file1.txt']

Проверим, что содержимое файла file2.txt изменилось. Воспользуемся методом readlines(), который считывает строки из текстового файла:

In [14]:

f = open('file2.txt', 'r')  # r - для чтения
f.readlines()

Out[14]:

['Hello\n', 'World\n']

Сохраним строки в список lines:

In [13]:

lines = f.readlines()
lines

Out[13]:

[]

Список оказался пустым! Дело в том, что метод .readlines() срабатывает один раз, когда мы его запускаем после загрузки файла через open(). Чтобы все же сохранить строки в список, еще раз прогоним строку с open(), в которой мы загружаем файл f, а потом ячейку с lines:

In [15]:

f = open('file2.txt', 'r')

In [16]:

lines = f.readlines()
lines

Out[16]:

['Hello\n', 'World\n']

Символ для перехода на новую строку всегда будет сохраняться, его можно убрать с помощью метода .strip() для строк, который убирает лишние пробелы в начале и в конце строки.

In [17]:

[line.strip() for line in lines]

Out[17]:

['Hello', 'World']

На этом работу с модулем os пока можно закончить.

Работа с файлами CSV и Excel¶

Можно найти разные способы для загрузки файлов с данными в Python, но мы остановимся на самом простом – с помощью библиотеки pandas. Импортируем библиотеку:

In [18]:

import pandas as pd

Начнем с формата CSV, который расшифровывается как comma separated values. Столбцы в таком файле по умолчанию отделяются друг от друга запятой. Например, такая таблица

In [19]:

small = pd.DataFrame([[0, 1, 4], [9, 5, 2]])
small.columns = ['a', 'b', 'c']
small

Out[19]:

	a	b	c
0	0	1	4
1	9	5	2

сохраненная в формате CSV, будет выглядеть так:

a,b,c
0,1,4
9,5,2.

Но разделитель столбцов в таблице может быть и другим, например, точкой с запятой:

a;b;c
0;1;4
9;5;2.

В таких случаях нам потребуется дополнительно выставлять параметр sep = ";", чтобы Python понимал, как правильно отделять один столбец от другого.

Давайте сначала экспортируем датафрейм small в файл с расширением .csv и в файл с расширением .xlsx, а потом полученные файлы загрузим в Python.

In [20]:

# экспортируем, теперь эти файлы лежат в рабочей папке

small.to_csv('abc.csv')
small.to_excel('abc.xlsx')

In [21]:

# импортируем

dat = pd.read_csv("abc.csv")
dat

Out[21]:

	Unnamed: 0	a	b	c
0	0	0	1	4
1	1	9	5	2

In [22]:

dat2 = pd.read_excel("abc.xlsx")
dat2

Out[22]:

	Unnamed: 0	a	b	c
0	0	0	1	4
1	1	9	5	2