Notebook

[グループワーク] ファイル読み込み・データ加工¶

Pandasを使ったファイルの読み込み～データ加工までを行う課題にチャレンジしましょう。

事前準備¶

本講義で使用するファイルをダウンロードしておきましょう。次のコードを実行してください。

In [ ]:

# gitからデータを取得する。
%cd /content/
!rm -rf python_intermediate_2022
!git clone https://github.com/tendo-sms/python_intermediate_2022
%cd /content/python_intermediate_2022/05_GW_pandas

グループワークその1¶

(Pandasを使ったファイルの読み込み～データ加工までを行う課題にチャレンジ)¶

これまでに学んできた知識を参考に、とあるスペクトルデータが保存されているExcelファイルからデータを読み出し、データの整形や加工に取り組んでみましょう。

Excelファイルのデータには実習用に細工を施しております。

データの中身を調査しながら課題にチャレンジしてみましょう。

pandasでExcelファイルの読む
各シートを結合させてひとつのデータフレームにする
単位換算する
欠測定値を補完する

pandasでExcelファイルを読み込んでみよう¶

[目標1]

複数シートが存在するExcelデータを読み込み、中身を簡単に確認してみましょう。

Excelデータを読み込もう！¶

[課題1-1]

サンプルにExcelデータ（sample.xlsx)を読み込み、「data1」シートを変数df_data1に、「data2」シートを変数df_data2に入れてみましょう。

読み込んだら、次のコマンドで正しく読み込めているか確認してください。

print("df_data1のデータタイプ", type(df_data1))

print("df_data2のデータタイプ", type(df_data2))

ヒント：read_excel、オプションsheet_name

In [ ]:

import pandas as pd
import numpy as np

# 方法1  シート名を指定して読み込む。
"""
この方法はシート名を事前に知っておく必要があります。
"""
df_data1 = pd.read_excel("sample.xlsx", sheet_name="data1")
df_data2 = pd.read_excel("sample.xlsx", sheet_name="data2")
print("df_data1のデータタイプ", type(df_data1))
print("df_data2のデータタイプ", type(df_data2))

# 方法2  シート番号を指定して読み込む。
"""
シートの順番が統一されている必要があります。
"""
df_data1 = pd.read_excel("sample.xlsx", sheet_name=0)
df_data2 = pd.read_excel("sample.xlsx", sheet_name=1)
print("df_data1のデータタイプ", type(df_data1))
print("df_data2のデータタイプ", type(df_data2))

# 方法3  全体を読み込んでから、シートごとに判断する。
df_data_all = pd.read_excel("sample.xlsx", sheet_name=None)
df_data1 = df_data_all["data1"]
df_data2 = df_data_all["data2"]
print("df_data1のデータタイプ", type(df_data1))
print("df_data2のデータタイプ", type(df_data2))

# 今回の実習ではどの方法でも構いませんが、できるだけ汎用性が高いコードを心がけましょう。
# 一部のケースだけしか考慮されていない方法では、あとで苦労することになります。

各シートのデータの中身を簡単に確認してみましょう！¶

[課題1-2]

変数df_data1とdf_data2について、以下の内容を表示してみましょう。

最初の先頭5行を表示
行数、列数を表示
各列のデータタイプの表示

ヒント：head、shape、dtypes

In [ ]:

# data1について
print("data1のデータ")
print(df_data1.head(5))
print("data1の行数")
print(df_data1.shape)
print("data1のデータタイプ")
print(df_data1.dtypes)

# data2について
print("data2のデータ")
print(df_data2.head(5))
print("data2の行数")
print(df_data2.shape)
print("data2のデータタイプ")
print(df_data2.dtypes)


#df_data2のIntensity [a.u]はobject型になっています。
#欠測値が"-"（ハイフン）が含まれているため数値型に変換できないためobject型として読み込まれています。
#このままだと数値として計算することができないだけでなく、図化することができません。

データを数値型にして欠測値の削除／補完をしてみよう¶

[目標2]

df_data2の「Intensity [a.u]」列のデータ型をfloat64にして、欠測値を削除 or 補完をしてみましょう。

特定の列を数値型に変換しよう！¶

[課題2-1]

df_data2の「Intensity [a.u]」列を数値型に変換してみましょう。

欠測値はnp.nanとして、数値はfloat型で定義してください。

変換ができたら、次のコマンドで確認してください。

print(df_data2.head(5))

print(df_data2.dtypes)

ヒント：loc、fancy、astype、to_numeric

In [ ]:

# 方法1  astypeを使って変換する。
"""
fancyで指定する場合は代入を繰り返すとワーニングが発生することがあります。

df_data2[df_data2["Intensity [a.u]"]=="-"]["astype"] = np.nan
df_data2[df_data2["Intensity [a.u]"]!="-"]["astype"] = df_data2[df_data2["Intensity [a.u]"]!="-"]["Intensity [a.u]"].astype(float)

次のようなワーニングが発生する。
/usr/local/lib/python3.7/dist-packages/ipykernel_launcher.py:10: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
"""
df_data2.loc[df_data2["Intensity [a.u]"]=="-", "astype"] = np.nan
df_data2.loc[df_data2["Intensity [a.u]"]!="-", "astype"] = df_data2[df_data2["Intensity [a.u]"]!="-"]["Intensity [a.u]"].astype(float)
print(df_data2.head(5))
print(df_data2.dtypes)
print("-"*100)

# 方法2  to_numericを使って変換する。
"""
to_numericのerrorsオプションは「数値に変換できない」場合の挙動を指定できます。

raise：例外を表示し、エラーを返す。
coerce：NaNに変換する。
ignore：数値変換はせず、そのままの値にする。
"""
df_data2["to_numeric"] = pd.to_numeric(df_data2["Intensity [a.u]"], errors="coerce")
print(df_data2.head(5))
print(df_data2.dtypes)
print("-"*100)

# 新たに「astype」列と「to_numeric」列を作成していますが、「Intensity [a.u]」を置き換えてください。
df_data2["Intensity [a.u]"] = pd.to_numeric(df_data2["Intensity [a.u]"], errors="coerce")
df_data2 = df_data2[["Energy [keV]", "Intensity [a.u]", "scale"]]
print(df_data2.head(5))
print(df_data2.dtypes)

欠測値の行を削除してみよう！¶

[課題2-2]

先ほど、df_data2の「Intensity [a.u]」列の"-"（ハイフン）をNaNに変換しました。

NaNの場合は行を削除してみましょう。

まずはdf_data2をdf_data2_2としてコピーしてください。

df_data2_2 = df_data2.copy()

削除ができたら、次のコマンドで確認してください。

print(df_data2_2.head(5))

print(df_data2_2.shape)

ヒント：dropna

In [ ]:

# データフレームをコピー
df_data2_2 = df_data2.copy()

# Intensity [a.u]に欠測値がある行（レコード）を削除する。
df_data2_2.dropna(subset=["Intensity [a.u]"], inplace=True)

print(df_data2_2.head(5))
print(df_data2_2.shape)

欠測値を補完してみよう！¶

[課題2-3]

まずはdf_data2をdf_data2_3としてコピーしてください。

df_data2_3 = df_data2.copy()

補完した結果は、「fillna」と「interpolate」列を追加して保存してください。

結果は次の命令文で確認してください。

print(df_data2_3.iloc[60:70])

ヒント：fillna、interpolate

In [ ]:

# データフレームをコピー
df_data2_3 = df_data2.copy()

# ffillで欠測値を埋める
df_data2_3["fillna"] = df_data2_3["Intensity [a.u]"].fillna(method="ffill")

# ffillで欠測値を埋める
df_data2_3["interpolate"] = df_data2_3["Intensity [a.u]"].interpolate(limit_direction="both")

# 結果の表示
print(df_data2_3.iloc[60:70])

単位換算をしてみよう¶

[目標3]

欠測データを削除したdf_data2_2を使って、「Intensity [a.u]」列の単位を換算しましょう。

特定の列を参考にしながら単位換算してみよう！¶

[課題3-1]

df_data2_2の「scale」列には、「Intensity [a.u]」を何倍すればよいか数値が入っています。

こちらを参照して計算した結果を「Intensity [a.u]」列に置き換えてみましょう。

変換ができたら、次のコマンドで確認してください。

print(df_data2_2)

ヒント：fancy、astype

In [ ]:

# ffillで欠測値を埋める
df_data2_2["Intensity [a.u]"] = df_data2_2["Intensity [a.u]"] * df_data2_2["scale"].astype(float)

# 結果の表示
print(df_data2_2)

結果を可視化してみよう¶

[目標4]

結果をpandasから簡単に可視化してみましょう。

pandasから可視化してみよう！¶

[課題4-1]

df_data2_2を可視化してみましょう。

X軸には「Energy [keV]」、Y軸には「Intensity [a.u]」を指定して折れ線グラフを描いてみよう。

ヒント：df.plot

In [ ]:

# X軸に「Energy [keV]」、Y軸は「Intensity [a.u]」を指定する。
df_data2_2.plot(figsize=(12, 10), x="Energy [keV]", y="Intensity [a.u]")