pandasのread_◯◯を調べる。



吉田 貴輝 

吉田 貴輝


愛称:ヨビー
強情にYOBEと描き続けたらヨベと呼ばれる
京都在住
大阪でシステムエンジニア(php)
python歴1年のペーペー
機械学習をしては何度も挫折しながらpythonは使っている。 pythonでスクレーピングとエクセルがわり。
facebook:yoshiteru.yoshida

pandasとは

行列データを扱いやすくしたり、集計を行うライブラリ。 C言語で書かれてる行列フレームワークnumpyがベースで作られているので非常に高速です。 excelで行っていることをpythonで行う場合に非常に便利。 もちろん、少量のデータ、簡単な加工であればexcelで十分ですが、大量のデータや複雑な加工が必要な場合はpandasで加工することが多いです。 普段は込み入ったことにはエクセルを使わずに代わりに使っているpythonなんですが、ふとpandasはどれぐらい読み込めるのか気になり調べて見ました。

開発環境

  1. homebrew(macパッケージ管理ソフト?)
  2. pyenv 1.1.5
  3. Python 3.5.4 :: Anaconda custom (64-bit)

read_◯◯を調べたら結構あった

  • pd.read_clipboard
  • pd.read_csv
  • pd.read_excel
  • pd.read_feather
  • pd.read_fwf
  • pd.read_gbq
  • pd.read_hdf
  • pd.read_html
  • pd.read_json
  • pd.read_msgpack
  • pd.read_parquet
  • pd.read_pickle
  • pd.read_sas
  • pd.read_sql
  • pd.read_sql_query
  • pd.read_sql_table
  • pd.read_stata
  • pd.read_table

お世話になっているもの

pd.read_csv

Also supports optionally iterating or breaking of the file into chunks.
CSV(コンマ区切り)ファイルをDataFrameに読み込むオプションで、ファイルの反復処理または中断をチャンクにサポートします。 TSV(タブ区切り)もオプション設定で使う。

pd.read_excel

Read an Excel table into a pandas DataFrame
Excelテーブルを読み込んでpandas DataFrameにする

pd.read_html

Read HTML tables into a list of DataFrame objects.
htmlのテーブルやテーブルが配列に格納されます。

pd.read_json

jsonファイルを読む

使ったことはないが使えそうなもの

pd.read_clipboard

Read text from clipboard and pass to read_table. See read_table for the full argument list クリップボードからテキストを読み取り、read_tableに渡します。 read_tableを参照してください完全な引数リスト

pd.read_sql

Read SQL query or database table into a DataFrame. SQLクエリまたはデータベーステーブルをDataFrameに読み込みます。 SQL queryやDBAPI2 をライブラリを使って

pd.read_parquet

Load a parquet object from the file path, returning a DataFrame. Parquetオブジェクトをロードする。 横方向行方向ではなく縦方向で格納する形式

pd.read_pickle

Load pickled pandas object (or any other pickled object) from the specified file path pandasでpickle化されたオブジェクト(または他のpickle化されたオブジェクト)を指定された場所からロードする パイナリ型で格納するpython固有形式のファイル、早いが直読みできない

若干使うのをためらっている

pd.read_gbq

Load data from Google BigQuery. The main method a user calls to execute a Query in Google BigQuery and read results into a pandas DataFrame.Google BigQuery API Client Library v2 for Python is used.Documentation is available here googleのbigquery ミスった時のお金のリスクが。。。(以前、「BigQueryで150万円溶かした人の顔」というQiita記事を見てビビってる。

使いどころがよくわからないが。。。。

pd.read_hdf

Retrieve pandas object stored in file, optionally based on where criteria ファイルに格納されているpandasオブジェクトを取得します。

pd.read_feather

Load a feather-format object from the file path ファイルパスからフェザーフォーマットオブジェクトをロードする

pd.read_fwf

Read a table of fixed-width formatted lines into DataFrame Also supports optionally iterating or breaking of the file into chunks. 固定幅のフォーマットされた行のテーブルをDataFrameに読み込むオプションで、ファイルの繰り返しまたは分割をチャンクにサポートします

pd.read_msgpack

Load msgpack pandas object from the specified file path THIS IS AN EXPERIMENTAL LIBRARY and the storage format may not be stable until a future release. msgpack pandasオブジェクトを指定された場所からファイルパスでロードする これは実験的なライブラリであり、保存フォーマット将来のリリースまで安定していない可能性があります。

pd.read_sas

Read SAS files stored as either XPORT or SAS7BDAT format files. XPORTまたはSAS7BDAT形式のファイルとして保存されたSASファイルを読み込みます。

pd.read_stata

StataファイルをDataFrameに読み込む

pd.read_table

一般的な区切りファイルをDataFrameに読み込む オプションで、ファイルの反復処理または中断をサポートしますチャンクに。

pd.read_sql_query

SQLクエリをDataFrameに読み込みます。クエリの結果セットに対応するDataFrameを返します。 文字列。オプションで、 index_colパラメータを指定して、 列をインデックスとして使用します。それ以外の場合は、デフォルトの整数インデックスが使用されます。

pd.read_sql_table

Read SQL database table into a DataFrame. 同上