Na naucse.python.cz bohužel nefunguje zobrazování interaktivních plotly grafů. Pro zobrazení včetně grafů můžeš použít nbviewer: https://nbviewer.jupyter.org/github/PyDataCZ/pydataladies-dashboard/blob/main/notebooks/dashboardy-1.ipynb nebo si notebook pustit lokálně. Všechny soubory pohromadě najdeš v repozitáři https://github.com/PyDataCZ/pydataladies-dashboard.
Při práci s daty je mnoho příležitostí, kdy se hodí interaktivita. Při vizualici se hodí zvětšování / zmenšování měřítka, výběr podoblasti, ukázání vykreslených hodnot apod. Nebo při datové analýze obecně se může hodit interaktivně v notebooku měnit nějaký parametr (třeba hyperparametr pro strojové učení). Anebo chceme dát výsledky naší skvělé analýzy k dispozici "netechnickým" kolegům nebo kamarádům, kteří (zatím) nedokáží Jupyter notebook spustit.
Tady si ukážeme, jak si s takovými úkoly poradit pomocí dvou nástrojů: plotly, resp. především plotly express, a streamlit.
Existují i další nástroje, které poskytují podobné možnosti. Podrobný přehled najdete na https://pyviz.org/tools.html. Na interaktivní vizualizace jsou to především holoviews nebo altair. Na "dashboarding" pak dash, panel, voila, nebo vizro. Za zmínku stojí také projekty NiceGUI nebo FastHTML, kde lze vytvářet i složitější webové aplikace.
Velmi atraktivními novinkami jsou JupyterLite, voici a PyScript. Oba projekty těží z možnosti spustit Python kód přímo ve webovém prohlížeči, konkrétně v jeho virtuálním stroji, díky technologie Web Assembly.
Každý z těchto nástrojů má, jako obvykle, své výhody a nevýhody. Pravděpodobně nejrozšířenějším nástrojem je Dash ze stejné dílny jako plotly, který poskytuje i enterprise řešení pro provoz aplikací. Dash je určitě dobrou volbou, jak se můžete dozvědět i na přednášce z pražského PyData Meetupu. Panel (a také Voila) se od Dash liší tím, že je lze použít i v Jupyter notebooku a pak notebook použít přímo jako aplikaci. Největší přednost voila
je jednoduchý způsob, jak udělat dashboard přímo z notebooku: viz dokumentace.
Dvě největší výhody Streamlitu jsou rychlost (jednoduchost) vývoje aplikace a atraktivní výchozí vzhled. Streamlit také (nedávno) přidal možnost vzájemné interakce mezi widgety pomocí callback funkcí. Pro Streamlit lze také poměrně snadno vytvářet nové komponenty, důkazem toho budiž galerie komponent.
Pár článků či přednášek, které se tématu týkají:
Je potřeba ale říct, že všechny zmíněné přístupy mají své výrazné nevýhody a limity a nehodí se pro velké a složité aplikace. Možnosti interakcí v aplikaci jsou omezené a také mohou být pomalé. Robustní škálování pro mnoho uživatelů (velký provoz) je obecně složitější. Kdy tedy především použít, co si tady ukážeme?
A co když chceme budovat velkou (webovou) aplikaci?
Pokud nemáte nainstalovanou knihovnu plotly, odkomentujte a spusťte příslušné řádky.
# instalace plotly
# %pip install plotly
Pro plotly express se vžila zkratka px
, kterou použijeme i my.
import plotly.express as px
import plotly.io as pio
# from https://github.com/microsoft/vscode-jupyter/issues/6999
# This ensures Plotly output works in multiple places:
# plotly_mimetype: VS Code notebook UI
# notebook: "Jupyter: Export to HTML" command in VS Code
# See https://plotly.com/python/renderers/#multiple-renderers
pio.renderers.default = "plotly_mimetype+notebook"
# notebook-only does not work in Jupyter Lab
# pio.renderers.default = "notebook"
Pojďme si zkusit trochu více prohlédnout data, se kterými jsme pracovali v předchozích lekcích na strojové učení.
Začněme rozměry ryb, na kterých jsme ukazovali regresi a klasifikaci. Určitě stojí za to si data nejprve trochu prohlédnout. (Jen si asi nenakreslíme přímo vzhled ryb, na to nám data nestačí :)
import pandas as pd
fish_data = pd.read_csv("../data/fish_data.csv", index_col=0)
species_cs = {
"Bream": "Cejn",
"Roach": "Plotice",
"Whitefish": "Bílá ryba",
"Parkki": "Karas",
"Perch": "Okoun",
"Pike": "Štika",
"Smelt": "Koruška",
}
fish_data = fish_data.assign(Species=fish_data["Species"].map(species_cs))
fish_data
Species | Weight | Length1 | Length2 | Length3 | Height | Width | ID | |
---|---|---|---|---|---|---|---|---|
0 | Cejn | 242.0 | 23.2 | 25.4 | 30.0 | 11.5200 | 4.0200 | 0 |
1 | Cejn | 290.0 | 24.0 | 26.3 | 31.2 | 12.4800 | 4.3056 | 1 |
2 | Cejn | 340.0 | 23.9 | 26.5 | 31.1 | 12.3778 | 4.6961 | 2 |
3 | Cejn | 363.0 | 26.3 | 29.0 | 33.5 | 12.7300 | 4.4555 | 3 |
4 | Cejn | 430.0 | 26.5 | 29.0 | 34.0 | 12.4440 | 5.1340 | 4 |
... | ... | ... | ... | ... | ... | ... | ... | ... |
153 | Koruška | 9.8 | 11.4 | 12.0 | 13.2 | 2.2044 | 1.1484 | 153 |
154 | Koruška | 12.2 | 11.5 | 12.2 | 13.4 | 2.0904 | 1.3936 | 154 |
155 | Koruška | 13.4 | 11.7 | 12.4 | 13.5 | 2.4300 | 1.2690 | 155 |
156 | Koruška | 12.2 | 12.1 | 13.0 | 13.8 | 2.2770 | 1.2558 | 156 |
158 | Koruška | 19.9 | 13.8 | 15.0 | 16.2 | 2.9322 | 1.8792 | 158 |
123 rows × 8 columns
A místo klasického zobrazování čísel si zkusíme rovnou data vykreslit do grafu. Víme (tušíme), že v datech je spousta sloupců. Můžeme si je nechat vykreslit všechny pomocí scatter_matrix
.
px.scatter_matrix(fish_data)
To vůbec není špatné na prvotní orientaci. Už teď je vidět, že tam máme kategorickou proměnnou Species, nějaké spojité proměnné s rozměry a nepodstatné ID. Vidíme také, že některé proměnné spolu hodně korelují.
Už teď bychom mohli využít interaktivních prvků: zkuste si najet kurzorem na body v grafu nebo použít nástroje na změnu měřítka nebo výběr dat, které se zobrazí v pravém horním rohu. Ještě lepší bude ale trochu graf zlepšit: Zahodit ID a druhy si označit barvou.
px.scatter_matrix(
fish_data,
dimensions=["Weight", "Length1", "Length2", "Length3", "Height", "Width"],
color="Species",
opacity=1,
hover_data=["Species"],
)
Tady nám kromě barevnosti přibyla vpravo legenda. A dokonce legenda interaktivní! Jednoduchým kliknutím můžeme schovat / zobrazit jednotlivé kategorie, dvouklikem můžeme zobrazit jen jednu kategorii. Zkuste si to! Užitečné může být i vybírání dat - Box Select nebo Lasso Select.
Úkol: Použijte pro barvu sloupec Weight, symboly udělejte částečně průhledné pomocí argumentu opacity
(rozsah 0 - 1) a v legendě, zobrazované, když se najede kurzorem na určitý bod, nechť se zobrzují všechny sloupce (pomůže argument hover_data
).
Když se pak chceme třeba podívat na statistické vlastnosti jedné konkrétní proměnné (sloupce), můžeme použít některou z funkcí na zobrazení rozdělovací funkce, resp. některých jejích vlastností (momentů).
Začít můžeme poměrně častým box plotem. Bonus plotly je hlavně v interaktivním zobrazení číselných hodnot: mediánu a kvantilů, a také identifikaci (pravděpodobně) odlehlých hodnot.
px.box(fish_data, x="Species", color="Species", y="Height", points="all", notched=False)
px.histogram(fish_data, color="Species", x="Height", opacity=0.5)
Pro zobrazení vztahu dvou proměnných může být ještě užitečné podívat se na hustotu bodů v ploše pomocí kontur. U tohoto grafu můžeme po stranách zobrazit i tzv. marginální rozdělení: nejpravděpodobnější rozdělení jedné proměnné v závislosti na druhé.
px.density_contour(
fish_data,
color="Species",
x="Height",
y="Width",
marginal_x="histogram",
marginal_y="histogram",
)
Úkol: Zkuste si zobrazit v grafech jiné veličiny (jiné sloupce) než Height a Width. Zkuste změnit typ marginálních grafů.
Máme i kolegy, kteří (ještě) nepoužívají Python a přesto by ocenili, kdyby mohli místo statického reportu dostat report s takto krásnými a interaktivními vizualizacemi. Pro tento účel se hodí export notebooku do html pomocí nbconvert
.
V příkazovém řádku spustíme nbconvert
pomocí příkazu jupyter nbconvert
. Pro export do html pak přidáme --to html
, nesmíme zapomenout zadat který notebook (tj. soubor) chceme vlastně konvertovat.
# Odkomentováním se spustí příkaz v příkazové řádce (díky vykřičníku)
# Možná se soubor u tebe jmenuje jinak než dashboardy-1, v takovém použij aktuální jméno souboru
!jupyter nbconvert dashboardy-1.ipynb --to html
2391.46s - pydevd: Sending message related to process being replaced timed-out after 5 seconds
[NbConvertApp] Converting notebook dashboardy-1.ipynb to html [NbConvertApp] Writing 4363870 bytes to dashboardy-1.html
Můžeme také exportovat jen výstupy a "utajit" zdrojový kód pomocí --no-input
:
!jupyter nbconvert dashboardy-1.ipynb --to html --no-input
2445.54s - pydevd: Sending message related to process being replaced timed-out after 5 seconds
[NbConvertApp] Converting notebook dashboardy-1.ipynb to html [NbConvertApp] Writing 4341390 bytes to dashboardy-1.html
Všem se naše vizualizace líbily, a jelikož je potřeba analyzovat další data, dostali jsme to za úkol my. Tentokrát se nejedná o ryby, ale o tučňáky.
Úkol: Vyber si z grafů ten, který se ti nejvíc líbí, a místo rybích dat použij tučňáky.
penguins = pd.read_csv("../data/penguins_size_nona.csv")
Z naší práce v notebooku vykrystalizoval velice častý vzor: Podobné vizualizace a analýzy, v nichž se mění data a několik klíčových parametrů. Příležitost vytvořit aplikaci, která toto umožní nám a okruhu poučených uživatelů.
Pojďme si nadefinovat naší jednoduchou aplikaci:
Pojďme to nejprve načrtnout tady v notebooku. Jako první si připravíme uživatelské vstupy.
# vstup 1: výběr datové sady
data_file_path = "../data/penguins_size_nona.csv"
# vstup 2: výběr parametrů scatter matrix
dimensions = ['culmen_length_mm', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g']
color = "sex"
opacity = 0.5
# výběr sloupce pro zobrazení rozdělení dat
interesting_column = "body_mass_g"
# výběr funkce pro zobrazení rozdělovací funkce
dist_plot = px.violin
A tohle už je pak naše aplikace: Použili jsme stejné funkce a parametry jako na začátku práce s plotly, jen jsme je parametrizovali pomocí vstupů z předchozího bloku.
# načtení dat
data = pd.read_csv(data_file_path)
# scatter matric plat
px.scatter_matrix(data, dimensions=dimensions, color=color, opacity=opacity)
# zobrazení rozdělovací funkce
dist_plot(data, x=interesting_column, color=color)
A teď z toho pojďme udělat interaktivní webovou aplikaci! To nebudeme dělat přímo tady v notebooku, ale v "obyčejném" .py souboru s Python kódem.
Aplikaci máme připravenou v souboru app.py
, tady v notebooku si soubor můžeme prohlédnout:
%load ../app.py
Základem je, že uživatelské vstupy jsme předělali z podoby proměnná = hodnota
do podoby proměnná = st.vhodný_widget(...)
. Toto je způsob vytváření streamlit aplikace:
st.nějaký_widget
, Streamlit se postará o to, aby widget správně fungoval a návratová hodnota byla vždy ta aktuální.st.write
.Widgets - pomocné "věcičky": V uživatelských grafických rozhraních (GUI) se používají widgety: nástroje na vybrání možností, hodnoty proměnné, zadání textu nebo datumu apod.
Streamlit ještě nejspíš nemáš nainstalovaný. Instaluje se běžným způsobem přes pip:
pip install streamlit==1.40.0
případně pokud používáš conda
conda install -c conda-forge streamlit=1.40.0
Na svém počítači si pak aplikaci spustíš příkazem streamlit run
s názvem souboru s aplikací. V našem případě tedy
streamlit run app.py
Pokud je vše v pořádku, zobrazí se něco takovéhoto:
You can now view your Streamlit app in your browser.
Network URL: http://192.168.2.103:8800
External URL: http://85.207.123.46:8800
Dle instrukcí otevři odkaz (ten první) v prohlížeči. Je velká pravděpodobnost, že se objeví naše právě vytvořená aplikace na vizualizaci dat.
V principu bychom mohli spustit aplikaci u sebe na počítači tak, aby ji mohli používat i další uživatelé. Na vnitřní síti (domácí, pracovní) by to bylo snadné (i když na pracovní síti a pracovním počítači by tomu mohla bránit bezpečnostní nastavení), přístup z vnějšího internetu by už byl komplikovanější.
Naštěstí nejsme v podobné situaci sami :) Takže existují více či méně složité a sofistikované způsoby, jak aplikaci spustit na nějakém serveru (v cloudu) a zpřístupnit z internetu. My si ukážeme, jak to funguje na Streamlit Cloud, což je možná nejjednodušší způsob publikace Streamlit aplikace z GitHub repozitáře. Oproti obecnějším službám má pochopitelně méně možností a funguje pouze pro Streamlit.
Pro sofistikovanější aplikace je pak možné použít některou z PaaS (Platform as a Service) služeb typu Render, Heroku, AWS Elastic Beanstalk, Google App Engine, Digital Ocean Apps. Některé z těchto služeb mají i zajímavé bezplatné plány nebo kredit pro nové uživatele.
Než začneme, je potřeba:
Aby bylo jasné, jaké Python balíčky jsou potřeba pro naši aplikaci a tím si ji kdokoli mohl spustit, vytvoříme soubor requirements.txt
. Ten může použít buď lidský uživatel nebo platforma typu Streamlit Cloud.
V souboru requirements.txt
potřebujeme mít (alespoň) základní balíčky pro spuštění aplikace:
pandas==2.2.3
streamlit==1.40.0
plotly==5.24.1
requirements.txt
souborem.Tento soubor umí použít pip
: Pro instalaci balíčků stačí spustit
python -m pip install -r requirements.txt
.gitignore
soubor z nabídky.Po vytvoření projektu se objeví instrukce na naklonování (nahrání) projektu na tvůj počítač. Použij například gh
v příkazové řádce.
gh repo clone uživatelské-jméno/název-repozitáře
Do projektu přidej soubory s aplikací, tedy app.py
a requirements.txt
. Poté je přidej do Gitu a udělej commit:
git add app.py requirements.txt
git commit -m "První verze aplikace"
Nahraj změny na GitHub pomocí git push
.
git push
Jakmile máme projekt na GitHubu, je snadné ho publikovat na Streamlit Cloud. Protože jsme pro registraci na Streamlit Cloud použili náš GitHub účet, má Streamlit přístup k našim repozitářům. (Pokud ne, můžeme přístup udělit dodatečně.)
Pro vytvoření nové aplikace klikni na „New app“, poté vyplň jaký repozitář se má použít a jméno souboru s aplikací - pro nás to je app.py
.
Vyber také v sekci Advanced settings verzi Pythonu 3.11.
Podrobný návod najdeš na https://docs.streamlit.io/streamlit-cloud/get-started/deploy-an-app.
Za chvilku by tvoje aplikace měla být dostupná na internetu 🎉
Úkol 1: Pošli odkaz na tvou běžící aplikaci :)
Úkol 2: Pomocí st.title
změň titulek (název) aplikace. Vyzkoušej u sebe lokálně, pak změnu "commituj" do gitu a nahraj (git push
) na GitHub. Tvoje změna by se měla (s drobným zpožděním) projevit i v online verzi.
Úkol 3: Přidej do aplikace možnost schovat část s parametry scatter matrix. Použij st.expander
.
Úkol 4: Přidej do aplikace možnost filtrovat data podle rozsahu hodnot. Konkrétně:
st.slider
s dvojitým posuvníkem (range slider) k výběru rozsahu hodnot.