Notebook

Машинное обучение¶

Факультет математики НИУ ВШЭ, 2019-20 учебный год¶

Илья Щуров, Соня Дымченко, Руслан Хайдуров, Александр Каган, Павел Балтабаев

Домашнее задание №2¶

Фамилия и имя студента: (впишите свои)

Определение: равномерное распределение¶

Абсолютно непрерывная случайная величина $X$ называется равномерно распределённой на отрезке $[a, b]$, если её плотность задаётся функцией $$p_{X}(x)=\frac{1}{b-a}\mathbb I_{[a, b]}(x),$$ где $\mathbb I_{[a, b]}$ — индикаторная функция отрезка $[a, b]$. Пишут:

$$\newcommand{\Uniform}{\mathop{\mathrm{Uniform}}} X\sim \Uniform(a, b)$$

Задача 1 (10 баллов)¶

Пусть $X \sim \Uniform(a, b)$, $b>a>0$, $Y=X^2$.

Найти плотность $p_Y(y)$. Является ли она ограниченной?
Пусть $y_1, \ldots, y_n$ — некоторая выборка, порождённая случайной величиной $Y$. Придумать какую-нибудь состоятельную оценку для параметра $a$ по этой выборке.
Является ли придуманная вами оценка несмещённой? (Подсказка: возьмите, например, $n=1$.)

(впишите своё решение сюда)

Задача 2 (15 баллов)¶

Пусть

$$ \begin{gather*} X \sim \Uniform(-1, 1),\\ \varepsilon \sim \Uniform(0, 1),\\ Y=X+\varepsilon X, \end{gather*} $$

где $\varepsilon$ независим от $X$.

Найти $p_{X}(x)$, $p_{Y\mid X}(y\mid x)$, $p_{X, Y}(x, y)$. Является ли эта функция ограниченной?
Найти $\mathbb E[Y|X=x_0]$ (это какая-то функция от числа $x_0$).
Найти $p_{Y}(y)$ — маргинальную плотность $y$. Проверьте, что это действительно плотность, то есть $\int_{\mathbb R}p_Y(y)dy=1$. Является ли эта функция ограниченной?
Как изменился бы ответ на вопрос 1, если бы $\varepsilon$ не был независим от $X$, а вычислялся по формуле: $\varepsilon = |X|$. (Проверьте, что в этом случае распределение $\varepsilon$ по-прежнему $\Uniform(0, 1)$.)

(впишите своё решение сюда)

Задача 3 (15 баллов)¶

Маша, Катя и Люба изучают выборку $x_1, \ldots, x_n$ из нормального распределения с неизвестным средним $\mu$ и дисперсией $1$. Они хотят оценить $\mu$ по этой выборке. Маша в качестве оценки использует выборочное среднее $\mathrm{\mathop{Ave}}$ (то есть просто среднее арифметическое), Катя использует [медиану выборки](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D0%B0_(%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0%29), а Люба функцию $\mathrm{\mathop{midrange}}$: $$\mathrm{\mathop{midrange}}(x_1, \ldots, x_n)=\frac{1}{2}(\max(x_1, \ldots, x_n)+\min(x_1, \ldots, x_n)).$$

Являются ли эти оценки несмещенными? Ответьте с помощью численного эксперимента: зафиксируйте какое-нибудь $\mu$ (например, $\mu=0$) и $n$ (например, $n=10$), сгенерируйте много (например, 10 000) выборок (это можно сделать с помощью функции np.random.normal, в качестве size нужно передать пару (число_выборок, n) — получится матрица указанного размера, заполненная случайными числами из данного распределения), для каждой найдите значение соответствующей функции (нужно использовать функции np.mean, np.random, np.max, np.min — все они принимают параметр axis — изучите, как он работает) и усредните их. Получается ли число, близкое к $\mu$? Становится ли оно ближе с увеличением числа выборок (при фиксированном $n$)?
Оцените дисперсию каждой оценки для различных $n$. Зафиксируйте число выборок (допустим, 1000) и в цикле по n от 2 до 100 выполните следующее. Сгенерируйте 1000 выборок длиной $n$, для каждой выборки найдите значение соответствущей оценки (аналогично предыдущему пункту) и посчитайте выборочную дисперсию для полученных оценок (с помощью .var()). Постройте график, показывающий зависимость дисперсии каждой из оценок от $n$. Какая оценка имеет наименьшую дисперсию? Какая наибольшую? Какую из этих оценок вы бы стали использовать, если бы хотели минимизировать квадратичную ошибку предсказания?
Выполните пункт 2 для равномерного распределения на отрезке $[-1, 1]$. Какая теперь оценка имеет наименьшую дисперсию? Какая наибольшую? Как вы можете объяснить разницу с предыдущим пунктом? Какую из этих оценок вы бы стали использовать в этом случае, если бы хотели минимизировать квадратичную ошибку предсказания?

In [1]:

# впишите решение сюда

Задача 4 (10 баллов)¶

Рассмотрим случайную величину $Y$, имеющую плотность $p(y)$, которую мы будем считать известной функцией. Мы хотим подобрать такую величину $\hat y \in \mathbb R$, чтобы матожидание функции потерь $\mathbb E_{y\sim Y} L(y, \hat y)$ было минимальным. Пусть $L(y, \hat y)=|y-\hat y|$. Выразить оптимальное $\hat y$ через функцию $p$.

(впишите решение сюда)

Задача 5 (12 баллов)¶

Пусть дана выборка $x_1, \ldots, x_n$, все $x_i \in \mathbb R$ распределены как случайная величина $X$ и независимы в совокупности, $\mathbb E[X]<\infty$, $\mathbb D[X]<\infty$. Для фиксированного вектора $w\in \mathbb R^n$ рассмотрим функцию $$\varphi_w(x)=\langle w, x \rangle,$$ где $\langle w, x \rangle$ — стандартное скалярное произведение (скалярное произведение, записанное в ортонормированном базисе).

При каком условии на $w$ эта функция будет несмещённой оценкой для $\mathbb E[X]$?
Среди всех $w$, при которых $\varphi_w(x)$ является несмещённой оценкой для $\mathbb E[X]$, найти такое, при котором дисперсия $\varphi_w(x)$ будет наименьшей. (Подсказка: вам понадобятся множители Лагранжа.)

(впишите решение сюда)

Задача 6 (10 баллов)¶

Рассмотрим задачу регрессии с одномерным пространством признаков. Пусть истинный закон генерирования данных описывается следующим образом: все $x_i$ фиксированы и заданы так: $x_i=i-3$, $i=1, \ldots, 5$, а $y_i$ являются случайными величинами: $$y_i = |x_i| + \varepsilon_i,$$ где все $\varepsilon_i$ независимы, $\mathbb E[\varepsilon_i]=0$, $\mathbb D[\varepsilon_i]=4$. Пусть $f_k(x)$ — предсказание метода $k$ ближайших соседей в точке $x$. Найти ожидаемую квадратичную ошибку предсказания в точке $x=0$ для $k=3$. Представить её в виде суммы шума, смещения и разброса.

(впишите решение сюда)