Фамилия и имя студента: (впишите свои)
Абсолютно непрерывная случайная величина $X$ называется равномерно распределённой на отрезке $[a, b]$, если её плотность задаётся функцией $$p_{X}(x)=\frac{1}{b-a}\mathbb I_{[a, b]}(x),$$ где $\mathbb I_{[a, b]}$ — индикаторная функция отрезка $[a, b]$. Пишут:
$$\newcommand{\Uniform}{\mathop{\mathrm{Uniform}}} X\sim \Uniform(a, b)$$Пусть $X \sim \Uniform(a, b)$, $b>a>0$, $Y=X^2$.
(впишите своё решение сюда)
Пусть
$$ \begin{gather*} X \sim \Uniform(-1, 1),\\ \varepsilon \sim \Uniform(0, 1),\\ Y=X+\varepsilon X, \end{gather*} $$где $\varepsilon$ независим от $X$.
(впишите своё решение сюда)
Маша, Катя и Люба изучают выборку $x_1, \ldots, x_n$ из нормального распределения с неизвестным средним $\mu$ и дисперсией $1$. Они хотят оценить $\mu$ по этой выборке. Маша в качестве оценки использует выборочное среднее $\mathrm{\mathop{Ave}}$ (то есть просто среднее арифметическое), Катя использует [медиану выборки](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D0%B0_(%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0%29), а Люба функцию $\mathrm{\mathop{midrange}}$: $$\mathrm{\mathop{midrange}}(x_1, \ldots, x_n)=\frac{1}{2}(\max(x_1, \ldots, x_n)+\min(x_1, \ldots, x_n)).$$
Являются ли эти оценки несмещенными? Ответьте с помощью численного эксперимента: зафиксируйте какое-нибудь $\mu$ (например, $\mu=0$) и $n$ (например, $n=10$), сгенерируйте много (например, 10 000) выборок (это можно сделать с помощью функции np.random.normal
, в качестве size
нужно передать пару (число_выборок, n)
— получится матрица указанного размера, заполненная случайными числами из данного распределения), для каждой найдите значение соответствующей функции (нужно использовать функции np.mean
, np.random
, np.max
, np.min
— все они принимают параметр axis
— изучите, как он работает) и усредните их. Получается ли число, близкое к $\mu$? Становится ли оно ближе с увеличением числа выборок (при фиксированном $n$)?
Оцените дисперсию каждой оценки для различных $n$. Зафиксируйте число выборок (допустим, 1000) и в цикле по n
от 2 до 100 выполните следующее. Сгенерируйте 1000 выборок длиной $n$, для каждой выборки найдите значение соответствущей оценки (аналогично предыдущему пункту) и посчитайте выборочную дисперсию для полученных оценок (с помощью .var()
). Постройте график, показывающий зависимость дисперсии каждой из оценок от $n$. Какая оценка имеет наименьшую дисперсию? Какая наибольшую? Какую из этих оценок вы бы стали использовать, если бы хотели минимизировать квадратичную ошибку предсказания?
Выполните пункт 2 для равномерного распределения на отрезке $[-1, 1]$. Какая теперь оценка имеет наименьшую дисперсию? Какая наибольшую? Как вы можете объяснить разницу с предыдущим пунктом? Какую из этих оценок вы бы стали использовать в этом случае, если бы хотели минимизировать квадратичную ошибку предсказания?
# впишите решение сюда
Рассмотрим случайную величину $Y$, имеющую плотность $p(y)$, которую мы будем считать известной функцией. Мы хотим подобрать такую величину $\hat y \in \mathbb R$, чтобы матожидание функции потерь $\mathbb E_{y\sim Y} L(y, \hat y)$ было минимальным. Пусть $L(y, \hat y)=|y-\hat y|$. Выразить оптимальное $\hat y$ через функцию $p$.
(впишите решение сюда)
Пусть дана выборка $x_1, \ldots, x_n$, все $x_i \in \mathbb R$ распределены как случайная величина $X$ и независимы в совокупности, $\mathbb E[X]<\infty$, $\mathbb D[X]<\infty$. Для фиксированного вектора $w\in \mathbb R^n$ рассмотрим функцию $$\varphi_w(x)=\langle w, x \rangle,$$ где $\langle w, x \rangle$ — стандартное скалярное произведение (скалярное произведение, записанное в ортонормированном базисе).
(впишите решение сюда)
Рассмотрим задачу регрессии с одномерным пространством признаков. Пусть истинный закон генерирования данных описывается следующим образом: все $x_i$ фиксированы и заданы так: $x_i=i-3$, $i=1, \ldots, 5$, а $y_i$ являются случайными величинами: $$y_i = |x_i| + \varepsilon_i,$$ где все $\varepsilon_i$ независимы, $\mathbb E[\varepsilon_i]=0$, $\mathbb D[\varepsilon_i]=4$. Пусть $f_k(x)$ — предсказание метода $k$ ближайших соседей в точке $x$. Найти ожидаемую квадратичную ошибку предсказания в точке $x=0$ для $k=3$. Представить её в виде суммы шума, смещения и разброса.
(впишите решение сюда)