Notebook

Примеры заданий по live coding c решениями с собеседований¶

Добро пожаловать в этот Jupyter Notebook! Если вы готовитесь к собеседованиям на роль Data Scientist, этот материал может быть для вас полезным.

Что вы найдете в этом ноутбуке:¶

Реальные задачи с собеседований: Все задачи, представленные здесь, были собраны с реальных собеседований.
Подробные решения и объяснения: Для каждой задачи предоставлены подробные решения с объяснениями. Я делюсь своим процессом мышления и почему был выбран именно этот подход или метод.
Главные отличия от задач в разделах algo и leetcode: Все задачи в этих разделах больше на знание Python, для реализации стандартных задач, актуальных в повседневной работе в области Data Science. То есть знание алгоритмов не требуется, как и предварительное решение задач с LeetCode. Также на собеседованиях мне встречались технические специалисты, которые открыто признавались, что сами не любят задачи аля литкод и говорили, что все равно требуется проверить знание кодирования и анонсировали, анонсировали, что задача будет простая или сильно прикладная, например, подобная задаче, которую мы вчера решали с джуном).

Цель этого ноутбука - помочь вам лучше подготовиться к собеседованиям с live coding, дать понимание типов задач, которые могут быть заданы, и предложить эффективные методы их решения. Независимо от того, являетесь ли вы начинающим или опытным специалистом, я надеюсь, что найдете здесь что-то полезное для себя.

Удачи в подготовке и на собеседованиях!

Задача 1. Разработка класса аналог множества, только с генерацией случайного элемента¶

Необходимо разработать класс RandomizedSet, который обладает следующими характеристиками:

Добавление элемента (add) и его удаление (delete) должны выполняться за время O(1).
Возможность генерации случайного элемента (get_random) из множества за время O(1).

Структура класса:¶

class RandomizedSet:
    def __init__(self) -> None:
        # Конструктор класса

    def add(self, element: int) -> None:
        # Метод для добавления элемента в множество

    def delete(self, element: int) -> None:
        # Метод для удаления элемента из множества

    def get_random(self) -> int:
        # Метод для получения случайного элемента из множества


randomized_set = RandomizedSet()
randomized_set.add(1)
randomized_set.add(2)
randomized_set.add(1)
assert randomized_set.get_random() in [1, 2] # Должен вернуть 1 или 2 с равной вероятностью
assert randomized_set.get_random() in [1, 2] # Должен вернуть 1 или 2 с равной вероятностью
randomized_set.delete(1)
assert randomized_set.get_random() == 2 # Должен вернуть 2, так как 1 был удален

*задача с собеса X5*

Решение задачи 1:

In [1]:

import random

class RandomizedSet:
    def __init__(self) -> None:
        self.indexes = {}  # Словарь для хранения элементов и их индексов
        self.items = []  # Список для хранения элементов

    def add(self, item: int) -> None:  # O(1)
        if item not in self.indexes:  # Проверяем, что элемента еще нет в множестве
                                      # O(1) <= Операция проверки наличия элемента в хэш-таблице, 
                                      # каковой является словарь в Python (self.dict в данном случае), 
                                      # в среднем выполняется за время O(1)
            self.indexes[item] = len(self.items)
            self.items.append(item)

    def delete(self, item: int) -> None:  # O(1)
        if item in self.indexes:  # Проверяем, что элемент существует
            index = self.indexes.pop(item)  # Удаляем элемент из словаря и получаем его индекс
            # Заменяем удаляемый элемент последним элементом в списке
            last_item = self.items[-1]  
            self.items[index] = last_item
            self.indexes[last_item] = index
            self.items.pop()  # Удаляем последний элемент

    def get_random(self) -> int:
        return random.choice(self.items)  # Возвращаем случайный элемент из списка

In [2]:

randomized_set = RandomizedSet()
randomized_set.add(1)
randomized_set.add(2)
randomized_set.add(1)
randomized_set.get_random()  # Должен вернуть 1 или 2 с равной вероятностью

Out[2]:

In [3]:

randomized_set.get_random()  # Должен вернуть 1 или 2 с равной вероятностью

Out[3]:

In [4]:

randomized_set.delete(1)
randomized_set.get_random()  # Должен вернуть 2, так как 1 был удален

Out[4]:

Задача 2. Разработка класса DummyModel для предсказания на основе статистической функции¶

Необходимо доработать класс DummyModel, который обладает следующими характеристиками:

Инициализация модели с выбранной статистической функцией (например, медиана, среднее, максимум).
Метод fit, который получает на вход X_train и y_train
Метод predict, который по X_test возвращает вектор

Структура класса:¶

class DummyModel:
    def __init__(self, function):
        ...

    def fit(self, X_train, y_train):
        ...

    def predict(self, X_test):
        ...

# Пример использования
X_train = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y_train = np.array([1, 2, 3, 40])

# Инициализация модели с функцией np.median
model = DummyModel(function=np.mean)
model.fit(X_train, y_train)

# Тестовые данные
X_test = np.array([[9, 10], [11, 12]])

# Предсказание
predictions = model.predict(X_test)
assert np.array_equal(predictions, np.array([11.5, 11.5]))

*Задание с собеседования ГК Самолет (в задании это не указано, но задавая вопросы можно узнать библиотеки которые можно использовать - например numpy, также дали дополнительное задание - написать аннотацию типов)*

Решение задачи 2:

init, инициализирует объект класса следующими атрибутами:
- self.func - функция агрегации, передаваемая при создании объекта класса. Она определяет метод агрегации (например, среднее значение, медиана, максимум и т.д.), который будет использоваться для вычисления одного предсказываемого значения на основе целевых значений (y_train) в методе fit
- self.value - атрибут для хранения рассчитанного агрегированного значения после вызова метода fit. Изначально он устанавливается в None, так как до вызова метода fit у нас нет рассчитанного значения
Метод fit: Принимает два аргумента: X_train и y_train, которые представляют собой обучающий набор признаков и целевые значения соответственно. В этом методе вы вычисляете агрегированное значение y_train с помощью предоставленной функции агрегации и сохраняете это значение в переменной экземпляра self.value
Метод predict: Принимает один аргумент: X_test, который представляет собой набор признаков, для которого вы хотите сделать предсказания. В этом методе вы создаете массив NumPy, который заполняете повторяющимися значениями self.value (рассчитанными в методе fit) в количестве, равном длине X_test. Таким образом, для каждого элемента в X_test вы предсказываете одно и то же значение, рассчитанное на основе y_train

In [5]:

import numpy as np

class DummyModel:
    def __init__(self, func) -> None:
        self.func = func
        self.value = None

    def fit(self, X_train: np.ndarray, y_train: np.ndarray) -> None:
        self.value = self.func(y_train)

    def predict(self, X_test: np.ndarray) -> np.ndarray:
        return np.array([self.value] * len(X_test))

In [6]:

X_train = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y_train = np.array([1, 2, 3, 40])

# Инициализация модели с функцией np.median
model = DummyModel(np.mean)
model.fit(X_train, y_train)

# Тестовые данные
X_test = np.array([[9, 10], [11, 12]])

predictions = model.predict(X_test) 
assert np.array_equal(predictions, np.array([11.5, 11.5])) 

# Вывод результатов
print("Predictions:", predictions)

Predictions: [11.5 11.5]

Далее последовал вопрос как можно отпимизировать код чтобы он быстрее выполнялся на больших массивов

In [7]:

class DummyModel_optimized:
    def __init__(self, func) -> None:
        self.func = func
        self.value = None

    def fit(self, X_train: np.ndarray, y_train: np.ndarray) -> None:
        self.value = self.func(y_train)

    def predict(self, X_test: np.ndarray) -> np.ndarray:
        return np.full(len(X_test), self.value)

Тестирование решения для задачи 2:

In [8]:

# Задаем размеры массивов
size = int(10e6)
num_features = 4

# Создаем X_train и X_test
X_train = np.ones((size, num_features))  # Массив size x num_features, заполненный единицами
X_test = np.ones((int(size * 0.2), num_features))  # 20% от X_train

# Создаем y_train
y_train = np.ones(size)  # Вектор длиной size, заполненный единицами

y_train[-1] = 2*size  # Заменяем последний элемент большим значением

# Проверяем размерности
print(f"X_train shape: {X_train.shape}")
print(f"X_test shape: {X_test.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"y_train median: {np.median(y_train)}")
print(f"y_train mean: {y_train.mean()}")

X_train shape: (10000000, 4)
X_test shape: (2000000, 4)
y_train shape: (10000000,)
y_train median: 1.0
y_train mean: 2.9999999

In [9]:

model1 = DummyModel(np.mean)
model1.fit(X_train, y_train)

In [10]:

model2 = DummyModel_optimized(np.mean)
model2.fit(X_train, y_train)

In [11]:

%timeit -n 10  model1.predict(X_test)

135 ms ± 14.2 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [12]:

%timeit -n 100  model2.predict(X_test)

2.9 ms ± 266 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

в принципе этого следовало ожидать, нампай обычно быстрее делает процессы

Задача 3: Разработка декоратора `progress_fit_predict` для отслеживания времени обучения и предсказания моделей¶

Необходимо разработать декоратор progress_fit_predict, который можно применить к классам моделей. Декоратор должен отслеживать время, затраченное на методы fit и predict модели, и выводить это время в консоль.

Требования к декоратору:¶

При вызове метода fit модели должно выводиться сообщение в формате: "Обучение модели {название_класса} заняло: {время} секунд".
При вызове метода predict модели должно выводиться сообщение в формате: "Предсказание модели {название_класса} заняло: {время} секунд".
Декоратор не должен влиять на остальные методы класса модели.

Структура декоратора:¶

def progress_fit_predict(...):
    ...

Пример использования декоратора:¶

@progress_fit_predict
class LinearRegression:
    ...

    def fit(self, X_train: np.ndarray, y_train: np.ndarray) -> None:
        ...

    def predict(self, X_test: np.ndarray) -> np.ndarray:
        ...

# Создание экземпляра модели и тестирование
model = LinearRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)

Вывод:
Обучение модели LinearRegression заняло: 1.73 секунд
Предсказание модели LinearRegression заняло: 0.02 секунд

*Задание с собеседования Rubbles*

Решение задачи 3:

я ни разу до этого не писал декораторы для классов поэтому сказал про это. Меня попросили написать для функции, а потом подсказали что можно заменить def на class и название с больгой буквы и все. Оказалось что там различий нет:
декораторы функций:
- Модифицируют поведение функции,
- Обычно принимают функцию в качестве аргумента и возвращают новую функцию.
- Могут добавлять дополнительную логику до и после выполнения оригинальной функции.
декораторы классов:
- Модифицируют поведение класса.
- Обычно принимают класс в качестве аргумента и возвращают новый класс или экземпляр класса.
- Могут добавлять новые методы, изменять существующие, добавлять атрибуты или изменять процесс инициализации экземпляра.
super() используется для вызова методов родительского класса. Это стандартный подход в объектно-ориентированном программировании, который позволяет дочернему классу расширять или изменять функционал родительского класса.

In [13]:

import time
import numpy as np

def progress_fit_predict(cls):
    class Wrapped(cls):
        def fit(self, X, y):
            start_time = time.time()
            super().fit(X, y)
            print(f"Обучение модели {cls.__name__} заняло: {time.time() - start_time:.2f} секунд")

        def predict(self, X):
            start_time = time.time()
            predict = super().predict(X)
            print(f"Предсказание модели {cls.__name__} заняло: {time.time() - start_time:.2f} секунд")
            return predict

    return Wrapped

Тестирование решения для задачи 3:

In [14]:

@progress_fit_predict
class DummyModel:  # приведу пример на DummyModel модели которая была описана выше для проверки кода
    def __init__(self, func) -> None:
        self.func = func
        self.value = None

    def fit(self, X_train: np.ndarray, y_train: np.ndarray) -> None:
        self.value = self.func(y_train)

    def predict(self, X_test: np.ndarray) -> np.ndarray:
        return np.full(len(X_test), self.value)

# Создание экземпляра модели и тестирование
model = DummyModel(np.mean)
model.fit(X_train, y_train)
predictions = model.predict(X_test)

Обучение модели DummyModel заняло: 0.02 секунд
Предсказание модели DummyModel заняло: 0.00 секунд

дальше последовал вопрос, а можно ли применить этот декоратор к моделям из sklearn. Если да то как? И будут ли какие-нибудь ошибки?

Решения для задачи 3 для встроенных классов моделей sklearn:

In [15]:

from sklearn.linear_model import LinearRegression

@progress_fit_predict
class MyLinearRegression(LinearRegression):
    pass

In [16]:

from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# Задаем размеры массивов
size = int(10e6)
num_features = 4

# Генерация синтетических данных
X, y = make_regression(n_samples=size, n_features=num_features, noise=10)

# Разделение данных на обучающую и тестовую выборку (80% обучающих, 20% тестовых)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

Out[16]:

((8000000, 4), (2000000, 4), (8000000,), (2000000,))

Тестирование решения для задачи 3 для встроенных классов моделей sklearn:

In [17]:

# Создание экземпляра модели и тестирование
model = MyLinearRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)

Обучение модели MyLinearRegression заняло: 1.68 секунд
Предсказание модели MyLinearRegression заняло: 0.02 секунд

Задача 4: Валидация корректности расстановки скобок в выражении¶

Описание:
Необходимо создать функцию, которая анализирует строку на предмет правильности расстановки круглых скобок. Функция возвращает True, если все открытые скобки закрыты корректно в соответствии с правилами скобочных последовательностей, и False в противном случае.

Функция:

def is_valid_brackets(expression: str) -> bool:
    ...

Примечания:

Пустая строка считается корректной скобочной последовательностью
Скобочные последовательности без вложенных пар считаются невалидными (например, )( должно возвращать False)

*Задание с собеседования Rubbles*

Решение задачи 4:

решение подобной задачи, обычно реализуется через стек в виде листа. Я тоже так попробовал сделать. Потом последовали вопросы зачем нам стэк? А если выражение будет содержать милионы скобок, что мы будем этот список хранить? Ведь в условии задачи нет ограничения на длину строки? А можно ли не хранить скобки. В общем ниже вы увидите оптимальное решение без стэка, просто со счетчиком.

В начале функция инициализирует счетчик count, который отслеживает количество открытых скобок, которые ещё не были закрыты.
Циклом проходим по всем символам в строке
Если текущий символ является открывающей скобкой (, функция увеличивает счетчик count на единицу
Если текущий символ является закрывающей скобкой ), функция сначала проверяет, не равен ли счетчик count нулю. Если count равен нулю, это значит, что нет открывающей скобки для пары, и функция возвращает False, указывая на неправильное расположение скобок
Если же счетчик count больше нуля, это означает, что есть открывающая скобка, которая может быть закрыта, и функция уменьшает счетчик count на единицу, учитывая закрытие одной из открывающих скобок.
После прохождения всех символов, сравниваем счетчик count с нулем. Это происходит тогда когда все открывающие скобки имеют соответствующие закрывающие. В этом случае функция возвращает True. Иначе False

In [18]:

def is_valid_brackets(expression: str) -> bool:
    count = 0
    for char in expression:
        if char == '(':
            count += 1
        elif char == ')':
            if count == 0:
                return False
            count -= 1
    return not count

In [19]:

is_valid_brackets('()')

Out[19]:

True

In [20]:

is_valid_brackets(')(')

Out[20]:

False

Задача 5: Напишите тест к предыдущей функции is_valid_brackets¶

Примечания:

cначала я начал писать функцию через assert. Меня спросили, сколько таких assert будет, где и как я буду хранить тесты и правильные варианты. А если тестов много и они генерируются где-то в другом месте? Просто миллионы тестов правильных выражений и много тестов для неправильных выражений — я сразу сообразил, что нужно использовать специальную библиотеку unittest.
реализовать решение через библиотеку unittest тоже не подошло, потому что тесты реализованы так, что они локализованы. Можно, конечно, внутри класса создать переменные и снаружи передать туда кортежи, но лучше так не делать. Тесты должны содержать в себе все, что нужно, и добавление туда чего-либо нежелательно.
в итоге ожидали просто реализацию функции, которая принимает кортеж и ожидаемое значение False или True, чтобы не хранить их в каждом тесте.

*Задание с собеседования в Rubbles*

Решение задачи 5:

In [21]:

# Функция для тестирования без использования unittest
def test_is_valid_brackets(expressions, expected_value):

    all_passed = True
    for i, expression in enumerate(expressions):
        result = is_valid_brackets(expression)
        if result != expected_value:
            print(f"Тест не пройден в {i}. для выражения \"{expression}\" : ожидалось {expected_value}, получено {result}")
            all_passed = False
    
    if all_passed:
        print("Все тесты пройдены успешно.")

In [22]:

valid_expressions = ("()", "()()", "(())")
invalid_expressions = (")(", "(()", "())")

# Запуск функции тестирования
test_is_valid_brackets(valid_expressions, True)
test_is_valid_brackets(invalid_expressions, False)

Все тесты пройдены успешно.
Все тесты пройдены успешно.

Задача 6. Напишите функцию поиска значения в массиве¶

Дополнительные условия озвученные после уточнения:

массив отсортирован

def search(arr:List, value:int) -> bool:
    ...

Примеры:¶

Ввод	Вывод
[], 0	False
[1, 4, 9], 1	True
[1, 4, 9], 7	False

*Задание с собеседования Avito (похожую задачу я видел на собесе в Яндесе, но эта задача была лишь частью большой матрешки, остальные задачи и вопросы уже строились над ней)*

Решение задачи 6:

решение этой задачи лучше сделать через классический универсальный код бинарного поиска, так все последующие матрешки будут более понятно реализуемы.

In [38]:

from typing import List

def search(arr: List[int], value: int) -> bool:
    def check(m, param):
        return arr[m] >= param

    def lbinsearch(l, r, check, param):
        while l < r:
            m = (l + r) // 2
            if check(m, param):
                r = m
            else:
                l = m + 1
        return l

    index = lbinsearch(0, len(arr) - 1, check, value)

    if index < len(arr) and arr[index] == value:
        return True
    else:
        return False

In [39]:

search([], 0)

Out[39]:

False

In [40]:

search([1, 4, 9], 1)

Out[40]:

True

In [41]:

search([1, 4, 9], 7)

Out[41]:

False

In [42]:

# дополним тесты случаем когда искомое значение крайнее справа
search([1, 4, 9], 9)

Out[42]:

True

Далее задали вопрос о том, как реализовать поиск с помощью правого бинарного поиска.

In [33]:

def search(arr: List[int], value: int) -> bool:
    def check(m, param):
        return arr[m] <= param

    def rbinsearch(l, r, check, param):
        while l < r:
            m = (l + r + 1) // 2
            if check(m, param):
                l = m
            else:
                r = m - 1
        return l

    index = rbinsearch(0, len(arr) - 1, check, value)

    if index < len(arr) and arr[index] == value:
        return True
    else:
        return False

In [34]:

search([], 0)

Out[34]:

False

In [35]:

search([1, 4, 9], 1)

Out[35]:

True

In [36]:

search([1, 4, 9], 7)

Out[36]:

False

In [37]:

search([1, 4, 9], 9)

Out[37]:

True

Самые частые ошибки, которые я видел у кандидатов, — это реализация в while l < r нестрогого неравенства, ошибки с зацикливанием при реализации шагов (m = (l + r) // 2 и m = (l + r + 1) // 2), а также выполнение условия не в виде отдельной функции def check(m, param) с разными дополнительными условиями для избежания двойных проверок при строгом сравнении, и вопросы о том, как будет работать алгоритм, если массив имеет определенные особенности.

!!!дополнение к задаче!!! вот некоторые примеры задач-матрёшек которые могут быть заданы после решения этой задачи без встроенных функций:

если значение не найдено выведи левый элемент, если его нет, то верни False
если значение не найдено выведи правый элемент, если его нет, то верни False
а если на входе будет строка из латинских прописных символов
также могут спросить, почему я не использовал встроенную функцию бинарного поиска? после того как я привел пример синтаксиса встроенной функции, пошли вопросы какой поиск реализован во встроенном методе левый или правый? какую из вышеперечисленных задач нельзя решить встроенной функцией без дополнительной проверки, что найденный элемент соответствует условию

Ниже решение к одной из возможных таких задач:

найти два соседних элемента в сумме дающих больше заданного значения, если нет верни False

In [43]:

def search(arr: List[int], value: int) -> bool:
    def check(m, param):
        # Проверяем, чтобы индекс не выходил за пределы массива
        if m + 1 >= len(arr):
            return False
        # Возвращаем True, если сумма элемента m и следующего не меньше искомого значения
        return arr[m] + arr[m + 1] >= param

    def lbinsearch(l, r, check, param):
        while l < r:
            m = (l + r) // 2
            if check(m, param):
                r = m
            else:
                l = m + 1
        return l

    index = lbinsearch(0, len(arr) - 1, check, value)
    if index < len(arr) - 1:
        return f'индексы пары:({index}, {index + 1}) пара: ({arr[index]}, {arr[index + 1]})'  # Возвращаем пару элементов
    else:
        return False

In [44]:

search([0, 1, 4, 2, 1, 4, 3, 5], 2)

Out[44]:

'индексы пары:(1, 2) пара: (1, 4)'

In [45]:

search([0, 1, 4, 2, 1, 4, 3, 5], 5)

Out[45]:

'индексы пары:(4, 5) пара: (1, 4)'

In [46]:

search([0, 1, 4, 2, 1, 4, 3, 5], 8)

Out[46]:

'индексы пары:(6, 7) пара: (3, 5)'

In [47]:

search([0, 1, 4, 2, 1, 4, 3, 5], 6)

Out[47]:

'индексы пары:(5, 6) пара: (4, 3)'

In [48]:

search([0, 1, 4, 2, 1, 4, 3, 5], 10)

Out[48]:

False

Примеры заданий по live coding c решениями с собеседований¶

Что вы найдете в этом ноутбуке:¶

Задача 1. Разработка класса аналог множества, только с генерацией случайного элемента¶

Структура класса:¶

Задача 2. Разработка класса DummyModel для предсказания на основе статистической функции¶

Структура класса:¶

Задача 3: Разработка декоратора progress_fit_predict для отслеживания времени обучения и предсказания моделей¶

Требования к декоратору:¶

Структура декоратора:¶

Пример использования декоратора:¶

Задача 4: Валидация корректности расстановки скобок в выражении¶

Задача 5: Напишите тест к предыдущей функции is_valid_brackets¶

Задача 6. Напишите функцию поиска значения в массиве¶

Примеры:¶

Задача 3: Разработка декоратора `progress_fit_predict` для отслеживания времени обучения и предсказания моделей¶