Вы используете мобильную версию

перейти на Полную версию сайта

Запись

[DeepSchool] Курс CV Rocket (Андрей Шадриков, Дмитрий Раков)

Складчина [DeepSchool] Курс CV Rocket (Андрей Шадриков, Дмитрий Раков). Совместные покупки курсов, тренингов, обучения. Присоединяйтесь! Важен каждый вкладчик.

Тема найдена по тегам:
Цена:
50000 руб
Взнос:
689 руб
Организатор:
Евражкa

Список участников складчины:

1. Евражкa 2. malutinss
open
2
Записаться
  1. Евражкa
    Евражкa Организатор складчин

    [DeepSchool] Курс CV Rocket (Андрей Шадриков, Дмитрий Раков)

    [​IMG]


    Погрузитесь в продвинутый Computer Vision: от сложностей и корнер-кейсов в «обычных» задачах до мультимодальных моделей и дизайна CV-систем

    Курс подойдёт CV-инженерам всех грейдов
    • Junior - узнаете теорию и закрепите на практике
    • Middle - систематизируете знания и закроете пробелы
    • Senior - подсмотрите на практики других команд
    Программа
    Лекция каждую неделю. После каждой темы — домашнее задание с фидбеком от лектора. Раз в 4−5 недель — Q&A-сессия для разбора вопросов и перерыв на каникулы.

    01. Подготовка данных
    Разберём основные источники открытых данных: научимся находить и курировать датасеты. Обсудим инструменты для inhouse-разметки и формирование ТЗ, а также внедрение авторазметки
    Основные темы:
    Data-Centric AI — новый фокус в машинном обучении
    Где все берут данные? Как собирать данные из интернета: веб-скрапинг
    Разметка данных и инструменты для аннотации (Label Studio, CVAT)
    Когда данных нет — создаём сами: синтетические данные и диффузионные модели

    02. Получение качественных данных
    Научимся не просто собирать данные, а проектировать процесс их получения и поддерживать качество на всех этапах — от сбора до инференса
    Основные темы:
    Активное обучение для эффективного использования разметки
    Оценка и улучшение качества разметки: перекрёстная проверка, foundation-модели
    Мониторинг данных в продакшене и обнаружение сдвигов распределения
    Как проектировать сбор данных под задачу: сенсоры, триггеры, хранение

    03. Секреты успешных архитектур
    Разберём устройство современных нейросетей: от свёрточных блоков до трансформеров и адаптивных голов
    Основные темы:
    Адаптация больших моделей: LoRA, ControlNet, IP-Adapter
    Эволюция архитектур: от ResNet к EfficientNet и Vision Transformers
    Почему BatchNorm не всегда работает и какие есть альтернативы
    Структура нейросети: feature extractor, neck, head

    04. Обучение метрики и быстрый векторный поиск
    Научимся обучать модели, которые создают осмысленные векторные представления, и эффективно искать по ним в больших базах
    Основные темы:
    Оценка качества: Precision@K, Recall@K, Closed vs Open set
    Быстрый поиск: FAISS, Navigable Small Worlds, хэширование
    Angular Loss и ArcFace для улучшения качества эмбеддингов
    Metric Learning: обучение расстояний через contrastive и triplet loss

    05. Мультимодальные модели
    Познакомимся с моделями, объединяющими зрение и язык: от CLIP до современных VLM и retrieval-систем
    Основные темы:
    Выбор размерности эмбеддингов: Matryoshka Representation Learning
    Как обучать мультимодальные модели на парах «изображение–текст»
    Принцип работы CLIP и его модификаций (SigLIP, BLIP)

    06. Детекция объектов
    Разберём эволюцию детекторов: от якорных моделей до трансформеров и openset-подходов
    Основные темы:
    Openset-детекция с помощью foundation-моделей (Florence, GLEE)
    DETR и гибридные архитектуры на основе трансформеров
    Anchor-free подходы: CenterNet, YOLO11
    One-stage vs two-stage детекторы: SSD, RetinaNet, Faster R-CNN

    07. Сегментация
    Изучим методы сегментации: от классических U-Net до современных foundation-моделей и работы с высоким разрешением
    Основные темы:
    Foundation-модели: Segment Anything (SAM) и промптинг
    Работа с high-res изображениями и проблемными масками
    Архитектуры: U-Net, Mask R-CNN, Mask2Former
    Типы сегментации: семантическая, instance, panoptic

    08. Optical Character Recognition (OCR)
    Разберём современные подходы к распознаванию текста: от классических пайплайнов до мультимодальных VLM
    Основные темы:
    Выбор стратегии OCR в зависимости от задачи и данных
    Современные VLM для OCR: PaliGemma, Qwen-VL, DocVLM
    OCR-пайплайн: детекция + распознавание (FAST, CRNN, CTC)

    09. Поиск ошибок и интерпретируемость моделей
    Научимся отлаживать обучение, находить аномалии и понимать, почему модель принимает те или иные решения
    Основные темы:
    Интерпретация через attention, Grad-CAM, LIME, ProtoNets
    Мониторинг активаций и выходов модели в продакшене
    Поиск аномалий: Normalizing Flows, contrastive подходы
    Диагностика проблем обучения: NaN, переобучение, плато

    10. Self-supervised Learning
    Освоим методы обучения без разметки: от pretext-задач до современных SSL-алгоритмов вроде BYOL
    Основные темы:
    Практические рекомендации: аугментации, batch size, linear evaluation
    BYOL: архитектура, EMA, projector/predictor
    Pretext-задачи: восстановление, контекст, инвариантность
    Зачем нужен SSL и когда он лучше transfer learning

    11. Работа с видео
    Изучим особенности видеоданных и архитектуры для их обработки: от 3D-CNN до VideoMAE и трансформеров
    Основные темы:
    Fusion-стратегии для учёта времени
    Foundation-модели для видео и их дообучение
    Архитектуры: 3D CNN, R(2+1)D, ViViT, VideoMAE
    Структура видео: кодеки, FPS, битрейт, I/P-кадры

    12. Задачи на видео
    Погрузимся в прикладные задачи: трекинг, action recognition и multimodal-анализ
    Основные темы:
    Трекинг: SORT, Kalman Filter, матчинг, Re-ID
    Метрики качества: HOTA, DetA, AssA
    Action Recognition: от кадров до позы и аудио

    13. Дизайн ML-систем
    Научимся проектировать ML-решения как продукты: от формулировки проблемы до выбора метрик и гипотез
    Основные темы:
    Построение дерева гипотез и метрик для принятия решений
    Функциональные и нефункциональные требования к системе
    Различие между проектом и продуктом в ML

     
    Евражкa, 27 ноя 2025 в 11:42
  2. Похожие складчины
    Загрузка...
Наверх