Проекты для студентов 25/26
Наша лаборатория начинает набор студентов на КР и ВКР. Каждая предложенная тема - полноценный исследовательский проект с перспективой публикации результатов в высокорейтинговых международных журналах или задача в рамках одного из текущих проектов. Мы условно разделили темы по трём направлениям. Математика и компьютерные науки могут быть интересны студентам ПМИ, КНАД, АДБМ (для выпускников бакалавриата по математическим специальностям). Программирование и разрабротка - студентам ПИ, КНАД, ПМИ. Биология и биоинформатика ориентированы на студентов биологического факультета и АДБМ (для выпускников биологических специальностей). В силу междисциплинарности задач это деление ориентировочное, и вы всегда можете обсудить с руководителем, подойдет ли заинтересовавшая тема для вас и вашей образовательной программы, даже если она рекомендована для других направлений подготовки. Набор проводится через собеседование. Связаться с руководителями проектов можно через телеграм канал нашей лаборатории https://t.me/+mVdX0O9KPBU4ZTZi
Математика и компьютерные науки
1. Разработка полу-контролируемого метода для кластеризации белковых последовательностей
Рук. Шмаков Сергей Анатольевич
Кластеризация белковых последовательностей - важный инструмент для оценки схожести белков, что необходимо для аннотации их функций. Основные используемые методы кластеризации белков являются неконтролируемыми (unsupervised), но пространство белковых последовательностей до сих пор описывается вручную созданными белковыми кластерами. Данный проект предлагает разработку нового, полу-контролируемого (semi-supervised) подхода к кластеризации белков с использованием генеративных нейронных сетей или графовых моделей . Модель будет обучаться на существующих экспертных данных для распространения функциональной аннотации и создания новых кластеров белков.
2. Разработка нейросетевого метода для оценки параметров адаптивной интрогрессии
Рук. Шмелев Алексей Валерьевич, Щур Владимир Львович
Известный пример адаптивной интрогрессии - ген EPAS1, позволяющий человеку адаптироваться к жизни в условиях низкого содержания кислорода (например, к высокогорью). Этот ген появился в популяции современных тибетцев вследствие примешивания денисовцев (архаичный вид человека). В работе предлагается разработать метод на основе нейронных сетей для оценки параметров интрогрессии, в первую очередь - времени между примешиванием и началом действия естественного отбора.
3. Оценка долей происхождения человека при помощи предкового графа рекомбинаций
Рук. Шишкин Михаил Александрович, Щур Владимир Львович
Предковый граф рекомбинаций (ARG) представляет собой направленный ациклический граф с дополнительной структурой, описывающий полную генеалогию геномных последовательностей. Извлечение информации из таких графов связано со многими сложностями ввиду их размера и нетривиальности соответствующего вероятностного пространства. В работе предлагается разработать статистический метод для оценки долей происхождения человека (долей вклада разных популяций) на основе ARG.
4. Сравнение неандертальских франкенштейнов
Существующие методы современной геномики позволяют определять происхождение того или иного участка генома от той или иной популяции(к примеру, в результате примешивания неандертальца к Европейцам ~55.000 лет назад). Взяв конкретную популяцию и посчитав неандертальские участки, из них (учатсков) можно “склеить” неандертальский геном-франкенштейна. В работе предлагается провести сравнение таких монстров как между собой, так и с существующими геномами неандертальцев.
5. Нахождение признаков естественного отбора по древней компоненте в геномах современных популяций
Существующие методы современной геномики позволяют определять происхождение того или иного участка генома от той или иной популяции(к примеру, в результате примешивания неандертальца к Европейцам ~55.000 лет назад). Мы предлагаем отследить изменение неандертальской компоненты геномов современных популяций с течением времени на примере 10000 летних викингов и одной из современных европейских популяций.
6. Построение сайт-специфических адаптивных ландшафтов на филогенетическом дереве
Адаптивный ландшафт аминокислотного сайта белка – это вектор относительных предпочтений аминокислот в этом сайте. Такой вектор может меняться в ходе эволюции за счёт взаимодействия между сайтами или изменения условий среды. Благодаря развитию технологий секвенирования, в наших руках есть большое число прочитанных геномов, что дает возможность исследовать адаптивные ландшафты на основе анализа частот возникновения аминокислотных вариантов на филогенетическом дереве. Проект посвящен разработке и имплементации байесовской модели для оценки векторов приспособленности на разных частях филогенетического дерева. Такой метод будет полезен для предсказания эффектов мутаций.
7. Построение сайт-специфических адаптивных ландшафтов на филогенетическом дереве
Адаптивный ландшафт аминокислотного сайта белка – это вектор относительных предпочтений аминокислот в этом сайте. Такой вектор может меняться в ходе эволюции за счёт взаимодействия между сайтами или изменения условий среды. Благодаря развитию технологий секвенирования, в наших руках есть большое число прочитанных геномов, что дает возможность исследовать адаптивные ландшафты на основе анализа частот возникновения аминокислотных вариантов на филогенетическом дереве. Проект посвящен разработке и имплементации байесовской модели для оценки векторов приспособленности на разных частях филогенетического дерева. Такой метод будет полезен для предсказания эффектов мутаций.
8. Определение скорости и факторов изменения аминокислотных предпочтений вирусных белков
Вектор относительных предпочтений аминокислот в сайте белка определяет частоту появления разных аминокислот в этом сайте в ходе эволюции. Такой вектор может меняться в ходе эволюции за счёт взаимодействия между сайтами или изменения условий среды. Проект посвящен разработке и имплементации байесовской модели для оценки скорости изменения аминокислотных предпочтений вирусных белков с эволюционным расстоянием, измеренным в единицах мутаций или времени. Сравнение полученных результатов поможет определить относительные вклады эпистаза и среды в изменение адаптивных ландшафтов, ответив тем самым на один из фундаментальных и спорных вопросов молекулярной эволюции.
Программирование и разработка
9. Разработка программного комплекса для автоматического создания белковых профилей
Рук. Шмаков Сергей Анатольевич
Белковые профили , представляющие собой наборы выровненных аминокислотных последовательностей, являются незаменимым инструментом для разграничения белковых семейств и аннотирования функций белков. Белковые профиля создаются биологами вручную, но обработка и пополнение этих профилей становится невозможной из-за стремительного роста баз данных белковых последовательностей. Этот проект направлен на решение данной проблемы путем создания программного комплекса для биоинформатиков . Комплекс будет объединять передовые вычислительные методы для создания новых белковых профилей и автоматического обновления существующих. Конечным продуктом станет надёжный и готовый к использованию пакет на языке Python, отдельное приложение или веб-сервис.
10. Linear algebra in Rust for medium-sized matrices
В экосистеме Rust есть хорошие решения для малых матриц используемых в графических приложениях (glam) и больших матриц (nalgebra). Но первые ограничены, так как они обычно работают только на матрицах размера 3-4, а у nalgebra не очень высокая точность. В рамках курсовой предлагается заполнить этот пробел, реализовав библиотеку с базовыми рутинами линейной алгебры . Библиотека должна быть написана на чистом Rust и оптимизирована на высокую точность для матриц среднего размера: 4-40 строк/столбцов.
11. Алгоритм вычисления правдоподобия дерева Фельзенштейна на Metal
Одна из фундаментальных задач программного обеспечения для вычислительной филогенетики — вычислять правдоподобие филогенетических деревьев . Это требует много вычислений, которые необходимо исполнять как можно быстрее, поэтому для этой задачи часто используются GPU. Большинство существующих решений используют CUDA и ориентированы на сервера на Linux. Так делают beagle и разрабатываемый в нашей лаборатории Aspartik b3. В рамках проекта предлагается написать альтернативную реализацию алгоритма Фельзенштейна , которая будет использовать Metal от Apple. Эта реализация будет работать на macOS и сможет воспользоваться уникальными преимуществами архитектуры объединённой памяти на Mac.
12. Web UI for configuring statistical models
Большинство программного обеспечения для вычислительной геномики используется учёными с образованием в математике и биологии, не программировании. При этом, конфигурации для таких приложений зачастую имеет довольно сложную структуру, отражающую современные биологические модели. В рамках этого проекта предлагается реализовать вэб интерфейс для настройки конфигурации Aspartik b3 — приложения для Байесовского филогенетического анализа. Необходимо будет написать реактивный фронтэнд с динамическими графиками с использованием SolidJS/TailwindCSS/d3.
Биология и биоинформатика
13. Эволюционное происхождение семейства генов меланомного антигена (MAGE)
Рук. Шмаков Сергей Анатольевич
Семейство генов MAGE представляет собой консервативную эукариотическую линию, которая претерпела значительное расширение: от одного гена у ранних эукариот до более чем 40 генов имеющих различную функциональность. Однако эволюционное происхождение и изначальная функция этого гена остаются неясными. Цель данного вычислительного проекта — проследить глубокую эволюционную историю генов MAGE путем создания исчерпывающего набора данных и проведения детального филогенетического анализа. Результаты позволят провести оценку происхождения MAGE и пролить свет на его изначальные функции у ранних эукариот.
14. Оценка точности определения неандертальской компоненты на геномах с низким покрытием
Значительное количество геномных данных имеет низкое покрытие. Тем не менее с ними хочется работать и получать определенные результаты. В настоящей работе предлагается вопрос оценки точности определения неандертальской компоненты в геномах с низким покрытием и влияния процесса импьютации.
15. Исследование изменения аминокислотных предпочтений сайтов белков на эволюционном дереве с помощью Tree Breaker
Вектор относительных предпочтений аминокислот в сайте белка определяет частоту появления разных аминокислот в этом сайте в ходе эволюции. Такой вектор может меняться в ходе эволюции за счёт взаимодействия между сайтами или изменения условий среды. Программа Tree Breaker использует байесовскую модель для поиска ветвей филогенетического дерева, где произошло изменение распределения вероятности разных фенотипов (например, патогенности или устойчивости к экстремальным условиям среды). В ходе проекта мы применим TreeBreaker к эмпирическим векторам предпочтений аминокислот в сайтах вирусных белков и к консервативности сайтов, проведем анализ полученных результатов и попытаемся понять причины найденных изменений.
16. Влияние рекомбинации на скорость эволюции SARS-CoV2
Рекомбинация геномов разных линий при совместном заражении – важный фактор эволюции коронавирусов, в том числе SARS-CoV2: все циркулирующие сейчас линии этого вируса – рекомбинантные. Рекомбинация объединяет в одном геноме участки с разной эволюционной историей, собирает вместе разные геномные контексты. Таким образом, рекомбинация переносит генотип на новое место в адаптивном ландшафте, что может привести к ускорению эволюции и появлению новых фенотипических характеристик. Проект призван дать оценку ускорения эволюции SARS-CoV2 после событий рекомбинации и определить, как оно зависит от эволюционного расстояния между рекомбинирующими линиями.
17. Динамика перемещения SARS-CoV2 между Москвой и Санкт-Петербургом и её детерминанты
Структура популяции вируса во время эпидемии зависит от множества факторов и меняется со временем. Проект посвящен изучению динамики перемешивания вирусных линий между Москвой и Санкт-Петербургом – двумя городами с большим числом прочитанных геномов. Также мы попытаемся разделить вклад заносов из внешнего мира и интенсивности потока людей между городами в популяционную структуру вируса. Исследование поможет понять диапазон интенсивности обмена вирусными вариантами между городами. Также мы попытаемся установить детерминанты наблюдаемой динамики.
18. Филогенетический анализ способности растений к гипераккумуляции тяжелых металлов
Биоремедиация территорий, загрязненных тяжелыми металлами в результате деятельности человека – актуальная задача. Для этой цели можно использовать растения-гипераккумуляторы, способные вытягивать из почвы загрязнители и накапливать их в своих тканях. Однако в настоящее время поиск таких растений осуществляется экспериментальным путем, что очень дорого и долго. Цель проекта – исследовать закономерности появления растений-гипераккумуляторов на эволюционном дереве и подобрать эволюционные признаки, характерные для растений-гипераккумуляторов. Проект является подготовительной частью для работы по разработке метода машинного обучения по поиску таких растений.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.