Ученые лаборатории лазерного молекулярного имиджинга и машинного обучения Томского госуниверситета разрабатывают новые подходы к диагностике заболеваний, используя оптические технологии и машинное обучение. В тех случаях, когда выборка проб с патологией небольшая, они используют генеративные нейросети. Искусственный интеллект по их заданию генерирует модели образцов биоматериала со специфическими химическими соединениями, характерными для той или иной болезни. Это расширяет библиотеку данных для обучения компьютерной модели и автоматической диагностики проб.
– Особенность задач биоинформатики заключается в ограниченности количества данных, но при этом их размерность очень большая, – говорит сотрудник лаборатории лазерного молекулярного имиджинга и машинного обучения ТГУ Денис Вражнов. – С точки зрения вычислительной математики эта задача считается трудноразрешимой. В такой ситуации нам может помочь машинное обучение. Одним из направлений являются генеративные сети, которые могут создавать контент при помощи искусственного интеллекта.
Такие нейросети всё чаще используют для написания текстов, генерации картинок, музыки, видео. Но ученые ТГУ ставят перед ИИ гораздо более сложные задачи. Они применяют его для создания моделей данных, которые имитируют различные заболевания. Например, проб выдыхаемого воздуха у пациентов, страдающих раком лёгких.
– Набрать сотни или тысячи пациентов с одинаковым диагнозом, чтобы на основе взятых у них проб сформировать библиотеку данных для машинного обучения, крайне сложно, – поясняет Денис Вражнов. – Поскольку у нас больших наборов данных нет, мы привлекаем физические принципы, например, берем физические уравнения, описывающие работу диагностических приборов, добавляем информацию о специфических молекулах – маркерах заболеваний и на основе этого создаем правила, как искусственный интеллект должен генерировать новые данные. Это позволяет нам увеличивать обучающие выборки, за счет чего повышается точность и качество моделей машинного обучения, а значит, и открываются новые перспективы диагностики.
Как отмечают ученые, чтобы правильно поставить задачу нейросети, нужны знания на стыке нескольких направлений – математики, физики, биологии и IT. В противном случае можно получить «галлюцинирующие» нейросети, которые будут выдавать фантастические, но совершенно ошибочные модели проб.
Ученые ТГУ одними из первых в России начали использовать возможности ИИ для генерации столь сложного контента. Они планируют активно развивать это направление. Следующая задача, которую они планируют решать с помощью генеративных нейросетей, – это создание моделей для исследования крови для диагностики онкологических и нейродегенеративных заболеваний.
Добавим, что Томский государственный университет готовит специалистов, способных решать междисциплинарные задачи в области биомедицины и агротехнологий. С этой целью реализуется программа TISP, которая включает четыре крупных трека: «Biomaterials science», «Molecular engineering», «Physics», «Chemistry».
В сентябре 2024 года ТГУ запустит сетевую программу с одним из ведущих вузов КНР – Пекинским университетом химической технологии, в рамках которой будет осуществляться подготовка специалистов в области молекулярного инжиниринга. Программа построена на стыке биологии, химии, математики, IT и инжиниринга.
Для справки:
Лаборатория лазерного молекулярного имиджинга и машинного обучения ТГУ создана в рамках масштабного междисциплинарного проекта, поддержанного мегагрантом правительства РФ. Задачей проекта является создание инновационных подходов, которые позволят уменьшить время, необходимое для диагностики заболеваний, в сотни раз – с нескольких дней до нескольких минут. В состав научной группы, которая занимается разработкой новых инструментов и технологий диагностики с использованием современных методов оптической спектроскопии и машинного обучения, вошли сотрудники Томского, Саратовского, Московского государственных университетов, руководитель проекта – Александр Шкуринов.