В 2021 году человечество столкнулось с еще одним вызовом в рамках пандемии COVID-19 — это новые штаммы вируса, появляющиеся в разных странах. Ученые уже предложили свой вариант решения этой проблемы. Команда исследователей из Массачусетского технологического института, Кембриджа и Гарварда под руководством Бонни Бергер из МТИ предложила применить искусственный интеллект, созданный для распознавания текста, для анализа мутаций вирусов. ИИ поможет не только с поиском вариантов развития нынешней пандемии, но и с вирусами гриппа и ВИЧ.
Исследование опубликовали в конце прошлой недели в журнале Science. Его цель — узнать, может ли ИИ предсказывать мутации вируса и приобретение им устойчивости к антителам и препаратам.
Ученые смоделировали «уклонение вируса» с помощью алгоритмов и машинного обучения, созданного для распознавания человеческой речи. Им удалось идентифицировать различные мутации, при которых вирус остается заразным, но при этом по-другому воспринимается иммунной системой. Исследователи сравнивают эту ситуацию с заменой слова в предложении, которое при этом сохраняет грамматику и синтаксис, но меняет смысл.
«Используя этот подход, мы применили искусственный интеллект языкового анализа для понимания моделей уже имеющихся изменений в вирусе обычного гриппа, гликопротеина вирусной оболочки вируса иммунодефицита человека (ВИЧ) и вирусной оболочки коронавируса SARS-CoV-2. Создавая метки на вирусных белках, мы смогли получить прогноз моделей изменения вирусных оболочек», — говорится в исследовании.
Работа позволяет создать связь между анализом языковых моделей и эволюцией вируса, отмечают ученые, и понять «язык вируса» и его построение в «фразы» и «предложения».
Что за технология?
NLP (Natural language processing, обработка естественного языка) создает подобие математического кода, составляющего вместе слова, которые сочетаются по смыслу и значению. Этот процесс называется embedding — встраивание или преобразование слова, предложения или фразы в набор чисел, который может быть воспринят ИИ. После анализа сочетания слов он сам может построить достаточно осмысленную речь.
В контексте изучения вируса embedding можно применять для создания моделей сочетания между собой близких генетических секвенций, нуклеотидных последовательностей в генетической структуре, которые приводят к мутации.
В ходе исследования команда ученых смоделировала мутации ВИЧ, гриппа и COVID-19, и сравнили их с известными мутациями вирусов. Ученые создали шкалу для оценки совпадений, в ней 0,5 это самая низкая степень совпадения, 1 — самая точная. Для известных мутаций ВИЧ совпадение составило 0,69, а для одной из мутаций SARS-CoV-2 — 0,85. Исследователи называют эти результаты значительно опережающими существующие модели прогнозирования мутаций.
Исследование команды из МТИ, Кембриджа и Гарварда уже высоко оценили другие ученые.