У 2021 році людство зіткнулося з ще одним викликом в рамках пандемії COVID-19 — це нові штами вірусу, що з’являються в різних країнах. Вчені вже запропонували свій варіант вирішення цієї проблеми. Команда дослідників з Массачусетського технологічного інституту, Кембріджа та Гарварда під керівництвом Бонні Бергер з МТІ запропонувала застосувати штучний інтелект, створений для розпізнавання тексту, для аналізу мутацій вірусів. ШІ допоможе не тільки з пошуком варіантів розвитку нинішньої пандемії, а й з вірусами грипу та ВІЛ.
Дослідження було опубліковане наприкінці минулого тижня в журналі Science. Його мета — дізнатися, чи може штучний інтелект прогнозувати мутації вірусу та придбання ним стійкості до антитіл і препаратів.
Вчені змоделювали «ухилення вірусу» за допомогою алгоритмів та машинного навчання, створеного для розпізнавання людської мови. Їм вдалося ідентифікувати різні мутації, за яких вірус залишається заразним, але при цьому по-іншому сприймається імунною системою. Дослідники порівнюють цю ситуацію з заміною слова в реченні, яке при цьому зберігає граматику та синтаксис, але змінює сенс.
«Використовуючи цей підхід, ми застосували штучний інтелект мовного аналізу для розуміння моделей вже наявних змін у вірусі звичайного грипу, глікопротеїну вірусної оболонки вірусу імунодефіциту людини (ВІЛ) і вірусної оболонки коронавірусу SARS-CoV-2. Створюючи мітки на вірусних білках, ми змогли отримати прогноз моделей зміни вірусних оболонок», — йдеться в дослідженні.
Робота дозволяє створити зв’язок між аналізом мовних моделей та еволюцією вірусу, відзначають вчені, і зрозуміти «мову вірусу» та його побудова у «фрази» і «речення».
Що за технологія?
NLP (Natural language processing, обробка природної мови) створює подобу математичного коду, що становить разом слова, які поєднуються за змістом та значенням. Цей процес називається embedding — вбудовування або перетворення слова, речення або фрази на набір чисел, який може бути сприйнятий штучним інтелектом. Після аналізу поєднання слів він сам може побудувати досить осмислену мову.
У контексті вивчення вірусу embedding можна застосовувати для створення моделей поєднання між собою близьких генетичних секвенцій, нуклеотидних послідовностей у генетичній структурі, які призводять до мутації.
В ході дослідження команда вчених змоделювала мутації ВІЛ, грипу та COVID-19, і порівняли їх з відомими мутаціями вірусів. Вчені створили шкалу для оцінки збігів, в ній 0,5 це найнижча ступінь збігу, 1 — найточніша. Для відомих мутацій ВІЛ збіг склав 0,69, а для однієї з мутацій SARS-CoV-2 — 0,85. Дослідники називають ці результати значно випереджаючими існуючі моделі прогнозування мутацій.
Дослідження команди з МТІ, Кембріджа та Гарварда вже високо оцінили інші вчені.