Открытая ИИ-модель научилась читать ДНК от бактерий до человека

Команда Arc Institute вместе со специалистами NVIDIA представила модель Evo 2 — новый инструмент ИИ, который способен не только предсказывать следующий нуклеотид в последовательности ДНК, но и лучше понимать структуру генетического кода у самых разных организмов — от бактерий до человека. Разработчики полностью открыли проект, включая веса, код и датасет. Если первая версия модели успешно справлялась с бактериальными геномами, то Evo 2 создавали специально для более сложных эукариотических последовательностей, где много непредсказуемых элементов: интронов, сплайсинга и удалённых регуляторных участков.
Модель построена на архитектуре StripedHyena 2 и работает с контекстом до миллиона нуклеотидов. Для обучения использовали набор OpenGenome2 — около 9 триллионов пар оснований, охватывающих геномы всех доменов жизни. При этом часть вирусов, заражающих эукариот, сознательно исключили, чтобы снизить риски некорректного применения технологии.
Исследователи отметили, что Evo 2 самостоятельно выделила важные биологические признаки — границы экзонов и интронов, сайты связывания транскрипционных факторов и даже структурные элементы белков. В прикладных тестах модель показала способность оценивать влияние генетических вариантов без дополнительного обучения. Для мутаций гена BRCA1 заявлена точность выше 90% при разделении вариантов на условно безвредные и потенциально патогенные. Такой инструмент может помочь учёным быстрее определять мутации, которым стоит уделить внимание в лабораторных исследованиях.
Рекомендуем также:


