Базы данных по геномике человечества растут во много раз быстрее интернета

Высокая скорость развития персонифицированной медицины, составляющей частью которой является сбор внутриклеточной наследственной информации пациентов, привели к взрывному увеличению размеров базы данных по геномике человечества. Она растет со скоростью, которая превышает все возможных потоки накопления данных информационными системами.

Ежегодный размер поступления данных по астрономии — 1 эксабайт (1 млн терабайт), таков же примерный объем годового трафика электронной почты на планете. Количество информации, ежегодно выставляемой на YouTube — до 2 эксабайтов в год, а ежегодный трафик всего интернета к концу этого года превзойдет 1 зетабайт (1000 экабайтов или 1 млрд терабайт). При этом объем накопления данных по геномике — несколько десятков зетабайт в год. Такую информацию привел директор по науке и инновациям R&D центра корпорации EMC Леонид Левкович-Маслюк, на встрече с журналистами посвященной современным трендам в индустрии биоИТ.

Основная цель накопления этих данных — создание глобальной базы всех возможных мутаций ДНК, РНК и белка при определенных заболеваниях (как правило онкологической природы), с которыми будет сравниваться результат секвенирования генома пациента. Это позволит путем сравнительного анализа быстро и точно выявлять конкретную патологию.

Однако обращение к таким базам данных предусматривает обработку сотен гигабайт информации, причем в будущем больница должна обрабатывать тысячи таких запросов. В связи с этим, необходимо решить две проблемы — создать единый протокол шифрования потоков информации и свести время поиска нужных данных к нескольким секундам.

По словам ведущего разработчика R&D Центра корпорации EMC Анрея Запария, в настоящее время существует несколько центров, занимающихся накоплением клеточных данных человека. В частности, крупнейшее хранилище данных The Cancer Genome atlas сдержит несколько сотен тысяч результатов секвенирования генома общим размером примерно 15 тыс. террабайт. Однако обособленное развитие центров привело к отсутствию единого протокола обмена данными и схемы построения запросов, что стало серьезным препятствием в развитии персонализированной медицины. Кроме того, до сих отсутствует единый формат документов для трансграничной передачи и организации публичного доступа к базам в автоматическом режиме. Наконец, до их пор не выработаны рекомендации и регламенты работы с клиническими данными.

Обычные интернет-протоколы не обеспечивают приемлемой скорости передачи информации по геномике, продолжил Запарий. Например, эксперимент по внедрению данных по одному из генов, продуцирующих рак груди, в Google big Query по технологии Google, показал, что простое копирование информации занимает более двух месяцев, что непозволитительно долго.

Приложения для работы с массивами данных, которые разрабатывались в течение предыдущих 10-15 лет, морально устарели, а новая техника до недавнего времени слабо проникала на рынок. Программные библиотеки для работы с данными, работали в узком коридоре конкретных заданий. Кроме того, сами базы не были приспособлены для работы ни с объемами, ни со структурой существующих данных, что приводило к многочасовым поискам нужной информации.

Для решения проблемы быстрого поиска был создан глобальный альянс. Его задачей является разработка механизма работы с базами данных по геномике в применении их в клинике, создание единого протокола доступа к данным, общей схемы формирования запроса в базе, общего формата документов, предоставляющих право на публикацию в базах геномных данных. На сегодняшний день альянс уже практически создал набор рекомендаций по использованию приложений и разработал систему, в автоматическом режиме выдающую по результату секвенирования аннотированные варианты отличия от эталонных геномов.

Кроме того, в работу запущен проект Beacon, объединивший ряд центров, в рамках которого компания Google создала систему поиска геномов внутри участников, многие из которых имеют собственные базы данных.

Система Match Maker Exchange, объединившая трех основных хранителей данных и ряд мелких баз, позволяет врачу, при отсутствии опыта по постановке диагноза, обратиться в систему федеративного поиска, запросив информацию о лечении болезни с вариациями генома своего пациента. Группа Containers and Workflow создана для обработки типичных задач, с возможностью подключения к любому центру.

Группа Genotype to Phenotype, в которой участвовали российские технологи, сформировала интерфейс доступа к базам, хранящим информацию о влиянии генотипа на фенотип в случаях новообразований. В рамках этой группы специалисты из России разработали систему сохранения ассоциативных связей между вариациями, облегчающую поиск, и определили соответствие проявлений фенотипа пациента и воздействия параметра среды (например, лекарственных препаратов). «Мы научились читать массивы данных, теперь надо научиться их находить», — пояснил Запарий.

Кроме участия в международных проектах Российская Федерация готовит собственные стартапы. В частности, осуществлена реализация сайта «Российский геном», драйвером которого является Санкт-Петербургский государственный университет. Разработан проект создания геномного банка данных в Технологической долине МГУ. И хотя в нашей стране пока нет мощной информационной базы, отдельные компании уже полноценно используют геномику для оказания персонифицированной медицинской помощи в России.

Прочем, скорость развития информационных технологий настолько велика, что уже через два –три года нужно ожидать качественного скачка, который в корне изменит работу с базами данных и сделает персонифицированную медицину одним из самых эффективных инструментов лечения заболеваний, связанных с изменением наследственной информации человека.

Источник: http://riaami.ru