Данные клиентов компаний, продающих генетические тесты, позволяют идентифицировать практически каждого белого американца. Это помогает ловить преступников, но ставит серьезные этические вопросы
Джеймс Дианджело был хорошим полицейским, но у него были две проблемы, в совокупности, стоившие ему спокойной старости. Во-первых, Джеймс не умел предвидеть последствия технологического прогресса. Во-вторых, он был сексуальным маньяком и убийцей.
В 1970-1980-х годах «убийца из Золотого штата», он же «насильник из Восточного района», убил 12 женщин и оставил на местах преступления свою ДНК. Опасаться полицейскому было нечего, поскольку в криминалистических базах данных его образцов не было и быть не могло. Однако спустя тридцать лет детективы подняли старое дело, решив взяться за него по-новому: они вздумали поискать совпадения в базе проекта GEDmatch. Этот коммерческий геномный проект занимается поиском родственников и составлением родословных. В базе нашлись данные дальних родственников (троюродных сестер) преступника, что позволило детективам вычислить его личность и арестовать его в апреле 2018 года. С тех пор аналогичным способом в США было раскрыто еще около дюжины преступлений.
Свобода личности под угрозой
Обезвредить опасных маньяков — отличный результат, однако кое-что в этой истории встревожило широкую публику. Если пожилого полицейского в отставке, с безупречным послужным списком и отсутствием криминального прошлого, можно так легко вычислить по ДНК его дальних родственников, не значит ли это, что вся Америка оказалась под колпаком у компаний, занимающихся коммерческой геномикой? А заодно у полиции, спецслужб и любых других сил, которые вздумают использовать выложенные в открытом доступе данные для своих целей.
Коммерческая геномика — быстро растущая отрасль потребительских услуг. Она предлагает своим клиентам по образцу их ДНК (капельке слюны) восстановить их происхождение, разыскать дальних родственников, оценить риски разных заболеваний, подобрать диету и вид спорта. Действительно ли эта невинная деятельность может оказаться столь грозной силой? На что она способна?
Этот вопрос поставили перед собой авторы двух научных работ, опубликованных на прошлой неделе в Cell и Science. Авторы работ пришли к следующему выводу: данные, накопленные к настоящему времени коммерческой геномикой, уже сейчас можно использовать, чтобы идентифицировать практически каждого американца европейского происхождения — независимо от того, присутствует ли их ДНК в криминальных базах данных и обращались ли они сами за генетическими услугами. Авторы предостерегают, что такая ситуация представляет собой серьезную угрозу для неприкосновенности частной жизни.
Поймать анонима
Янив Эрлих из Колумбийского университета Нью-Йорка и его коллеги решили выяснить, насколько далеко простираются возможности поиска по отдаленным родственникам. Для начала они обнаружили, что для 60% клиентов популярных баз поиска родственников, MyHeritage и GEDmatch, в той же базе нашлись данные родственников не далее, чем троюродного родства (то есть имеющие общего прадедушку или прабабушку). Однако на самом деле открывающиеся возможности гораздо шире. Чтобы убедиться в этом, исследователи решили «вычислить» анонимную женщину из штата Юта, добровольно предоставившую свою ДНК для научной программы «Тысяча геномов».
В коммерческих базах данных нашлось достаточно образцов, которые могли бы принадлежать отдаленным родственникам этой неизвестной дамы. Из них два — принадлежащие индивидуумам из Вайоминга и Северной Дакоты — удалось связать с публичными генеалогическими данными. Чтобы выйти на анонимного донора ДНК из Юты, ученым понадобилось меньше суток. Ее имя они сохранили в тайне, хотя и сообщили в проект «Тысяча геномов», что идентичность одного из их добровольцев была раскрыта в результате несложных вычислений.
Подавляющее большинство образцов в коммерческих геномных базах принадлежат белым американцам европейского происхождения. Авторы статьи делают вывод, что использованный ими подход позволяет однозначно идентифицировать 60% таких американцев — это притом, что коммерческие базы содержат данные всего 0,5% населения. Если клиентура потребительской геномики удвоится, цифра вырастет до 90%, то есть под колпаком у генетиков окажется практически каждый белый американец.
Белые и черные, замены и повторы
Генетические различия людей довольно разнообразны, однако из них для составления баз данных используются два основных параметра. Первый из них — SNP, или «однонуклеотидные полиморфизмы», они же просто «замены». В геноме человека есть около 3 млн точек, где у разных индивидуумов могут быть разные «буквы» (нуклеотиды). Совокупность данных об этих точках и есть уникальный генетический портрет человека. Этот портрет составляется при генотипировании с помощью ДНК-чипа. Такие данные и собраны в базах коммерческих компаний.
С другой стороны, криминальные базы ДНК содержат информацию о другом типе различий: в геноме человека есть участки, где друг за другом следуют повторяющиеся короткие фрагменты «текста», и длина таких участков может быть разной — у одного человека мотив повторен 10 раз, а у другого 25. На таких «коротких тандемных повторах», или STR, основана судебная экспертиза ДНК, о которой многие знают по делу О. Джей Симпсона или из детективных телесериалов.
Метод STR хорош тем, что он, в отличие от коммерческого генотипирования, работает даже с сильно испорченными образцами ДНК, которые, как правило, и имеются в распоряжении криминалистов. К счастью для следователей, в деле «убийцы из Золотого штата» сохранность ДНК была очень хорошей, что и позволило сравнить полицейские данные с коммерческими. Второе отличие двух типов баз данных довольно деликатное: если в коммерческой геномике подавляющее большинство клиентов — белые, то в полицейских базах ситуация прямо противоположная. Родственники белого полицейского нашлись, разумеется, именно в «белой» базе.
Эти оговорки, однако, в общем случае мешают использовать данные геномики для ловли маньяков любого цвета кожи. Авторы второй статьи, опубликованной на прошлой неделе, показывают, как можно обойти эту трудность. Доктор Ной Розенберг из Калифорнии и его коллеги разработали методы расчета, позволяющие найти соответствие между данными STR из баз данных правоохранительных органов и данными генотипирования, проводимого коммерческими компаниями. Сами по себе данные STR не позволяют идентифицировать родственников, кроме ближайших, однако подход Розенберга уже позволил довести охват до троюродного родства. Его метод использует тот факт, что ДНК наследуется протяженными участками, и можно идентифицировать SNP, переданные вместе с данной комбинацией повторов. В результате будет переброшен мостик между базами ФБР и коммерческих компаний. Это позволит проследить практически каждый образец ДНК, когда-либо взятый с места преступления, до конкретного человека.
Вопросы этики
Авторы обеих статей выражают озабоченность, что без надлежащего контроля со стороны общества злоупотребление открытыми геномными данными может поставить под угрозу права личности. По мнению Федора Коновалова, руководителя «Лаборатории клинической биоинформатики» (российской компании, занимающейся медицинской геномикой), благодаря подобному повороту событий может оказаться, что генетическая информация будет подпадать под действие закона о персональных данных. Согласно этому закону, персональные данные — это то, что позволяет идентифицировать человека. Раньше не было возможности идентифицировать индивидуума по генотипу, но, если такая возможность появилась, может возникнуть легальная проблема.
Колин Фицпатрик, директор калифорнийской компании DNA Doe Project, считает, что опасения преувеличены: данные геномики ничем принципиально не отличаются от всей прочей информации, которую легально используют правоохранители. Почти все, что мы делаем в жизни, считает он, так или иначе несет информацию об окружающих, и нет никаких причин относиться к генетическим тестам более щепетильно, чем, к примеру, к публикациям в соцсетях.
Очевидно, что история с анонимным добровольцем из штата Юта показывает, что данные волонтеров, участвующих в академических геномных проектах, должны быть более надежно защищены — давая согласие принять участие в исследовании, они никак не рассчитывали на то, что ставят этим под угрозу право своих родственников на анонимность. Пока не очевидно, как скажется эта история на размерах клиентской базы генетических компаний. Конечно, законопослушному американцу сложно вообразить, что образец его ДНК может быть через много лет использован для ареста его правнука, вздумавшего ограбить банк, — если бы не их праздная любознательность, правнук подольше погулял бы на свободе. Хотя далеко не очевидно, какой из вариантов — попасться полиции поскорее или успеть потратить часть добычи — для правнука предпочтительнее, ясно, что генотипирование может иметь далеко идущие последствия. «Генетическая информация — это дорога в один конец, ее нельзя взять обратно, — говорит Федор Коновалов. — Ваш анализ крови может измениться через неделю, а ваши гены останутся с вами на всю жизнь и перейдут вашим потомкам».
Две научные работы, вышедшие почти одновременно в двух лучших научных журналах мира, достаточно взбудоражили общественное мнение, чтобы на проблему обратили внимание. Очевидно, что доступность геномных данных будет так или иначе урегулирована на законодательном уровне. Сейчас, когда число генетических тестов, выполненных в США, удваивается менее чем за год, эта область технологий вся чаще будет оказываться в центре общественных дискуссий.
В России подобной проблемы пока не существует: генетические тесты исчисляются десятками тысяч, а не миллионов, как в США. Выполненных тестов пока недостаточно даже для обычной процедуры поиска родственников, не говоря уже о криминалистическом использовании. Если нынешний экспоненциальный рост (т. е. ежегодное удвоение) сектора потребительской геномики сохранится, ситуация, в которой сейчас оказались клиенты американских генетических компаний, придет в Россию лишь через десять лет. Вероятно, к тому времени в мире сложится общепринятая практика доступа к геномным данным, на основе которой может быть разработано национальное законодательство.
Источник: Forbes