Способ идентификации близнецов выявляя эпигенетические модификации

Создан простой метод различения однояйцевых близнецов

Агарозный гель-электрофорез фрагментов ДНК, полученных в результате ПЦР — одно из методов определения принадлежности генетического материала.

Криминалисты из Forensic Genetics Research Group разработали простой и эффективный способ, позволяющий различить ДНК однояйцевых близнецов. Об этом сообщается пресс-релизе Университета Хаддерсфильда, статья с исследованием опубликована в журнале Analytical Biochemistry.

Вероятность совпадения результатов ДНК-экспертизы у двух произвольно взятых людей примерно равна одному случаю на миллиард. Если же речь идет о родственниках, то этот показатель вырастает до одного шанса на десять тысяч, а у однояйцевых близнецов ДНК практически совпадают. В судебных исследованиях это приводит к возникновению серьезных проблем, когда по причине невозможности определить, кто из близнецов совершил преступление, с преступника снимают обвинение.

Авторы новой работы нашли способ определить различия в генетическом материале близнецов не прибегая к сложнейшему глубокому секвенированию генома. Методика, разработанная учеными, основывается на том, что ДНК животных подвергается эпигенетической модификации, конкретнее — метилируются. Это не изменяет последовательности нуклеотидов, но изменяет химические свойства этих нуклеотидов. С возрастом, появлением новых привычек, сменой образа жизни происходит изменение характера метилирования, которую и удается проследить.

Для анализа авторы подвергали образцы ДНК бисульфитному секвенированию. Этот химический процесс заменяет неметилированные остатки цитозина (который спаривается с гуанином) на урацил (который спаривается с аденином). В итоге пары гуанин-цитозин (G-C) меняются на пары аденин-урацил (A-U(T)). После этого ученые исследовали плавление полученной ДНК — превращение двухцепочечной спирали в клубок под действием температуры. Чем сильнее связаны цепочки, тем более высокая температура требуется для этого процесса.

Суммарная энергия связи между двумя цепочками двунитевой ДНК определяется прежде всего тем, какие пары оснований ее формируют. К примеру, A-T пары обладают меньшей энергией связывания, потому что между ними возникает лишь две водородных связи вместо трех у G-C. Также на процесс плавления влияет и то, в каком порядке размещены эти пары нуклеотидов. Поэтому изменение характера метилирования в исходных ДНК близнецов оказывает значительное влияние на характер плавления полученных модифицированных молекул и позволяет уверенно различить образцы, принадлежащие разным близнецам.

Производные кривых плавления ДНК однояйцевых близнецов, полученные методом описанным авторами

Источник

Эпигенетические различия у монозиготных близнецов, диссонирующих при большом депрессивном расстройстве

Предметы

Аннотация

Хотя монозиготные (MZ) близнецы имеют большую часть своего генетического состава, они могут быть фенотипически несогласованными по ряду признаков и заболеваний. Метилирование ДНК является эпигенетическим механизмом, который может зависеть от генетических, экологических и стохастических событий и может оказывать важное влияние на индивидуальную изменчивость. В этом исследовании мы исследовали эпигенетические различия в образцах периферической крови в трех исследованиях близнецов МЗ по поводу крупного депрессивного расстройства (MDD). Эпигенетические данные для пар близнецов были собраны в рамках предыдущего исследования с использованием микрочипов 8.1-K-CpG, метящих модификацию ДНК в лейкоцитах от близнецов MZ, диссонирующих по MDD. Данные получены из трех географических регионов: Великобритании, Австралии и Нидерландов. Девяносто семь пар MZ (194 человека), диссонирующих по MDD, были включены. Были оценены различные методы для обращения к независимо независимо идентичным (не идентифицированным) данным. Методы машинного обучения с выбором признаков, сосредоточенным на машине опорных векторов и случайном лесу, использовались для построения классификатора для прогнозирования случаев и средств управления на основе эпиваризаций. Наиболее информативные варианты были сопоставлены с генами и перенесены для анализа сети. Смешанный подход с использованием анализа главных компонентов (PCA) и методов Байеса позволил объединить три исследования и использовать увеличенную предсказательную силу, обеспечиваемую большей выборкой. Алгоритм машинного обучения с классификацией сокращений функций, затронутой из числа незатронутых близнецов выше уровня вероятности в независимой схеме тренировочного тестирования Сетевой анализ выявил генные сети, сосредоточенные на концентраторах гена PPAR — γ ( NR1C3 ) и C-MYC, взаимодействующих через транскрипционный фактор AP-1 ( c-Jun ). PPAR- γ ( NR1C3 ) является лекарственной мишенью для пиоглитазона, который, как было показано, уменьшает симптомы депрессии у пациентов с MDD. Используя основанный на данных подход, мы смогли преодолеть проблемы неидеальных данных, комбинируя эпигенетические исследования от близнецов MZ, диссонирующих для MDD. Индивидуально исследования дали отрицательные результаты, но когда была возможна комбинированная классификация болезненного состояния по одному эпигеному крови. Сетевой анализ выявил гены и генные сети, которые поддерживают гипотезу воспаления MDD.

Вступление

Большое депрессивное расстройство (MDD) представляет собой распространенное психическое расстройство, характеризующееся рядом клинических симптомов, включая: постоянное плохое настроение, ангедонию, бессонницу, низкую энергию, чувство вины и ощущение смерти или самоубийства. 1, 2 MDD также связан с рядом социальных нарушений, в том числе с образовательными и профессиональными проблемами, а также с повышенным риском развития системных заболеваний, таких как сердечно-сосудистые заболевания и диабет 2 типа. 3 Эпидемиологические исследования показали связь между MDD и повышенным уровнем смертности, вызванной либо самоубийством, либо вызванными им заболеваниями. 4, 5

Поведенческие генетические исследования этиологии депрессии сообщают об оценках наследуемости от 31 до 42% (ссылки 6, 7, 8), но выявление общих вариантов последовательности, связанных с патологией, является сложной задачей. На сегодняшний день нет общих генетических вариантов с достаточно высокой проникающей способностью, чтобы учесть патологию, имеющую клиническое значение, хотя недавно были объявлены варианты, связанные с заболеванием на уровне всего генома. 9 Также считается, что факторы окружающей среды, такие как стрессоры на ранних и поздних этапах жизни, повышают риск развития депрессии; однако, взаимодействие между генетическими факторами и факторами окружающей среды остается плохо изученным. 10

Изучение депрессии с эпигенетической точки зрения проливает свет на ее этиологию, раскрывая, как факторы окружающей среды модулируют экспрессию генов. 11 Эпигенетика — это исследование клеточной модификации и дифференцировки, которое не зависит от изменений в последовательности ДНК. Это можно определить просто как изменение фенотипической экспрессии, вызванное повышением и понижением регуляции генов с использованием метилирования ДНК и модификации гистонов, а не изменениями в последовательности ДНК. Предполагается, что благодаря этим процессам факторы окружающей среды могут вызывать длительные изменения в экспрессии генов. 12 Например, стресс в раннем возрасте приводит к эпигенетическим изменениям в нервной ткани, вовлеченным в реакцию на стресс как в исследованиях на животных, так и на людях. 13, 14

Количественные генетические исследования обычно сравнивают уровни фенотипического соответствия между монозиготными (MZ) и дизиготными близнецами. Тем не менее, дискордантные близнецы MZ (которые, как предполагается, разделяют 100% своего генома) также могут быть использованы для идентификации эпигенетических факторов, таких как различные уровни метилирования ДНК в определенных локусах, которые могут способствовать объяснению части их фенотипического диссонанса. 15

Геном (последовательность ДНК) одинаков для всех типов клеток человеческого организма: следовательно, эпителиальные клетки щеки в основном используются в генетических исследованиях из-за их удобства. Однако эпигенетические изменения более тканеспецифичны. В области психиатрии это представляет проблему, поскольку, хотя представляющие интерес нервные ткани могут быть получены посмертно, у живых пациентов, как правило, могут быть получены только клетки в периферических тканях. Недавнее исследование Oh et al. 16 успешно воспроизвели множественные эпигенетические признаки депрессии между мозговой и не мозговой тканями, что позволяет предположить, что клетки периферической крови являются адекватными для изучения эпигенетики депрессии. 16 Исследования с использованием клеток периферической крови также могут иметь преимущество в том, что они могут показывать меньшее количество изменений, связанных с внешними факторами, связанными с заболеванием, включая воздействие стресса и фармакологическое лечение. 17 С другой стороны, вероятно, что связанные с заболеванием эпигенетические вариации могут быть значительно слабее в клетках периферической крови, чем в интересующей нервной ткани, или даже быть необнаружимыми.

Исследование Oh et al. 16 проанализировали эпигенетические вариации в разных тканях в трех наборах данных дискордантных пар близнецов MZ из трех центров в разных странах, чтобы выявить эпигенетические маркеры, связанные с депрессией. 16 Однако, когда они объединили наборы данных, собранные из крови, они не смогли выделить пострадавших братьев и сестер. В этом исследовании использовались те же три ранее опубликованных набора данных периферической крови от близнецов MZ, диссонирующих по MDD, с целью решения некоторых статистических задач этого набора данных для создания модели глобальной классификации. Это потребовало решения нескольких проблем с консолидацией данных. Во-первых, пакетные эффекты могут привести к тому, что данные не будут независимо и идентично распределены (не iid); это относится к ошибке, вызванной системными различиями в способах отбора и анализа проб между различными лабораториями. Второе относится к расслоению населения и дисперсии шума. Это исследование направлено на изучение методов объединения этих наборов данных с учетом источников ошибок и последующего использования повышенной мощности объединенных данных для классификации пораженных и незатронутых лиц по эпигенетическим маркерам из образцов периферической крови близнецов МЗ, диссонирующих по MDD.

материалы и методы

дизайн

Объединение необработанных данных часто нарушает предположения о независимом и идентично распределенном (iid) и, таким образом, приводит к смещенным оценкам параметров модели, более высокой ошибке обобщения и снижению производительности модели перекрестной проверки. Сначала в исследовании использовался атеоретический, управляемый данными подход к оцененным методам удаления пакетных эффектов и консолидации неидеальных данных. Во второй части исследования мы использовали два разных подхода к машинному обучению (машины с линейным опорным вектором (SVM) и случайный лес (RF)), чтобы построить модель, которая могла бы классифицировать затронутых братьев и сестер и не затронутых с помощью объединенного набор данных из трех независимых, межстрановых, эпигенетических исследований, описанных ниже. Уровни метилирования были использованы в качестве признаков и затронутого и не затронутого статуса в каждой дискордантной паре близнецов в качестве меток результатов. Обучение и тестирование алгоритмов проводилось на независимых выборках (80: 20%). Методы выбора признаков для каждого алгоритма были выбраны на основе перекрестной проверки. Наконец, несколько различных порогов для количества выбранных признаков были оценены для выделения маркеров эпигенетики, которые могут способствовать изменению патологии. Эти функции были затем перенесены для анализа генной сети.

Пример и описание переменной

Данные, использованные для этого исследования, были получены из недавно опубликованного исследования Oh et al. и доступны в Omnibus экспрессии генов (инвентарный номер GSE37579). Вкратце, профили метилирования были получены с использованием островных микрочипов CpG Illumina 8.1-K из белых кровяных клеток, отобранных у близнецов MZ, дискордантных по MDD. Образцы были получены из трех разных регионов: Соединенного Королевства (28 образцов), Австралии (80 образцов) и Нидерландов (86 образцов). Уровни метилирования измеряли для кодирующих или некодирующих областей ДНК, общих для образцов. Следуя процедурам контроля качества, было получено в общей сложности 8448 признаков с логарифмированными уровнями метилирования для каждого образца, которые были последовательными во всех трех исследованиях. В зависимости от источника информации симптомы депрессии оценивались путем структурированного клинического опроса. Диагноз MDD был определен по результатам этих вопросников в соответствии с Руководством по диагностике и статистике психических расстройств, 4-е издание. Австралийские участники были взяты из австралийского реестра близнецов. Для этого исследования было отобрано сорок пар, в том числе 31 женская. Средний возраст близнецов составлял 41, 2 года, средний возраст — 11, 5 года. Голландские участники были взяты из Нидерландского реестра близнецов. Сорок три пары близнецов были отобраны для этого исследования, со средним возрастом 38, 4 года и средним возрастом 12, 7 года. Британские участники были взяты из Регистра близнецов больницы Св. Томаса, Регистра близнецов больницы Модсли (Лондон) и из текущих исследований близнецов-добровольцев. Четырнадцать пар, включая двух мужчин, были отобраны для этого исследования. Средний возраст участников составил 53, 7 года с диапазоном от 21 до 65 лет. Этот набор данных был выбран по нескольким ключевым причинам. Во-первых, он основан на дискордантных близнецах MZ, которые считаются подходящими для: генетики, возраста, пола, когортных эффектов, материнских влияний и общей среды. По своему замыслу исследования MZ обладают большей способностью выявлять связанные с заболеванием эпигенетические различия, чем исследования на неродственных людях. Во-вторых, один и тот же массив Иллюмина использовался во всех трех исследованиях, чтобы избежать возможных путаниц, возникающих в результате сопоставления маркеров на разных массивах и артефактов, введенных методами вменения. Наконец, Oh et al. сообщили, что, используя все близнецовые образцы (Великобритания, Австралия и Голландия), они не смогли отличить пострадавших от контрольных субъектов от крови. Учитывая их многообещающие результаты из других тканей, имелись веские основания полагать, что из этого опубликованного набора данных все же можно получить важную информацию. Дополнительная информация об образцах, этических утверждениях и сборе данных об утверждении и предварительной обработке данных описана в другом месте. 16

Читайте также:  Простой способ приготовления картошки по деревенски

статистический анализ

Эмпирические не консолидированные методы консолидации данных, включая анализ главных компонентов (PCA) и непараметрические байесовские методы (ComBat), были оценены отдельно и в сочетании с удалением эффекта партии, стратификацией населения и другими дисперсиями шума. Методы машинного обучения и выбор характеристик с использованием линейных SVM и RF были использованы для построения классификатора для прогнозирования случаев и контроля MDD по эпигенетическим маркерам и выделения признаков с более высокой вероятностью объяснения изменений в патологии.

Метрика нормализации и оценки данных

Два основных подхода к устранению периодического эффекта оценивались отдельно и в комбинации. Метод PCA основан на идее, что направление с более высокой дисперсией может быть связано с шумом или популяционной стратификацией, а не с болезнью. Непараметрический подход ComBat — это эмпирический метод Байеса, целью которого является корректировка на неизвестные, немоделированные или скрытые источники шума и систематического смещения. Исследования близнецов MZ, противоречащие любому фенотипу, по своей природе сбалансированы: в каждой паре близнецов у нас есть близнец с поражением и без изменений. Этот баланс сохранялся в наборах данных обучения и испытаний во время процедуры повторной выборки путем случайной выборки из пар-близнецов, а не из всего набора данных. Хотя рабочая характеристика приемника (ROC) обычно дает более высокие значения, в данном исследовании точность была предпочтительна как более представительный, консервативный и честный показатель эффективности модели.

Подходы к консолидации данных

PCA, ComBat и смешанные подходы были оценены для решения проблем, связанных с неидентифицированными данными, и для контроля возможных смешанных эффектов. Метод PCA основан на том, что собственные векторы с более высокой дисперсией относятся к фенотипам подгрупп, а не к группам заболеваний. Этот подход устраняет нежелательную дисперсию путем вычитания матрицы, полученной посредством разложения по собственным векторам. Удаление нежелательной дисперсии может относиться к удалению эффекта партии, как описано в статье Nielsen et al. 18 и контролировать расслоение населения, как описано в Price et al. 19 В этом исследовании рассматривались подходы, описанные выше, и нежелательные отклонения были удалены из каждого набора данных перед объединением данных в один больший набор следующим образом.

Для каждого региона i данные были скорректированы следующим образом:

, который представляет собой разложение по собственным векторам матрицы данных. Матрицы U и V содержат верхние k собственных векторов, соответствующих верхним k собственным значениям, заданным в W. Y представляет экспрессию гена, а W i k представляет собой диагональную матрицу, соответствующую верхним k собственным значениям. Для оценки мы вычли матрицу, относящуюся к наиболее информативным основным компонентам, ранжированным по собственному значению. Следовательно, PCA.1 вычитает матрицу, связанную с первым основным компонентом, где PCA.2, PCA.3, PCA.4 и PCA.5 последовательно вычитают матрицу, связанную с основными компонентами 2–5.

Второй подход был основан на непараметрическом методе ComBat, реализованном в R-пакете суррогатного анализа переменных, доступном от Bioconductor. 20 Это эмпирический метод Байеса, нацеленный на корректировку неизвестных, немоделированных или скрытых источников шума. ComBat корректирует систематическое смещение партии, общее для генов, предполагая, что факторы эффекта партии часто влияют на многие гены сходным образом, подобно повышенной экспрессии или более высокой вариабельности. Другое преимущество настройки систематического смещения с помощью ComBat заключается в том, что он надежно регулирует смещение партии даже для небольших размеров партии. 21 ComBat — это трехэтапный эмпирический байесовский метод: (1) стандартизация данных достигается с помощью формулы:

где а также , , являются оценками параметров α g, β g, γ i g в модели

где N — общее количество выборок, m — количество партий, n i — количество выборок в партии i для i = 1,

, м, для генов g = 1,

, Г. Y ijg представляет значение экспрессии для гена g для образца j из партии i, α g представляет собой общую экспрессию гена, X представляет собой расчетную матрицу для условий выборки и β g представляет собой вектор коэффициентов регрессии, соответствующий X. Условия ошибки, , можно предположить следовать нормальному распределению с ожидаемым значением ноль и дисперсией , Γ ig и δ ig представляют аддитивный и мультипликативный периодический эффект партии i для гена g соответственно.

(2) Параметры эффекта партии — это оценка партии с использованием эмпирических априорных значений. Предполагая, что стандартизированные данные Z ijg

N ( γ ig , σ ig ) нормально распределены, непараметрические оценки:

где , а также

(3) метод корректирует данные для пакетных эффектов

используя оценочные эффекты партии

Наконец, мы оценили смешанные подходы, комбинируя PCA с эмпирическим байесовским методом: сначала мы удалили нежелательные отклонения от нерелевантных факторов, а затем попытались идентифицировать оставшийся шум и систематическое смещение, используя непараметрический байесовский метод. Различные алгоритмы классификации были впоследствии использованы в различных комбинациях.

Сокращение возможностей и фильтрация

Несколько показателей фильтрации были сравнены, чтобы выбрать наиболее эффективный метод для каждого алгоритма классификации. Средняя точность классификации и ее sd были получены из 200 случайных независимых выборок. Для каждого шага повторной выборки набор данных был разделен на 80/20 на обучающий и тестовый наборы соответственно, и были выбраны функции с наивысшими оценками в обучающем наборе. Затем модель была построена на тренировочном наборе, а производительность была оценена на тестовом наборе. Следующие оценки фильтрации были сравнены, и наиболее эффективные методы для машины опорных векторов и алгоритмов RF классификации были перенесены для целей анализа:

T-статистика: абсолютное значение статистического значения валлийского t- теста. В случае задачи классификации с двумя классами t -statistic эквивалентно разнице между двумя средними значениями для каждого класса, скорректированными на sd для обоих классов.

Средняя разница: абсолютная величина разницы между средними значениями в каждом классе.

P- значение для валлийского t- теста со степенями свободы.

Корреляция: Абсолютное значение корреляции Пирсона между переменной и прогнозирующим фактором.

Пакет «ген-фильтр» для R, доступный от Bioconductor, был использован для применения вышеуказанных критериев фильтрации. 22

P-значение Limma : P- значение, рассчитанное для регрессионной модели с одной переменной с использованием Limma. Для расчета этой оценки использовался пакет Bioconductor limma R. 23

RankProd: RankProd модифицирует и расширяет метод ранговых произведений, предложенный Breitling et al. 24 для интеграции нескольких исследований из разных лабораторий и / или платформ. В случае парных отношений для каждого гена он вычисляет ранг функции для каждого сравнения и возвращает — в этом случае логарифмическое соотношение уровней метилирования в паре близнецов. Ранговое произведение — это среднее геометрическое рангов при различных сравнениях. Метод был реализован с использованием пакета R RankProd. 25

Статистическое обучение

Два метода классификации с машинным обучением, отличающиеся по нескольким ключевым аспектам, а именно, линейные SVM и RF, использовались для оценки эффективности выбранных методов для устранения эффектов стратификации партии и популяции и для классификации пострадавших от не затронутых братьев и сестер на основе вариации метилирования. 26, 27 SVM и RF имеют параметры, которые необходимо настроить. Линейный SVM был реализован с использованием параметра мягкого поля C. RF имеет ряд переменных, случайно выбранных в качестве кандидатов при каждом разделении, и используемых в качестве параметра. Настройка и выбор параметров требуется для обоих классификаторов.

Линейный SVM — это мощный метод с эффективным временем вычисления для большого количества переменных и небольшого числа выборок. Как и многие другие методы классификации ℓ 2, SVM чувствителен к шуму, исходящему от всех используемых переменных. Выбор соответствующих функций и уменьшение количества функций способствует снижению шума. Используемая линейная модель SVM имеет параметр мягкого поля C, который отвечает за штрафы за неправильную классификацию. Более высокие значения параметра C вынуждают SVM повысить штраф за неправильную классификацию обучающего набора, что может привести к более высокой ошибке обобщения, если окончательное выполнение будет лишь незначительно выше вероятности. Более низкие значения C могут привести к снижению погрешности обобщения. Параметр мягкого поля C = 0, 05 был выбран после перекрестной проверки.

RF имеет встроенный контроль чувствительности к шуму, но он неэффективен в вычислительном отношении для большого числа переменных. Выбор характеристик помогает повысить эффективность вычислений за счет дополнительного снижения шума, достигаемого за счет удаления ненужных признаков, и поэтому это особенно важно для больших наборов данных, использующих RF. RF имеет параметр настройки, который фактически является отношением числа переменных, случайным образом выбранных в качестве кандидатов при каждом разделении, к общему количеству переменных. Контроль за количеством переменных в каждом разделении имеет целью избежать корреляции между деревьями в лесу. Прогнозирование одного дерева очень чувствительно к шуму в обучающем наборе, тогда как среднее прогнозирование по многим деревьям менее чувствительно, если деревья не коррелированы. Были оценены различные отношения для модели RF (с топ-100 характеристиками, выбранными по значению Limma P ), и было выбрано отношение = 0, 1, поскольку оно вернуло более высокую среднюю точность при повторной выборке 200.

Средняя точность классификации как мера эффективности классификации и ее sd была получена из 200 случайных независимых выборок. На каждом этапе повторной выборки набор данных делился на обучающий и тестовый набор с использованием соотношения 80/20; были выбраны функции с наивысшими оценками на тренировочном наборе. Модель была построена на тренировочном наборе, а эффективность оценена на независимом тестовом наборе. Консолидированный набор данных сравнивался со следующими нескорректированными наборами данных:

Читайте также:  Jadayel масло для бороды способ применения

Австралия, Нидерланды и Великобритания — точность классификации трех регионов была оценена независимо.

Данные RAW — объединенные данные из каждого региона были объединены без применения не-iid методов консолидации.

NormMean — среднее нормализованное сырое значение данных перед объединением (для каждого набора данных среднее значение нормализации вычитает средние значения для каждого объекта).

NormScale — среднее значение и нормализованные исходные данные sd перед объединением (для каждого набора данных среднее значение и нормализация sd вычитают средние значения для каждого объекта и делятся на sd).

Средние значения нормализации и масштабирования направлены на устранение неравенства между наборами данных в тех случаях, когда для каждого эпигенетического маркера относительные значения между выборками остаются одинаковыми в разных источниках данных, тогда как абсолютный уровень может изменяться вместе с дисперсией. Вышеуказанные методы обеспечивают базовый уровень для оценки увеличения производительности после методов коррекции за нарушение не-iid допущений.

$config[ads_text16] not found

Сетевой анализ

Чтобы получить дальнейшее биологическое понимание наиболее предсказательных особенностей, MetaCore (//portal.genego.com/) использовался для изучения пересечения между списком генов, сопоставленных с вариантами, обнаруженными в этом исследовании, и известными картами путей и сетями. Объекты, которые, скорее всего, будут выбраны в соответствии с методами сокращения признаков и которые обеспечивают наивысшую точность классификации, были сопоставлены с известными генами с использованием инструмента CpG Island UHN Microarray Centre (//www.pmgenomics.ca/cpg). MetaCore оценивает и расставляет приоритеты сетей и путей на основе актуальности загруженных генов. Список генов, возвращаемый представленным анализом, может указывать на гены, которые показывают потенциальное взаимодействие, дифференциальную экспрессию и могут быть вовлечены в патологию. Список генов также может указывать на возможные цели для терапевтического открытия лекарств. MetaCore оценивает величину пересечения между списком эталонных генов и набором генов, соответствующих сетевому модулю, и возвращает различные метрики, включая P-значения и G-оценки . P- значения рассчитываются на основе гипергеометрических распределений, и они используются для определения того, является ли насыщенность интересующими генами выше случайной. При изучении сигнальных каскадов можно оценить, содержит ли сеть какие-либо фрагменты хорошо понятых (канонических) сигнальных путей. G-оценка — это другая метрика, используемая программным обеспечением, которая эффективно модифицирует Z- оценку на основе количества фрагментов линейного канонического пути, содержащихся в сети. Таким образом, высокий G-показатель указывает на сеть, очень насыщенную эталонными генами и содержащую несколько канонических путей. В этом исследовании мы исследовали сети с самым высоким рейтингом по P- значению и G-счету .

Наличие кода

Весь код, включая R-скрипты, использованные для генерации этого анализа, можно получить у соответствующего автора по запросу или загрузить онлайн (//www.adamlab.org/epigenetics-of-depression/).

Результаты

Данные, полученные с помощью высокопроизводительных технологий, имеют тенденцию быть многомерными и иметь гораздо больше переменных, чем случаи. Методы, которые могут предоставить информацию о наиболее важных характеристиках и уменьшить размерность данных путем определения вариантов с большим размером эффекта, используются для обеспечения более благоприятного отношения сигнал / шум и для уменьшения перестройки модели. Поскольку каждый набор данных имеет уникальные структуры и подструктуры, мы сначала эмпирически оценили различные методы выбора признаков для каждого из двух используемых методов классификации. Результаты нашей оценки показали, что метрикой оценки статистики t- теста является метод фильтрации, который дает наилучшую производительность при использовании SVM, в то время как P- значение линейной модели с одной переменной дает более высокую точность при использовании RF. Другие оценки, такие как корреляция, P- значение и среднее различие, показали сравнительно худшие результаты (Рисунок 1). Эти два метода были перенесены для классификационного анализа.

Линейные опорные векторные машины и характеристики произвольного леса с функциями, выбранными с использованием различных показателей фильтрации. t -statistics — это метод сокращения признаков, который дал более высокую точность классификации для машины опорных векторов (SVM), тогда как значение Limma P показало лучшую производительность при использовании случайного леса (RF). Результаты основаны на 50 лучших функциях.

Изображение в полном размере

Анализ с использованием SVM и RF в каждом из трех исследований независимо (в Великобритании, Австралии и Нидерландах), с отбором признаков и без него, показал общую низкую точность классификации. Ни в одном из исследований не было возможности классифицировать случаи выше уровня случайности. Худшие характеристики модели были получены в исследовании в Великобритании, вероятно, из-за меньшего размера выборки по сравнению с исследованиями в Нидерландах и Австралии. Голландские и австралийские исследования показали лучшие результаты по сравнению с исследованиями в Великобритании, но также оказались недостаточно эффективными и вернули баллы точности в пределах вероятности (рис. 2). Затем мы повторили анализ, используя три образца, объединенные вместе. Тем не менее, без исправления, чтобы преодолеть проблемы не-iid и устранения потенциальных мешающих эффектов, объединенная выборка произвела классификатор, который все еще не работал лучше, чем шанс, даже когда использовалось уменьшение признаков (рисунок 2). Это согласуется с результатами, представленными Oh et al. Снижение характеристик было важным шагом для улучшения производительности двух алгоритмов, но только после применения различных методов коррекции для контроля за неидеальной природой данных. Благодаря методам уменьшения и коррекции размерности точность повышается при максимальной производительности, достигаемой с помощью набора из 100 функций.

Сводка результатов для двух методов классификации (машины опорных векторов и случайный лес) по различным методам для управления данными, не зависящими от идентичной и идентичной (не-iid), и различной глубиной выбора признаков. Средние значения точности в процентах указаны по оси х . Невозможно классифицировать случаи и контроли, анализируя каждое исследование индивидуально, даже после выбора функции. Британская выборка, самая маленькая, демонстрирует значительно худшие результаты по сравнению с двумя другими, которые показывают уровни вероятности. Используя увеличенную мощность, предлагаемую комбинированными выборками, и удаляя потенциальную партию и дисперсию шума, можно обнаружить слабый, но стабильный и значительный сигнал. Наивысшая точность классификации (58%) достигается при 100 характеристиках.

Изображение в полном размере

При оценке различных методов контроля смешанных эффектов PCA.3 и модели смесей с использованием PCA3.ComBat продемонстрировали устойчивое улучшение производительности по сравнению с необработанным набором данных как для линейных моделей SVM, так и для моделей RF с различным числом выбранных функций. Методы с одним или более меньшим числом удаленных основных компонентов, таких как PCA.4 и PCA.2 с или без методов ComBat, возвращали лучшую точность для некоторых классификаторов, но не были устойчивыми по разному количеству выбранных функций и разных моделей с использованием независимого обучения и наборы для тестирования (рисунок 2).

Модели смешивания, использующие PCA.3 вместе с ComBat и PCA.4 вместе с ComBat, были наиболее эффективными при использовании SVM, тогда как смешанные методы, использующие PCA2, ComBat и PCA.2, возвращали наилучшую производительность при использовании RF. Наилучшая общая классификация была достигнута с использованием SVM и либо с удалением первых трех основных компонентов, либо с использованием комбинированного подхода с использованием PCA3 и ComBat в сочетании с устранением признаков. Классификация 58% была достигнута по эпигенетическим изменениям в крови с 100 выбранными признаками. Результаты значительно выше вероятностного уровня и остаются выше 57%, даже когда число признаков было уменьшено до 50. Функции высшего ранга, выбранные в трех различных исследованиях после повторной выборки, суммированы в таблице 1. Сигнал, который можно обнаружить из крови очевидно, происходит из очень небольшого подмножества общего количества функций. Однако этого можно ожидать, учитывая, что данные были получены из периферической ткани, в отличие от более связанной с болезнью.

Таблица в натуральную величину

Был проведен сетевой анализ с использованием MetaCore, чтобы получить дополнительное представление о потенциальной взаимосвязи между наборами функций, выявленных в результате вышеупомянутого анализа. Гены высшего ранга, которые могут быть сопоставлены с зондами в массиве 8.1-К с более высокой вероятностью отбора по разной повторной выборке, были загружены в качестве эталонной молекулы в базу данных MetaCore. Сначала мы изучили две лучшие сети рейтинга, возвращаемые по P- значению. Первая ранжирующая сеть ( P -21 , G-оценка = 48, 28) была сосредоточена на концентраторе гена c-MYC (рис. 3а). C-MYC известен как протоонкоген и связан с пролиферацией клеток и как проапоптотическая молекула. Вторая сеть с P- значением ( P -21 , G-оценка = 47, 79) включает 10 эталонных генов и сосредоточена на генном концентраторе PPARGC1A (ускоренная область человека 20 ( HAR20 )) (рис. 2b). Этот ген является транскрипционным коактиватором, участвующим в регуляции энергетического обмена и митохондриальном биогенезе. Важно, что ген играет роль в регуляции белка, связывающего элемент ответа цАМФ. Белок, связывающий элемент ответа cAMP фактора транскрипции, вовлечен в сигнальные пути, относящиеся к патогенезу, и связан с N-концевыми киназами c-Jun. Сеть указывает на потенциальные механизмы, связанные с воспалением, которые были широко связаны с MDD. Впоследствии эти две сети были объединены, чтобы получить более полное представление об их потенциальных отношениях и взаимодействиях (рис. 3c). Интересно, что генные концентраторы находятся на расстоянии одного взаимодействия и модулируются через путь, центрированный на концентраторе AP-1 ( C-JUN ). c-Jun в сочетании с c-Fos образует фактор транскрипции раннего ответа AP-1. Активация зависит от двойного фосфорилирования N-концевым путем киназы c-Jun, который играет важную роль в инициации воспалительных клеточных реакций. 28

Топ-рейтинг генных сетей. ( а ) Первая (по P- значению) сеть из исследования. Эталонные гены отмечены красными кружками. Сеть сосредоточена на генном узле c-Myc. C-myc известен как протоонкоген и связан с пролиферацией клеток и как проапоптотическая молекула. ( б ) Вторая оценка (по P- значению) сети из исследования. Сеть включает 10 эталонных генов, которые отмечены красными кружками. Сеть сосредоточена на PPARG (ускоренная область 20 человека (HAR20)). Активируемый пролифератором пероксисомы гамма-рецептор ( PPAR-γ) является транскрипционным коактиватором, участвующим в регуляции энергетического метаболизма и митохондриальном биогенезе. Важно, что ген играет роль в регуляции белка, связывающего элемент ответа цАМФ (CREB). Транскрипционный фактор CREB участвует в сигнальных путях, имеющих отношение к патогенезу и терапии депрессии, которая включает в себя N-концевые киназы c-Jun (JNK). ( c ) Слияние двух сетей высшего ранга, ранжированных по P- значению, показывает, что два центральных генных узла (c-MYC и PPAR-γ ) связаны активатором-белком (AP) -1-связывающим центром. AP-1 связан с димерными факторами транскрипции, состоящими из субъединицы Jun и Fos. Мишень Ap-1 особенно важна для депрессии, поскольку она регулирует экспрессию генов в ответ на различные стимулы, включая цитокины. Вместе с ядерным фактором (NF) -kappaB АР-1 контролирует активацию Т-клеток с последующим связыванием чужеродных антигенов с рецептором Т-клеток, что приводит к секреции цитокинов. Следовательно, АР-1 играет ключевую роль в инициации воспалительного ответа путем активации иммунных клеток посредством экспрессии и секреции хемокинов и цитокинов. Воспаление — это событие, которое было связано с повышенным риском возникновения серьезных депрессивных эпизодов. У пациентов с депрессией обнаружены более высокие уровни периферических воспалительных маркеров, взятых из образцов крови.

Читайте также:  Способы навыков грамотного письма

Изображение в полном размере

Наконец, мы исследовали сеть топ-рейтинга по G-Score (рисунок 4). В сети обнаружен ряд интересных генов, включая c-Jun (AP-1), с взаимодействиями между c-Jun N-терминальной киназой (MAPK) и геном X-box-связывающего белка 1 ( XPB-1 ). Ген XBP1 кодирует ключевой фактор транскрипции в ответе стресса на развернутый белок и участвует в патофизиологии MDD. 29

Сеть с самым высоким рейтингом по G-Score. Сеть выявляет ряд потенциальных взаимодействий, которые могут иметь отношение к заболеванию и которые ранее были связаны с воспалением. В нижней части сети показан кластер генов, включая c-Jun, Fos, AP-1 (вместе образующие комплекс APP), JNK (MAPK) и NF-κβ . В верхней части сеть сгруппирована вокруг генного узла XPB-1, который участвует в модуляции клеточного ответа на стресс эндоплазматического ретикулума (ER), вызванный стрессовыми стимулами.

Изображение в полном размере

обсуждение

Ландшафты метилирования ДНК могут демонстрировать большие различия между различными тканями, но доступ к тканям мозга в исследованиях на людях ограничен посмертной и хирургической резекцией. Следовательно, периферические ткани, включая кровь, могут быть важным источником информации для идентификации биомаркеров и механизмов, связанных с патологией, которые, как предполагается, также проявляются в мозге. Тем не менее, связанные с заболеванием эпиваризации в крови могут быть менее выраженными, более редкими и сложными для выявления из-за дисперсии шума по сравнению с пораженными болезнью тканями мозга. В этом исследовании мы объединили три набора не-iid данных, используя подход, основанный на данных, чтобы раскрыть подходящий метод для контроля как пакетного эффекта, так и дисперсии шума, чтобы создать глобальный классификатор, который мог бы классифицировать затронутых братьев и сестер в парах MZ, несоответствующих MDD из эпивариация в периферической крови.

Из ряда методов, оцененных для консолидации неидеальных данных, PCA с тремя лучшими методами на основе собственных векторов и смешанными подходами с использованием PCA и ComBat показали устойчивые положительные результаты на наших наборах данных. Полученная модель может классифицировать болезненное состояние выше вероятностных уровней в независимом тестовом наборе, используя различия в уровнях метилирования. Из нескольких методов, рассмотренных для классификации, линейный вектор опорных векторов с топ-100 выбранных признаков дал наивысшую точность классификации. Прогноз точности выше уровня вероятности может считаться важным, учитывая сложную молекулярную архитектуру, лежащую в основе патологии. Вместо показателей рабочих характеристик приемника сообщалось о показателях точности, даже если они часто могут быть выше. Действительно, высокая чувствительность и специфичность могут быть достигнуты даже при отсутствии высокой точности. Быть осторожным в количественной оценке способности отличать дискордантных близнецов по MDD от эпигенетических маркеров только в периферической крови было предпочтительнее, чем сообщать о более высоких показателях ROC. Это особенно важно в контексте классификации заболеваний, где существует вероятность того, что накопление эпигенетических изменений может объяснить лишь небольшую часть индивидуальных различий в патологии. Анализ обогащения наиболее важных признаков указывает на эпигенетическую сигнатуру MDD, которая может быть обнаружена в периферической крови и может использоваться для информирования о выборе генов кандидатов в будущих молекулярных исследованиях MDD.

Результаты анализа выявили ряд ключевых генов, которые, как было показано ранее, участвуют в патофизиологии MDD. Эти гены включают PPAR-γ ( гамма-рецептор, активируемый пролифератором пероксисом), AP-1, XPB-1 и NF-κβ . Одна из карт генов, обнаруженная в этом исследовании, была сфокусирована вокруг PPAR-γ в качестве центра генного центра (Рисунок 3b). Объединение двух высокопоставленных сетей показало, что AP-1, по-видимому, является молекулой соединения, посредником между двумя генными концентраторами двух сетей; эти две сети с самым высоким рейтингом по P- значению оказываются одним взаимодействием. Возможно, что метилирование ДНК может модулировать ряд регуляторных процессов, влияющих на эти сети. Точные механизмы, с помощью которых эти эпигенетические изменения могут влиять на патофизиологию депрессии или могут ли они использоваться в качестве потенциальных биомаркеров из периферических жидкостей, требуют дальнейшего изучения.

AP-1 и NF-κβ

Результаты этого исследования подтверждают предыдущие исследования MDD на людях и животных, в которых были обнаружены гены, сосредоточенные вокруг каскада стресс-ответа, включающего активаторный белок 1 (АР-1) и энхансер каппа-легкой цепи ядерного фактора активированных В-клеток ( NF). -κβ ). 30 AP-1 — это ген, который кодирует транскрипционный фактор, который регулирует экспрессию генов в ответ на цитокины, а также на стресс в окружающей среде и бактериальные и вирусные инфекции. Снижение уровня AP-1 является частью механизма, посредством которого введение IFN-альфа-терапии вызывает симптомы депрессии. 31 NF-κβ является регулятором транскрипции, который играет роль в периферическом воспалении с про- и противовоспалительным эффектами. 32, 33

PPAR-γ

Одним из локусов, обнаруженных при анализе сетевых путей, является ген PPAR-γ, который кодирует рецептор глитазона (NR1C3). Считается, что активация системы PPAR-γ в центральной нервной системе уменьшает параинвоспаление, стресс эндоплазматического ретикулума (ER), образование активных форм кислорода и токсичность глутамата при одновременном усилении нейрогенеза и нейропластичности. 34 Было показано, что активация PPAR-γ приводит к усилению нейрогенеза, а также к эффектам антидепрессанта на моделях грызунов. 35, 36 Хотя механизмы, с помощью которых это приводит к эффекту антидепрессанта, неясны, было показано, что воздействие стресса связано со снижением нейрогенеза гиппокампа. Показано, что индукция нейрогенеза является механизмом действия нескольких антидепрессантов на животных моделях. 37, 38, 39

Интересно, что несколько клинических перекрестных и рандомизированных контрольных испытаний оценивали эффективность сенсибилизирующих инсулин агонистов PPAR-γ тиазолидиндионов (троглитазон, пиоглитазон и росиглитазон) для лечения пациентов с сопутствующим MDD и метаболическим синдромом или диабетом в качестве дополнительной терапии при пациенты с умеренной или тяжелой формой МДД при отсутствии других нарушений обмена веществ и в качестве монотерапии. 40, 41, 42, 43 В дополнение к их действию в качестве сенсибилизирующих к инсулину агентов, эти препараты также обладают противовоспалительными, нейропротективными и антиэкситотоксическими свойствами. 44 Было показано, что активация рецепторов PPAR-γ их естественными (15d-PGJ2) или синтетическими лигандами поддерживает нейрональный метаболизм глюкозы и глутамата после воздействия стресса и повышения уровня нейротропных факторов. 45, 46 Считается , что эти процессы не регулируются при MDD, что делает активацию PPAR-γ интересующей лекарственной мишенью.

Сеть G- Score, занимающая верхние позиции в рейтинге, показала сеть с XPB-1 в качестве основного концентратора (рисунок 4). XPB-1 участвует в клеточном ответе на стресс ER, вызванный стрессовыми стимулами. ER стресс возникает, когда требования к ER складываться и обрабатывать белки превышают его возможности, что приводит к образованию развернутых белков. 47 Это инициирует ER-стресс-ответ, который способствует свертыванию и секреции белка, а также распаду нераспущенного белка. Неудача этого ответа приводит к высвобождению АТФазы кальция (Ca2 +) из ER, что приводит к апоптозу клеток. XPB-1 активирует деградацию нераскрытого белка, а также выработку шаперонов для секреции белка. 34 Полиморфизм, приводящий к снижению экспрессии XPB-1, также связан с биполярным расстройством. 48 Вальпроат натрия, противосудорожное средство со стабилизирующими настроение свойствами, влияет на реакцию ER-стресса, снижая вероятность клеточного апоптоза. Одним из механизмов действия для этого является активация ATF6, гена, который активирует XPB-1 в гиппокампе и коре головного мозга. 49, 50

Сильные стороны и ограничения

Известно, что метилирование ДНК проявляет тканевую специфичность, но исследования на людях ограничиваются либо посмертной, хирургической резекцией, либо часто суррогатными тканями, которые включают клетки крови. Степень, в которой эпиваризации в суррогатных тканях напоминают эпиваризации в центральных тканях, представляющих интерес, неизвестна. Учитывая сложность патологии, вероятно, что многие эпигенетические варианты, вовлеченные в ряд механизмов, лежащих в основе MDD, не могут быть обнаружены в крови. С другой стороны, клетки крови могут демонстрировать меньше эпигенетических изменений, связанных с факторами, связанными с расстройством (например, в ответ на фармакологическое лечение), но не вовлеченными в этиологию. Согласно гипотезе периферического воспаления о депрессии, именно системное воспаление может потенциально объяснить часть молекулярной этиологии расстройства. Многие из воспалительных молекул, связанных с этой гипотезой, обнаруживаются в клетках периферической крови. Наиболее прогнозируемые эпигенетические маркеры, обнаруженные в этом исследовании, были сопоставлены с генами и генными сетями с механизмами, связанными с воспалением, что разумно ожидать от крови. Тем не менее, неясно, связано ли периферическое воспаление с этиологией депрессии или обусловлено исключительно реакцией на нее.

Это исследование было в состоянии контролировать не-iid характер данных, позволяя объединить три отдельных набора данных, каждый из другого центра и страны, преодолев одно из ограничений предыдущего опубликованного исследования, используя те же три набора данных. В изоляции исследования были слишком слабыми, чтобы позволить классифицировать затронутых и незатронутых братьев и сестер, но использование увеличенной мощности большей выборки позволило обнаружить четкий сигнал. Независимое тестирование и обучение, а также тщательная оптимизация параметров во избежание переоснащения модели увеличили вероятность истинно положительных результатов. Хотя классификация была возможна выше уровня вероятности от периферической крови, точность классификации остается в целом низкой. С другой стороны, вероятно, что только небольшая часть фенотипической дисперсии объясняется эпигенетическими вариациями. Тем не менее, этот подход позволил нам изучить этиологию MDD за пределами генной + среды и этиологических парадигм генной среды.

Этот метод моделирования позволяет идентифицировать эпигенетические локусы, которые составляют часть дисперсии в фенотипе между парами близнецов MZ, диссонирующими для депрессии. В то время как эти локусы могут быть идентифицированы, эта методология не дает никакой информации относительно их роли. Построение сетей эпигенетических локусов, выявленных в результате нашего анализа, выявило, какие эпигены связаны, что указывает на пути и отношения между белками, для которых эти гены кодируют. Гены, вовлеченные в модель, могут быть затем подтверждены литературой, проливающей свет на их роль в патофизиологии MDD, хотя это неизбежно подвергается предвзятости. Кроме того, большая часть литературы не рассматривает роль конкретных генов с эпигенетической точки зрения; следовательно, существует потенциал для дальнейших исследований с участием генов, участвующих в патофизиологии депрессии, таких как гипотеза периферического воспаления и эпигенетика депрессии.

Многие из генов, идентифицированных в сетях этого анализа, еще не включены в любую литературу, касающуюся патофизиологии депрессии. C-Myc является хорошим примером этого (рис. 3а). Это онкоген, вовлеченный в патофизиологию ряда раковых заболеваний, но он еще не был широко исследован в области психиатрии.

Это исследование использует дизайн поперечного сечения, что означает, что невозможно сделать вывод о причинно-следственной связи. Доступность образцов периферической крови из одних и тех же пар близнецов MZ с течением времени может позволить выявить изменения в метилировании ДНК в зависимости от времени начала депрессии и потенциально идентифицировать причинную связь.

Источник

Оцените статью
Разные способы