- Übersicht über die Vorbereitung der beschallungsbasierten 4C-Bibliothek
- Datenverarbeitungsrahmen
- Reproduzierbarkeit der interchromosomalen Wechselwirkungen
- Bewertung der Sequenzierungstiefe
- Statistische Analyse zur Identifizierung angereicherter wechselwirkender Regionen aus den interchromosomalen Wechselwirkungen
- Vergleich von angereicherten wechselwirkenden Regionen, die aus 4C-Seq-Daten identifiziert wurden, die aus verschiedenen Methoden generiert wurden
- Vergleich distaler intra-chromosomaler Interaktionen
- Epigenetische Histonmarkierungen in den Interaktomen angereichert
- In den Interaktomen angereicherte Transkriptionsfaktoren
Übersicht über die Vorbereitung der beschallungsbasierten 4C-Bibliothek
Basierend auf zuvor veröffentlichten 4C-Studien zum KRT-Gencluster haben wir das experimentelle Protokoll für die Vorbereitung der beschallungsbasierten 4C-Bibliothek geringfügig geändert (Abbildung 1, siehe Methoden für Details). Wir wählten ein Upstream-Enhancer-Element des Pou5f1-Gens in Maus-ES-Zellen als Köder und konstruierten 4C-Bibliotheken für zwei biologische Replikatproben BR1 und BR2. Im Vergleich zur Studie von Huang et al. , unsere Methode auf der Nachbearbeitung der erzeugten 4C-Bibliothek für das Sequenzieren der nächsten Generation ist bemerkenswert verschieden. In: Huang et al. analysierte die amplifizierten 4C-Produkte, bestehend aus Köder-Ziel-Köder-DNA-Stücken, unter Verwendung eines 454-Titan-Sequenzers. In unserer Studie, zur Anpassung an Illumina Short-Read-Sequenzierung, Ein zusätzlicher Beschallungsschritt fragmentiert 4C-Produkte in ~ 200 bp DNA-Stücke, die Köder enthalten, Ziele, Köder-Ziel-Übergänge sowie genomische Kontaminanten, bevor Illumina Hi-Seq-Sequenzierung unterzogen wird. Die Beschallung von ligierten DNA-Fragmenten zu kleineren Stücken für die Hi-Seq-Sequenzierung wurde ebenfalls in einer kürzlich durchgeführten Hi-C-Studie angewendet . Wir haben eine End-Tag-Mapping-Methode verwendet, ähnlich der in beschriebenen, um Junction-Reads aus beschallungsbasierten 4C-Seq-Daten zu identifizieren. In unserer Studie folgte die enzymbasierte 4C-Seq-Bibliothekspräparation streng dem in .

Das Verfahren der Beschallung basiert 4C-Seq. A) Das Schema des 4C-Seq-Prozesses zur Erzeugung von Hochdurchsatz-Sequenzierungsdaten für die Analyse. Zwei Runden von PCR-Reaktionen (Nested PCR) wurden verwendet, um die wechselwirkenden Regionen (Primer in Pfeilen gezeigt) zu amplifizieren. Die fragmentierten DNA-Stücke für die Sequenzierung können in vier Kategorien eingeteilt werden, die im linken Bereich angezeigt werden. B) DNA-Elektrophorese-Gelbilder der konstruierten 4C-Bibliothek aus verschachtelter PCR. C) DNA-Elektrophorese-Gelbilder der 4C-Bibliothek nach Fragmentierung für NGS.
Datenverarbeitungsrahmen
Basierend auf unserem experimentellen Protokoll sollten die kurzen Sequenzierungslesevorgänge von der Illumina Hi-Seq-Plattform theoretisch in vier Kategorien fallen: 1) liest am 4C-Köderlocus, 2) liest an den wechselwirkenden Köderregionen, 3) liest, die Ligationsübergänge zwischen Köderlocus und seiner wechselwirkenden Region überspannt, sowie 4) Geräusche, die durch Kontamination von genomischer oder zirkulärer DNA verursacht werden, die in PCR-Reaktionen nicht amplifiziert werden (Abbildung 1A). Wir haben daher verschiedene Strategien evaluiert, um diese vier Arten von Lesevorgängen zu identifizieren.
Wir haben zuerst versucht, sowohl Vorwärts- als auch Rückwärtslesungen (91 bp) der gepaarten Enddaten separat mit dem Burrows-Wheeler-Aligner (BWA) auf das Referenzgenom (mm9) abzubilden, um die Lesungen zu identifizieren, die vollständig auf den „Köder“ ausgerichtet sind Locus oder andere genomische Regionen. Für Sequenzierungsdaten, die aus den beiden biologischen Replikaten generiert wurden, machen die zugeordneten Lesevorgänge ~ 77% der gesamten Lesevorgänge aus (zusätzliche Datei 1: Tabelle S1), wobei die meisten zugeordneten Lesevorgänge eindeutig zugeordnet sind. Mit dieser Mapping-Strategie befinden sich >99% der eindeutig gemappten Lesevorgänge innerhalb des Bait-Locus, was auf das Vorhandensein vieler proximaler Wechselwirkungen oder Selbstligierungen in den Daten hindeutet. Nur 0,2% bis 0,6% der eindeutig abgebildeten Lesevorgänge sind auf distale genomische Regionen abgebildet, dh die Mehrheit von ihnen sollte in die oben beschriebene Kategorie 2 fallen, obwohl es möglich ist, dass einige von ihnen aus der in Kategorie 4 beschriebenen genomischen DNA stammen. Wir stellen auch fest, dass nicht zugeordnete Lesevorgänge in den biologischen Replikaten ~ 23% der gesamten Lesevorgänge ausmachen, was Ligationsübergängen entsprechen kann, die nicht auf das Referenzgenom abgebildet werden können, dh Kategorie 3 oben. Angesichts der begrenzten Datenmenge, die Kategorie 2 unterstützt, glauben wir, dass diese Kartierungsstrategie nicht optimal ist, um die interagierenden Regionen zu identifizieren.Als nächstes evaluierten wir eine End-Tag-Mapping-Strategie , die im Allgemeinen in 3C-basierten Studien angewendet wird, um Kategorie-3-Reads zu identifizieren, die Teil des Köders und seiner interagierenden Regionen sind. Eine ähnliche Strategie wurde zuvor auch in einer ChIA-PET-Studie mit 20-bp-Endmarken angewendet. Hier definieren wir „Bait-Region“ als ~ 1 kb-Region, die eine 500-bp-Erweiterung von den Positionen des 2. Satzes von Vorwärts- und Rückwärts-PCR-Primern enthält (Abbildung 1). Wir extrahierten 20-bp-End-tags aus Vorwärts-und reverse-Sequenzierung liest und richtete Sie auf die Referenz-Genom-Assembly separat mit BWA . Die generierten Vorwärts- und Rückwärtsausrichtungsdateien wurden mit SAMtools zusammengeführt. Junction-Reads werden identifiziert, wenn ein End-Tag eindeutig dem „Köder“ zugeordnet ist und das andere End-Tag genomischen Orten > 300 bp entfernt auf demselben Chromosom (intra-chromosomale Interaktionen) oder auf einem anderen Chromosom (inter-chromosomale Interaktionen). Der Grund für die Wahl von 300 bp ist, dass unser Beschallungsansatz kleine DNA-Stücke mit einer durchschnittlichen Größe von 200 bp für die Sequenzierung erzeugt, so dass End-Tags, die > 300 bp entfernt sind, meistens Junction-Reads sein sollten. Als nächstes klassifizierten wir Junction Reads als proximale Junction Reads und distale Junction Reads. Proximale Junction-Reads haben zwei End-Tags, die auf demselben Chromosom mit einem genomischen Abstand zwischen den Tags zwischen 300 bp und 10 kb abgebildet sind. Distal Junction Reads sind entweder zwei Tags auf demselben Chromosom mit einem Abstand von mehr als 10 kb oder zwei Tags auf verschiedenen Chromosomen. Proximale Junction-Reads machen ~ 90% der gesamten identifizierten Junction-Reads aus (Zusätzliche Datei 1: Tabelle S2), mit der Verteilung des relativen genomischen Abstands zwischen den beiden Enden nach einem kontinuierlichen Zerfall, beginnend von 300 bp bis 2 kb, ähnlich den in einer ChIA-PET-Studie beobachteten Selbstligierungsereignissen . Die vorherrschende proximale Ligation kann eine Störung schwacher Chromatin-Chromatin-Wechselwirkungen unter der Scherkraft widerspiegeln, wodurch Selbstligationsereignisse erleichtert werden. Da keine Wechselwirkungen innerhalb des Abstandsbereichs von 2 kb bis 10 kb sowohl in BR1- als auch in BR2-biologischen Replikatdaten identifiziert wurden, verwendeten wir einen 10-kb-Abstandsgrenzwert, um proximale vs. distale intra-chromosomale Wechselwirkungen zu unterscheiden.
Um distale Chromatin-Chromatin-Wechselwirkungen zu untersuchen, haben wir distale Junction-Reads für weitere Analysen verarbeitet. Tags, die sich innerhalb des 100-bp-Bereichs an ihren genomischen Stellen befanden, wurden als PCR-Produkte aus einem einzelnen Ligationsereignis betrachtet und als eine einzigartige distale wechselwirkende Stelle zusammengeführt, da die DNA der 4C-Bibliothek vor der Sequenzierung fragmentiert wurde. Einzigartige distale Interaktionsstellen, die nur von einem Lesevorgang unterstützt wurden, wurden aus unserer Analyse entfernt, da sie wahrscheinlich Hintergrundgeräusche darstellen. Insgesamt identifizierten wir unter Verwendung von 20 bp End-Tag-Mapping 5.705 bzw. 4.368 gefilterte einzigartige interagierende Stellen aus zwei biologischen Replikatdaten, die mit der ultraschallbasierten 4C-Methode generiert wurden. In den folgenden Abschnitten, Wir werden 4C-Sequenzierungsdaten im Zusammenhang mit der Datenreproduzierbarkeit diskutieren, Effekt der Sequenzierungstiefe, statistische Modelle zur Identifizierung angereicherter wechselwirkender Regionen, Vergleich reproduzierbarer wechselwirkender Regionen, die sowohl in Enzym- als auch in Ultraschallmethoden identifiziert wurden, epigenetische Histonmerkmale, die die wechselwirkenden Stellen innerhalb der reproduzierbaren Bereiche umgeben, und Transkriptionsfaktoren, die um durch Ultraschall erzeugte wechselwirkende Stellen angereichert sind.
Reproduzierbarkeit der interchromosomalen Wechselwirkungen
Chromatin-Chromatin-Wechselwirkungen sind hochdynamisch und die Wechselwirkungen sind wahrscheinlich vorübergehender als Protein-Chromatin-Wechselwirkungen im Zellkern. Zum Beispiel hat das CTCF-vermittelte Interaktom in Maus-ES-Zellen nur 38% Überlappung zwischen biologischen Replikaten, was auf ein dynamisches Merkmal der CTCF-vermittelten Chromatin-Chromatin-Wechselwirkungen hindeutet; während 98% der in der CTCF-ChIA-PET-Studie identifizierten Peaks in ChIP-Seq-Peakdaten von CTCF gefunden werden können, was eine starke Assoziation von CTCF mit Chromatinfasern widerspiegelt . Wir stellen fest, dass der 4C-Seq-Ansatz darauf abzielt, eine Momentaufnahme der Chromatin-Wechselwirkungsmuster zu erstellen, die den durchschnittlichen Zustand über Hunderttausende von Zellen widerspiegeln. Genomweite 3C / Hi-C, ChIA-PET-Studien zeigten konsistentere proximale Wechselwirkungen als distale Wechselwirkungen. Es ist wahrscheinlich, dass die Sequenzierungstiefe für solche Studien nicht ausreicht, um weniger häufige distale Wechselwirkungen wie interchromosomale Wechselwirkungen zu erfassen. Im Vergleich zu 3C-basierten Studien untersucht 4C-Seq die Wechselwirkungen, die nur mit einem bestimmten Bereich verbunden sind, und ermöglicht somit theoretisch eine gründlichere Suche nach weniger häufigen Langstreckeninteraktionen, vorausgesetzt, die Sequenzierungstiefe der präparierten DNA-Bibliotheken ist gleich. Daher haben wir beschlossen, die Reproduzierbarkeit von interchromosomalen Wechselwirkungen zwischen biologischen Replikatproben zu bestimmen, indem wir die Anzahl der beobachteten Wechselwirkungen in jedem genomischen Behälter zählen und die Korrelation zwischen Replikaten berechnen. Die Korrelation der Daten ist ein Hinweis darauf, ob die Köderregion bevorzugte Wechselwirkungspartner hat, die sich auf verschiedenen Chromosomen befinden, oder ob die interchromosomalen Wechselwirkungen hauptsächlich aus zufälligen Kollisionen zwischen den Chromosomen resultieren. Wie bei 4C-Seq-Daten kann die Reproduzierbarkeit auch von vielen Faktoren beeinflusst werden, einschließlich der Effizienz der Proximity-Ligation, der PCR-Amplifikation, der DNA-Fragmentierung, der Qualität und Tiefe der Next-Generation-Sequenzierung sowie der Datenverarbeitungsstrategie. Theoretisch sollte die klebrige Ligation, die in der enzymbasierten Methode angewendet wird, zu einer höheren Ligationseffizienz führen als die stumpfe Ligation in der ultraschallbasierten Methode; Eine geringere Größe der durch Ultraschall erzeugten Chromatinfragmente kann jedoch zu einer höheren Wahrscheinlichkeit einer Kollisionsfrequenz zwischen zwei Bruchstellen beitragen. In unsere Analyse wurden die aus beiden Methoden generierten Replikat-Interaktomdaten des Pou5f1-Enhancers zum Vergleich einbezogen (Zusätzliche Datei 2: Abbildung S1). Das empfohlene Datenverarbeitungsprotokoll zur Analyse enzymbasierter interchromosomaler Wechselwirkungen wurde verwendet, um die Anzahl der ligierten HindIII-Stellen für jedes genomische Segment zu zählen, das 500 HindIII-Stellen abdeckt. Für 4C-Seq-Daten, die durch die Ultraschallmethode generiert wurden, zählten wir die Anzahl der identifizierten eindeutigen interagierenden Stellen in jedem 2-MB-Genombehälter (ungefähr die Größe, die 500 von 6-bp-Zellen abdeckt), um die Korrelation zwischen biologischen Replikaten zu untersuchen. Für interchromosomale Interaktionen, die in biologischen Replikat-Maus-ES-Zellen erzeugt werden, fanden wir Pearsons Korrelationskoeffizientenwerte von 0.658 und 0.636 für enzymbasierte und beschallungsbasierte 4C-Bibliotheken (Abbildung 2). Als wir versuchten, kleinere Bin-Größen (1 MB und 500 kb) für beschallungsbasierte Daten zu verwenden, verringerte sich der Korrelationskoeffizient zwischen den Replikaten auf 0,559 bzw. 0,473 (Zusätzliche Datei 3: Abbildung S2A&C). Bei enzymbasierten Daten führte die Verwendung kleinerer Bin-Größen (250 und 125 6-bp-Stellen) ebenfalls zu einer ähnlichen Abnahme der Korrelationskoeffizientenwerte (r = 0,581, r =0,475; Zusätzliche Datei 3: Abbildung S2B& D). Somit zeigten die beiden Methoden eine ähnliche Reproduzierbarkeit, und die ultraschallbasierte Methode verbessert oder verschlechtert die Auflösung in diesem Fall nicht. Auch in unseren Experimenten zeigten die biologischen Replikatdaten für enzymbasierte 4C-Bibliotheken, dass 36% der im zweiten Replikat identifizierten interchromosomalen Wechselwirkungen in unmittelbarer Nähe (innerhalb des 10-kb-Bereichs) zu den Wechselwirkungen im ersten Replikat liegen, während 46% der interchromosomalen Wechselwirkungen aus beschallungsbasierten 4C-Bibliotheken zeigten Nähe zwischen biologischem Replikat. Diese Analyse zeigte, dass interagierende Regionen, die aus biologischen Replikaten identifiziert wurden, trotz unterschiedlicher Methoden bei der Chromatinfragmentierung relativ konsistent sind.

Reproduzierbarkeit von interchromosomalen Interaktionen. Dichtestreudiagramme von interchromosomalen Wechselwirkungen, die in den biologischen Replikatdaten sowohl für ultraschallbasierte als auch für enzymbasierte Methoden identifiziert wurden. Pearsons Korrelationskoeffizientenwerte wurden ebenfalls in der oberen rechten Ecke der Diagramme angezeigt.
Bewertung der Sequenzierungstiefe
Intuitiv hängt die Sequenzierungstiefe direkt mit der Fähigkeit zusammen, relativ seltene wechselwirkende Ereignisse zu finden, sowie mit dem wahren Bruchteil der Lesevorgänge, die für das Auffinden distaler wechselwirkender Ereignisse aussagekräftig sein können. Wir erkundeten mit 10%, 25%, 50%, 75%, 90% und 100% der ursprünglichen Sequenzierungsdaten, um den gleichen Analysesatz für die Replikatdaten von beschallungsbasierten 4C-Bibliotheken durchzuführen und ihre Korrelationsmuster zu analysieren. Wie in Abbildung 3 gezeigt, stieg die Abdeckung der identifizierten gruppierten distalen wechselwirkenden Stellen in den beiden biologischen Replikaten (BR1 und BR2) mit zunehmender Sequenziertiefe von 10% auf 100% allmählich von 30% auf 46% (Abdeckung definiert als Prozentsatz der BR2-Stellen innerhalb von 10 kb von BR1-Stellen). Noch wichtiger ist, dass die paarweise Korrelation der Wechselwirkungsfrequenzen von 2 Mb genomischen Bins zwischen BR1 und BR2 ein Inkrement von 0,328 auf 0,636 zeigte. Wenn jedoch mehr als 75% der Sequenzierungslesungen in der Analyse verwendet wurden, erreichten sowohl die Abdeckung der wechselwirkenden Stellen als auch die Korrelation der wechselwirkenden Frequenzen in den beiden Replikaten ein Plateau. Daher reichen ~ 20 Millionen Gesamt-Short-Reads (10 Millionen Lesepaare) aus der Illumina-Sequenzierung aus, um die meisten wechselwirkenden Ereignisse dieses Enhancer-Elements in Maus-ES-Zellen zu erfassen.

Sequenzierung tiefe abhängig daten reproduzierbarkeit. Die Überschreitung der wechselwirkenden Stellen und der Pearson-Korrelationskoeffizient der wechselwirkenden Domänenfrequenzen wurden separat für beschallungsbasierte 4C-Daten aufgetragen.
Statistische Analyse zur Identifizierung angereicherter wechselwirkender Regionen aus den interchromosomalen Wechselwirkungen
Als Hochdurchsatztest ergab 4C-Seq Tausende von Stellen, die mit einer Köder-Region interagieren. Es ist jedoch unwahrscheinlich, dass alle identifizierten Wechselwirkungen biologisch signifikant sind, und viele von ihnen stellen wahrscheinlich eine zufällige Kollision zwischen zwei genomischen Fragmenten im 3D-Raum dar. Um Regionen zu identifizieren, die häufig mit der Bait-Region assoziiert sind, haben wir statistische Modelle angewendet, um interagierende Stellen innerhalb jedes Chromosoms zu analysieren. Wir verwendeten ein permutationsbasiertes FDR-Verfahren (False Discovery Rate), um signifikant angereicherte wechselwirkende Regionen auszuwählen. Für enzymbasierte 4C-Daten wurde ein Z-Score basierend auf der Anzahl der interagierenden 4C-Stellen pro 500 HindIII-Stellen zugewiesen . Für beschallungsbasierte Daten wurde jeder interagierenden Stelle ein Z-Score basierend auf den in der Nähe beobachteten Wechselwirkungen innerhalb eines Entfernungsbereichs von ± 1 Mb zugewiesen (siehe Methoden für Details). FDR wurde durch zufällige Permutation der Daten 100 Mal berechnet, und der Grenzwert von 5% wurde verwendet, um positive Stellen auszuwählen. Positive Standorte und die nahe gelegenen Interaktionsstellen (± 1 Mb-Bereich) wurden als angereicherte interagierende Regionen zusammengefasst. Überlappende angereicherte Regionen wurden weiter zusammengeführt. Die hier angewandten statistischen Modelle zielen darauf ab, angereicherte wechselwirkende Regionen aus dem Hintergrund zu identifizieren, ähnlich dem Konzept, das beim ChIP-Seq-Peak-Aufruf verwendet wird.
Vergleich von angereicherten wechselwirkenden Regionen, die aus 4C-Seq-Daten identifiziert wurden, die aus verschiedenen Methoden generiert wurden
Die statistische Analyse identifizierte 65 und 82 angereicherte interchromosomale wechselwirkende Regionen für jede Replikatdaten, die aus dem Enzymansatz generiert wurden, mit etwa 40% Überlappung der identifizierten Regionen (30 Regionen) zwischen den beiden biologischen Replikaten (Abbildung 4A). Für beschallungsbasierte Daten wurden 76 und 85 Regionen aus jedem Replikat identifiziert, wobei sich fast 50% der Regionen zwischen den beiden Replikaten überlappen (Abbildung 4B). Somit stellen diese reproduzierbaren Regionen Wechselwirkungen mit hoher Konfidenz dar, die biologische Konsequenzen haben könnten. Es ist interessant festzustellen, dass sich ein Drittel der reproduzierbaren interchromosomalen Regionen, die in der Enzymmethode identifiziert wurden, mit den reproduzierbaren Regionen aus ultraschallbasierten Daten überschneiden (Abbildung 4C). Somit zeigt der Pou5f1-Enhancer eine Präferenz bei der Interaktion mit distalen Regionen, die sich auf verschiedenen Chromosomen befinden, und die identifizierten reproduzierbaren Regionen besitzen sogar ein gewisses Maß an Konsistenz zwischen beschallungsbasierten und enzymbasierten 4C-Seq-Ansätzen.

Überlappung von interchromosomal angereicherten wechselwirkenden Regionen. A, B) Überlappung angereicherter interchromosomaler wechselwirkender Regionen, die in den biologischen Replikatdaten identifiziert wurden, die unter Verwendung enzymbasierter oder ultraschallbasierter 4C-Seq-Ansätze generiert wurden; C) Überlappung reproduzierbarer interchromosomaler wechselwirkender Regionen zwischen den beiden verschiedenen 4C-Seq-Methoden.
Vergleich distaler intra-chromosomaler Interaktionen
Intra-chromosomale Interaktionen umfassen sowohl proximale Cis-Interaktionen um den Köderlocus als auch Langstrecken-Cis-Interaktionen distal zum Köderbereich. Sowohl enzym- als auch ultraschallbasierte 4C-Seq-Daten zeigten eine Mehrheit der proximalen Cis-Interaktionen in allen identifizierten Interaktionslesungen (Zusätzliche Datei 1: Tabelle S2 & S3). Wie im Verteilungsdiagramm für die identifizierten intra-chromosomalen Wechselwirkungslesewerte (Abbildung 5) gezeigt, treten distale Wechselwirkungen auch bei 60 Mb Entfernung vom Köderort auf. Interessanterweise erzeugte die ultraschallbasierte Methode im Vergleich zur enzymbasierten 4C-Seq-Methode weniger distale intra-chromosomale Interaktionen (Abbildung 5). Für enzymbasierte 4C-Seq, 18,5% und 12.6% aller HindIII-Stellen auf Chromosom 17 wurden als Interaktionsstellen für die beiden biologischen Replikatdaten identifiziert, was auf einen hohen Hintergrund (Abbildung 5B) bei intra-chromosomalen Wechselwirkungen hindeutet, ähnlich den von der de Latt Group veröffentlichten Beobachtungen . Daten, die durch eine ultraschallbasierte Methode generiert wurden, stimmen mit den 4C-Seq-Daten der Ruan-Gruppe mit nur wenigen distalen intra-chromosomalen Wechselwirkungen überein . In unserem Fall beobachteten wir eindeutig keine vorherrschenden distalen intra-chromosomalen Wechselwirkungen innerhalb aller distalen Wechselwirkungen aus der ultraschallbasierten Methode, im Gegensatz zu den Daten, die aus der von uns verwendeten Enzymmethode generiert wurden. Da wir jedoch das Verhältnis der distalen intra-chromosomalen Wechselwirkungen zwischen allen Wechselwirkungen untersuchen, ist es unwahrscheinlich, dass Unterschiede in der Sequenzabdeckung eine große Rolle spielen. Interessanterweise zeigte eine frühere e4C-Studie vorherrschende interchromosomale Wechselwirkungen des Hbb-Locus unter Verwendung einer Array-basierten 4C-Technik. Wir vermuten, dass die ultraschallbasierte Methode viele schwache Wechselwirkungen abgeschüttelt hat, die in dem von uns angewandten enzymbasierten Ansatz identifiziert wurden.

Verteilung der rohen Lesewerte an allen intra-chromosomal interagierenden Stellen. A) Verteilung der Lesezahlen an cis-interagierenden Stellen, die anhand der enzymbasierten Methode identifiziert wurden; B) Verteilung der Lesezahlen an cis-interagierenden Stellen in beschallungsbasierten Daten.
Für enzymbasierte 4C-Seq-Daten folgten wir einem statistischen Modell, um angereicherte cis-wechselwirkende Regionen zu identifizieren. Kurz gesagt, Z-Scores in Fenstern, die 1000 Stellen (Größe ~ 400 kb) abdecken, wurden basierend auf den Kontaktfrequenzen in jedem Fenster berechnet, wobei ein Hintergrundfenster 3.000 Stellen abdeckt, um die erwartete Kontaktfrequenz zu berechnen. Eine permutationsbasierte FDR-Methode mit einem Schwellenwert (FDR≤ 5%) wurde verwendet, um angereicherte wechselwirkende Regionen wie oben beschrieben für die interchromosomalen Wechselwirkungen auszuwählen. Wie in Abbildung 6 gezeigt, liegt die Abdeckung zwischen den biologischen Replikatdaten über 80%. Für die ultraschallbasierte Methode wurden Fenster von ± 200 kb um identifizierte Kontaktstellen verwendet, um nicht wechselwirkende Regionen zu identifizieren (siehe Methoden). Die Überlappung der angereicherten wechselwirkenden Regionen zwischen den beiden Replikatdaten beträgt ~ 33%, niedriger als bei enzymbasierten Methoden. Dennoch überlappten sich 30% der reproduzierbaren Bereiche zwischen den beiden Methoden.

Überlappung von intra-chromosomal angereicherten wechselwirkenden Regionen. A, B) Überlappung angereicherter intra-chromosomaler wechselwirkender Regionen, die in biologischen Replikatdaten identifiziert wurden, die unter Verwendung von enzymbasierten oder beschallungsbasierten 4C-Seq-Ansätzen generiert wurden; C) Überlappung reproduzierbarer distaler intra-chromosomaler wechselwirkender Regionen aus enzymbasierten und beschallungsbasierten 4C-Seq-Ansätzen.
Epigenetische Histonmarkierungen in den Interaktomen angereichert
Frühere Hi-C-Studie enthüllt chromosomale Organisation von offenen und geschlossenen Chromatinkompartimenten im Zellkern , mit offenen Chromatinkompartimenten mit aktiven epigenetischen Merkmalen angereichert. Wir fragten, ob die Interaktome des aktiven Cyp5f1-Enhancers mit spezifischen epigenetischen Merkmalen assoziiert sind. Daher führten wir eine Assoziationsstudie durch, um Anreicherungsfaktoren für eine Reihe von Histonmarken in den Interaktomen zu berechnen. Sowohl für enzymbasierte als auch für ultraschallbasierte Daten wurden Histonmarkierungen im Zusammenhang mit der Genaktivierung wie H3K27ac, H3K36ME3, H3K4ME1, H3K4me3 und H3K9ac um die identifizierten Kontaktstellen (± 5 kb-Bereich) innerhalb der reproduzierbaren wechselwirkenden Regionen angereichert (Abbildung 7). Im Gegensatz dazu war die Anreicherung der H3K27me3-Repressormarke und der H3K9ME3-Heterochromatinmarke entweder nicht offensichtlich oder überhaupt nicht beobachtet. So in unserer Studie, 4C-Seq-Daten zeigten die physische Nähe eines Enhancer-Elements zu distal aktiven genomischen Regionen in Maus-ES-Zellen, im Einklang mit dem Konzept der aktiven genomischen Kompartimente aus genomweiten 3C-Studien . Diese Ergebnisse dienen daher als Positivkontrollen für unsere Experimente und bestätigten, dass biologische Erkenntnisse sowohl aus enzymbasierten als auch aus ultraschallbasierten 4C-Seq-Datensätzen mit geeigneten analytischen Ansätzen abgeleitet werden können.

Anreicherungsanalyse von Histonmarken. Balkendiagramme von Anreicherungsfaktorwerten verschiedener Histonmarken um die wechselwirkenden Stellen innerhalb der reproduzierbaren wechselwirkenden Regionen. Der Anreicherungsfaktor wurde berechnet als die beobachteten Stellen in der Nähe der ChIP-Seq-Peaks einer bestimmten Histonmarke geteilt durch die erwarteten Stellen (zufällig simuliert über Chromosom 17) in der Nähe dieser Marke.
In den Interaktomen angereicherte Transkriptionsfaktoren
Im Gegensatz zur enzymbasierten Methode wurde bei der ultraschallbasierten 4C-Methode Ultraschall angewendet, um vernetzte Chromosomen in kleinere Stücke zu scheren, ähnlich dem Fragmentierungsschritt im ChIP-Seq-Protokoll. Wenn bestimmte DNA-bindende Proteinkomplexe an der Vermittlung chromosomaler Wechselwirkungen zwischen dem Köder und anderen distalen Regionen beteiligt sind, sollten sich die identifizierten Köder-interagierenden Stellen aus ultraschallbasierten Daten in unmittelbarer Nähe zu den gebundenen Stellen dieser DNA-bindenden Proteine befinden. Wir analysierten ChIP-Seq-Rohlesedateien von 15 DNA-bindenden Proteinen, die in der Studie von Chen et al. Kurz gesagt, die gelesenen Tags innerhalb eines ± 1-kb-Bereichs einer 4C-Site wurden gezählt und mit insgesamt 10 Millionen gelesenen Tags normalisiert. Die Eingabedaten für die Studie wurden verwendet, um normalisierte Hintergrundlesezahlen zu generieren. Spezifische ChIP-Seq-Lesezählungen wurden als Hintergrund subtrahiert und aufgetragen berechnet (Abbildung 8). Im Vergleich zu zufällig iterierten genomischen Stellen wurden die 4C-Interaktionsstellen mäßig mit mehreren Transkriptionsfaktoren angereichert. Unter ihnen zeigten die Transkriptionsfaktoren Oct4, Klf4, Esrrb, Tcfcp2i1 und Zfx eine statistisch signifikante Anreicherung (p < 1 × 10-10, ungepaarter Wilcoxon-Mann–Whitney-Test), was darauf hindeutet, dass diese wichtigen Pluripotenzgene dieses Enhancer-Interaktom in Maus-ES-Zellen vermitteln.

Anreicherungsanalyse von DNA-bindenden Proteinen. Boxplots, die die Verteilung der normalisierten und vom Hintergrund subtrahierten ChIP-Seq-Tag-Dichte von 15 DNA-bindenden Proteinen in Maus-ES-Zellen zeigen. Es wurde ein Vergleich zwischen den 4C-Interaktionsstellen (braun gefärbt) und den zufällig iterierten Stellen (grün gefärbt) durchgeführt.