- Panoramica della preparazione della libreria 4C basata sulla sonicazione
- Data processing framework
- Riproducibilità delle interazioni inter-cromosomiche
- Valutazione della profondità di sequenziamento
- Analisi statistica per identificare regioni interagenti arricchite dalle interazioni inter-cromosomiche
- Confronto di regioni interagenti arricchite identificate da dati 4C-Seq generati da metodi diversi
- Confronto delle interazioni intra-cromosomiche distali
- Segni di istoni epigenetici arricchiti negli interattomi
- Fattori di trascrizione arricchiti negli interattomi
Panoramica della preparazione della libreria 4C basata sulla sonicazione
Sulla base di studi 4C pubblicati in precedenza su cluster di geni KRT , abbiamo leggermente modificato il protocollo sperimentale per la preparazione della libreria 4C basata sulla sonicazione (Figura 1, vedere i metodi per i dettagli). Abbiamo scelto un elemento enhancer upstream del gene Pou5f1 nelle cellule ES di topo come esca e costruito librerie 4C per due campioni biologici replicare BR1 e BR2. Rispetto allo studio di Huang et al. , il nostro metodo su post-elaborazione della biblioteca 4C generata per sequenziamento di prossima generazione è considerevolmente diverso. Huang et al. analizzati i prodotti 4C amplificati costituiti da pezzi di DNA esca-bersaglio-esca utilizzando Sequencer in titanio 454. Nel nostro studio, per adattarsi al sequenziamento Illumina a breve lettura, un ulteriore passo di sonicazione frammenta i prodotti 4C in ~ 200 pezzi di DNA bp contenenti esche, bersagli, giunzioni esca-bersaglio e contaminanti genomici, prima soggetti al sequenziamento Illumina Hi-Seq. La sonicazione di frammenti di DNA legati a pezzi più piccoli per il sequenziamento Hi-Seq è stata applicata anche in un recente studio Hi-C. Abbiamo utilizzato un metodo di mappatura end-tag, simile a quello descritto in per identificare le letture di giunzione dai dati 4C-Seq basati sulla sonicazione. Nel nostro studio, la preparazione della libreria 4C-Seq basata su enzimi ha seguito rigorosamente il protocollo descritto in .

La procedura di sonicazione basata 4C-Seq. A) Lo schema del processo 4C-Seq per generare dati di sequenziamento ad alto throughput per l’analisi. Due cicli di reazioni PCR (PCR nidificato) sono stati utilizzati per amplificare esca interagendo regioni (primer mostrato in frecce). I pezzi di DNA frammentati per il sequenziamento possono essere classificati in quattro categorie mostrate nel pannello di sinistra. B) Immagini del gel di elettroforesi del DNA della libreria 4C costruita dalla PCR nidificata. C) Immagini del gel di elettroforesi del DNA della libreria 4C dopo la frammentazione per NGS.
Data processing framework
Sulla base del nostro protocollo sperimentale, il breve sequenziamento legge dalla piattaforma Illumina Hi-Seq dovrebbe teoricamente rientrare in quattro categorie: 1) legge al locus dell’esca 4C, 2) legge alle regioni interagenti dell’esca, 3) legge che misura le giunzioni di legatura fra il locus dell’esca e la sua regione interagente come pure 4) rumori causati tramite contaminazione del DNA genomico o circolare che non sono amplificati nelle reazioni della PCR (Figura 1A). Abbiamo quindi valutato diverse strategie per identificare questi quattro tipi di letture.
Per prima cosa abbiamo tentato di mappare separatamente sia le letture in avanti che in retromarcia (91 bp) dei dati accoppiati al genoma di riferimento (mm9) usando Burrows-Wheeler Aligner (BWA ), per identificare le letture che sono completamente allineate al locus “esca” o ad altre regioni genomiche. Per i dati di sequenziamento generati dalle due repliche biologiche, le letture mappate rappresentano ~77% delle letture totali (file aggiuntivo 1: Tabella S1), con la maggior parte delle letture mappate mappate in modo univoco. Con questa strategia di mappatura,>il 99% delle letture mappate in modo univoco si trova all’interno del locus bait, suggerendo la presenza di molte interazioni prossimali o auto-legazioni nei dati. Solo dallo 0,2% allo 0,6% delle letture mappate in modo univoco sono mappate su regioni genomiche distali, cioè la maggior parte di esse dovrebbe rientrare nella categoria 2 descritta sopra, anche se è possibile che alcune di esse possano provenire dal DNA genomico descritto nella categoria 4. Notiamo anche che le letture non mappate nelle repliche biologiche rappresentano ~23% delle letture totali, che possono corrispondere a giunzioni di legatura che non possono essere mappate al genoma di riferimento, cioè alla categoria 3 sopra. Data la quantità limitata di dati a supporto della categoria 2, riteniamo che questa strategia di mappatura non sia ottimale per identificare le regioni interagenti con le esche.
Abbiamo poi valutato una strategia di mappatura end-tag , generalmente applicata in studi basati su 3C per identificare le letture di categoria 3 che sono mosaico dell’esca e delle sue regioni interagenti. Una strategia simile è stata precedentemente utilizzata anche in uno studio ChIA-PET , con tag end 20-bp. Qui definiamo ” regione esca “come una regione ~ 1 kb, che include l’estensione 500 bp dalle posizioni del 2 ° set di primer PCR avanti e indietro (Figura 1). Abbiamo estratto 20-bp tag end da entrambe le letture di sequenziamento in avanti e indietro e li allineati al gruppo genoma di riferimento separatamente utilizzando BWA . I file di allineamento forward e reverse generati sono stati uniti insieme utilizzando SAMtools . Le letture di giunzione vengono identificate, quando un tag finale mappa in modo univoco l ‘” esca”e l’altro tag finale mappa le posizioni genomiche > 300 bp sullo stesso cromosoma (interazioni intra-cromosomiche) o su un cromosoma diverso (interazioni inter-cromosomiche). La logica per scegliere 300 bp è che il nostro approccio di sonicazione genera piccoli pezzi di DNA con una dimensione media di 200 bp per il sequenziamento, quindi i tag finali che sono > 300 bp dovrebbero essere per lo più letture di giunzione. Abbiamo prossimo classificato giunzione legge come giunzione prossimale legge e giunzione distale legge. Le letture della giunzione prossimale hanno due tag terminali mappati sullo stesso cromosoma con distanza genomica tra i tag tra 300 bp e 10 kb. Le letture della giunzione distale sono due tag sullo stesso cromosoma con distanza maggiore di 10 kb o due tag su cromosomi diversi. Le letture della giunzione prossimale rappresentano ~90% delle letture totali della giunzione identificate (file aggiuntivo 1: Tabella S2), con la distribuzione della distanza genomica relativa tra le due estremità a seguito di un decadimento continuo, a partire da 300 bp a 2 kb, simile agli eventi di auto-legatura osservati in uno studio ChIA-PET . La legatura prossimale predominante può riflettere l’interruzione delle interazioni deboli cromatina-cromatina sotto la forza di taglio, facilitando così gli eventi di auto-legatura. Poiché non sono state identificate interazioni all’interno dell’intervallo di distanza da 2 kb a 10 kb nei dati di replica biologica BR1 e BR2, abbiamo usato un cutoff di distanza di 10 kb per distinguere le interazioni intra-cromosomiche prossimali rispetto a quelle distali.
Per esplorare le interazioni distali cromatina-cromatina, abbiamo elaborato le letture della giunzione distale per ulteriori analisi. I tag che erano all’interno della gamma 100 bp sulle loro posizioni genomiche sono stati considerati come prodotti PCR da un singolo evento di legatura e fusi come un unico sito distale interagente, dato che il DNA della libreria 4C era frammentato prima del sequenziamento. Siti distali interagenti unici supportati da una sola lettura sono stati rimossi dalla nostra analisi in quanto probabilmente rappresentano rumori di fondo. In totale, utilizzando 20 bp end-tag mapping, abbiamo identificato 5.705 e 4.368 siti interagenti unici filtrati rispettivamente da due dati biologici replicati generati dal metodo 4C basato sulla sonicazione. Nelle sezioni seguenti, si discuterà 4C dati di sequenziamento in un contesto di dati di riproducibilità, l’effetto di profondità di sequenziamento, modelli statistici per l’identificazione arricchito interagire regioni di confronto, di riproducibili regioni interagenti identificato in entrambi enzima e sonicazione metodi, epigenetica dell’istone caratteristiche che circonda l’interazione dei siti della riproducibile regioni, e di fattori di trascrizione arricchito intorno sonicazione generato interagire siti.
Riproducibilità delle interazioni inter-cromosomiche
Le interazioni cromatina-cromatina sono altamente dinamiche e le interazioni sono probabilmente più transitorie delle interazioni proteina-cromatina nel nucleo. Ad esempio, l’interattoma mediato da CTCF nelle cellule ES di topo ha solo il 38% di sovrapposizione tra repliche biologiche, suggerendo la caratteristica dinamica delle interazioni cromatina-cromatina mediate da CTCF; mentre i picchi del 98% identificati nello studio CTCF ChIA-PET possono essere trovati nei dati di picco ChIP-Seq di CTCF, riflettendo una forte associazione di CTCF con le fibre di cromatina . Notiamo che l’approccio 4C-Seq mira a scattare un’istantanea dei modelli interagenti della cromatina, che riflettono lo stato medio tra centinaia di migliaia di cellule. Gli studi Genome-wide 3C/Hi-C, ChIA-PET hanno rivelato interazioni prossimali più consistenti rispetto alle interazioni distali. È probabile che la profondità di sequenziamento per tali studi non sia sufficiente per catturare interazioni distali meno frequenti, come le interazioni inter-cromosomiche. Rispetto agli studi basati su 3C, 4C-Seq esplora le interazioni associate a una sola area esca, quindi in teoria consente una ricerca più approfondita di interazioni a lungo raggio meno frequenti, a condizione che la stessa profondità di sequenziamento delle librerie di DNA preparate. Pertanto, abbiamo deciso di determinare la riproducibilità delle interazioni inter-cromosomiche tra campioni biologici replicati contando il numero di interazioni osservate in ogni bin genomico e calcolare la correlazione tra repliche. La correlazione dei dati è un’indicazione se la regione esca ha preferito partner interagenti situati su cromosomi diversi o le interazioni inter-cromosomiche derivano principalmente da collisione casuale tra i cromosomi. Per quanto riguarda i dati 4C-Seq, la riproducibilità può anche essere influenzata da molti fattori tra cui l’efficienza della legatura di prossimità, l’amplificazione della PCR, la frammentazione del DNA, la qualità e la profondità del sequenziamento di prossima generazione, nonché la strategia di elaborazione dei dati. Teoricamente, legatura sticky-end applicata nel metodo basato su enzimi dovrebbe comportare una maggiore efficienza di legatura rispetto blunt-end legatura nel metodo basato su sonicazione; tuttavia, più piccola dimensione dei frammenti di cromatina generati dalla sonicazione può contribuire ad una maggiore probabilità di frequenza di collisione tra due punti di rottura. Nella nostra analisi, i dati di interactome replicati del potenziatore Pou5f1 generati da entrambi i metodi sono stati inclusi per il confronto (File aggiuntivo 2: Figura S1). Il protocollo di elaborazione dei dati raccomandato per l’analisi delle interazioni inter-cromosomiche basate su enzimi è stato utilizzato per contare il numero di siti HindIII legati per ciascun segmento genomico che copre 500 siti HindIII. Per i dati 4C-Seq generati dal metodo di sonicazione, abbiamo contato il numero di siti interagenti unici identificati in ogni bin genomico da 2 Mb (approssimativamente la dimensione che copre 500 delle frese da 6 bp) per esplorare la correlazione tra repliche biologiche. Per le interazioni inter-cromosomiche generate in cellule biologiche replicate di topo, abbiamo trovato i valori del coefficiente di correlazione di Pearson pari a 0.658 e 0.636 rispettivamente per le librerie 4C basate su enzimi e sonicazione (Figura 2). Quando abbiamo tentato di utilizzare dimensioni del contenitore più piccole (1 Mb e 500 kb) per i dati basati sulla sonicazione, il coefficiente di correlazione tra le repliche è diminuito rispettivamente a 0,559 e 0,473 (File aggiuntivo 3: Figura S2A&C). Per i dati basati su enzimi, l’utilizzo di dimensioni del contenitore più piccole (250 e 125 siti a 6 bp) ha anche comportato una diminuzione simile dei valori del coefficiente di correlazione (r=0,581, r=0,475; File aggiuntivo 3: Figura S2B& D). Pertanto, i due metodi hanno mostrato riproducibilità simile e il metodo basato sulla sonicazione non migliora o degrada la risoluzione in questo caso. Anche nei nostri esperimenti, i dati di replicazione biologica per librerie 4C basate su enzimi hanno mostrato che il 36% delle interazioni inter-cromosomiche identificate nella seconda replica si trovano in prossimità (entro un intervallo di 10 kb) delle interazioni nella prima replica, mentre il 46% delle interazioni inter-cromosomiche da librerie 4C basate su sonicazione hanno mostrato vicinanza tra replicazione biologica. Questa analisi ha indicato che le regioni interagenti identificate dalle repliche biologiche sono relativamente coerenti tra loro, nonostante i diversi metodi applicati nella frammentazione della cromatina.

Riproducibilità delle interazioni inter-cromosomiche. Diagrammi di dispersione di densità delle interazioni inter-cromosomiche identificate nei dati di replica biologica per entrambi i metodi basati sulla sonicazione e sugli enzimi. I valori del coefficiente di correlazione di Pearson sono stati mostrati anche nell’angolo in alto a destra dei grafici.
Valutazione della profondità di sequenziamento
Intuitivamente, la profondità di sequenziamento è direttamente correlata alla capacità di trovare eventi interagenti relativamente rari, così come la vera frazione delle letture che può essere informativa per trovare eventi interagenti distali. Abbiamo esplorato con 10%, 25%, 50%, 75%, 90% e il 100% dei dati di sequenziamento originali per eseguire lo stesso insieme di analisi per i dati replicati di librerie 4C basate su sonicazione, e analizzato i loro modelli di correlazione. Come mostrato in Figura 3, con la profondità di sequenziamento aumentata dal 10% al 100%, la copertura dei siti interagenti distali raggruppati identificati nei due replicati biologici (BR1 e BR2) è aumentata gradualmente dal 30% al 46% (copertura definita come la percentuale di siti BR2 entro 10 kb di siti BR1). Ancora più importante, la correlazione a coppie delle frequenze interagenti di 2 Mb di bin genomici tra BR1 e BR2 ha mostrato un incremento da 0,328 a 0,636. Tuttavia, quando più del 75% delle letture di sequenziamento sono state utilizzate nell’analisi, sia la copertura dei siti interagenti che la correlazione delle frequenze interagenti nelle due repliche hanno raggiunto un plateau. Pertanto, ~20 milioni di letture corte totali (10 milioni di coppie di lettura) dal sequenziamento Illumina sono sufficienti per catturare la maggior parte degli eventi interagenti di questo elemento enhancer nelle cellule ES del mouse.

Riproducibilità dei dati dipendente dalla profondità di sequenziamento. L’eccesso di siti interagenti e il coefficiente di correlazione di Pearson delle frequenze interagenti del dominio sono stati tracciati separatamente per i dati 4C basati sulla sonicazione.
Analisi statistica per identificare regioni interagenti arricchite dalle interazioni inter-cromosomiche
Come test ad alto throughput, 4C-Seq ha rivelato migliaia di siti che interagiscono con una regione esca. Tuttavia, è improbabile che tutte le interazioni identificate siano biologicamente significative e molte di esse probabilmente rappresentano una collisione casuale tra due frammenti genomici nello spazio 3D. Per identificare le regioni che sono spesso associati con la regione esca diversa collisione casuale, abbiamo applicato modelli statistici per analizzare i siti interagenti all ” interno di ogni cromosoma. Abbiamo utilizzato una procedura FDR (False Discovery Rate) basata sulla permutazione per scegliere regioni interagenti arricchite in modo significativo. Per i dati 4C basati su enzimi, è stato assegnato un punteggio z in base al numero di siti interagenti 4C per 500 siti HindIII . Per i dati basati sulla sonicazione, a ciascun sito interagente è stato assegnato un punteggio z basato sulle interazioni vicine osservate entro un intervallo di distanza di ±1 Mb (vedere i Metodi per i dettagli). FDR è stato calcolato per permutazione casuale dei dati 100 volte e il valore di taglio del 5% è stato utilizzato per selezionare siti positivi. I siti positivi e i siti di interazione vicini (intervallo di±1 Mb) sono stati raggruppati come regioni interagenti arricchite. Le regioni arricchite sovrapposte sono state ulteriormente fuse insieme. I modelli statistici qui applicati mirano a identificare regioni interagenti arricchite dallo sfondo, in modo simile al concetto utilizzato nella chiamata di picco di CHIP-Seq.
Confronto di regioni interagenti arricchite identificate da dati 4C-Seq generati da metodi diversi
L’analisi statistica ha identificato 65 e 82 regioni interagenti inter-cromosomiche arricchite per ogni dato di replica generato dall’approccio enzimatico, con circa il 40% di sovrapposizione delle regioni identificate (30 regioni) tra le due repliche biologiche (Figura 4A). Per i dati basati sulla sonicazione, sono state identificate 76 e 85 regioni da ciascuna replica, con quasi il 50% delle regioni che si sovrappongono tra le due repliche (Figura 4B). Quindi quelle regioni riproducibili rappresentano interazioni ad alta fiducia che potrebbero avere conseguenze biologiche. È interessante notare che un terzo delle regioni inter-cromosomiche riproducibili identificate nel metodo enzimatico si sovrappongono alle regioni riproducibili dai dati basati sulla sonicazione (Figura 4C). Pertanto, il potenziatore Pou5f1 mostra la preferenza nell’interagire con le regioni distali che si trovano su cromosomi diversi e le regioni riproducibili identificate possiedono anche un certo livello di coerenza tra gli approcci 4C-Seq basati sulla sonicazione e sugli enzimi.

Sovrapposizione di regioni inter-cromosomicamente arricchite interagenti. A, B) Sovrapposizione di regioni interattive inter-cromosomiche arricchite identificate nei dati di replicazione biologica generati utilizzando approcci 4C-Seq basati su enzimi o su sonicazione; C) Sovrapposizione di regioni inter-cromosomiche riproducibili tra i due diversi metodi 4C-Seq.
Confronto delle interazioni intra-cromosomiche distali
Le interazioni intra-cromosomiche comprendono sia le interazioni cis prossimali attorno al locus dell’esca che le interazioni cis a lungo raggio distali rispetto all’area dell’esca. Sia l’enzima che i dati 4C-Seq basati sulla sonicazione hanno rivelato la maggior parte delle interazioni cis prossimali in tutte le letture di interazione identificate (File aggiuntivo 1: Tabella S2 & S3). Come mostrato nella trama di distribuzione per le letture di interazione intra-cromosomica identificate (Figura 5), le interazioni distali si verificano anche a 60 Mb di distanza dalla posizione dell’esca. Interessante notare che il metodo basato sulla sonicazione ha generato meno interazioni intra-cromosomiche distali rispetto al metodo 4C-Seq basato sull’enzima (Figura 5). Per 4C-Seq a base enzimatica, 18,5% e 12.il 6% di tutti i siti di HindIII sul cromosoma 17 sono stati identificati come siti di interazione rispettivamente per i due dati di replicazione biologica, suggerendo un background elevato (Figura 5B) nelle interazioni intra-cromosomiche, simile alle osservazioni pubblicate dal gruppo de Latt . I dati generati dal metodo basato sulla sonicazione sono coerenti con i dati 4C-Seq del gruppo Ruan con solo poche interazioni intra-cromosomiche distali . Chiaramente, nel nostro caso, non abbiamo osservato predominanti interazioni distali intra-cromosomiche all’interno di tutte le interazioni distali dal metodo basato sulla sonicazione, in contrasto con i dati generati dal metodo enzimatico che abbiamo usato. La profondità di sequenziamento in generale, influisce sulle interazioni identificate; tuttavia, poiché stiamo esaminando il rapporto tra le interazioni intra-cromosomiche distali tra tutte le interazioni, è improbabile che le differenze nella copertura della sequenza giochino un ruolo importante. Interessante notare, un precedente studio e4C ha mostrato interazioni inter-cromosomiche predominanti del locus Hbb utilizzando una tecnica 4C basata su array. Sospettiamo che il metodo basato sulla sonicazione possa aver scrollato di dosso molte interazioni deboli che sono state identificate nell’approccio basato sugli enzimi che abbiamo applicato.

Distribuzione dei conteggi di lettura grezzi in tutti i siti interagenti intra-cromosomici. A) Distribuzione dei conteggi di lettura nei siti cis-interagenti identificati dal metodo enzimatico; B) Distribuzione dei conteggi di lettura nei siti cis-interagenti nei dati basati sulla sonicazione.
Per i dati 4C-Seq basati su enzimi, abbiamo seguito un modello statistico per identificare regioni interagenti con cis arricchite. In breve, i punteggi z nelle finestre che coprono 100 siti enzimatici (dimensioni ~400 kb) sono stati calcolati in base alle frequenze di contatto in ogni finestra, con una finestra di sfondo che copre 3.000 siti per calcolare la frequenza di contatto prevista. Un metodo FDR basato sulla permutazione con una soglia (FDR≤ 5%) è stato utilizzato per selezionare regioni interagenti arricchite come descritto sopra per le interazioni inter-cromosomiche. Mostrato nella figura 6, la copertura tra i dati di replicazione biologica è superiore all ‘ 80%. Per il metodo basato sulla sonicazione, sono state utilizzate finestre di ± 200 kb attorno ai siti di contatto identificati per identificare le regioni che interagiscono arricchite (vedere metodi). La sovrapposizione di regioni interagenti arricchite tra i due dati replicati è ~33%, inferiore al metodo basato sull’enzima. Tuttavia, il 30% delle regioni riproducibili si sovrapponeva tra i due metodi.

Sovrapposizione di regioni interagenti arricchite intra-cromosomicamente. A, B) Sovrapposizione di regioni interagenti intra-cromosomiche arricchite identificate in dati di replicazione biologica generati utilizzando approcci 4C-Seq basati su enzimi o su sonicazione; C) Sovrapposizione di regioni interagenti intra-cromosomiche distali riproducibili da approcci 4C-Seq basati su enzimi e sonicazione.
Segni di istoni epigenetici arricchiti negli interattomi
Il precedente studio Hi-C ha svelato l’organizzazione cromosomica dei compartimenti aperti e chiusi della cromatina nel nucleo cellulare , con compartimenti aperti della cromatina arricchiti con caratteristiche epigenetiche attive. Ci siamo chiesti se gli interattomi di active Pou5f1 enhancer siano associati a specifiche caratteristiche epigenetiche. Quindi abbiamo eseguito uno studio di associazione per calcolare i fattori di arricchimento per una serie di segni di istoni negli interattomi. Sia per i dati basati su enzimi che per quelli basati sulla sonicazione, i segni istonici relativi all’attivazione genica, come H3K27ac, H3K36me3, H3K4me1, H3K4me3 e H3K9ac sono stati arricchiti attorno ai siti di contatto identificati (intervallo±5 kb) all’interno delle regioni interagenti riproducibili (Figura 7). Al contrario, l’arricchimento per il marchio di repressore H3K27me3 e il marchio di eterocromatina H3K9me3 non era ovvio o non era affatto osservato. Pertanto, nel nostro studio, i dati 4C-Seq hanno rivelato la vicinanza fisica di un elemento enhancer con regioni genomiche distalmente attive nelle cellule ES di topo, in linea con il concetto di compartimenti genomici attivi da studi 3C a livello genomico . Questi risultati servono quindi come controlli positivi per i nostri esperimenti e hanno confermato che le intuizioni biologiche possono essere dedotte sia da set di dati 4C-Seq basati su enzimi che su sonicazione con approcci analitici appropriati.

Analisi di arricchimento dei segni istonici. Grafici a barre dei valori dei fattori di arricchimento di diversi segni di istoni attorno ai siti interagenti all’interno delle regioni interagenti riproducibili. Fattore di arricchimento è stato calcolato come i siti osservati in prossimità dei picchi CHIP-Seq di un particolare segno istone diviso per i siti attesi (casuale simulato attraverso cromosoma 17) vicino a quel marchio.
Fattori di trascrizione arricchiti negli interattomi
A differenza del metodo basato sugli enzimi, il metodo 4C basato sulla sonicazione ha applicato gli ultrasuoni per tagliare i cromosomi reticolati in pezzi più piccoli, in modo simile alla fase di frammentazione nel protocollo ChIP-Seq. Se particolari complessi proteici che legano il DNA sono coinvolti nella mediazione delle interazioni cromosomiche tra l’esca e altre regioni distali, i siti che interagiscono con l’esca identificati dai dati basati sulla sonicazione dovrebbero trovarsi in prossimità dei siti legati a tali proteine che legano il DNA. Abbiamo analizzato ChIP-Seq raw leggere i file di 15 proteine leganti il DNA riportati nello studio di Chen et al . In breve, i tag letti entro un intervallo di ±1 kb di un sito 4C sono stati contati e normalizzati come aventi 10 milioni di tag letti totali. I dati di input per lo studio sono stati utilizzati per generare conteggi di lettura in background normalizzati. I conteggi di lettura ChIP-Seq specifici sono stati calcolati come sfondo sottratto e tracciato (Figura 8). Rispetto ai siti genomici iterati casualmente, i siti interagenti 4C sono stati moderatamente arricchiti con diversi fattori di trascrizione. Tra questi, i fattori di trascrizione Oct4, Klf4, Esrrb, Tcfcp2i1 e Zfx hanno mostrato un arricchimento statisticamente significativo (p < 1×10-10, test di Wilcoxon-Mann–Whitney spaiato), implicando che questi geni chiave di pluripotenza stanno mediando questo interattoma potenziatore nelle cellule ES di topo.

Analisi di arricchimento delle proteine leganti il DNA. Box plot che mostrano la distribuzione della densità di tag ChIP-Seq normalizzata e sottratta in background di 15 proteine leganti il DNA nelle cellule ES del topo. Il confronto è stato fatto tra i siti interagenti 4C (di colore marrone) e siti iterati casuali (di colore verde).