Genoma

Blog

CasaCasa / Blog / Genoma

Sep 02, 2023

Genoma

Nature Genetics (2023) Cita questo articolo 28k accessi 2 citazioni 178 dettagli sulle metriche alternative Prevedere gli effetti delle varianti di codifica è una sfida importante. Mentre i recenti modelli di deep learning hanno

Nature Genetics (2023) Citare questo articolo

28k accessi

2 citazioni

178 Altmetrico

Dettagli sulle metriche

Prevedere gli effetti delle varianti di codifica è una sfida importante. Sebbene i recenti modelli di deep learning abbiano migliorato la precisione della previsione degli effetti delle varianti, non possono analizzare tutte le varianti di codifica a causa della dipendenza da omologhi vicini o delle limitazioni del software. Qui abbiamo sviluppato un flusso di lavoro utilizzando ESM1b, un modello linguistico proteico da 650 milioni di parametri, per prevedere tutti i circa 450 milioni di possibili effetti di varianti missenso nel genoma umano e abbiamo reso tutte le previsioni disponibili su un portale web. ESM1b ha sovraperformato i metodi esistenti classificando circa 150.000 varianti missenso ClinVar/HGMD come patogene o benigne e prevedendo le misurazioni in 28 set di dati di scansione mutazionale profonda. Abbiamo inoltre annotato circa 2 milioni di varianti come dannose solo in specifiche isoforme proteiche, dimostrando l'importanza di considerare tutte le isoforme quando si prevedono gli effetti delle varianti. Il nostro approccio si generalizza anche a varianti di codifica più complesse come indel in-frame e stop-gain. Insieme, questi risultati stabiliscono che i modelli del linguaggio proteico rappresentano un approccio efficace, accurato e generale per prevedere gli effetti delle varianti.

Determinare le conseguenze fenotipiche delle varianti genetiche, note come previsione dell'effetto variante (VEP), è una sfida chiave nella genetica umana1,2,3,4. Le varianti codificanti che alterano le sequenze di aminoacidi delle proteine ​​sono di particolare interesse a causa del loro arricchimento nelle associazioni di malattie, nei meccanismi meglio compresi e nell'utilizzabilità terapeutica5,6,7,8. La maggior parte delle varianti di codifica presenti in natura sono missenso, poiché sostituiscono un amminoacido con un altro9. Nonostante i progressi nella genomica funzionale e negli studi genetici, distinguere le varianti dannose che alterano le proteine ​​da quelle neutre rimane una sfida. Inoltre, la maggior parte dei geni umani sono sottoposti a splicing alternativo e la stessa variante può essere dannosa per alcune isoforme proteiche ma neutra per altre, a seconda delle interazioni con il resto della proteina. Pertanto, la maggior parte delle varianti missenso rimangono varianti di significato incerto (VUS), limitando l'utilità del sequenziamento dell'esoma nella diagnosi clinica2,10. Il VEP è ancora più impegnativo per la codifica di varianti che interessano più residui come gli indel in-frame.

Approcci sperimentali per VEP come le scansioni mutazionali profonde (DMS)11 e Perturb-seq12 possono misurare fenotipi molecolari e cellulari attraverso migliaia di varianti contemporaneamente. Tuttavia, questi endofenotipi sono proxy imperfetti dei fenotipi clinici rilevanti e rimangono difficili da scalare a livello dell'intero genoma13,14. Al contrario, i metodi computazionali che apprendono le proprietà biofisiche o i vincoli evolutivi delle proteine ​​potrebbero teoricamente coprire tutte le varianti di codifica15,16,17. Mentre la maggior parte dei metodi computazionali vengono addestrati su dati etichettati di varianti patogene rispetto a varianti benigne10, i metodi basati sull'omologia non supervisionati prevedono gli effetti delle varianti direttamente da allineamenti di sequenze multiple (MSA) senza addestramento sui dati etichettati. Recentemente è stato dimostrato che EVE, un metodo di deep learning non supervisionato che implementa un autoencoder variazionale generativo, supera i metodi supervisionati4. Tuttavia, a causa della loro dipendenza dall’MSA, i metodi basati sull’omologia forniscono previsioni solo per un sottoinsieme di proteine ​​e residui ben allineati. Inoltre, poiché isoforme alternative dello stesso gene hanno omologhi identici, non è chiaro se possano distinguere gli effetti delle varianti su isoforme diverse.

Un altro approccio di deep learning al VEP utilizza modelli di linguaggio proteico, una tecnica derivata dall’elaborazione del linguaggio naturale. Si tratta di reti neurali profonde addestrate per modellare lo spazio di sequenze proteiche conosciute selezionate durante l'evoluzione come catturato da grandi set di dati proteici come UniProt18 (Fig. 1a). In particolare, i modelli del linguaggio proteico non richiedono un'omologia esplicita e possono stimare la probabilità di qualsiasi possibile sequenza di amminoacidi. È stato dimostrato che apprendono implicitamente come la sequenza proteica determina molti aspetti della struttura e della funzione delle proteine, tra cui la struttura secondaria, le interazioni a lunga distanza, le modifiche post-traduzionali e i siti di legame19,20,21,22,23,24. Uno dei più grandi modelli del linguaggio delle proteine ​​è ESM1b, un modello da 650 milioni di parametri disponibile al pubblico addestrato su circa 250 milioni di sequenze proteiche20. È stato dimostrato che è in grado di prevedere, senza ulteriore formazione, gli effetti varianti correlati ai risultati dell'esperimento DMS25.

1%)9. Only high-confidence variants were included (Supplementary Methods). The distribution of ESM1b effect scores shows a substantial difference between pathogenic and benign variants in both datasets (Fig. 2a). Moreover, pathogenic and benign variants show consistent distributions across the two datasets, suggesting that the predictions are well-calibrated. Using an LLR threshold of −7.5 to distinguish between pathogenic and benign variants yields a true-positive rate of 81% and a true-negative rate of 82% in both datasets./p> 0.01’). Bottom: Venn diagram of the variants extracted from HGMD, ClinVar and gnomAD. b, Comparison between ESM1b and EVE in their capacity to distinguish between pathogenic and benign variants (measured by global ROC-AUC scores), as labeled by ClinVar (36,537 variants in 2,765 unique genes) or HGMD/gnomAD (30,497 variants in 1,991 unique genes). c, The distribution of ESM1b effect scores across ClinVar missense VUS, decomposed as a mixture of two Gaussian distributions capturing variants predicted as more likely pathogenic (orange) or more likely benign (blue). d, The distribution of ESM1b effect scores across all common ClinVar labels, including the two Gaussian components from c. Boxes mark Q1–Q3 of the distributions, with midpoints marking the medians (Q2) and whiskers stretching 1.5× IQR. Altogether there are ~300,000 missense variants labeled in ClinVar. e,f, Evaluation of 19 VEP methods against the same two benchmarks: ClinVar (e) and HGMD/gnomAD (f). Performance was measured by two metrics for binary classification as follows: ROC-AUC (light red) and a balanced version of PRC-AUC (light blue; Methods). Performance was evaluated on the sets of variants available for all 19 methods. g,h, Head-to-head comparison between ESM1b and each of the 18 other VEP methods over the same two dataset benchmarks (in terms of ROC-AUC). Because ESM1b provides scores for all missense mutations, the comparison against each other method is performed on the set of variants with effect predictions for that method. The percentage of variants considered for each method is shown at the bottom of each bar. IQR, interquartile range./p> 4), including three ClinVar variants annotated as VUS (Fig. 4b)./p> 2). Center: the lowest and highest isoform scores predicted for all VUS from the left panel (top two boxes), compared to the mean scores (across isoforms) of VUS, benign or pathogenic variants (as in Fig. 2d; bottom three boxes). The boxes represent the Q1–Q3 range and median (Q2) line; whiskers correspond to 1.5× IQR; outliers (outside the whiskers) are shown individually. Right: the distribution of the lowest and highest isoform scores predicted for all VUS from the left panel, compared to the distributions for pathogenic or benign variants from ClinVar, HGMD and gnomAD (as in Fig. 2a). Across all panels, the number of variants associated with each category is shown in parentheses. d, The top 100 ClinVar genes with the highest number of variants with highly variable effect scores (as in c). Numbers of annotated isoforms of each gene are shown in parentheses./p> 2) across isoforms (Fig. 4c). Notably, we only considered reviewed, manually curated protein isoforms (Supplementary Methods). These 3,477 variants include 148 (4%) benign or likely benign, 437 (13%) pathogenic or likely pathogenic and 2,892 (83%) VUS. Interestingly, these VUS mirror the effect score distribution of pathogenic variants when considering the most damaging isoform, and benign variants when considering the least damaging isoform (Fig. 4c). Like P53, many clinically important genes have a large number of ClinVar variants with high effect score variance across isoforms, including BRCA1, IRF6 and TGFB3 (Fig. 4d)./p> −7) in one isoform, (2) likely pathogenic (LLR < −8) in another and (3) these two predictions are substantially different (LLR difference > 4). We identified ~1.8 million such variants across ~9,000 genes, which is 85% of all genes with manually curated alternative isoforms (Fig. 5a). Isoform-sensitive variants (ISV) are more likely to occur near splice junctions and in genes with splicing-disrupted protein domains, as opposed to domains that are either included intact or removed entirely during splicing (Fig. 5b)./p> −7, (2) minimum score < −8 and (3) difference between minimum and maximum score > 4. b, Top: ISV are closer to splice junction than would be expected at random. Bottom-left: ISV in genes with domains containing splice junctions: 90.31% versus 28.21% expected at random. Bottom-right: metrics of predicting whether genes contain domains disrupted by splice junction given whether or not they contain ISV. c, An example of a small splicing effect (excision of five amino acids from the primary isoform of the MEN1 protein) leading to dramatic changes in the predicted effects of variants in a much larger region. Bottom: AlphaFold structural predictions of the two isoforms. Arrows are pointing to a small surface pocket introduced by the five amino acid deletion (around Ser145). d, An example of alternative splicing leading to a distant effect in the TGFB3 proprotein. Exclusion of the TGFβ-3 chain in an alternative isoform of the proprotein leads to a region at the beginning of the LAP chain (marked by orange) losing its sensitivity to missense variants. Right: AlphaFold prediction of the binding of the two chains showing these two regions to be close to one another in 3D structure. ISV, isoform-sensitive variants; ACC, accuracy; TPR, true-positive rate; F1, F1 score; MCC, Matthew’s correlation coefficient./p>