search_icon 

close_icon

search_icon  

search_icon  

home>mypoint>news>752493.html

News_AdobeStock_Tartila1

Innsbrucker Team liefert Big-Data Plattform für weltweit größte Sequenzier-Studie

Vor genau 20 Jahren wurde das erste menschliche Genome entschlüsselt und der breiten Öffentlichkeit vorgestellt. Nur zwei Jahrzehnte später geht das TOPMed (Trans-Omics for Precision Medicine) Konsortium den genetischen Risikofaktoren zahlreicher Erkrankungen anhand von zehntausenden Personen auf den Grund. Die Ergebnisse dieser bahnbrechenden Arbeit wurden nun in der Fachzeitschrift Nature präsentiert – unter wesentlicher Mitarbeit von Forschern der Medizin Uni Innsbruck und der EURAC Bozen.

Schon 2016 veröffentlichten die Innsbrucker Forscher Lukas Forer und Sebastian Schönherr vom Institut für Genetische Epidemiologie (Direktor Florian Kronenberg) als Erstautoren gemeinsam mit Christian Fuchsberger von der EURAC im Magazin Nature Genetics einen neuen Cloud-Service, der mittlerweile zum Standard für genetische Studien wurde und – gemessen an den Zitationen – unter den Top 10 Publikationen des Journals geführt wird. In einer aktuell publizierten Arbeit des TOPMed Konsortiums, in der die Sequenz- und phänotypischen Daten zehntausender Personen mit unterschiedlicher Abstammung präsentiert werden, kam der adaptierte Service erneut erfolgreich zum Einsatz.

TOPMed: Datensatz als Datenschatz

In einer ersten Arbeitsphase des Konsortiums, die auf Daten von über 80 Studien und 30 Arbeitsgruppen beruht, lag der Fokus auf der genetischen und phänotypischen Kategorisierung der ersten 50.000 sequenzierten Personen. So konnten über 400 Millionen Varianten detektiert werden, 97 Prozent dieser Varianten weisen hierbei eine Frequenz von unter einem Prozent auf, außerdem kommen 46 Prozent aller Varianten nur einmal über alle Personen verteilt vor. “Dieser Datensatz ist ein echter Datenschatz und ermöglicht es, den Beitrag von seltenen und nicht kodierenden Sequenzvarianten zu Phänotypen zu erforschen”, berichtet Sebastian Schönherr. Damit andere Forschungsgruppen weltweit von dieser immensen Datenquelle profitieren können, werden die TOPMed Haplotypen von mittlerweile gar 97.000 Personen als Referenz zur Imputation zur Verfügung gestellt. “Die statistische Methode der Genotyp Imputation erlaubt es anderen Studien, mit kostengünstigen Microarrays eine kleine Anzahl an Varianten zu typisieren und fehlende Stellen im Genom dann mit Hilfe von mathematischen Methoden zu ergänzen. Imputation stellt somit eine kostengünstige Methode im Vergleich zur direkten Sequenzierung dar. Diese neue Referenzmethode erlaubt es nun, Varianten mit bis zu einer Frequenz von nur 0.01 Prozent für genomweite Assoziationsstudien zu verwenden”, so Lukas Forer. Zudem bietet die TOPMed Referenz eine viel größere Diversität und verbesserte Imputation für unterschiedliche ethnische Zugehörigkeiten weltweit.

Für die Durchführung dieser rechenintensiven Imputation verließ sich das Konsortium nun auf die Forscher des Instituts für Genetische Epidemiologie und der EURAC in Bozen, die als Experten auf dem Gebiet von “Big Data” seit vielen Jahren einen der größten bioinformatischen Web-Services betreiben.


BU: Lukas Forer (li.) und Sebastian Schönherr (c)D. Bullock

Erfolgsgeschichte aus Innsbruck

Der Impuls für den Imputations-Service kam 2014 gemeinsam mit der University of Michigan (USA) und der EURAC. “Die grundlegende Idee des Services besteht darin, Forscherinnen und Forschern eine möglichst simple Methode zu bieten, den sehr rechenintensiven Schritt der Imputation von ihrem Rechner aus durchzuführen”, so Christian Fuchsberger von der EURAC. Die gesamte Entwicklung des Services wurde akribisch geplant, 2016 wurde der Service publiziert und von Monat zu Monat konnten die Forscher den zusätzlich Andrang auf ihren Servern merklich spüren. Der Erfolg des Services zeigt sich an den Daten deutlich: Derzeit sind über 7.000 BenutzerInnen registriert, über 70 Millionen menschliche Genome wurden imputiert, Petabytes von Daten prozessiert und an die User verschlüsselt zurückgeschickt. “Das hatte natürlich zur Folge, dass jeder Ausfall gravierende Folgen sowohl für die Benutzer als auch für uns hatte, da jedes Problem verstanden und gelöst werden musste. Teilweise hatten wir über 150 anstehende Imputationen in der Warteschlange, was natürlich mit viel Stress verbunden war. Im Moment besteht der Server aus über 1.500 Prozessoren, auf welchen die Imputationen parallel ausgeführt werden. Zusätzlich sind auch einige Gruppen an uns herangetreten, um zusätzliche Referenzen auf dem Server bereitzustellen”, so die Wissenschafter.  So kam etwa 2019 die “Genome Asia”-Referenz hinzu, die über 1.700 Personen verteilt auf ganz Asien einschließt, Die Imputations-Qualität für asiatische Populationen wurde dadurch massiv gesteigert. „Die Arbeit hat es sogar auf das Cover von Nature geschafft“, freuen sich Schönherr, Forer und Fuchsberger.

TOPMed Imputation Server

Im Rahmen des TOPMed Programms sind die Teams der University of Michigan und des NHLBI (National Heart, Lung, and Blood Institute) erneut an die Tiroler Forscher herangetreten, um den Service für TOPMed auf neuen Servern bereitzustellen. “Die Ausgangslage war jedoch ungleich schwieriger. Wir mussten uns mit neuen Strategien des Cloud Computings auseinandersetzen und aufgrund der viel größeren Datenmengen neue Konzepte und Lösungen überlegen, damit die Skalierbarkeit erhalten bleibt”,  erklärt Sebastian Schönherr.

Ausblick

Der Erfolg gibt den Forschern jedenfalls recht. So wurden mit dem neuen TOPMed Server bereits 13 Millionen Genome imputiert. Die Forscher sind zudem in  mehreren Konsortien involviert, um die Imputation von derzeit noch unterrepräsentierten Populationen zu fördern und den Schritt der Genotyp Imputation weiter zu vereinfachen.

(06.04.2021, Text: Doris Heidegger, Sebastian Schönherr; Bilder: AdobeStock/Tartila, D. Bullock)

 

Links:

TOPMed Publikation in Nature
https://www.nature.com/articles/s41586-021-03205-y

Michigan Imputation Server - Nature Genetics
https://www.nature.com/articles/ng.3656

Michigan Imputation Server
https://imputationserver.sph.umich.edu/start.html

TOPMed Imputation Server
https://imputation.biodatacatalyst.nhlbi.nih.gov/

Basis für weltweit größte Sequenzierstudie kommt aus Innsbruck
https://www.derstandard.de/story/2000125628169/basis-fuer-weltweit-groesste-sequenzier-studie-kommt-aus-innsbruck

Mypoint Artikel 2016: Michigan Imputation Server
https://www.i-med.ac.at/mypoint/news/702437.html

DerStandard Artikel 2016
https://www.derstandard.at/story/2000043519646/innsbrucker-forscher-entwickeln-cloud-service-fuer-aufwendige-genanalysen

Institut für Genetische Epidemiologie
https://genepi.i-med.ac.at/

EURAC Bozen
http://www.eurac.edu/

 

Aktuell