Genom-Daten für die integrierte Versorgung – Geben Sie das video Leute
Die Größe des menschlichen Genoms dataset hängt von vielen Faktoren ab. In jedem Fall ist es riesig. Eine Schätzung Häufig gegeben, schlägt vor, 100 Gigabyte für die original-raw-dataset. Es können noch mehr werden, je nachdem, wie voll ein „full“ – Genoms sequenziert. Dateien dieser Größe sind schwierig zu behandeln, die auf herkömmliche Computer, aber noch mehr auf mobile Geräte. Wenn wir uns an die vision, dass das smartphone wird zum modernen Bürgers persönlichen lenkrad für alle Gesundheits-und Krankheits-relevanten Aufgaben, stellt sich die Frage um, wie zu machen genomics (und andere -omics -) Daten zur Verfügung, die auf solchen Plattformen.
Dies ist nur ein Artikel in der new HIMSS Insights eBook: Connected Care und Interoperabilität. Laden Sie die vollständige Ausgabe hier.
Mikel Hernaez, Direktor des Computational Genomics an der Carl R. Woese Institut für Genomische Biologie, Universität von Illinois, ist unter denen, die versuchen, um eine Antwort auf diese Frage. Hernaez ist Teil einer Standardisierung initiative, in der sich die Moving Picture Expert Group (MPEG) und des ISO Technical Committee 276 Kräfte: “Unser Ziel ist die Erzeugung von MPEG-G, die einen neuen, offenen standard für die genomische information Darstellung. Es wird erwartet, dass Hilfe wesentlich für die Speicherung, übertragung, und die meisten wichtiger ist, ist die Verarbeitung von raw-und ausgerichtet-Sequenzierungs-Daten.“
MPEG-G Fälle umfassen Regeln zum Schutz der Privatsphäre und selektive Verschlüsselung
Zusammen mit Kollegen, Hernaez hat vor kurzem verfasste die erste umfassende Publikation über die MPEG-G arbeiten auf dem preprint-server bioRxiv. Er sieht einen erheblichen Bedarf für eine neue genomische-Kompressions-standard: “Genomische Daten noch weitgehend abgelegt Kompressions-algorithmen, die Durchführung schlecht in der Praxis. Ich glaube, dass die Tatsache, dass die meisten bestehenden Kompressoren sind nicht garantiert langfristig aufrechterhalten stellt die größte Barriere für die Einführung der genomischen Daten-Kompressions-Technologien.“ Mit MPEG-G, diese wird anders sein, je nach Hernaez: „Angesichts der ISO-Norm Bezeichnung, es ist sichergestellt, dass eine Datei komprimiert werden gemäß dem MPEG-G technische Daten zugänglich sein wird für das Leben.“
Neben den langfristigen Leistungsgarantien, eine weitere Stärke von MPEG-G ist, dass es behandelt eine Breite Palette von Anwendungsfällen. Dazu gehören gezielte Zugriff auf komprimierte Daten nach mehreren Kriterien, genomische Studien-aggregation, Durchsetzung von Regeln zum Schutz der Privatsphäre, die selektive Verschlüsselung von Sequenzierungs-Daten und Metadaten, annotation und Verknüpfung von Genom-Segmenten, und die inkrementelle Aktualisierung für die Sequenzierung von Daten und Metadaten. “Einige dieser Anwendungsfälle sind nicht oder nur teilweise abgedeckt wird, die von anderen Technologien, zum Beispiel die Durchsetzung von Regeln zum Schutz der Privatsphäre und der selektiven Verschlüsselung. Dieses ist ein bedeutender Durchbruch. Die aktuelle Genom-Daten-Dateien enthalten keine impliziten security-Mechanismen, um sicherzustellen, dass die person oder das system Zugriff auf die Datei hat die Berechtigung durch den Eigentümer der Daten.“
Leute davon zu überzeugen, in der Biologie bleibt eine Herausforderung
Die Entwicklung einer neuen standard von Grund auf neu ist natürlich nicht leicht: „die zentrale Herausforderung war und ist weiterhin die interdisziplinäre Natur des Projekts,“ Hernaez Punkte aus. “Das know-how der beteiligten in diesem Projekt reicht von Biologie, Ingenieurwissenschaften, informatik und Genetik. Wie Sie sich vorstellen können, arbeiten in solch einem interdisziplinären Umfeld ist ziemlich schwierig.“
Neben der Organisation von interdisziplinären Fragen, es gibt eine weitere Herausforderung: MPEG ist eine Standardisierung der Gemeinschaft, hat seine Wurzeln in der video-Kompression. „Die Entwicklung von MPEG-G ist auch über die Leute davon zu überzeugen, in den Biologie-Raum, dass die „video-Menschen“ sind in der Lage, ein tolles neues format für komprimierte Darstellung der genomischen Informationen“, sagt Hernaez. In der Tat, nicht alle Leute, die in MPEG-G ‚- video Leute‘, mit Hernaez sich selbst, ein Experte für computational genomics, als Paradebeispiel. “Aber es ist immer noch eine Herausforderung. Wir hoffen, dass mit der Veröffentlichung der ersten Implementierungen des Standards werden wir die Menschen davon überzeugen, zumindest versuchen Sie es.“
Wie viel kann ein Genom verkleinern?
Die „video-hintergrund“ ist in der Tat hilfreich zu einem gewissen Grad, sagt Hernaez: „Einige Aspekte der MPEG-G sind erheblich Verschieden von video-Kodierung, zum Beispiel die Modellierung Teil. Aber auf der anderen Seite, die aktuelle Entropie verwendete codec in MPEG-G wurde teilweise entlehnt aus der video-Kompression.“ Einer der Aspekte, die kritisiert wurde, weil Sie nach dem ersten MPEG-G Veröffentlichung im Herbst 2018 war, dass es noch keine Vergleiche zu bereits bestehenden standards in Bezug auf die Komprimierung.
Für Hernaez, das ist ein Missverständnis der Absichten und der Geltungsbereich der MPEG-G Arbeit: „Die wahren Vorteile von MPEG-G liegen nicht in der Kompression Fähigkeiten per se, sondern in der ‚wrapper‘ entwickelt, um die Kern-Kompressions-Technologie. Dieser wrapper wirklich fördert den Wettbewerb und die Interoperabilität zwischen verschiedenen Lösungen. Nachdem dies gesagt ist, können wir eine vorläufige Maßnahme der Kompression Fähigkeiten, die die MPEG-G erreichen konnte, indem man die Technologien in der angegebenen Spezifikationen. Zum Beispiel die FEDER-Technologie, die sich in der MPEG-G-standard, erreichen können, ein 25-fache Reduzierung von roh-Sequenzdaten Größe auf die generierten Daten durch die neuesten Illumina-Sequenzierung Maschine.“
Dies würde bedeuten, dass die 100-Gigabyte-Genom am Anfang erwähnt, könnte reduziert werden, um etwa vier Gigabyte. Eine noch größere Reduzierung in der Größe möglich wäre, wenn die verlustbehaftete Kompression erlaubt, einen Modus, in dem – wiederum in Analogie zur video-Kompression – etwas Präzision verloren, ohne downstream-Analysen. Hernaez weist darauf hin, dass da MPEG ist ein Teil der ISO, der standard-Entwicklungsprozess ist offen für jeden interessierten in einen Beitrag. Um es einfacher zu machen, einige der Akademische Partner beteiligt, in MPEG-G haben vor kurzem eine Gruppe namens MITOGEN – (gemeinsame Initiative zur Bekämpfung Optimale Genomische Codierung) zu teilen, offen alle software, entwickelt von den beteiligten Gruppen. Ein open-source-encoder/decoder auf der Basis des MPEG-G-Spezifikationen genannt ‚Genie‘ ist ebenfalls in der Entwicklung.
Dies ist nur ein Artikel in der new HIMSS Insights eBook: Connected Care und Interoperabilität. Laden Sie die vollständige Ausgabe hier.
Healthcare-IT-News ist die HIMSS Media-Publikation.