Kapazität, Kosten und Leistung. Drei der wichtigsten Prioritäten bei der Datenspeicherung? Ja. Und das ist kein Wunder. Das von uns produzierte Datenvolumen wächst rasant, täglich werden 2,5 Quintillionen Bytes an Daten erzeugt – und das hat Auswirkungen auf die Größe Ihres Rechenzentrums, die Reichweite Ihres Budgets sowie die Geschwindigkeit, mit der Daten verschoben werden können.
Dieses Wachstum stellt für viele Anbieter von Datenspeichern eine große Herausforderung dar: Die Anforderungen an Speicherkapazität und Langlebigkeit steigen weiter. Eine Verlangsamung ist nicht in Sicht. Hier kommt die DNA-Speicherung ins Spiel. Eine Technologie, die verspricht, Millionen und Abermillionen von Gigabytes in nur wenigen Partikeln zu speichern, und das für Tausende von Jahren.
Klingt zu schön, um wahr zu sein? Wir haben eine Gruppe von Experten, Anbietern, Forschern und Analysten versammelt, um die Behauptungen rund um dieses neue Medium genauer unter die Lupe zu nehmen und Ihnen dabei zu helfen, dieser erstaunlichen Technologie einen Schritt voraus zu sein.
Futurama: gar nicht so weit weg?
Wenn Sie glauben, dass die Daten, die wir heute produzieren, unvorstellbar sind, dann überlegen Sie einmal, wo wir in zehn, 20 oder sogar 30 Jahren stehen werden. CIOs werden dann wahrscheinlich mit viel größeren Datenmengen jonglieren müssen als heute. Thomas Ybert, CEO und Mitbegründer von DNA Script, einem weltweit führenden Unternehmen im Bereich der enzymatischen DNA-Synthese (EDS), erklärt: “Aufstrebende Technologien wie autonome Autos und künstliche Intelligenz werden den Bedarf an Datenspeicherung in nie dagewesenem Umfang weiter erhöhen. Das erwartete Wachstum des Datenspeicherbedarfs kann mit den derzeitigen ressourcenintensiven Technologien nicht bewältigt werden.”
Und was passiert mit diesen Daten, wenn sie nirgendwo gespeichert werden können? Curtis Anderson, Softwarearchitekt bei Panasas: “Wir können derzeit größtenteils mithalten, indem wir Daten mit geringem Wert vorsichtig aussortieren und die natürliche Zunahme der Dichte einzelner Laufwerke sowie die Zunahme der Anzahl dieser Laufwerke berücksichtigen. Um mit dieser Explosion Schritt halten zu können, müssen wir die Daten mit geringem Wert mit ziemlicher Sicherheit immer stärker bereinigen. Wenn die DNA-basierte Speicherung hält, was sie verspricht, können wir mit dem Pruning aufhören und einfach alles speichern.
Sabine Sykora, PhD. Application Scientist und Business Developer bei Kilobaser, einem Team, das sich für die Demokratisierung der DNA- und RNA-Synthese einsetzt, weist darauf hin, dass wir mehr als nur die Kapazität berücksichtigen müssen: “Leider unterliegen alle derzeitigen Archivierungsmedien grundlegenden Beschränkungen. Bandlaufwerke zum Beispiel leiden unter der Veralterung der Medien. Auf Band gespeicherte Daten müssen ständig migriert werden, um Geräteausfällen und technologischen Upgrades Rechnung zu tragen, was Bandlaufwerke zu einem äußerst ineffizienten Speichermedium macht, das beträchtliche Mengen an Elektronikmüll produziert. Die bestehende Speichertechnologie wird viel zu teuer und führt gleichzeitig zu erheblichen negativen Auswirkungen auf die Umwelt.”
Unsere Experten weisen immer wieder auf die Umweltkosten hin und darauf, dass die Unternehmen diese Auswirkungen in Zukunft sorgfältiger berücksichtigen müssen. Thomas Heinis, Professor für Datenmanagement am Imperial College London, bestätigt: “Rechenzentren tragen heute erheblich zu den CO2-Emissionen bei … DNA als Speichermedium muss nicht gekühlt werden und benötigt keinen Strom.”
Er kann doch nicht die DNA, die Bausteine des Lebens, meinen? Tatsächlich meint er genau das: digitale Daten, die in synthetischer DNA gespeichert sind, und da diese Daten über Jahrtausende hinweg abrufbar sein sollen, eignen sie sich perfekt für die Archivierung großer Datensätze über lange Zeiträume.
Dies sollte nicht als Wunschdenken abgetan werden. Laut Giorgio Regni, CTO von Scality, einem Unternehmen, das die Datenverwaltung von der Edge- über die Core- bis zur Cloud-Lösung vereinheitlicht, wird DNA-Storage bereits eingesetzt. “Zu den Endnutzern, die bereits von der DNA-Speicherung profitieren, gehören Forscher, die große Datenmengen speichern müssen, wie z. B. Genomsequenzen”, erklärt er. “In Zukunft könnte DNA-Storage auch von Unternehmen und Privatpersonen genutzt werden, um Daten über lange Zeiträume zu speichern.”
Sykora von Kilobaser fügt hinzu: “Die Anwendung der DNA-Speicherung wird bereits für die Langzeitspeicherung realisiert… im Grunde das Backup des Backups. Von diesem Backup profitiert jeder, der Informationen auf DNA speichert, da ein alternatives Speichermedium im Einsatz ist. Allerdings gibt es derzeit nur wenige Unternehmen, die DNA-Speicher mit ihrer eigenen Kodierung und Infrastruktur anbieten können. Dies schränkt die Zahl der Endnutzer derzeit stark ein”.
Bernard Peultier ist VP-Innovation beim Anbieter von Datensicherungssoftware Atempo. Er stimmt Sykoras Behauptung zu, dass DNA-Speicher langfristig angelegt sind. “Man speichert keine Daten, die man nur ein paar Tage oder ein paar Monate aufbewahren will, in DNA. Die DNA ist Teil dessen, was ich als alternative Langzeitspeicherung bezeichne. Jeder Archivar wird Ihnen sagen, dass Sie bei der Langzeitarchivierung Informationen in verschiedenen Speichermedien aufbewahren müssen, um ihre Haltbarkeit zu gewährleisten. Man sollte Kopien nicht auf demselben Speichermedium aufbewahren, denn wenn sich die Haltbarkeit unvorhergesehen verschlechtert, dann hat man ein Problem.”
Daniel Chadash gehört dem Vorstand der DNA Storage Alliance an, die den wachsenden Bedarf an Archivspeichern durch die Verwendung von DNA als Speichermedium decken will. Er erklärt, wo diese Art der Speicherung wahrscheinlich zum Einsatz kommen wird: “Die ersten Nutzer, die davon profitieren werden, sind wahrscheinlich in der digitalen Bewahrungsindustrie, in der Medien- und Unterhaltungsbranche, im Gesundheitswesen und in der fortgeschrittenen wissenschaftlichen Forschung, die Daten für Jahrzehnte, wenn nicht für immer, aufbewahren muss. Aber jeder Sektor, der ständig wachsende Daten langfristig speichern muss, könnte in Frage kommen.
Sergei Serdyuk, VP of Product Management bei NAKIVO, einem schnell wachsenden Softwareunternehmen für den Schutz von physischen, virtuellen und Cloud-Umgebungen, fügt hinzu: “Da der Bedarf an hochdichtem, wartungsarmem Speicher wächst, investieren immer mehr Unternehmen aus verschiedenen Branchen in dessen Entwicklung. Obwohl sich energieeffiziente, dauerhafte Datenspeicherung auf viele Branchen positiv auswirken wird, werden Organisationen im Bereich der Datenverwaltung wahrscheinlich als erste davon profitieren, sobald die Technologie vom Labor in die Produktion übergeht.”
Datenarchivierung ja, aber DNA-Speicherung verspricht viel mehr, meint Natalio Krasnagor, Professor für Informatik und Synthetische Biologie an der Universität Newcastle. “Ich bin der festen Überzeugung, dass die aufregendsten Anwendungen noch nicht entdeckt worden sind und dass diese in den nächsten Jahren zum Vorschein kommen werden. Mein Labor konzentriert sich auf DNA-Datenstrukturen und nicht auf die Archivierung. Wir sind der Meinung, dass nicht nur große Datenmengen gespeichert werden müssen, sondern dass diese Daten auch einheitlich manipuliert, sortiert, durchsucht und ganz allgemein verarbeitet werden müssen, und zwar dort, wo die Daten erzeugt, gespeichert und verbraucht werden.
Alexander Harrowell, Principal Analyst im Bereich Advanced Computing for AI des Forschungsunternehmens Omdia, mahnt jedoch zur Vorsicht: “Die Hauptvorteile sind, dass die Speicherung sehr effizient ist, dass viele Informationen in ein winziges DNA-Volumen gepackt werden und dass sie ohne Strom langfristig stabil ist. Der Nachteil: der Zugriff ist extrem langsam und erfordert Geräte, Chemikalien sowie Fähigkeiten, die weitaus seltener sind als etwa die, die für die Verwaltung eines Bandlaufwerks erforderlich sind.”
Jetzt kommt der wissenschaftliche Teil
Das langsame Abrufen ist zum Teil das, was nach Meinung unserer Experten die Akzeptanz einschränken wird. Wenn man Daten, die normalerweise in Rechenzentren gespeichert werden, die in Bezug auf Größe und Stromverbrauch mit einer Kleinstadt konkurrieren können, auf ein Reagenzglas schrumpfen lässt, muss man einen Kompromiss eingehen. Zumindest im Moment.
Aber weshalb dauert es so lange, bis die in der DNA gespeicherten Daten abgerufen werden? Regni von Scality erläutert die Einzelheiten: “Bei der DNA-Speicherung werden digitale Daten in DNA-Sequenzen kodiert, die dann synthetisiert und gespeichert werden. Die Daten können abgerufen werden, indem die DNA sequenziert und die Daten entschlüsselt werden. Mit Salz eingekapselte DNA bleibt bei Raumtemperatur jahrzehntelang stabil und dürfte in kontrollierten Umgebungen wie einem Rechenzentrum noch viel länger halten. Die DNA muss nicht gewartet werden, und in der DNA gespeicherte Daten können leicht und kostengünstig kopiert werden”.
DNA Script’s Ybert führt weiter aus: “Die DNA besteht aus vier Basen, die zur Verschlüsselung von Informationen verwendet werden können. Die kodierten Daten müssten mit den verfügbaren Nukleinsäure-Drucktechnologien als DNA synthetisiert werden. DNA Script verwendet die enzymatische DNA-Synthese (EDS), mit der Nukleinsäuren ohne die giftigen Chemikalien gedruckt werden, die bei herkömmlichen Druckverfahren mit Phosphoramidit-Chemie verwendet werden. EDS ist ein ‘sauberes’ chemisches Verfahren, das nicht die strengen Umweltbedingungen, die Entsorgung gefährlicher Abfälle oder den physischen Fußabdruck wie das herkömmliche Verfahren erfordert.
Ein weiterer positiver Schritt hin zu einer umweltfreundlicheren Datenspeicherung? Vielleicht, aber nach Meinung der meisten unserer Experten ist es noch ein weiter Weg, bis wir die potenziellen Vorteile dieser Technologie nutzen können.
Science-Fiction – oder Tatsache?
Obwohl bereits daran gearbeitet wird, die DNA-Speicherung in den Mainstream zu bringen – die Zusammenarbeit von DNA Script mit Harvard zur Herstellung von DNA auf einem Halbleiterchip ist nur ein Beispiel – könnte es noch einige Zeit dauern, bis sie in Ihrem Rechenzentrum zum Einsatz kommt. Die Hürden? Zeit und Kosten.
Sykora von Kilobaser: “Um DNA-Speicher auf breiter Basis verfügbar zu machen, müssen beide Prozesse – Schreiben und Lesen – aus dem Labor ins Büro verlagert werden. Um diesen Übergang zu erreichen, müssen sowohl das Schreiben als auch das Lesen einfacher, billiger und schneller werden.
Sie fährt fort: “Die Europäische Union hat beschlossen, mehrere Forschungsprojekte zu finanzieren, die darauf abzielen, die DNA-Synthese billiger und schneller zu machen. Das Ergebnis dieser Projekte werden neue Technologien sein, die die DNA-Speicherung einer breiten Anwendung einen Schritt näherbringen werden.”
Alessia Marelli ist CTO bei DNAalgo, einem Team von Veteranen der Speicherindustrie, das DNA-Speicher entwickelt. Sie erklärt mehr dazu: “Es gibt derzeit viele Unternehmen, die an der DNA-Datenspeicherung arbeiten. Die DNA Data Storage Alliance leistet großartige Arbeit bei der Konsolidierung von Fahrplänen und Standards in diesem Sektor. Biotech-Unternehmen arbeiten an der Synthese und Sequenzierung, um die Kosten und die Geschwindigkeit zu senken. Andere Unternehmen wie DNAalgo arbeiten an der Kodierung und Dekodierung, um die Speicherung von DNA-Daten zuverlässig zu machen. Ich denke, dass in den nächsten Jahren viele Fortschritte erzielt werden, die in fünf bis zehn Jahren zu einem echten kommerziellen Produkt führen werden.”
Heinis von ICL unterstützt den Zeitplan von Marelli: “Wir glauben, dass sie in etwa fünf Jahren verfügbar sein wird. Die DNA-Synthese ist zu teuer, und wir müssen Wege finden, die Kosten zu senken, indem wir die Technologie auch an die Datenspeicherung anpassen, d. h. vom Anwendungsfall der Biowissenschaften abrücken.
Auch Chadash von der DNA Storage Alliance stimmt dem zu: “Auf der Grundlage öffentlicher Ankündigungen gehen wir davon aus, dass DNA-Speicherlösungen mindestens bis zum Ende dieses Jahrzehnts (2030), wenn nicht schon früher, in großem Umfang und zu einem wettbewerbsfähigen Preis verfügbar sein werden. Derzeit arbeiten viele Unternehmen, die meisten von ihnen Mitglieder der Allianz, hart daran, sie erschwinglicher und skalierbar zu machen. Die Arbeit konzentriert sich auf das Schreiben von DNA, die Verbesserung der derzeitigen Technologien und die Kommerzialisierung neuer Technologien, wie die enzymatische Synthese und das Ablesen von DNA, neue Unternehmen tauchen mit neuen Technologien auf, und bestehende Unternehmen bringen neue Produkte auf den Markt, die den Preis für das Ablesen senken.
Aber nicht jeder ist dieser Ansicht. Scott Sinclair, Practice Director, Cloud, Infrastructure und DevOps bei der Enterprise Strategy Group, ist sich nicht so sicher. “Ich gehöre zu den Skeptikern”, sagt er. “Solange das Format nicht billiger und schneller zu nutzen ist, wird es schwierig sein, es effektiv einzusetzen. Ich sage nicht, dass es nicht passieren wird, aber DNA-Storage braucht mehrere Innovationen, um in den Bereich des Möglichen zu gelangen.“
Harrowell von Omdia ist pragmatisch: “Es gibt Demonstrationsprojekte, die tatsächlich funktionieren, wenn man bereit ist, eine Menge Geld pro Schreibvorgang auszugeben und lange auf seine Daten zu warten.”
Aber jede Technologie beginnt irgendwo, erinnert Chadash von der Data Storage Alliance: “Einige behaupteten, das Internet würde sich nicht durchsetzen und ein wissenschaftliches Projekt zwischen Universitäten bleiben, und einige bezweifelten, dass wir Flachbildschirme oder flashbasierte Festplatten brauchen.”
Er fährt fort: “Wir haben die Science-Fiction-Phase bereits hinter uns, denn einige Unternehmen, darunter Twist Bioscience und Microsoft, haben bereits gezeigt, dass die Technologie funktioniert. Die Herausforderung besteht nun darin, sie zu skalieren und zu kommerzialisieren, wie bei jeder anderen neuen Technologie auch.
Was kommt als Nächstes?
Auf die Frage, ob sich die DNA-Speicherung aus ihrer Komfortzone der Archivierung herausbewegen wird, ist Ybert von DNA Script zuversichtlich: “Wir werden sehen… Wir erwarten nicht, dass sich die Datenspeicherung schnell, quasi über Nacht, verändert. Wir prognostizieren eine Koexistenz von ‘heißen’ Daten, auf die häufig zugegriffen wird und die auf herkömmlichen Systemen gespeichert werden, und ‘kalten’ Daten, die archiviert werden, auf die selten zugegriffen wird und die keinen sofortigen Zugriff erfordern. Es gibt Schätzungen, dass 70 % der gespeicherten Daten als archiviert gelten.
ICLs Heinis stimmt dem zu: “Die Archivierung ist eindeutig das einfach zu erreichende Ziel, da sie auf der Langlebigkeit und Beständigkeit der DNA aufbaut. Um in die Nähe der Archivierung zu gelangen, muss der Prozess jedoch wesentlich kleiner und effizienter werden. Das ist ein langer Weg, aber es ist möglich.
Obwohl der Schwerpunkt im Moment auf der Archivierung liegt, gibt es ein Potenzial für weitere Anwendungen, vielleicht durch Parallelisierung. Randy Kerns, Senior Strategist bei der Evaluator Group, erklärt: “Die Parallelisierung könnte in der Sequenzierung liegen, die den Prozess beschleunigt und eine Leistung ermöglicht, die über die Erwartungen für die Archivierung hinausgeht. Auch parallele Operationen gegen die DNA, die andere Verwendungen ermöglichen, werden mit Operationen über mehrere Datenelemente gleichzeitig durchgeführt, ähnlich den Argumenten für Rechenspeicher mit SSDs. Ein Beispiel wäre die Implementierung einer Suchfunktion, die parallel laufen könnte.”
Das ist ein Wrap
Obwohl die DNA-Speicherung nicht völlig aus der Science-Fiction verschwunden ist, hat sie noch einen weiten Weg vor sich, bevor sie in den meisten Rechenzentren zum Standard wird. Die Technologie steckt noch in den Kinderschuhen und ist mit hohen Kosten und langen Abrufzeiten verbunden, aber sie ist vielversprechend. Und es könnte die futuristischste Speichertechnologie sein, zu der wir im Moment Zugang haben. Auf die Frage, was als Nächstes kommt, antwortet Anderson von Panasas: “Ich bin mir noch nicht sicher, ich muss meinen KI-Assistenten fragen.”