Des forêts d’archives

Et si la data pouvait être stockée de façon vraiment durable ?

Depuis une dizaine d’années, notre société est entrée dans une nouvelle ère, celle de la data. Les informations digitales ne sont pourtant pas une nouveauté, mais ce n’est que depuis le début de la dernière décennie qu’elles sont réellement devenues un carburant pour des algorithmes de plus en plus puissants et de plus en plus autonomes qui régissent quasiment tous les pans de notre quotidien.

Les causes de cette révolution sont avant tout technologiques : la performance des micro-processeurs a continué à augmenter de façon exponentielle, et l’émergence du cloud computing combinant les machines a repoussé encore plus loin les limites de la puissance de calcul. Et ce n’est peut-être qu’un début si des avancées sur le front du quantum computing finissent par ouvrir de perspectives nouvelles.

A l’inverse du pétrole qui fut à l’origine d’une révolution industrielle précédente, la data n’est pas un carburant dont les ressources sont limitées. Au contraire, il a suffi que le monde prenne conscience de sa valeur pour que la production augmente significativement.

Entre 2010 et 2019, la production a été multipliée par 20, et l’on s’attend à voir le volume encore tripler d’ici 2024. Et rares sont les occasions de supprimer ces données : pour des raisons règlementaires, par omission ou par confort, d’immenses quantités d’informations sont stockées sur des serveurs ou disques durs sans être jamais consultées – ou très rarement. Si bien que le volume d’informations augmente beaucoup plus vite que la capacité de stockage. L’enjeu physique est évident : il faut éviter à moyen terme une pénurie de capacité de stockage à l’échelle mondiale

Volume d'Information/Data créées dans le monde
(en zettabytes – source : Statista)

L’autre enjeu planétaire est d’ordre environnemental. En 2016, les datacenters représentaient environ 3% de la consommation d’électricité mondiale, et cette proportion devrait passer à environ 20% d’ici 2025. En ce qui concerne les gaz à effet de serre, les datacenters représentaient environ 2% des émissions mondiales en 2016 (c’est-à-dire autant que le secteur aérien) et cette part devrait augmenter à 14% d’ici 2025. Pour remettre ces 14% dans leur contexte, c’est la part des Etats-Unis dans les émissions mondiales aujourd’hui. L'impact environnemental de l'intelligence artificielle ou de la blockchain est souvent montré du doigt, à juste titre. Mais ces technologies sont aussi porteuses de nombreuses promesses si bien qu'il semble difficilement concevable d'en limiter le développement.

Il y a donc, a moyen terme, une réelle nécessité de développer des technologies alternatives permettant à la fois stocker une plus grande quantité d’information dans un même volume physique, mais aussi d’en réduire l’emprunte environnementale.

Les méthodes de stockage traditionnelles incluent les supports magnétiques (cassettes, disquettes, disques durs), le stockage optique (CD, DVD, Blu-Ray), et le stockage Flash (Clé USB, Cartes SD, SSD). Mettant de côté la dimension écologique, les caractéristiques permettant de mesure l’attractivité de tout support de stockage de données sont les suivantes :

  • Densité : bits per unit
  • Conservation : durée durant laquelle les données peuvent être récupérées sans perte d’intégrité
  • Le cout énergétique de l’information, à la fois au repos et lors de l’accès
  • Rapidité d’accès : temps et bande passante requise pour récupérer l’information

Compte tenu des récentes avancées en termes de synthèse et de séquençage ADN, une des pistes à explorer est le stockage moléculaire in vivo, en particulier pour l’archivage a long terme ou la rapidité d’accès est une problématique secondaire comparé à la densité, la rétention et le cout énergétique.

Le stockage moléculaire consiste à utiliser des constituants moléculaires pour encoder de l’information. Ainsi, les bases azotées A, C, T et G peuvent être combinées pour fabriquer de l’ADN de synthèse comme dans l’exemple ci-contre, utilisé en 2018 par Robert Grass pour encoder l’album Mezzanine du groupe de rock Massive Attack dans le cadre d’un projet artistique : les brins d’ADN ainsi crées ont été stockés dans de billes microscopiques puis insérées dans des bombes de peinture utilisés pour des graffitis.

Illustration de la méthodologie de R. Grass (2018)

Et en Juin 2019, les scientifiques d'une start-up ont annoncé avoir encodé 16 Giga-octets de pages Wikipedia dans une sous forme d’ADN.

Dans les exemples ci-dessus, le stockage moléculaire était in vitro. L’étape suivante est le stockage in vivo c’est-à-dire que les brins d’ADN synthétiques sont réintroduits dans des cellules vivantes. La quantité d’informations contenues dans l’ADN de la cellule augmenterait donc, ce qu'il ne faut pas confondre avec une augmentation du matériel génétique de la cellule. En effet les gènes, séquences qui permettent d’encoder des protéines vitales, ne représentent qu’une infime partie de l’ADN. Chez les êtres humains, l’information génétique représente moins de 2% de l’ADN - les 98% restants étant souvent considérés comme inutiles, même si des découvertes récentes laissent penser qu’une partie peut jouer un rôle essentiel de catalyseur dans l’expression des gènes.

Quel est le réel potentiel du stockage moléculaire in vivo ?

  • Densité : l’ADN offre une densité pouvant atteindre 1018 bits par mm3 soit environ 1 million de fois plus dense que le support le plus dense existant aujourd’hui. Pour illustrer cela : il y a 3 milliards de paires de bases dans chaque cellule de chaque être humain. Dans le monde végétal, le pin Loblolly possède 23 milliards de paires de bases dans le noyau de chacune de ses cellules;
  • Conservation : a l’abri de la lumière et de l’humidité, l’ADN peut rester intact pendant des siècles voire des millénaires, contre seulement quelques décennies pour les technologies de stockage actuelles. C’est ainsi que de l’ADN de fossiles datant de plusieurs milliers d’années a pu être séquencé. Un autre exemple, beaucoup plus tangible, est ce parasite produisant une fleur géante et qui stocke des sections d’adn de ses (anciens) hôtes depuis des millions d’années;
  • Le cout énergétique de l’information au repos : virtuellement nul;
  • Rapidité d’accès : c’est le vrai point faible de cette technologie car l’ADN doit être séquencé pour accéder à l’information. Pour cette raison, la seule application envisageable de cette technologie est l’archivage.
  • De plus, l’ADN a une caractéristique unique : la réplication de l’information est un processus naturel ne requérant aucune ressource. C’est essentiel pour assurer l’intégrité de l’information en fournissant des copies permettant de corriger des potentielles erreurs d’encodage ou de décodage.

En 2013, Fister & Ljubic de l’université de Maribor en Slovénie ont exploré la possibilité de stocker de l’information dans l’ADN de plantes et en 2016, ils en ont proposé une première application commerciale : le suivi des droits de propriété intellectuelle pour les certaines variétés de plantes ou graines. Comparé à tout autre support de stockage d’informations, les plantes ont l’unique avantage de contribuer positivement à l’environnement si elles poussent de façon naturelle, c’est-à-dire sans éclairage artificiel et sans irrigation. A grande échelle, la production d’oxygène dépasserait nécessairement l’emprunte carbone des processus de synthèse et séquençage. Et lorsqu’il s’agirait de détruire l’information archivée, les végétaux pourraient être recyclés, soit brulés pour produire de l’énergie soit utilisés pour fabriquer du papier ou encore dans le cas de bois, utilisés comme matière première. Si des forets d’archivages voyaient le jour, cela pourrait aussi contribuer à la lutte contre la déforestation et l’érosion des sols dans certaines régions.

Cependant aujourd’hui, le cout de la synthèse - plus que celui du séquençage - représente encore un obstacle trop important pour faire du stockage ADN une alternative crédible aux technologies existantes. Mais a moyen terme, si les technologies de synthèse et de séquençage suivent la même courbe que les technologies de l’information, certaines applications commerciales peuvent commencer à être envisagées.

Si cette technologie finit par émerger, on peut s’attendre à voir apparaitre à long terme des forêts d’archives ou les entreprises pourront stocker leurs informations pour 10, 20, 30 ans ou plus, et les consulter sur demande par le séquençage de l’ADN d’une simple feuille. Si un tel modèle voit le jour, l’industrie de l’archivage ne serait pas la seule à connaitre une révolution car l’industrie de la sylviculture serait aussi profondément affectée.

Dans un futur plus proche de nous, tant que les couts n’auront pas suffisamment diminué pour permettre de traiter de gros volumes et donc de cibler des entreprises, cette technologie devrait être réservée à des particuliers désireux d’utiliser ce support original pour stocker à très long terme, même après leur mort, des informations les concernant, éventuellement laisser des mémoires a la postérité voire une œuvre tout entière dans le cas d'artistes. Et puisque que l’on parle d’héritage et que certaines personnes portent une attention toute particulière à bien choisir le matériau du cercueil qui conservera leur identité physique, pourquoi ne pas imaginer que les gens choisissent aussi une essence d’arbre pour laisser leur identité digitale ?


Sources :
  • Nature Reviews : Molecular Digital Data Storage Using DNA , Luis Ceze, Jeff Nivala and Karin Strauss, Volume 20, August 2019
  • Statista : information created globally, July 2020
  • Computerworld : Why Datacenters are the new frontier in the fight against climate change, August 2019
  • K. Ljubic, I. Fister : Storing data into a living plant. Technical Report, Maribor: FERI, 2013
  • Scientific American : DNA Data Storage Is Closer Than You Think, July 2019
  • Scientific American : What Is Junk DNA, And What Is It Worth, February 2007
  • Wired UK, March 2019 : With AI and DNA, Massive Attack are hacking a new kind of music
  • Quanta Magazine, April 2021: DNA of Giant "Corpse Flower" Parasite Surprises Biologists
  • Wikipedia
We care about your privacy so we do not store nor use any cookie unless it is stricly necessary to make the website to work
Got it
Learn more