dbDNA

Entwicklung einer Datenbank- und Analyseinfrastruktur für DNA-basiertes Monitoring im Gewässerschutz

Anlass und Zielsetzung

Zur Umsetzung der EG-Wasserrahmenrichtlinie werden in Deutschland Gewässer anhand „biologischer Qualitätskomponenten“ (im Folgenden „Biokomponenten“) ökologisch bewertet. Das geschieht durch klassische Erhebung. Die Analyse ist flächendeckend etabliert, jedoch zeit- und kostenintensiv und liefert bei zahlreichen Gruppen keine hohe taxonomische Auflösung. Neben den klassischen Methoden werden genetische Methoden zunehmend zur komplementären Erfassung der Biokomponenten vorgeschlagen und finden in der Forschung zunehmend routinemäßig Anwendung. Hierbei gibt es verschiedene Techniken. Weit entwickelt sind DNA-basierte Verfahren zur Bestimmung vieler Organismen in Mischproben (DNA-Metabarcoding), sowie die nicht-invasive Erfassung von Organismen mit Wasser oder Sediment über sogenannte „Umwelt-DNA“ oder „eDNA“ (eDNA-Metabarcoding).

Zu den Hauptvorteilen der genetischen Methoden, insbesondere der eDNA-basierten Techniken, zählen die schnelle, automatisierbare und standardisierte Bestimmung von Probenmaterial aus Misch- oder Umweltproben über Barcode-Sequenzen, die umfassendere Dokumentation der Biodiversität inklusive schwierig bestimmbarer oder kryptischer Arten, die Möglichkeit die Rohdaten einfach für Qualitätssicherungszwecke verfügbar zu machen, die DNA für Re-Analysen einzulagern und das große Potenzial für die digitale Transformation der Umweltbeobachtung. Wissenschaftliche Projekte zur Validierung und Plausibilisierung der Methoden in Deutschland und vielen anderen Ländern laufen bzw. sind teils abgeschlossen (GeDNA, Joint Danube Survey 4, SCANDNAnet).

Mit Blick auf die Nutzung DNA-basierter Methoden im behördlichen Gewässermonitoring ist in dem nächsten Schritt die Standardisierung derDatenhaltung und -analyse erforderlich. Mit dem hier vorgeschlagenen Projekt soll ein Konzept zur Datenhaltung und -bewertung und Visualisierung der neuen genetischen Methoden entwickelt und wissenschaftlich überprüft werden. Das Konzept soll dabei nicht nur für den behördlichen Einsatz, sondern auch für die wissenschaftliche Analyse von Biodiversitätstrends nutzbar sein.

Hauptherausforderungen zur Umsetzung des Ziels sind:

Herausforderung 1: Referenzdatenbanken: Aktuell werden für den Abgleich der Sequenzdaten DNA- basierter Untersuchungen verschiedene Datenbanken und Datenbankversionen genutzt. Zentral sind dabei vor allem die Barcode of Life Datasystems (BOLD) Datenbank und GenBank (NCBI) sowie für Deutschland zum Teil die German Barcode of Life-Datenbank. Füreine behördliche Anwendung ist die Verinselung verschiedener Datenbanken, ihre fehlende Versionierung und z.T. fehlende oder inkonsistente Qualitätssicherung nicht praktikabel.

Herausforderung 2: (Meta-) Datenbankstruktur und-standards: Für die Datenerhebung und und -speicherung für das DNA-Metabarcoding und eDNA-Metabarcoding sind ebenfalls klare Vorgaben und Standards nötig, um möglichst konsistente Daten für die behördliche Umweltbeobachtung zu generieren. Insbesondere gilt es hierbei Kriterien für die Zuweisung taxonomischer Namen zu harmonisieren und standardisieren, diese Informationen transparent mit den Metadaten und Daten zur Qualitätssicherung verfügbar zu machen (Reporting) sowie verbindliche Kriterien zur Datenhaltung auf allen Ebenen zu etablieren.

Herausforderung 3: Benutzerfreundliche Anwendung: DNA-basierte Daten im Anschluss an die eigentlichen Messungen können aktuell meist nur nach umfangreicher Schulung generiert, ausgewertet und interpretiert werden. Erste Initiativen zur Vereinfachung der Analysen laufen bereits (z.B. APSCALE und TaxonTableTools in GeDNA, mBRAVE von Barcode of Life Datasystems). Für Nutzer*innen in Behörden sowie Auftragslaboren und -büros ist die intuitive Benutzerfreundlichkeit entscheidend, um mit DNA-basierten Methoden generierte Daten mit möglichst wenig Aufwand und begrenzter Kenntnis nutzbar sowie mit anderen Datenquellen und -prozessen verknüpfbar zu machen.

Herausforderung 4: FAIR Data-Prinzipien: Entwicklungen von Vorschlägen für die Auffindbarkeit, Zugänglichkeit, Interoperabilität undWiederverwendbarkeit der Daten, gemäß den verbindlichen EU FAIR Data -Prinzipien sollen Daten „Findable, Accessible, Interoperable, and Re-usable“ sein.

Arbeitspakete des dbDNA-Projektes

Mit dem vorliegenden Projekt möchten wir ein modulares Lösungskonzept für die vier Herausforderungen erarbeiten. Dieses Konzeptsoll die oben adressierten Aspekte von der Referenzdatenbank über die Datengenerierung und -speicherung bis hin zur Einspeisung in ein Analysewerkzeug (online, interaktiv) umfassen und am Beispiel der BQEs „Makrozoobenthos“ und „Fische“ durchgeführt werden. Konkret planen wir gemeinsam mit Partnern und Auftragnehmenden folgende Aspekte zu thematisieren.

Übersicht über die Arbeitspakete 1-4 des dbDNA Projekts.

Arbeitspaket 1: Referenzdatenbanken und Qualitätssicherung von Barcodes aus verschiedensten Quellen, Vervollständigen fehlender Referenz-Barcodes durch Kooperation mit Universitäten und Museen. Ausgangspunkt für die Vervollständigung einer Liste qualitätsgesicherter DNA-Barcodes soll die Operationelle Taxaliste sowie die Bundestaxaliste sein. Die qualitätsgesicherten Barcodes sollen in die freshwaterecology.info Datenbank eingebunden und verfügbar gemacht werden.

Arbeitspaket 2: DNA-Metabarcoding-Datenbankstruktur und dazugehörige Formate und Arbeitsabläufe entwickeln und etablieren inkl. Import- und Exportfunktionen für typische Datentypen (Metabar- coding-Tabellen, Taxonomie-Tabellen, Metadateninformationen zur Beprobung sowie zu Laboranalysen).

Arbeitspaket 3: Einbinden von DNA-Barcodes und eDNA-Metabarcoding-Daten in das Gewässermonitoring am Beispiel Makrozoobenthos (Perlodes) und Fische. Hierzu soll das im GeDNA-Projekt entwickelte Programm TaxonTableTools in die Onlineplattform gewaesser-bewertung-berechnung.de integriert werden, so dass eine einfache, benutzerfreundliche Prototypversion für die Analyse von (e)DNA-Daten erstellt wird.

Arbeitspaket 4: Die Vorschläge zur Implementierung der FAIR-Data-Kriterien in das Datenmanagement erfolgt in Abstimmung mit einschlägigen Fachkreisen.