Eine lange Excel Liste. (Foto: IMAGO, Imago / ZUMA Wire)

Biologie

Autokorrektur schadet der Genforschung

STAND
AUTOR/IN
ONLINEFASSUNG

Im Alltag und im Büro sind automatische Korrekturen oft sehr praktisch. Aber manchmal macht das Programm etwas, was man gar nicht will. In der Wissenschaft ist das ein ernstes Problem.

Audio herunterladen (5,6 MB | MP3)

Wissenschaftliche Daten in Fachzeitschriften sind falsch, weil die Daten vom Tabellenkalkulationsprogramm „Excel“ automatisch geändert wurden. Was wie ein schlechter Scherz klingt, bestätigt Dr. Sebastian Wiese, Biochemiker der Universität Ulm.

Bei der Untersuchung des Proteins Septin-1, Gen-Name SEPT1, erkennt Excel dies fälschlicherweise als Datum an und ändert den Text in "1. September". Oder je nach Sprach-Einstellung in eine andere Datumsangabe – wie „1st september“ oder „01-09“ und das Jahr. Fällt niemandem die unsinnige Formatierung auf, kann es passieren, dass der Fehler sogar in einer Fachzeitschrift veröffentlicht wird.

Dass so etwas nicht bemerkt wird, liegt daran, dass die Datensätze mit denen die Wissenschaftlerinnen und Wissenschaftler arbeiten sehr groß sind und teilweise zwischen 4.000 und 5.000 Einträge beinhalten.

Drei Wissenschaftler*innen forschen. (Foto: IMAGO, Imago / Wavebreak Media Ltd)
Bei wissenschaftlichen Arbeiten sind Excel Tabellen oft sehr groß. Das kann dazu führen, dass Fehler übersehen werden. Imago / Wavebreak Media Ltd

Probleme mit Autokorrektur in der Genetik

Viele Journalistinnen und Journalisten kennen dieses Problem. Manche Programme machen aus dem Wort DNA zum Beispiel „DANN“ oder sie ändern den Namen des bedeutenden Logikers Kurt Gödel in „Kurt Dödel“. Solche Änderungen passieren aber tatsächlich auch in der Wissenschaft, in Fachartikeln in der Genetik.

In den Artikeln geht es oft darum zu bestimmen, wie das Erbgut eines Lebewesens aufgebaut ist und wie einzelne Abschnitte im Erbgut miteinander zusammenspielen. Oder darum, die Abläufe in einer Zelle zu untersuchen. Im Anhang zu einem Artikel veröffentlichen Wissenschaftlerinnen und Wissenschaftler dabei häufig lange Tabellen mit Daten aus Untersuchungen – etwa Zahlen darüber, welches Gen wie oft planmäßig in ein Protein umgewandelt wurde bei gesunden Menschen und bei kranken.

Bekanntes Problem in der Wissenschaft

Das Problem, dass in diesen langen Tabellen Gen-Namen falsch sein können, weil Excel sie geändert hat, ist schon seit vielen Jahren bekannt. Australische Mediziner haben im Jahr 2016 nachgezählt, wie häufig solche unsinnigen Auto-Formatierungen auftreten.

Dr. Mark Ziemann und sein Team haben sich Artikel aus verschiedenen Fachzeitschriften aus der Genetik mithilfe eines Computerprogramms untersucht. Wenn es eine Excel-Datei als Anhang gab und darin eine Liste von Gen-Namen, dann hat das Programm nach üblichen Fehlern gesucht, zum Beispiel nach einer falschen Datumsformatierung.

Ziemann und sein Team haben Daten aus über 30.000 Artikeln gesammelt und festgestellt, dass in jedem fünften eine irrtümliche Konvertierung von Gen-Namen in Datumsangaben zu finden ist. Die Fehler werden leicht übersehen und so wird der fehlerhafte Anhang veröffentlicht.

Ein Laptop mit einer Excel Liste. (Foto: IMAGO, Imago / imagebroker)
Ein Team aus Wissenschaftlerinnen und Wissenschaftlern haben Excel Datensätze aus Artikeln auf Autokorrekturfehler hin überprüft und in jedem 5. Fehler gefunden. Imago / imagebroker

Folgen dieser Fehler

Laut dem Bioinformatiker Dr. Martin Eisenacher aus Bochum können diese Fehler fatale Folgen haben. Wissenschaftlerinnen und Wissenschaftler nutzen Datensätze, um ihre Forschung mit der Forschung anderer zu vergleichen. Das funktioniert nicht, wenn Datensätze auto-formatiert sind. Die Fehler, die Excel in Gen-Listen einbaut, können also zu Fehlern bei Forschenden führen, die mit diesen Listen weiterarbeiten.

Dr. Martin Eisenacher betont auch, dass deswegen keine falschen wissenschaftlichen Hypothesen aufgestellt werden können. Eventuell könnten Gene übersehen werden, wenn sie im Datensatz angeblich nicht drin sind und deswegen nicht weiter betrachtet werden. Am besten wäre es, wenn solche Fehler erst gar nicht entstünden.

Zwei Forscherinnen arbeiten mit einem Mikroskop. (Foto: IMAGO, Imago / Westend 61)
Zur Folge haben diese Auto-Korrektur Fehler, dass es schwieriger wird für Wissenschaftlerinnen und Wissenschaftler ihre Arbeiten miteinander zu vergleichen. Imago / Westend 61

In Zukunft kein Excel mehr?

Eisenacher empfiehlt deshalb wissenschaftlichen Laboren, Excel zu vermeiden. Wissenschaftlerinnen und Wissenschaftler sollten Software verwenden, die keine automatische Formatierung vornimmt. Und sie sollten statt des Gen-Namens besser die Katalognummer des Gens aus einer Gen-Datenbank verwenden oder zumindest mit angeben, das sei sicherer.

Doch Arbeitsabläufe und Formate in einem Fachgebiet einheitlich zu gestalten – über Unis, Forschungseinrichtungen und Personen hinweg, ist mühsam und langwierig. Excel ist bei vielen in der Wissenschaft immer noch das Standard-Programm, um Daten zu verwalten. So finden sich nach wie vor Excel-Fehler in wissenschaftlichen Arbeiten.

Mark Ziemann und sein Team haben Mitte 2021 ihre Analyse von 2016 wiederholt und noch einmal nachgezählt – mit erschreckendem Ergebnis: In 11.000 Artikel mit Gen-Daten fanden sie Excel-Fehler bei fast einem Drittel der Artikel.

STAND
AUTOR/IN
ONLINEFASSUNG