Wie Computer Biologen helfen, die Geheimnisse des Lebens zu knacken

Als das drei Milliarden lange menschliche Genom sequenziert war, stürzten wir uns in ein neues "Omics"Zeitalter der biologischen Forschung. Wissenschaftler versuchen nun, die Genome (alle Gene) oder Proteome (alle Proteine) verschiedener Organismen zu sequenzieren - und dabei riesige Datenmengen zu sammeln.

Zum Beispiel kann ein Wissenschaftler "omische" Werkzeuge wie DNA-Sequenzierung verwenden, um herauszufinden, welche menschlichen Gene bei einer viralen Grippeinfektion betroffen sind. Aber da das menschliche Genom insgesamt mindestens 25,000-Gene besitzt, könnte die Anzahl der Gene, die selbst in einem so einfachen Szenario verändert werden, möglicherweise zu Tausenden liegen.

Obwohl die Sequenzierung und Identifizierung von Genen und Proteinen ihnen einen Namen und einen Ort gibt, sagt sie uns nicht, was sie tun. Wir müssen verstehen, wie diese Gene, Proteine ​​und all das Zeug dazwischen interagieren in verschiedenen biologischen Prozessen.

Heutzutage liefern selbst grundlegende Experimente große Datenmengen, und eine der größten Herausforderungen besteht darin, die relevanten Ergebnisse von Hintergrundgeräuschen zu entwirren. Computer helfen uns, diesen Datenberg zu überwinden; aber sie können sogar noch einen Schritt weiter gehen und uns helfen, wissenschaftliche Hypothesen aufzustellen und neue biologische Prozesse zu erklären. Data Science ermöglicht im Wesentlichen modernste biologische Forschung.

Computer zur Rettung

Computer sind einzigartig qualifiziert, um mit massiven Datensätzen umzugehen, da sie gleichzeitig alle wichtigen Bedingungen, die für die Analyse notwendig sind, im Auge behalten.


Innerself-Abonnieren-Grafik


Obwohl sie könnte menschliche Fehler widerspiegeln Sie sind so programmiert, dass Computer mit großen Datenmengen effizient umgehen können, und sie sind nicht voreingenommen gegenüber dem Bekannten, wie es menschliche Ermittler sein könnten.

Computern kann auch beigebracht werden, nach bestimmten Mustern in experimentellen Datensätzen zu suchen - ein Konzept, das als maschinelles Lernen bezeichnet wird, das zuerst in den 1950s vorgeschlagen wurde, insbesondere von Mathematikern Alan Turing. Ein Algorithmus, der die Muster aus Datensätzen gelernt hat, kann dann aufgefordert werden, Vorhersagen basierend auf neuen Daten zu treffen, die er noch nie zuvor getroffen hat.

Maschinelles Lernen hat die biologische Forschung revolutioniert, da wir jetzt große Datenmengen nutzen und Computer fragen können, um die zugrunde liegende Biologie zu verstehen.

Trainieren von Computern zum Denken durch Simulieren von Gehirnprozessen

Wir haben eine interessante Art des maschinellen Lernens, ein künstliches neuronales Netzwerk (ANN) genannt, in unserem eigenen Labor verwendet. Gehirne sind stark miteinander verbundene Netzwerke von Neuronen, die durch das Senden elektrischer Impulse durch die neurale Verdrahtung kommunizieren. In ähnlicher Weise simuliert ein KNN in dem Computer ein Netzwerk von Neuronen, wenn diese als Reaktion auf die Signale anderer Neuronen ein- und ausgeschaltet werden.

Durch die Anwendung von Algorithmen, die die Prozesse realer Neuronen nachahmen, können wir das Netzwerk dazu bringen, viele Probleme zu lösen. Google verwendet eine mächtige ANN für seine jetzt berühmte Tiefes Traumprojekt wo Computer klassifizieren und sogar Bilder erstellen können.

Unsere Gruppe untersucht das Immunsystem mit dem Ziel, neue Therapien für Krebs finden. Wir haben ANN-Computermodelle verwendet, um kurze Oberflächenprotein-Codes zu untersuchen, die unsere Immunzellen verwenden, um festzustellen, ob etwas unserem Körper fremd ist und daher angegriffen werden sollte. Wenn wir mehr darüber wissen, wie unsere Immunzellen (wie T-Zellen) zwischen normalen / selbst- und abnormalen / fremden Zellen unterscheiden, können wir bessere Impfstoffe und Therapien entwickeln.

Wir haben öffentlich verfügbare Kataloge von Tausenden von Proteincodes durchforstet, die von Forschern im Laufe der Jahre identifiziert wurden. Wir haben diesen großen Datensatz in zwei Teile geteilt: normale Selbst-Protein-Codes, die von gesunden menschlichen Zellen stammen, und abnormale Protein-Codes, die von Viren, Tumoren und Bakterien stammen. Dann wandten wir uns einem künstlichen neuronalen Netzwerk zu, das in unserem Labor entwickelt wurde.

Sobald wir die Proteincodes in das KNN eingegeben hatten, konnte der Algorithmus identifizieren grundlegende Unterschiede zwischen normalen und abnormalen Protein-Codes. Es wäre schwer für Menschen, diese Art von biologischen Phänomenen im Auge zu behalten - es gibt Tausende von diesen Proteincodes, die im großen Datensatz analysiert werden müssen. Es bedarf einer Maschine, um diese komplexen Probleme in den Griff zu bekommen und eine neue Biologie zu definieren.

Vorhersagen über maschinelles Lernen

Die wichtigste Anwendung des maschinellen Lernens in der Biologie ist die Verwendung von Vorhersagen auf der Basis von Big Data. Computerbasierte Vorhersagen können Big Data sinnvoll nutzen, Hypothesen testen und wertvolle Zeit und Ressourcen sparen.

Zum Beispiel ist es in unserem Bereich der T-Zell-Biologie wichtig zu wissen, welche viralen Protein-Codes für die Entwicklung von Impfstoffen und Behandlungen entscheidend sind. Aber es gibt so viele individuelle Protein-Codes von jedem gegebenen Virus, dass es sehr teuer und schwierig ist, jeden einzelnen zu testen.

Stattdessen trainierten wir das künstliche neuronale Netzwerk, um der Maschine zu helfen, alle wichtigen biochemischen Eigenschaften der zwei Arten von Proteincodes - normal gegen abnormal - zu lernen. Dann haben wir das Modell gebeten, "vorherzusagen", welche neuen viralen Proteincodes der Kategorie "abnormal" ähneln und von T-Zellen und somit vom Immunsystem gesehen werden könnten. Wir haben das ANN-Modell an verschiedenen Virusproteinen getestet, die noch nie zuvor untersucht wurden.

Sicher genug, wie ein fleißiger Schüler, der dem Lehrer gefallen wollte, war das neurale Netzwerk in der Lage, die Mehrheit solcher T-Zell-aktivierenden Protein-Codes innerhalb dieses Virus genau zu identifizieren. Wir haben auch experimentell die Proteincodes getestet, die es markiert hat, um die Genauigkeit der ANN-Vorhersagen zu validieren. Mit Hilfe dieses neuronalen Netzwerkmodells kann ein Wissenschaftler somit schnell vorhersagen alle wichtigen kurzen Protein-Codes von einem schädlichen Virus und testen sie, um eine Behandlung oder einen Impfstoff zu entwickeln, anstatt sie einzeln zu erraten und zu testen.

Machine Learning intelligent implementieren

Dank der ständigen Verfeinerung werden Big Data Science und Machine Learning für jede Art von wissenschaftlicher Forschung immer unentbehrlicher. Die Möglichkeiten, Computer in der Biologie zu trainieren und vorherzusagen, sind nahezu endlos. Aus der Frage, welche Kombination von Biomarkern für das Erkennen einer Krankheit am besten geeignet ist, warum nur zu verstehen Einige Patienten profitieren von einer bestimmten KrebsbehandlungDas Sammeln großer Datenmengen mit Computern ist zu einem wertvollen Forschungsweg geworden.

Natürlich gibt es Einschränkungen. Das größte Problem der Big-Data-Wissenschaft sind die Daten selbst. Wenn Daten, die durch -omics-Studien erhalten werden, von Anfang an fehlerhaft sind oder auf schäbiger Wissenschaft basieren, werden die Maschinen auf schlechte Daten trainiert - was zu schlechte Vorhersagen. Der Schüler ist nur so gut wie der Lehrer.

Weil Computer nicht empfindungsfähig sind (noch), können sie auf ihrer Suche nach Mustern mitkommen, selbst wenn es keine gibt, was wiederum zu schlechten Daten und nicht nachvollziehbarer Wissenschaft führt.

Und einige Forscher haben Bedenken bezüglich der Computerentwicklung geäußert schwarze Datenfelder für Wissenschaftler, die die Manipulationen und Machenschaften, die sie für sie durchführen, nicht klar verstehen.

Trotz dieser Probleme werden die Vorteile von Big Data und Maschinen sie weiterhin zu wertvollen Partnern in der wissenschaftlichen Forschung machen. Mit Vorbehalten sind wir in der einzigartigen Lage, die Biologie durch die Augen einer Maschine zu verstehen.

Über den AutorDas Gespräch

Sri Krishna, Doktorand, Biologisches Design, Schule für biologische und Gesundheitssystemtechnik, Arizona State University und Diego Chowell, Doktorand in Angewandter Mathematik, Arizona State University

Dieser Artikel wurde ursprünglich veröffentlicht am Das Gespräch.. Lies das Original Artikel.


Verwandte Buch:

at InnerSelf Market und Amazon