Ein neuronales Netzwerk kann chemische Formeln aus Forschungsarbeiten lernen
Forscher von Syntelly – einem Start-up-Unternehmen mit Ursprung in Skoltech – der Lomonossow-Universität Moskau und der Sirius-Universität haben eine auf neuronalen Netzwerken basierende Lösung zur automatischen Erkennung chemischer Formeln in Papierscans entwickelt. das lernen Veröffentlicht in chemische Methodeneine wissenschaftliche Zeitschrift der European Chemical Society.
Die Menschheit tritt in das Zeitalter der künstlichen Intelligenz ein. Auch die Chemie wird durch moderne Methoden des Deep Learning transformiert, die immer große Mengen an qualitativen Daten benötigen, um ein neuronales Netz zu trainieren.
Die gute Nachricht ist, dass die chemischen Daten „ziemlich gut altern“. Selbst wenn eine bestimmte Verbindung ursprünglich vor 100 Jahren synthetisiert wurde, sind Informationen über ihre Struktur, Eigenschaften und Zusammensetzungsmethoden bis heute relevant. Auch im Zeitalter der globalen Digitalisierung kann es vorkommen, dass sich ein organischer Chemiker an einem Original-Zeitschriftenaufsatz oder einer Dissertation aus einer Bibliothekssammlung – die beispielsweise bereits Anfang des 20 Molekül.
Die schlechte Nachricht ist, dass es keine akzeptierte Standardmethode zur Darstellung chemischer Formeln gibt. Chemiker wenden in der Regel viele Tricks bei der Methode der abgekürzten Notation bekannter chemischer Gruppen an. Mögliche Substitute für die tert-Butylgruppe umfassen beispielsweise „tBu“, „t-Bu“ und „tert-Bu“. Erschwerend kommt hinzu, dass Chemiker oft eine einzige Form mit verschiedenen „Platzhaltern“ (R1, R2 usw.) verwenden, um viele ähnliche Verbindungen zu bezeichnen, aber die Platzhaltersymbole können überall angegeben werden: in der Abbildung selbst, im Text, der vom Artikel abgeht oder Anhänge.
Ganz zu schweigen davon, dass die Zeichenstile zwischen den Zeitschriften variieren und sich mit der Zeit weiterentwickeln, die persönlichen Gewohnheiten der Alchemisten variieren und sich die Normen ändern. Infolgedessen ist ein erfahrener Chemiker manchmal ratlos, wenn er versucht, das „Mysterium“ zu verstehen, das er in einigen Artikeln gefunden hat. Für einen Computeralgorithmus scheint die Aufgabe unmöglich.
Als sie näher kamen, hatten die Forscher bereits Erfahrung mit der Lösung ähnlicher Probleme mit Transformer – einem neuronalen Netzwerk, das Google ursprünglich für die maschinelle Übersetzung vorgeschlagen hatte. Anstatt Text zwischen Sprachen zu übersetzen, nutzte das Team dieses leistungsstarke Tool, um ein Bild eines Moleküls oder einer molekularen Vorlage in seine Textdarstellung umzuwandeln. Eine solche Darstellung wird Functional-Group-SMILES genannt.
Zur großen Überraschung der Forscher erwies sich das neuronale Netz als fähig, fast alles zu lernen, vorausgesetzt, das entsprechende Bildgebungsverfahren ist in den Trainingsdaten vertreten. Transformer erfordert jedoch zig Millionen Beispiele zum Üben, und das manuelle Sammeln vieler chemischer Formeln aus Forschungsarbeiten ist unmöglich. Stattdessen wählte das Team einen anderen Ansatz und erstellte einen Datengenerator, der Beispiele für Molekülmodelle erzeugt, indem er zufällig ausgewählte Teile von Molekülen mit Bildmustern kombiniert.
„Unsere Studie ist ein guter Beweis für den anhaltenden Paradigmenwechsel in der optischen Erkennung chemischer Strukturen.“ Während sich frühere Forschung auf die Erkennung molekularer Strukturen per se konzentrierte, können wir uns jetzt, da wir über die einzigartigen Fähigkeiten von Adaptern und ähnlichen Netzwerken verfügen, stattdessen der Herstellung von synthetischen widmen Es würde die meisten aktuellen Muster der molekularen Template-Bildgebung simulieren.Unser Algorithmus kombiniert Moleküle, funktionelle Gruppen, Linien, Muster und sogar Druckfehler und fügt Bits zusätzlicher Moleküle, abstrakte Fragmente usw. ein, sagte der leitende Forscher der Studie, Sergey Sosnin, Hauptautor der Studie, CEO von Syntelly, einem in Skoltech gegründeten Startup.
Die Studienautoren hoffen, dass ihre Methode einen wichtigen Schritt hin zu einem künstlichen Intelligenzsystem darstellt, das Forschungsarbeiten so „lesen“ und „verstehen“ kann, wie es ein hochqualifizierter Chemiker kann.
Hinweis: Khokhlov I, Krasnov L, Fedorov MV, Sosnin S. Image2SMILES: eine schalterbasierte optische molekulare Erkennungsmaschine**. Chemie – Methoden. 2022; 2 (1): e202100069. Dui:10.1002 / Smtd. 202100069
Dieser Artikel wurde aus dem Folgenden neu veröffentlicht Material. Hinweis: Der Artikel wurde möglicherweise hinsichtlich Länge und Inhalt geändert. Für weitere Informationen wenden Sie sich bitte an die angegebene Quelle.