Un outil d'annotation de protéines basé sur l'apprentissage automatique prédit la fonction des protéines

Un outil d'annotation de protéines basé sur l'apprentissage automatique prédit la fonction des protéines

Nœud source: 2661019
18 janv.2023 (Actualités Nanowerk) Les microbes dirigent les processus clés de la vie sur Terre. Ils affectent les cycles élémentaires globaux – le mouvement du carbone, de l’azote et d’autres éléments. Ils favorisent également la croissance des plantes et affectent le développement de maladies. Ces rôles sont essentiels dans chaque écosystème. La recherche élargit constamment la base de données des séquences d’ADN microbien mais ne fournit pas toutes les informations biologiques sur les protéines. Pour concevoir des microbes destinés à la bioénergie durable et à d’autres bioproduits, les scientifiques doivent mieux comprendre la fonction des protéines et d’autres molécules. Les scientifiques déduisent la fonction d’une protéine en la comparant à des bases de données de référence de protéines déjà caractérisées. Cependant, ces comparaisons sont difficiles et ne peuvent pas être étendues à des bases de données massives. Pour relever ce défi, les scientifiques ont appliqué l’apprentissage automatique à des modèles prédisant la fonction des protéines. Le résultat est le programme Snekmer, qui permet aux scientifiques de modéliser rapidement des familles de protéines. texte LÉGENDE L'étude des molécules de protéines biologiques dans les microbes aidera les scientifiques à rechercher de nouvelles applications pour les microbes modifiés. Snekmer est facile à déployer dans des environnements informatiques hautes performances. De plus, il est intégré au Cadre KBase comme une nouvelle application qui permettra aux utilisateurs d'annoter leurs séquences de génome et de métagénome. Cela aidera les scientifiques à mieux modéliser les effets des microbes techniques. Cela inclut l'effet de ces microbes sur le climat et leurs avantages pour la santé des cultures et la bioproduction. Snekmer aidera également les scientifiques à étudier l’évolution des microbes et les modèles des microbiomes. L’incapacité des méthodes actuelles à prédire la fonction de 30 à 50 % des séquences protéiques bactériennes constitue un obstacle important à une meilleure compréhension des systèmes complexes tels que les microbiomes du sol. La plupart des protocoles reposent sur des alignements par paires, qui deviennent insolubles sur le plan informatique et plus difficiles à interpréter à mesure que les bases de données se développent. Pour les modèles de familles de protéines basés sur l'alignement, la sensibilité et la précision dépendent des ensembles de formation initiaux, qui risquent de devenir obsolètes à mesure que l'on découvre une diversité de séquences supplémentaire. De nombreuses protéines bactériennes n’ont aucune affectation fonctionnelle ou se voient attribuer uniquement une fonction générale basée uniquement sur une compréhension taxonomique. Pour répondre à ce besoin, des chercheurs du Pacific Northwest National Laboratory, de l'Université Baylor et de l'Université de la santé et des sciences de l'Oregon ont développé Snekmer, un outil logiciel exploitant la redondance des propriétés des résidus d'acides aminés pour réduire l'espace des séquences et utilisant des fonctionnalités de séquence protéique courte (kmer) pour l'apprentissage automatique. pour générer des modèles de familles de protéines. Les utilisateurs de Snekmer peuvent recoder des séquences protéiques en vecteurs kmer à alphabet réduit et effectuer la construction de modèles de classification supervisés formés sur des familles de protéines d'entrée, ou une classification fonctionnelle des protéines basée sur les modèles Snekmer. La recherche a été publiée dans Avancées de la bioinformatique (« Snekmer : un pipeline évolutif pour l'empreinte digitale de séquences protéiques basé sur le recodage des acides aminés »).

Horodatage:

Plus de Nanowerk