Os estudos realizados por meio de pesquisas com o genoma, que visam melhorar a produtividade e características da cana-de-açúcar, ganharão a partir de agora a Inteligência Artificial (IA) como aliada. A Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp) e o Instituto Microsoft Research acabam de aprovar um projeto que utilizará a IA para o desenvolvimento de ferramentas de anotação probabilística que deverão atribuir, automaticamente, funções potenciais a genes de cana-de-açúcar.
Segundo o professor Ricardo Vêncio, professor do Departamento de Genética da Faculdade de Medicina de Ribeirão Preto (FMRP) da USP que coordenará o projeto, um dos maiores problemas no estudo genético é a anotação funcional. “Depois de sequenciado o genoma, pretendemos saber qual a função dos genes. Para tanto, utilizaremos uma metodologia baseada em IA conhecida como Redes Bayesianas”, conta. Com a inteligência artificial será possível “adivinhar” a função dos genes de forma probabilística. “A forma convencional de anotação funcional é feita por uma busca em um banco de dados”, descreve o professor. “Nesta busca, localiza-se um gene semelhante de um outro organismo. No caso da cana, poderíamos, por exemplo, encontrar um gene semelhante no arroz. É o que denominamos em Bioinformática de busca por similaridade”, explica Vêncio.
Um dos problemas clássicos neste tipo de busca, segundo o pesquisador, é a propagação do erro. Ele explica que o processo funciona como “copiar e colar”. Ou seja, ao se encontrar um gene semelhante, copia-se suas funções e cola-se no organismo a ser estudado. No caso da inteligência artificial, de acordo com Vêncio, será possível fazer uma espécie de árvore filogenética e, a partir daí, a busca de um gene semelhante acontecerá em todas as espécies possíveis. Todo esse processo será realizado com a utilização de ferramentas de informática que serão desenvolvidas na FMRP em parceria com pesquisadores da Microsoft Research em Seattle, EUA.
Redes bayesianas
O professor ressalta que as redes bayesianas são conhecidas como um bom método para representação de conhecimento qualitativo ou sujeito a incertezas. Elas modelam quais fatores dependem de quais variáveis de uma forma probabilística. “Um exemplo clássico é o do ‘regador de jardim’. Imagine que existe uma chance de chover (ou não) se o céu está nublado. Ainda, imagine que, dependendo de estar nublado (ou não), um regador automático pode ou não ser disparado com uma certa probabilidade.
O que queremos é descobrir qual é a probabilidade de ter estado nublado ontem uma vez que encontramos a grama molhada (evidência) hoje. O modelo tem que levar em conta que existem dois jeitos de se molhar a grama: chuva ou regador, e tudo depende se estava nublado ou não. Essa inferência estatística com base na evidência observada é um típico problema modelado por redes bayesianas” explica Vêncio.
Outros estudos
O professor lembra que os resultados obtidos também poderão ser aplicados no estudo genético de outros organismos, inclusive causadores de doenças em humanos. Vêncio conta que o sequenciamento genético da cana ainda é objeto de estudos na própria USP, sob a coordenação da professora Glaucia M. Souza, do Departamento de Bioquímica do Instituto de Química (IQ).
Ele explica que o primeiro passo será aplicar a metodologia em organismos de interesse à produção de biocombustíveis. A próxima etapa do trabalho será a re-anotação do transcritoma da cana-de-açucar, originalmente determinado em 2002 por um consórcio financiado pela Fapesp com a participação de vários persquisadores da USP. “O transcritoma é um subconjunto menor do que o genoma, ideal para exercitarmos antes de partir para o genoma. Apesar de o genoma conter a informação genética e estar igualmente presente por diversas células, ela não é usada toda, em toda parte, e o tempo todo dentro do organismo. A fração do genoma expresso depende de um contexto espaço-temporal, respondendo dinamicamente a interação ambiental. Isso é o transcritoma”, esclarece o professor.
Ele exemplifica: ” se a vida fosse uma receita de bolo, o genoma seria o conjunto de todos os ingredientes na dispensa e o transcritoma o ‘modo de preparo’, ou ainda, se fosse um computador, o genoma seria um banco-de-dados e o transcritoma os comandos digitados” , descreve. Uma vez estabelecida a metodologia, o genoma da cana-de-açúcar, que estará sendo sequenciado pelo consórcio BIOEN-Fapesp com a participação de vários grupos da USP, deverá ser então atacado.
O projeto aprovado pela Fapesp e pela Microsoft tem um prazo de dois anos para ser concluído (2012) e, de acordo com o professor, os investimentos são relativamente baixos, da ordem de R$ 160 mil. “Na verdade precisaremos de equipamentos de informática e, principalmente, bolsas para treinamento de pessoal especializado”, comenta.
Ele ressalta que o uso da IA poderá ser fundamental na descoberta de genes mais resistentes da planta que assim poderá ser melhor adaptada a outras regiões ou até mesmo ser melhorada.
Mais informações: (16) 3602-0526, com o professor Ricardo Vêncio ou no email [email protected]