logo


Apoio

apoioCapes

Áreas Temáticas do Projeto e Linhas de Pesquisa

ÁREA TEMÁTICA DO PROJETO: "Anotação Estrutural e Funcional de Genomas"

Especialidades abordadas pelos projetos desta área:

  1. Desenvolvimento de algoritmos para mineração, análise funcional e visualização de sistemas biológicos; análise e interpretação de dados gerados pelas tecnologias de alto desempenho nas áreas de genômica, transcriptômica, proteômica, metagenômica e metabolômica
  2. Modelagem e simulação de sistemas e redes biológicas (redes de interações proteína-proteína, redes metabólicas, redes de fatores de transcrição, redes de sinalização e afins);
  3. Desenvolvimento de tecnologias WEB para armazenamento e processamento de informações biológicas
  4. Desenvolvimento e aplicação de métodos computacionais e matemáticos para modelagem molecular e simulação de estruturas de proteínas;
  5. Estudos de evolução molecular, filogenômica e comparação de genomas em larga escala;
  6. Desenvolvimento e aplicação de métodos e sistemas computacionais e matemáticos para caracterização de sequências nucleotídicas e protéicas.

LINHAS DE PESQUISA E PROJETOS MOTORES:

GENÔMICA FUNCIONAL

1. EGene: A plataforma EGene (Durham et al., 2005) foi desenvolvida pelo nosso grupo e se caracteriza por ser um sistema integrado e customizável para a construção de pipelines. O sistema EGene permite encadear uma série de componentes diferentes de processamento, em uma ordem e composição totalmente definidas pelo usuário. A versão 2 do sistema Egene, ainda não disponibilizada publicamente, permite realizar uma ampla anotação automática que inclui análises de similaridade, busca de motivos protéicos, ortologia, mapeamento em vias metabólicas do KEGG e geração de relatórios em formato feature table e GFF3, além de poder rodar de forma acoplada a um banco de dados.
Coordenação: Arhtur Gruber, Alan Durham

2. PATO: O projeto PATO visa oferecer uma ferramenta para anotação de genomas e transcriptomas. Numa mesma plataforma os pesquisadores poderão visualizar, configurar pipelines de processamento, acrescentar evidencias computacionais tanto a sequências completas como a evidências pré anotadas, realizar seleção se sequências (transcriptomas) e features (genomas) para anotação futura baseada em resultados de evidências anteriores, realizar anotação funcional com suporte a ontologias, dar suporte ao processo de covalidação de anotações.
Coordenação: Alan M. Durham e Arthur Gruber

3. Caracterização probabilística de sequencias: Este projeto visa a melhoria do processo de predição de genes. Ele se dará no contexto da plataforma MYOP/ToPS, desenvolvida por nosso grupo e que já apresenta performance equivalente aos preditores com melhor desempenho nas competições internacionais. O diferencial de MYOP/ToPS está na sua arquitetura modular e na implementação clara dos modelos probabilísticos, o que permite a rápida implementação de novos preditores, bem como sua validação. Para a melhoria no processo de predição, visando desempenho superior aos preditores atuais, queremos atuar em 4 frentes: (i) aperfeiçoamento das arquiteturas de preditores atualmente existentes, (ii) inclusão de dados de mapeamento de cDNAs visando predição de variantes de splicing e complementação de predições parciais advindas de mapeamento, (iii) utilização de alinhamento de dois ou mais genomas associado a predições específicas, (iv) caracterização de regiões de início de transcrição. Resultados preliminares são promissores e já indicam melhorias das arquiteturas já utilizadas.
Coordenação: Alan M. Durham

4. Tratamento de regiões repetitivas na finalização de montagem de genomas procariotos: Será desenvolvida uma ferramenta computacional para predição e tratamento de sequências DNA repetitivo, tRNA e rRNA na finalização de montagem de genomas procariotos. Espera-se obter uma metodologia eficiente para resolução de problemas de montagens causados por elementos repetitivos ao longo do genoma, bem como uma ferramenta, validada e consolidada, para tratamento de regiões repetidas e predição de genes de rRNA, tRNA.
Coordenação: Roberto T. Raitttz, Maria Berenice R. Steffens

5. Genômica estrutural e funcional do açaizeiro: O açaizeiro (Euterpe oleracea) é uma palmeira tropical da Amazônia pertencente à família Arecaceae (Palmae) e é uma espécie de clima tropical quente e úmido, capaz de crescer em solos pobres e ácidos, desenvolvendo-se bem naqueles com maior fertilidade. O fruto desta palmeira, denominado de açaí é amplamente consumido pela população da região Norte do Brasil. Os frutos de açaí apresentam uma alta variação de composição de nutrientes e micronutrientes, sendo esta variação dependente da safra, porém a maior fonte de variação é devido a procedência geográfica destes frutos. Fatores que podem explicar as fortes variações na qualidade nutricional dos frutos seriam as características de solo e salinidade das regiões de produção do açaí. A caracterização genética do açaí ainda é relativamente restrita, porém estudos já realizados utilizando marcadores moleculares do tipo AFLP e SSRs demonstraram uma alta variação genética entre palmeiras coletadas em diversas regiões de produção. Existem poucos dados sobre genoma e transcriptoma desta espécie, somente 13 sequências nucleotídicas estão disponíveis no banco de dados do NCBI (http://www.ncbi.nlm.nih.gov/, acessado 3/09/13) e a estimativa do tamanho total do genoma resultado de 1C=4,2pg, equivalente a 4,1 gigabases. A caracterização genética desta palmeira, através da elucidação do genoma e transcriptoma, podem proporcionar muitas perspectivas biotecnológicas de grande relevância, como o desenvolvimento de marcadores moleculares para a identificação e rastreamento dos frutos e a caracterização dos genes expressos nos frutos, o que permitiria o desenvolvimento de técnicas de melhoramento genético das palmeiras em termo de qualidade nutricional.
Coordenação: Artur Silva

6. Integração de dados funcionais de Corynebacterium pseudotuberculosis: Corynebacterium pseudotuberculosis é uma bactéria Gram-positiva, patógeno intracelular facultativo e principal agente etiológico da linfadenite caseosa (LC). Esta doença tem ocorrência mundial e acomete caprinos, ovinos, equídeos, bovinos, suínos, cervos e animais de laboratório, provocando grandes perdas econômicas, em função da redução na produção de lã, carne, leite e do aproveitamento da carcaça. Existem raros relatos da ocorrência da doença em seres humanos. O tratamento com antibióticos apresenta um elevado custo e baixa eficiência, devido a dificuldade das drogas em penetrar na cápsula dos abscessos. Para tanto, algumas vacinas, como de DNA, vêm sendo pesquisadas mas sem resultados expressivos. Contudo, é necessário o desenvolvimento de uma vacina mais eficiente. Apesar da grande quantidade de informação produzida por análises genômicas, transcriptômicas e proteômicas para C. pseudotuberculosis, ainda são necessários novos experimentos quanto a genômica funcional para compreender os mecanismos de patogenicidade deste organismo. Contudo, não há nenhuma ferramenta computacional capaz de integrá-las. Isto possibilitará aos pesquisadores realizar consultas de informações integradas de diferentes “omicas”, permitindo a seleção de possíveis alvos de estudo para a compreensão dos mecanismos associados a patogenicidade desta bactéria, pelo nosso grupo e outros que trabalham com C. pseudotuberculosis. Assim, o objetivo deste projeto é produzir mais dados de genômica funcional para C. pseudotuberculosis e desenvolver um ambiente computacional para integrar os resultados de experimentos de genômica, transcriptômica e proteômica no Laboratório de Engenharia Biológica do PCT-Guamá tendo como modelo biológico a Corynebacterium pseudotuberculosis.
Coordenação: Vasco Azevedo e Rommel Ramos

GENÔMICA ESTRUTURAL

1. Genômica estrutural e seleção de alvos moleculares para desenvolvimento de tratamento de infecções bacteriana: Este projeto tem por objetivo a seleção de alvos moleculares adequados para estudos de planejamento racional de fármacos e desenvolvimento de vacinas. Em estudo realizado recentemente por nosso grupo, o programa MHOLline foi utilizado para realizar a modelagem molecular dos proteomas de 15 cepas de Corynebacterium pseudotuberculosis, agente etiológico da linfadenite caseosa. Possíveis alvos foram filtrados a partir da qualidade dos modelos gerados e da conservação da sequência protéica (95-100% de identidade de aminoácidos) em todas as cepas. A seguir, foi analisada a essencialidade das proteínas e estas foram comparadas com o proteoma dos hospedeiros, para seleção de proteínas que não apresentassem homólogos nestes organismos. Foi considerada ainda a drogabilidade dos alvos selecionados, empregando o programa DoGSiteScore para a predição das cavidades das proteínas que apresentam maior probabilidade de ligação a pequenas moléculas. Desta forma, a abordagem descrita permite uma criteorisa seleção de alvos moleculares bacterianos, considerando a importância biológica, a drogabilidade, a qualidade da informação estrutural disponível, a ausência de homólogos em hospedeiros e a conservação protéica entre cepas. Além de sua importância específica na busca de tratamentos para linfadenite caseosa, esta mesma abordagem poderá ser aplicada a outros sistemas bacterianos.
Coordenação: Rafaela S. Ferreira e Vasco A. Azevedo

2. Triagem virtual e planejamento de fármacos para linfadenite caseosa: O objetivo deste projeto é o desenvolvimento de candidatos a fármacos para tratamento da linfadenite caseosa, causada por Corynebacterium pseudotuberculosis. A partir da descoberta de novos alvos moleculares de C. pseudotuberculosis, serão aplicadas técnicas de bioinformática estrutural e planejamento racional de fármacos para desenvolvimento de inibidores das proteínas alvo. Inicialmente, será realizada a triagem virtual de bases de dados de compostos, para seleção de possíveis inibidores das proteínas selecionadas. As seguir, os compostos serão avaliados em ensaios bioquímicos e os mais potentes serão co-cristalizados com as respectivas enzimas. O conhecimento do modo de ligação destes inibidores permitirá novas etapas de planejamento racional de análogos, que serão avaliados por docagem molecular para seleção de compostos a serem sintetizados e avaliados experimentalmente.
Coordenação: Rafaela S. Ferreira e Vasco A. Azevedo

GENÔMICA COMPARATIVA

1. Pipeline para comparação em larga escala de genomas procarióticos, baseado em homologia de seqüências depositadas em bancos de dados. Serão desenvolvidas novas abordagens visando à mineração de informações, agrupamento de genes ortólogos e sua anotação e classificação funcional através do desenvolvimento de banco de dados e pipelines. Espera-se disponibilizar um pipeline em plataforma WEB que permita as seguintes análises: determinação de grupos ortólogos para grandes conjuntos de dados; classificação filogenética com base nos genes essenciais; classificação funcional dos grupos de genes; determinação e das vias metabólicas presentes nos genomas analisados; comparação entre as vias metabólicas entre diferentes espécies:
Coordenação: Leonardo M. Cruz

2. Plataforma para visualização e anotação de domínios protéicos: O banco de dados PFam constitui a maior coleção de domínios protéicos evolutivamente conservados atualmente disponível e inclui tanto domínios com ampla caracterização estrutural e funcional como outros para os quais apenas a conservação da seqüência primária foi estudada. Com o intuito de permitir um uso mais dinâmico e semi-automação de análises de contexto genômico baseadas no banco de dados PFam, propõe-se o desenvolvimento de uma ontologia de domínios protéicos, curada manualmente, e centrada na classificação estrutural e funcional dos domínios do PFam e de novos domínios protéicos. Nesse contexto, será desenvolvida uma plataforma simplificada para anotação manual de domínios protéicos e sua integração com ferramentas de desenvolvimento de ontologias. Um objetivo central dessa plataforma será integrar a visualização dos dados de contexto genômico gerados interativamente pelo usuário. Essa plataforma será aplicada em dois projetos de genômica comparativa: (1) a expansão da análise de toxinas e sistemas secretórios relacionados (ToxImmDB) e (2) a análise evolutiva de vírus de DNA dupla fita (VirusDB). Ambos os projetos contribuirão para um melhor entendimento da função e evolução das proteínas nesses sistemas e, ao mesmo tempo, produzirão dados que serão incorporados na classificação de domínios protéicos.
Coordenação: Robson Francisco de Souza

3. Análise Pangenômica de Corinebactérias Patogênicas Emergentes – É crescente o número de relatos na literatura de infecções oportunistas e infecções nosocomiais causadas por espécies patogênicas emergentes do gênero Corynebacterium e não é incomum encontrar trabalhos relatando identificações ambíguas e até mesmo incorretas destas bactérias pelos métodos mais amplamente utilizados, que se baseiam principalmente em características morfológicas e testes bioquímicos. A importância das corinebactérias para os microbiologistas clínicos e profissionais da saúde tem aumentado muito nos últimos anos. As espécies patogênicas deste grupo incluem as bactérias produtoras de toxina diftérica, principalmente Corynebacterium diphtheriae, e as Corynebacterium spp. não diftéricas. C. diphtheriae ainda é o patógeno humano mais comumente reportado dentre estas espécies e continua a ser uma importante causa de morbidade e mortalidade em vários países. Recentemente, isolados não-toxigênicos de C. diphtheriae têm emergido como agentes causadores de infecções invasivas em vários países. Por outro lado, uma outra espécie potencialmente toxigênica, Corynebacterium ulcerans, tem sido responsável pela re-emergência da difteria no Mundo, em especial nos países desenvolvidos. O potencial zoonótico de transmissão desta espécie representa um fator importante na transmissão atual da difteria. Em estudos recentes no Brasil, corinebactérias não-diftéricas do complexo XSMA (Corynebacterium xerosis, Corynebacterium striatum, Corynebacterium minutissimum e Corynebacterium amycolatum) foram relatadas como importantes agentes causadores de infecções em pacientes com câncer. Estas bactérias têm sido isoladas de diversas fontes, incluindo ferimentos cirúrgicos, trato urinário, trato respiratório, tumores ulcerados e cateteres venosos. As espécies mais comumente isoladas são C. amycolatum e C. minutissimum. Mais recentemente, tem sido relatado também um aumento na incidência de outra corinebactéria patogênica emergente, C. pseudodiphtheriticum. Esta espécie também foi identificada como causadora de um surto recente de infecções respiratórias em crianças com fibrose cística, na França. O seqüenciamento genômico, bem como as análises pangenômicas do gênero Corynebacterium podem determinar diferenças moleculares que auxiliarão no diagnóstico correto, no entendimento da doença, na determinação de alvos moleculares profilático.
Coordenação: Artur Silva.

TRANSCRIPTÔMICA

1. Ferramenta para análise de RNA-Seq em plataforma WEB. Será desenvolvida uma ferramenta computacional em plataforma Web utilizando tecnologia Open Source para a aquisição, preparação, análise e manipulação dos dados biológicos obtidos através do método de RNA-Seq. Busca-se ofertar interface amigável, reduzindo o tempo de aprendizado e facilitando o uso da ferramenta, bem como processamento das informações em alta performance usando processamento de dados paralelo em nuvem (Elastic MapReduce). Os recursos de custeio solicitados (vide planilha descritiva) serão aplicados no seqüenciamento, parcial ou integral, de genomas de organismos procarióticos e eucarióticos (bactérias fixadoras de nitrogênio e tripanossomatídeos) e também para experimentos de RNAseq. Estes dados de genômica e transcriptômica serão produzidos no Núcleo de Fixação de Nitrogênio que dispõe da infraestrutura e pessoal qualificado.
Coordenação: Jeroniza Marchaukoski e Emanuel M. Souza

2. Pós-genômica de Corynebacterium pseudotuberculosis sob diferentes condições de estresse biologicamente relevantes - Corynebacterium pseudotuberculosis é uma bactéria Gram-positiva, parasita intracelular facultativo, responsável por causar doenças infecto-contagiosas em pequenos ruminantes (Linfadenite caseosa), eqüinos (Linfangite ulcerativa), bovinos e ocasionalmente no homem Especificamente, a C. pseudotuberculosis pode sobreviver às condições adversas do meio ambiente por até oito meses antes de infectar o hospedeiro. Da mesma forma durante o processo infeccioso a bactéria é exposta a uma gama de estresses, desde a entrada no hospedeiro, passagem pelo sistema linfático, até o estabelecimento nos órgãos. Os nichos nos quais o microrganismo sobrevive variam do ambiente aeróbico do ponto inicial de infecção, até a replicação intracelular em macrófagos (MCKEAN et al., 2007a; 2007b). Diferente de outros patógenos como Mycobacterium tuberculosis e Brucella abortus, a C. pseudotuberculosis aparentemente não impede a fusão do fagossomo com o lisossomo dentro dos macrófagos. De forma contrária, ela sobrevive à fusão “fagolisossomo”, além de promover morte celular das células fagocíticas infectadas. Isso implica na capacidade da bactéria de resistir a um ambiente extremamente hostil, com baixo pH, alta atividade proteolítica e grande potencial oxidativo.. Assim, as proteínas que são exportadas para o meio extracelular podem desempenhar um papel fundamental na defesa e adaptação as diversas situações de estresse, contribuindo para uma infecção de sucesso. Aliado a esses fatores, a análise da genômica funcional de C. pseudotuberculosis contribuirá para a elucidação dos mecanismos de virulência. Dessa forma, pretendemos caracterizar o transcriptoma e o exoproteoma de C. pseudotuberculosis linhagens 1002 e 258 (biotipos ovis e equi), simulando o ambiente encontrado pela bactéria no hospedeiro durante o processo de infecção.
Coordenação: Vasco Azevedo e Adriana Carneiro

PROTEÔMICA

1. Plataforma social de ferramentas para bioinformática. Será desenvolvida uma plataforma Web, denominada BioBox, com características de redes sociais, unindo desenvolvedores e pesquisadores em Bioinformática e áreas afins. O BioBox será disponibilizado na nuvem, e será baseado em tecnologias para sua utilização tanto como serviço, disponível através de web services a serem utilizados por desenvolvedores para disponibilização de ferramentas, quanto como ferramenta online com interfaces Web e mobile, a ser utilizado por pesquisadores para a montagem de workflows com as ferramentas disponíveis. Espera-se com esta plataforma proporcionar um ambiente único, no qual desenvolvedores e pesquisadores trabalhem juntos para o avanço da área. Desta forma, com este ambiente, em uma metodologia de oferta e demanda, espera-se que novas oportunidades para desenvolvimento de ferramentas apareçam e que as já ofertadas pelo BioBox ganhem cada vez mais popularidade.
Coordenação: Alessandro Brawerman

2. Aplicação de inteligência artificial em dados de espectrometria de massa para identificação de organismos intactos. Será aplicada rede neural do modelo FAN para realizar a classificação de organismos intactos por meio de dados de Espectrometria de Massa. Espera-se disponibilizar uma aplicação de FAN para classificação de padrões com atributos multivalorados. Esta ferramenta permitirá classificar organismos intactos baseado em dados de EM, com desempenho superior aos métodos de classificação atualmente disponíveis.
Coordenação: Roberto Tadeu Raittz

3. Visualização de estruturas protéicas via interface natural. Será desenvolvido um conjunto de programas e bibliotecas que oferecem condições de visualizar e manipular as informações através de uma interface gráfica de forma intuitiva e proporcionando visualização tridimensional. Para tal, será também desenvolvido um web service de alta disponibilidade o qual concentra as requisições provenientes do aplicativo cliente e realiza em tempo real a busca das informações biológicas nos diversos provedores cadastrados, realizando a montagem da rede de interações, e devolvendo ao solicitante as informações consolidadas para a apresentação e manipulação dos resultados. Espera-se a descoberta de novas relações entre informações biológicas anotadas nos bancos de dados biológicos públicos que necessitariam de programas específicos para a mineração dos dados e montagem das inter-relações. A apresentação em uma interface gráfica natural a qual cria a visão espacial das inter-relações obtidas em uma perspectiva tridimensional, e de fácil manipulação, interpretando comandos por gestos, facilitando a navegação na rede de pesquisa formada.
Coordenação: Alessandro Brawerman

4. Sistema de anotação de famílias de proteínas baseado em conservação e correlação de resíduos - Famílias de proteínas comumente apresentam conjuntos de resíduos que apresentam correlação, em que um par de resíduos é dito correlacionado quando a presença de um aumenta consideravelmente a probabilidade de observar o outro. Uma vez que é possível automatizar o processo de obtenção de resíduos conservados e correlacionados numa família de proteínas, propomos a criação de um sistema baseado em web para anotação de posições importantes em uma família de proteínas de forma que tais informações sejam rapidamente mapeadas em qualquer proteína da família. O sistema consistirá em uma interface na qual o usuário poderá, a partir de um alinhamento múltiplo de sequências (fornecido pelo usuário ou obtido automaticamente do servidor PFAM):

  • executar filtros e cálculos simples como identificação de consensos, conservação posicional, identificação de conjuntos de resíduos correlacionados.
  • Anotação manual de posições importantes em uma família de proteínas a partir dos resíduos conservados e correlacionados, mapeamento em relação a posições já anotadas (e.g., mutações de efeito documentado registradas na base de dados Uniprot).
  • Identificação de possíveis variáveis preditivas em relação a uma dada característica em uma família de proteínas, como posições que determinam seletividade enzimática, estado oligomérico, sub-classes funcionais, etc.
  • Mapeamento das informações obtidas em estruturas tridimensionais.


Coordenação:
Lucas Bleicher.

BIOLOGIA DE SISTEMAS

1. Desenvolvimento de técnicas para construção, modelagem e análise de redes biológicas associadas a doenças humanas: Um dos desafios para o entendimento das doenças está no desenvolvimento de metodologias computacionais para a análise estatística e manipulação de dados gerados em larga escala. Isso se deve principalmente a grande quantidade, heterogeneidade, multidimensionalidade e presença de ruído intrínseco nos dados biológicos. Neste contexto, este projeto de pesquisa tem como objetivo principal o desenvolvimento de técnicas estatístico-computacionais para inferência dos fenômenos que emergem das interações entre os diferentes componentes biológicos envolvidos numa doença. Mais detalhadamente, desenvolveremos métodos estatísticos formais para redes de interações (teste de hipóteses, seleção de modelos, estimador de parâmetros) a fim de analisar diversas redes biológicas como redes neurais obtidas da modelagem de dados de ressonância magnética funcional e estrutural; redes de regulação gênica; e redes obtidas da integração de dados de genômica, transcriptoma e fenótipo em câncer. Isso permitirá modelar, integrar e analisar dados biológicos “omics”, dados de ressonância magnética funcional e estrutural, como também dados clínicos.
Coordenador: André Fujita

2. Construção de redes de interação proteína-proteína para proteomas bacterianos. Este estudo visa o desenvolvimento de metodologia para construção de redes de interação proteína-proteína e sua aplicação a proteomas de diversas espécies bacterianas. Através da modelagem destas redes será possível a determinação de proteínas centrais no metabolismo bacteriano. Serão modeladas inicialmentes redes referentes a 15 cepas de Corynebacterium pseudotuberculosis, previamente sequenciadas pelos grupos dos professores Vasco A. Azevedo (UFMG) e Artur Silva (UFPA). Estas redes serão construídas tendo como base redes de interação proteína-proteina já reportadas nas bactérias Escherichia coli e Bacillus subtilis. Esta abordagem permitirá a análise de clusteres comuns a todas as cepas. Poderão ainda ser selecionadas proteínas centrais, cuja modulação afeta o desenvolvimento bacteriano. Tais proteínas constituem possíveis alvos para planejamento de fármacos. A metodologia desenvolvida pode ser facilmente aplicada a outros organismos.
Coordenação: Rafaela S. Ferreira, Liza Felicori e Vasco A. Azevedo

METAGENÔMICA

1. Metagenômica de represas. A ecologia de represas onde há florações de cianobactérias está sendo estudada com novas técnicas e novas bases de dados de genes categorizados. O mapeamento do metabolismo das cianobactérias é feito e são mapeadas as reações “estrangeiras” a este metabolismo, pesquisando-se na microbiota a presença ou ausência, sazonal ou local, de organismos capazes de produzir reagentes para essas reações e fomentar diretamente o metabolismo das cianobactérias. Técnicas comuns e novas de análises de metagenômica são aplicadas. As metodologias são prontamente aplicáveis a demais projetos de metagenômica executados em outros pontos da rede.
Coordenação: Dr. José Miguel Ortega.

OUTRAS LINHAS DE PESQUISA DO GRUPO 27

1. Genômica de uma única célula (single cell genomics),
2. Filogenômica
3. Comparação de genomas em larga escala
4. Sistemas de Bioinformação
5. Biologia Sintética


Copyright @2014 - 2016 / Todos os direitos reservados