Projects

iHealthMD Project Logo

Intelligent Managing of Multimodal Health Data for Decision Making on Big Data Scenarios - IHealthMD

Nearly every human activity generates and requires the storage and processing of large, diverse, and complex volumes of data across scientific, academic, business, and leisure domains. Health-related activities are no exception, producing large-scale datasets that increasingly support data-driven decision-making through technological advances.

In clinical environments, electronic health records (EHRs) constitute a fundamental resource for information extraction and analysis. This project aims to design and integrate novel, scalable algorithms based on database systems and artificial intelligence to effectively exploit large EHR datasets and clinical data repositories, enabling the extraction of relevant and actionable insights for decision support. Privacy-preserving data communication strategies, including federated learning, will also be addressed to ensure data security and confidentiality.

Although the size and complexity of EHR databases pose significant analytical and computational challenges, they also offer substantial opportunities to develop methods capable of presenting meaningful information at both individual and population levels. The project further addresses the challenges of managing and integrating information and knowledge from multiple health data modalities. The proposed methods will be consolidated into a modular platform designed to support healthcare professionals, medical applications, and strategic decision-making, and will be made available to the research community.


Principal Researchers
  • Agma Juci Machado Traina
  • Caetano Traina Júnior
  • José Fernando Rodrigues Junior
  • Marco Antonio Gutierrez
  • Paulo Mazzoncini de Azevedo Marques

Acknowledgements

This project is support in part by the São Paulo Research Foundation (FAPESP), grant number 2024/13328-9.


Project Website
Click here to access the project's website.

Completed Projects

Mining, Indexing and Visualizing Big Data in Clinical Decision Support Systems - MIVisBD

Almost every human activity generates large, diverse, and complex volumes of data, characterizing the current big data era. In this context, health-related activities play a central role, as they both produce vast amounts of data and increasingly rely on data-driven decision-making.

In clinical environments, Electronic Health Records (EHR) provide a fundamental basis for developing information extraction and analysis strategies. This project aims to integrate advanced database technologies, image processing, and visual analytics methods to efficiently exploit large-scale EHR and clinical data repositories, enabling the extraction of relevant and actionable information for decision support.

Despite the significant challenges posed by the size and complexity of EHR databases, these data also offer substantial opportunities to develop algorithms capable of presenting meaningful information at both individual and population levels. The proposed methods will ultimately be consolidated into a modular platform designed to support healthcare professionals, medical applications, and strategic decision-making, and made available to the research community.


Acknowledgements

This project is support in part by the São Paulo Research Foundation (FAPESP).


Project Website
Click here to access the project's website.
Descrição analítica de grafos em escala Web utilizando processamento paralelo assíncrono combinado com técnicas de projeção multi-resolução sobre matrizes de adjacência: aplicações sobre a Web 2.0

The so-called Web-scale (or planetary-scale) graphs comprise millions of vertices and billions of edges. Such graphs have appeared in several contemporaneous contexts containing information that can potentially explain social behavior (Twitter and Facebook), commercial activities (Amazon), system structures (like roads and computer networks), non-structured information (Wikipedia), information organization (hypertext), to name a few. These graphs are of great analytical value because, besides having a wide range of information, the current trend is that more of such datasets will appear in the following years. For this reason, it becomes necessary the development and the mastering of techniques capable of working with such volumes of information. In this work, we propose to use asynchronous parallel processing of graphs combined with multi-resolution projection techniques applied over adjacency matrices to process and to visually represent Web-scale graphs. The work will based on system GraphChi within the goals of developing analytic-visual techniques that do not demand computational clusters, but, instead, turn the visualization of large graphs accessible to commercial systems with a single processing node.


Project Website
Click here to access the project's website.
Técnicas fundamentais para Sistemas de Gerenciamento de Bases de Dados Complexos Relacionais

Este projeto trata da incorporação de recursos para recuperação de dados por similaridade em SGBD Relacionais, desenvolvendo técnicas básicas que cubram as principais necessidades dos quatro módulos principais de um SGBD, atendendo às necessidades de armazenagem, recuperação e análise de dados complexos por similaridade de maneira integrada à armazenagem e recuperação de dados escalares, incluindo: - A integração da representação de consultas por similaridade em uma extensão da linguagem SQL; - A definição unificada dos operadores algébricos por similaridade segundo a teoria relacional, como operadores interoperáveis com os tradicionais e a representação interna das consultas atendendo a Álgebra Relacional; - O desenvolvimento de técnicas para otimização lógica e física dos planos de execução de consultas; e - O desenvolvimento de técnicas para indexação e recuperação eficiente em combinações de operações de busca por similaridade, por identidade e por ROT.

Mineração de Imagens e Recuperação Perceptual de Imagens por Conteúdo para Sistemas de Apoio ao Diagnóstico Médico

A proposta deste projeto consiste em promover a aproximação dos sistemas de recuperação de imagens por conteúdo (CBIR) à realidade médica e explorar sua capacidade em Sistemas de Auxílio ao Diagnóstico (Computer-Aided Diagnosis) por imagens integrando essas duas novas abordagens: percepção do especialista e perfil do usuário no processo de recuperação e de mineração de imagens médicas. Para isso, serão disponibilizadas aos sistemas CBIR técnicas e ferramentas que permitam incorporar a perspectiva de análise de imagens e dados do ponto de vista do conhecimento do especialista, diminuindo o gap semântico. A inclusão da percepção do especialista e dos perfis dos usuários na construção de ferramentas CBIR irá aproximar essa tecnologia do especialista médico, quebrando a barreira entre a ciência médica e a ciência da computação

AgroDataMine: Desenvolvimento de Métodos e Técnicas de Mineração de Dados para Apoiar Pesquisas em Mudanças Climáticas com Ênfase em Agrometeorologia

O aquecimento global e suas conseqüências trazem novos desafios para os pesquisadores do Século XXI. Apesar da comunidade científica não ter dúvidas sobre o aquecimento do planeta, é premente a identificação das causas do aumento da temperatura média global, bem como a quantificação desse aquecimento e suas consequências para os ecossistemas. Modelos matemáticos e estatísticos têm sido empregados para analisar os possíveis cenários futuros e consequentemente uma grande quantidade de dados tem sido gerada. Além disso, o avanço tecnológico tem propiciado melhorias nos diversos sensores utilizados para medições de dados climáticos e de imageamento da superfície terrestre, contribuindo para o aumento na quantidade e complexidade dos dados gerados. As pesquisas envolvendo grande volume e diversidade de dados remete a dois dos Grandes Desafios da Computação: a gestão da informação em grandes volumes de dados e a modelagem computacional de sistemas complexos. Neste contexto, este projeto de pesquisa propõe investigar e desenvolver técnicas e métodos computacionais para analisar os conjuntos de dados complexos utilizados por meteorologistas e agrometeorologistas, para auxiliá-los nas pesquisas sobre os impactos das mudanças climáticas na agricultura brasileira. Em linhas gerais, o objetivo deste projeto é desenvolver métodos para analisar os resultados dos modelos regionais de prognóstico de mudanças climáticas e compará-los com medidas reais coletadas pelas estações de superfície, a fim de avaliar a qualidade dos dados gerados e dar subsídios para a calibração dos modelos de previsão. Adicionalmente, pretende-se desenvolver novos métodos para filtrar, analisar e extrair padrões da associação entre dados climáticos e dados extraídos de sensores remotos para auxiliar nas pesquisas agrícolas. O projeto embasa-se na parceria de pesquisadores do Grupo de Bases de Dados e Imagens (GBdI) do ICMC-USP, da Embrapa Informática Agropecuária, do Centro de Pesquisas Meteorológicas e Climáticas Aplicadas à Agricultura (Cepagri) da Unicamp, e do Departamento de Computação e Unidade de Sorocaba da UFSCar. Como referencial de pesquisa, propõe-se a Mineração de Dados e a Teoria dos Fractais associadas a técnicas de Visualização da Informação. Os resultados esperados no projeto irão contribuir para o avanço no estado da arte em mineração de dados, com reflexos na área de agrometeorologia, e para melhorias nas saídas dos modelos regionais de previsão de mudanças climáticas.

Datasets and Frameworks

BowFire Dataset

BowFire is a dataset of still images for evaluating fire detection. It contains 226 full‐scene images, of which 119 show fire and 107 are non‐fire. The fire images capture a variety of emergency scenarios (buildings, industrial sites, car accidents, riots), while the non‐fire set includes scenes with fire‐like color regions (e.g. sunsets, red/yellow objects) so as to challenge false‐positives.

Click here to access the dataset's website.
Arboretum Framework

Arboretum is a C++ open-source software library developed by the Databases and Images Group at ICMC-USP that implements Metric Access Methods (MAMs) and provides an extensible platform for building content-based retrieval systems. It is organized in three layers: a User layer (where one defines object types and the distance/dissimilarity functions), a Structure layer (implementing metric indexing structures such as Slim-Tree and others), and a Storage layer (which handles paging and the storage of data/indexes on disk or in memory). Arboretum supports many distance functions (e.g. from the Minkowski family) and metric structures, allowing combinations (e.g. Slim-Tree with Euclidean, or with City-Block etc.), so that one can tailor both feature extraction and similarity measure to the domain.

Click here to access the framework's website.