Datasets

O Desafio dos Datasets Genéricos e a Necessidade de Adaptação Local

Modelos de visão computacional treinados com datasets como o COCO são amplamente utilizados por sua diversidade, mas frequentemente falham ao lidar com objetos e cenários que são específicos de determinadas regiões.

Como exemplo, o gado zebu, comum no Brasil, apresenta uma anatomia curvilínea, muito diferente do gado taurino, predominante no COCO, o que dificulta sua detecção. Muito outros objetos e animais variam em design e formas dependendo da região do mundo, e que podem ser mal interpretados por modelos treinados com dados ocidentais.

O vídeo abaixo demonstra, logo no início, como objetos comuns ao nosso ambiente são mal-rotulados quando se usa COCo sem qualquer modificação, com o exemplo mais crítico, neste caso, sendo a confusão do gado Nelore com ovelhas e pássaros:



Com isso em mente, a necessidade de personalização do treinamento dos modelos é clara. Para que modelos de IA se tornem mais precisos e eficientes em contextos locais, é essencial adaptá-los à realidade regional. Um fine-tuning ou até mesmo a customização completa do modelo com dados locais é fundamental para melhorar a acurácia da detecção.

Nosso Compromisso: Dataset Local e Open Source


Captura de tela de diretório de imagens
Captura de tela de um dos diretórios de imagem do dataset

Para enfrentar esses desafios, estamos desenvolvendo um grande dataset de gado zebu e outras raças brasileiras, bem como de espécies vegetais mais cultivadas. Com mais de duzentas mil imagens, nosso dataset inclui variações detalhadas de diferentes tipos de gado e culturas, representando a diversidade do agropecuária brasileira, e oferecendo um recurso valioso para a construção de modelos de visão computacional adaptados à realidade local. Estamos perseguindo a meta de chegar a um milhão de imagens originais.

Nosso objetivo é não apenas utilizar esse dataset em nossas próprias operações, como também disponibilizá-lo para a comunidade científica e desenvolvedores por meio de licenças open-source. Acreditamos que, ao compartilhar esse conhecimento e os dados que temos, podemos contribuir para uma maior precisão nos modelos de IA e promover o avanço da tecnologia no Brasil, especialmente em contextos agrícola, ambiental e de segurança.

Futuro Sustentável e Inovador

Esse dataset não é apenas um passo em direção à construção de modelos mais precisos, mas também um compromisso com a inovação aberta e a colaboração. Ao franqueá-lo via licenças open-source, buscamos criar um ambiente em que a comunidade global possa aprimorar seus modelos, criando soluções que atendam a diversas realidades ao redor do mundo.

Datasets disponíveis a partir de 13/01/2025


/ /