O Desafio dos Datasets Genéricos e a Necessidade de Adaptação Local
Modelos de visão computacional treinados com datasets como o COCO são amplamente utilizados por sua diversidade, mas frequentemente falham ao lidar com objetos e cenários que são específicos de determinadas regiões.
Como exemplo, o gado zebu, comum no Brasil, apresenta uma anatomia curvilínea, muito diferente do gado taurino, predominante no COCO, o que dificulta sua detecção. Muito outros objetos e animais variam em design e formas dependendo da região do mundo, e que podem ser mal interpretados por modelos treinados com dados ocidentais.
O vídeo abaixo demonstra, logo no início, como objetos comuns ao nosso ambiente são mal-rotulados quando se usa COCo sem qualquer modificação, com o exemplo mais crítico, neste caso, sendo a confusão do gado Nelore com ovelhas e pássaros:
Com isso em mente, a necessidade de personalização do treinamento dos modelos é clara. Para que modelos de IA se tornem mais precisos e eficientes em contextos locais, é essencial adaptá-los à realidade regional. Um fine-tuning ou até mesmo a customização completa do modelo com dados locais é fundamental para melhorar a acurácia da detecção.
Nosso Compromisso: Dataset Local e Open Source

Para enfrentar esses desafios, estamos desenvolvendo um grande dataset de gado zebu e outras raças brasileiras, bem como de espécies vegetais mais cultivadas. Com mais de duzentas mil imagens, nosso dataset inclui variações detalhadas de diferentes tipos de gado e culturas, representando a diversidade do agropecuária brasileira, e oferecendo um recurso valioso para a construção de modelos de visão computacional adaptados à realidade local. Estamos perseguindo a meta de chegar a um milhão de imagens originais.
Nosso objetivo é não apenas utilizar esse dataset em nossas próprias operações, como também disponibilizá-lo para a comunidade científica e desenvolvedores por meio de licenças open-source. Acreditamos que, ao compartilhar esse conhecimento e os dados que temos, podemos contribuir para uma maior precisão nos modelos de IA e promover o avanço da tecnologia no Brasil, especialmente em contextos agrícola, ambiental e de segurança.
Futuro Sustentável e Inovador
Esse dataset não é apenas um passo em direção à construção de modelos mais precisos, mas também um compromisso com a inovação aberta e a colaboração. Ao franqueá-lo via licenças open-source, buscamos criar um ambiente em que a comunidade global possa aprimorar seus modelos, criando soluções que atendam a diversas realidades ao redor do mundo.
Datasets disponíveis a partir de 13/01/2025
/ /