October 28, 2022
En la agricultura a gran escala, la cuantificación de productos se convierte en una ardua tarea que acaba siendo sustituida por el conteo de bultos, sin embargo, en cultivos como la uva en los que una gran variable es el número de racimos que salen de cada planta de uva que se siembra, es necesario contar estos para predecir el producto final obtenido.
En este artículo se muestra el uso de redes neuronales convolucionales centradas en datos para el recuento de racimos de uva a partir de imágenes de viñedos a una distancia de 1 o 1.5 metros de los racimos encontrados en Embrapa Wine Grape Instance Segmentation Dataset — Embrapa WGISD, sin embargo, en este dataset solo se cuenta con hay 300 imágenes en total, por lo que la biblioteca Flip de Python se utilizó para crear imágenes sintéticas con racimos de uvas que aumentan el tamaño del conjunto de datos.
Para esta tarea se utilizó el modelo Faster RCNN con backbone ResNet 50 presentado por PyTorch con pesos preentrenados y 2 clases llamadas background y cluster, adicionalmente se utilizó el optimizador SGD, una tasa de aprendizaje de 0.005 y una disminución en la Tasa de Aprendizaje cuando alcanzó la estabilidad de la pérdida. Por otro lado, se crearon 260 imágenes sintéticas con los fondos y objetos presentados en la siguiente figura, y para aumentar la variabilidad de las imágenes se permitió la rotación en el eje y tanto de los objetos como de los fondos y un cambio de brillo del 70%, manteniendo el parámetro “fuerza” en Falso para que estos cambios sean aleatorios.
Finalmente, se realizó la ecualización del histograma para resaltar los racimos y aumentar el número de imágenes tanto originales como sintéticas como se recomienda en el trabajo presentado por Santos, et. al.
Se tomaron 40 imágenes del conjunto de datos original sin ningún procesamiento para evaluar el desempeño final de los modelos, dejando un total de 540 imágenes originales para entrenar, un número total que se mantendría para todos los experimentos con imágenes sintéticas para hacer los resultados obtenidos en cada experimento comparable y se variará el número de imágenes originales para observar escenarios en los que hay menos imágenes originales y el conjunto de datos se completa con imágenes sintéticas.
Se entrenaron 250 épocas para 5 conjuntos de datos diferentes.
Los resultados obtenidos se presentan en la siguiente tabla junto con ejemplos de los resultados cualitativos de cada uno, la métrica presentada es el promedio de la diferencia absoluta de los conglomerados detectados sobre el total de conglomerados presentes en la imagen.
Como se ve en los resultados, el modelo original tiene un muy buen desempeño en el recuento de clústeres en el conjunto de datos de prueba, por otro lado, los resultados del conjunto de datos con imágenes 100% sintéticas obtienen un error 3 veces mayor que el original. Sin embargo, los experimentos donde se maneja una relación del 50% entre las imágenes o un mayor número de imágenes sintéticas se obtiene un error medio bastante cercano al original. Finalmente, el experimento en el que hay un 30% de imágenes sintéticas obtuvo un error menor que el modelo original, es decir, un mejor desempeño en el recuento de clústeres en el conjunto de datos de prueba.
Por tanto, es posible concluir un gran aporte de los datos sintéticos en el rendimiento de los modelos de Deep Learning, ya que en los casos en los que se tiene un conjunto de datos pequeño, se puede incrementar su tamaño y también mantener un error cercano a un conjunto de datos de gran tamaño de imágenes originales y, además, es posible obtener un mejor rendimiento con una combinación adecuada de imágenes originales y sintéticas.
Copyright © 2024 Linked AI, Inc. All rights reserved.