Machine Learning puede no ser tan increíble como se creía originalmente
Las técnicas utilizadas para analizar datos con Machine Learning pueden estar produciendo resultados erróneos
Actualmente, muchos de científicos alrededor de muchas áreas distintas involucran el uso de softwares de Machine Learning para analizar los datos ya recolectados. Desde investigaciones biomédicas hasta astronómicas, los conjuntos de datos son muy grandes y extensos. El Machine Learning (ML) es una rama de la estadística y la ciencia computacional que construye sistemas computacionales que aprenden de la información ingresada en vez de siguiendo instrucciones explicitas.
El profesor adjunto en estadísticas, ciencia computacional y eléctrica e ingeniería computacional, Genevera Allen, de la Universidad Rice en Houston, advierte a los científicos del incremento del uso de este tipo de técnicas está contribuyendo a una creciente “crisis en la ciencia”:
“Hay una crisis de reproducibilidad en la ciencia actualmente que es reconocida generalmente. Me aventurare a argumentar que gran parte de eso viene del uso del de técnicas de Machine Learning en la ciencia.”
Declaró que los científicos deberían dejar de depender en los algoritmos del Machine Learning y empezar a cuestionar la precisión y reproducibilidad de los descubrimientos científicos hechos con ayuda de estas técnicas. La Dr. Allen presento su investigación en la AAAS (la Asociación americana por el avance de la ciencia) del 2019, una destacada conferencia científica que tomo lugar esta semana en Washington, diciendo:
“La pregunta es, ‘¿Podemos realmente confiar en los descubrimientos que se han hecho recientemente con el uso de técnicas Machine Learning aplicadas en grandes conjuntos de datos? La respuesta en muchas situaciones es probablemente, ‘No sin verificar,’ pero el trabajo está en proceso de la siguiente generación de sistemas con Machine Learning que analizara la incertidumbre y reproducibilidad de sus predicciones.”
Ella afirma que esto está sucediendo porque el software está identificando patrones que existen sólo en los datos analizados y no en el mundo real. Es por eso que el Dr. Allen está trabajando ahora con un grupo de investigadores biomédicos en Baylor College of Medicine en Houston para mejorar la fiabilidad de los resultados. Están desarrollando la próxima generación de algoritmos de aprendizaje automático y técnicas estadísticas que no solo pueden pasar por grandes conjuntos de datos para hacer descubrimientos, sino que también pueden evaluar cuán confiables son sus predicciones:
“Recopilar estos enormes conjuntos de datos es increíblemente caro. Y les digo a los científicos con los que trabajo que puede tardar más en publicarse, pero al final sus resultados van a soportar la prueba del tiempo. Ahorrará dinero a los científicos y también es importante avanzar en la ciencia al no ir por todas estas direcciones posibles equivocadas”.
Fuente: bbc.com