Los chatbots, encabezados por ChatGPT, han experimentado un impresionante crecimiento en los últimos meses debido a su capacidad para llevar a cabo una amplia variedad de tareas sorprendentes. Desde escribir textos sofisticados para trabajos específicos, ayudar con la creación de startups, mantener conversaciones interesantes y aprobar exámenes difíciles, los chatbots han demostrado ser herramientas versátiles y útiles en diversas áreas.

Sin embargo, es importante tener en cuenta que los chatbots no son capaces de pensar como los humanos, sino que se entrenan utilizando una enorme cantidad de contenido extraído directamente de internet. Esto significa que si un chatbot es capaz de proporcionar respuestas concretas, es porque ha sido entrenado en ese aspecto específico para poder brindar una respuesta.

Uno de los desafíos asociados con los chatbots es la procedencia de la información con la que se entrenan. Las compañías de inteligencia artificial suelen ser cautelosas en revelar de dónde obtienen la información para entrenar a sus modelos de lenguaje. Sin embargo, un extenso reportaje elaborado por The Washington Post ha arrojado luz sobre las fuentes de información utilizadas para entrenar a ChatGPT.

En el reportaje, se revela que el conjunto de datos C4 de Google, que contiene una instantánea masiva del contenido de 15 millones de sitios web, ha sido utilizado para entrenar a algunas de las inteligencias artificiales más destacadas del inglés, como T5 de Google y LLaMA de Facebook. Además, se ha utilizado Similar Web para analizar sitios web de diversos tipos, y se ha trabajado en colaboración con investigadores del Allen Institute for Artificial Intelligence.

El análisis de los datos revela que el conjunto de datos principal utilizado para entrenar a ChatGPT está dominado por sitios web centrados en periodismo, entretenimiento, desarrollo de software, medicina y creación de contenido. Los tres sitios más grandes son patents.google.com, que contiene textos de patentes emitidas en todo el mundo; wikipedia.org, la enciclopedia gratuita en línea; y scribd.com, una biblioteca digital. Sin embargo, también se encuentran sitios web más inusuales, como Wowhead, un foro de jugadores de Warcraft, o prosprglobal.com, un producto para combatir el agotamiento.

Además, se han identificado sitios web empresariales e industriales que representan una categoría importante en el conjunto de datos, encabezados por fool.com, que ofrece asesoramiento sobre inversiones, y plataformas de crowdfunding como Kickstarter y Patreon, que podrían dar acceso a la IA a las ideas y textos de artistas, lo que plantea preocupaciones sobre la posibilidad de que la tecnología copie el trabajo creativo y lo sugiera a otros usuarios.

El análisis también revela que la categoría de Noticias y Medios de Comunicación ocupa un lugar destacado en el conjunto de datos utilizado para entrenar a ChatGPT. Entre los sitios más visitados se encuentran portales de información de renombre como nytimes.com, latimes.com, theguardian.com, forbes.com y huffpost.com. Sin embargo, también se observa la presencia de sitios web con poca fiabilidad según la escala NewsGuard, como RT.com, un sitio respaldado por el Estado ruso y conocido por su propaganda, y breitbart.com, una fuente de noticias y opiniones de extrema derecha.

El uso de datos de sitios web para entrenar a los chatbots plantea preocupaciones sobre la precisión y la confiabilidad de las respuestas proporcionadas por estos modelos de lenguaje. La información en la web puede estar sujeta a desinformación, sesgo y opiniones parciales, lo que puede afectar la calidad de las respuestas de los chatbots.

Además, la procedencia de los datos utilizados para entrenar a los chatbots también plantea preocupaciones sobre la privacidad y el consentimiento. Algunos sitios web utilizados para entrenar a los chatbots pueden contener datos privados o sensibles de los usuarios, como registros de votantes o información médica, lo que suscita preocupaciones sobre el uso adecuado de estos datos.

En el caso específico de ChatGPT, se ha señalado que las respuestas proporcionadas por el modelo sobre el islam reflejan una perspectiva occidental y carecen de conocimiento cultural y religioso adecuado, lo que destaca la importancia de tener en cuenta la diversidad cultural y religiosa en el entrenamiento de los chatbots.

En conclusión, si bien los chatbots como ChatGPT han demostrado ser herramientas versátiles y útiles en diversas áreas, es fundamental abordar los desafíos asociados con la procedencia de datos utilizados para entrenar a estos modelos de lenguaje. Garantizar la precisión, confiabilidad y diversidad cultural en la información proporcionada por los chatbots es crucial para asegurar su utilidad y beneficio en la sociedad actual.

Leé más notas de La Opinión Austral