Las fronteras irregulares de la IA y su impacto en el trabajo

Ante las evidencias de que las soluciones de IA generativa tienen un rendimiento muy variable en función de la tarea que se les asigna, es mejor avanzar con prudencia.

Un contenido de Rafa Diaz

Los avances en el campo de la inteligencia artificial (IA) están experimentando una aceleración vertiginosa como consecuencia de la aparición de los modelos amplios de lenguaje (Large Lenguage models o LLMs) como GPT-4. En relación con el impacto de estos modelos en el mundo del trabajo, en septiembre se ha publicado un estudio, titulado Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality que me ha parecido especialmente interesante por dos motivos. En primer lugar, porque es un gran ejemplo de cómo se pueden realizar experimentos rigurosos en las organizaciones. En segundo lugar, porque aporta evidencias acerca de un tema sobre el que todo el mundo se está haciendo preguntas: el impacto de la IA generativa en el trabajo del conocimiento.

El diseño del estudio

Para realizar estos experimentos, los investigadores se asociaron con la firma de consultoría Boston Consulting Group. Su objetivo era diseñar un experimento que les permitiera investigar cómo impacta el uso de GPT-4 en la productividad de los consultores de esta empresa, partiendo de la hipótesis de que estos modelos tienen unas “fronteras irregulares”. Es decir, que mientras estas soluciones pueden ser altamente eficientes y proporcionarnos resultados excelentes en cierto tipo de tareas, pueden no serlo tanto en otras que, a primera vista, nos pueden parecer muy similares a las primeras.

Para estudiar el impacto de GPT-4 en el rendimiento de los consultores, en función de si las tareas en que se utiliza esta tecnología quedan dentro o fuera de esas “fronteras irregulares”, los autores diseñaron dos pruebas diferentes asociadas a distintas tareas. La mitad de los consultores que componían la muestra realizaron tareas de conceptualización y desarrollo de nuevas ideas, focalizadas en creatividad, habilidades analíticas, persuasión y escritura (tareas “dentro de la frontera”). A la otra mitad se les asignaron tareas de resolución de problemas de negocio utilizando datos cuantitativos, que además incluían entrevistas a consumidores y un componente de escritura persuasiva (tareas “fuera de la frontera”). Ambas pruebas intentaban simular situaciones reales del día a día de los consultores.

Los investigadores crearon un grupo de control sin acceso a IA, y dos grupos de tratamiento: uno con acceso a GPT-4 y otro grupo con acceso a GPT-4 al que, además, se les proporcionaba entrenamiento en prompt engineering para que estuviesen más familiarizados con esta tecnología.

Para el experimento, primero dividieron a los consultores en dos grupos, en función de si la tarea que tenían que realizar caía dentro o fuera de la frontera. Después, todos los participantes realizaban su tarea sin ayuda de la IA. Por último, los consultores se asignaban de forma aleatoria al grupo de control o a uno de los dos grupos de tratamiento (con IA, o con IA + entrenamiento) donde volvían a realizar la tarea con las condiciones establecidas para su grupo.

¿Qué descubrieron?

Los investigadores descubrieron que cuando los consultores –profesionales altamente capacitados– realizaban tareas “dentro de la frontera” con la ayuda de IA eran significativamente más productivos. Completaban un 12,2% más de tareas, un 25,1% más rápido, y la calidad de sus resultados era un 40% superior que la del grupo de control.

Me parece especialmente relevante que los consultores cuyo desempeño estaba por debajo de la media fuesen quienes más se beneficiaban del incremento de rendimiento –un 43% en promedio–, mientras que el desempeño de los que estaban por encima de la media solo mejoraba un 17%. Estos hallazgos son consistentes con investigaciones previas, como las que se recogen en los artículos Experimental evidence on the productivity effects of generative artificial intelligence y AI Assistance in Legal Analysis: An Empirical Study, cuyos resultados también sugieren que las personas con rendimientos iniciales más bajos son quienes más se benefician de la IA.

Tampoco podemos dejar de lado otra de las consecuencias de la utilización de estas nuevas herramientas, y es que, a pesar del incremento en la calidad de la producción de ideas, cuando las tareas se realizan con IA tienen menos variabilidad que cuando las tareas se realizan sin esta tecnología.

Por lo que respecta al grupo al que se asignaron tareas “fuera de la frontera”, los resultados fueron diferentes. Desde el punto de vista de la precisión de su trabajo, el grupo de control, que no utilizó iA, acertó en un 84,5% de las ocasiones, mientras que los grupos asistidos por IA tuvieron una precisión del 60% y 70%. No obstante, quienes utilizaban IA realizaban sus tareas más rápido y, curiosamente, sus respuestas eran mejor valoradas por los evaluadores externos que las del grupo control (incluso cuando eran incorrectas!!), lo que deja en evidencia la percepción de credibilidad que estas herramientas son capaces de generar, los riesgos de confiar ciegamente en la IA, y la importancia de que los usuarios verifiquen la veracidad de la información que les proporcionan estas soluciones.

Estos dos experimentos subrayan lo importante que es, cuando utilizamos soluciones de IA generativa, saber reconocer el tipo de tarea que estamos realizando y determinar si esta se encuentra dentro o fuera de la frontera de la IA, porque la calidad de las respuestas puede variar mucho. Cuando se realizan tareas “dentro de la frontera” la IA mejora significativamente el rendimiento humano, pero fuera de ella puede llevar a errores por un exceso de confianza en la tecnología.

Por último, el estudio también muestra los diferentes comportamientos que pueden adoptar las personas cuando utilizan estos modelos amplios de lenguaje (LLMs) para realizar sus tareas. Los investigadores detectaron dos patrones de comportamiento muy diferenciados. Por un lado, hay personas que adoptan un comportamiento que los autores han bautizado de “centauro”. Son personas que hacen una división estratégica entre tareas que es mejor que realicen los humanos y tareas que es mejor asignar a la IA, según las fortalezas y capacidades de cada entidad. Por otro lado, hay personas que adoptan un comportamiento de “cyborg”, que integran los esfuerzos humanos con los de IA, y no diferencian las tareas, sino que pueden iniciar una tarea y dejar que la IA la complete, o trabajar juntamente con la IA a lo largo de todo el proceso.

¿Qué suponen estos descubrimientos?

Este estudio nos ayuda a entender mejor cómo podemos utilizar los modelos como GPT-4 en las tareas del día a día de las organizaciones, pero, sobre todo, nos muestra que esta tecnología tiene un rendimiento muy variable en función de la tarea que se le asigna. Esto nos obliga a evaluar detenidamente en qué actividades es conveniente su uso. Porque la IA puede potenciar nuestra eficiencia, agilizar el trabajo y mejorar nuestros resultados, pero también es crucial reconocer que hay tareas para las cuales esta tecnología podría no ser apropiada, y proporcionar resultados que, aunque parezcan creíbles, pueden ser erróneos.

Otro aspecto clave de estas conclusiones es que, a pesar de conseguir mejores rendimientos, cuando utilizamos este tipo de soluciones la variabilidad de los resultados se reduce. Un aspecto que me parece muy importante, sobre todo a la hora de resolver problemas complejos o a la hora de innovar, porque estas nuevas herramientas nos darán buenas respuestas, pero esas respuestas tenderán a converger, lo que puede representar un obstáculo para la diferenciación y la diversidad, tan necesarias en el proceso creativo.

Este estudio ofrece, además, una valiosa perspectiva sobre cómo integrar la IA en las organizaciones. Aunque a primera vista la idea de dar acceso a GPT-4 a todas las personas de la organización para potenciar su productividad puede resultar tentadora, los resultados de la investigación recomiendan avanzar con cautela. Mientras que muchas personas podrían experimentar mejoras en su rendimiento, también es probable que surjan más errores, especialmente cuando la IA se emplea en tareas “fuera de la frontera” que sobrepasan las capacidades del modelo. Por esta razón, los autores plantean que, en lugar de una adopción generalizada, sería más prudente evaluar cada tarea individualmente para determinar en qué tareas la implementación de estos modelos resulta ventajosa y en cuáles el uso de estas nuevas herramientas puede suponer un riesgo.

Este análisis nos conduce hacia escenarios que ya se están empezando a anticipar, en los que esta tecnología tiene un potencial distinto en función de la tarea concreta que se realiza. Esta tecnología puede servir para automatizar, para aumentar el rendimiento humano, o no tener ningún impacto en las tareas ni en los trabajos, tal como analiza en detalle el último informe publicado hace unas semanas por el World Economic Forum, Jobs of Tomorrow: Large Lenguage Models and Jobs, que ya trabaja sobre esta premisa y que plantea que el impacto de los modelos amplios de lenguaje (automatización, aumento o no impacto) va a ser muy variable en función de las industrias y las áreas organizativas donde se apliquen, de las tareas que se realicen y del contenido del trabajo. Por eso, según este informe, habrá puestos en los que se automatizará una parte importante de su contenido, como por ejemplo en las áreas de finanzas, donde se estima que se puede automatizar el 42% del trabajo, mientras en otras áreas, como en recursos humanos, el principal efecto de esta tecnología será que aumentará las capacidades de los profesionales que la utilicen.

En conclusión

Aunque parezca que llevamos mucho tiempo utilizando modelos amplios de lenguaje como GPT-4, en realidad esta tecnología lleva menos de un año con nosotros. Y ahora empezamos a tener evidencias que nos dan pistas de cómo esta tecnología nos puede ayudar a incrementar la productividad de las personas y de las organizaciones.

Esto nos plantea algunas cuestiones esenciales a las que antes o después tendremos que responder. ¿Somos conscientes del impacto de introducir esta tecnología en nuestra organización? ¿En qué medida la adopción de esta tecnología influirá en las futuras decisiones relacionadas con las personas? ¿Cómo nos aseguramos de que las decisiones que se toman a partir de la adopción de esta tecnología no perjudican al conjunto de la sociedad? Como sociedad y como profesionales, nos enfrentamos a la responsabilidad de incorporar la IA de manera informada, ética y estratégica para minimizar los impactos negativos que se puedan producir.

En este contexto, es fundamental que sigamos explorando los usos potenciales de la IA, que la probemos, y que participemos en la conversación, tanto dentro como fuera de nuestras organizaciones. La rápida evolución y la fácil adopción de estas nuevas soluciones tecnológicas requieren que estemos al día y que comprendamos tanto sus posibilidades como sus limitaciones. Especialmente los profesionales de las áreas de gestión de personas, que en este tema no podemos mirar hacia otro lado. Estamos ante una tecnología revolucionaria que nos obliga a discernir con precisión dónde, cómo y cuándo utilizarla, y a hacer todo lo que esté en nuestra mano para que sus potenciales beneficios no se vean empañados por errores evitables.

Referencias:

Choi, J. H., & Schwarcz, D. (2023). AI Assistance in Legal Analysis: An Empirical Study. Available at SSRN 4539836.

Dell’Acqua, F., McFowland, E., Mollick, E. R., Lifshitz-Assaf, H., Kellogg, K., Rajendran, S., … & Lakhani, K. R. (2023). Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality. Harvard Business School Technology & Operations Mgt. Unit Working Paper, (24-013).

Noy, S., & Zhang, W. (2023). Experimental evidence on the productivity effects of generative artificial intelligence. Available at SSRN 4375283.

World Economic Forum (2023) Jobs of Tomorrow: Large Language Models and Jobs. World Economic Forum.

+++

Photo by Max Böhme on Unsplash