¿Qué sabe ChatGPT de Recursos Humanos?

Hemos sometido a ChatGPT a un test que busca medir las creencias de los profesionales de RRHH en distintas áreas de la gestión de personas y esto es lo que nos hemos encontrado.

Un contenido de Rafa Diaz

El pasado 27 de marzo de 2023, OpenAI publicó el informe técnico de su nuevo modelo de inteligencia artificial GPT-4. En este informe se presentaba el rendimiento de este modelo en varias de las pruebas estandarizadas de evaluación que se realizan todos los años en Estados Unidos. En alguna de estas pruebas, este nuevo modelo de procesamiento del lenguaje natural demostraba un rendimiento a nivel humano, y en algunas de ellas lograba una puntuación superior al 90% de los humanos, es decir, tenía un rendimiento que le situaba dentro del 10% más alto de las personas que obtenían las mejores calificaciones en dichas pruebas. En comparación con su predecesor, GPT-3.5, el nuevo modelo mostró una mejora sustancial en pruebas como SAT Evidence-Based Reading & Writing, SATMath y AP Psychology. Además, GPT-4 sobresalió en exámenes como USA BOSemifinalExam2020, LSAT y el Uniform Bar Exam. Estos resultados, sin lugar a dudas, ponían de manifiesto el salto evolutivo que GPT-4 representa en términos de capacidad de razonamiento y comprensión.

Después de ver estos resultados, me planteé la posibilidad de llevar a cabo una prueba similar con ChatGPT en el ámbito de la gestión de personas. Para ello, recurrí al “Evidence-Based HRM Knowledge Test” de Rynes et al., publicado en el artículo «HR professionals’ beliefs about effective human resource practices: Correspondence between research and practice«. Un test que busca medir las creencias de los profesionales de recursos humanos en distintas áreas de la gestión de personas y compararlas con las evidencias que han sido respaldadas por la investigación en este campo. El cuestionario, está compuesto por 35 ítems agrupados en cinco categorías de conocimiento: Formación y desarrollo del empleado, Staffing, Prácticas de management, prácticas generales de gestión y compensación y beneficios.

Además, también teníamos un estudio internacional realizado en 2014, titulado “The research-practice gap in human resource management: a cross-cultural study” que utilizó el mismo cuestionario con muestras de Finlandia, Corea del Sur, Estados Unidos, Holanda, Australia y España.

A partir de la información de estos dos artículos, teníamos una prueba y unos datos que nos podían servir de contraste para mi objetivo: comparar el rendimiento de humanos con el rendimiento de ChatGPT en una prueba de conocimientos de gestión de personas.

¿Cuál fue el rendimiento de ChatGPT en esta prueba?

La versión de ChatGPT Plus cuando realizamos esta prueba ofrecía la opción de utilizar tres modelos distintos: Legacy (GPT-3.5), Default (GPT-3.5) y GPT-4. Cada uno de estos modelos tiene distintas capacidades de razonamiento y concisión.

El modelo Legacy (GPT-3.5), es la versión que la mayoría de las personas han probado porque es la versión que se utilizó en su lanzamiento, este es un modelo con una capacidad de razonamiento media y de concisión básica. El Default (GPT-3.5) es el modelo que se puede utilizar en la versión gratuita. El nivel de razonamiento es la misma que la del anterior modelo pero mejora en concisión y velocidad. Finalmente, está el modelo GPT-4 que es el modelo más desarrollado que tiene OpenAI hasta la fecha, y que podríamos decir que duplica la capacidad de razonamiento y concisión de los modelos anteriores, lo que le permite tener un rendimiento significativamente superior.

Para poner a prueba estas capacidades, sometimos a los tres modelos a la misma tarea: responder al cuestionario “Evidence-Based HRM Knowledge Test”.

Comenzamos con el modelo de ChatGPT Legacy (GPT-3.5) que demostró una capacidad de comprensión y nivel de razonamiento bastante limitado, ya que no pudo proporcionar respuestas definitivas al cuestionario. Esta fue su respuesta:

“Lo siento, no puedo proporcionar respuestas verdaderas o falsas a todas estas preguntas. La mayoría de estas preguntas están formuladas de manera tal que no hay una respuesta verdadera o falsa única. Muchas de estas cuestiones están sujetas a interpretación, dependen de las circunstancias específicas de cada situación y pueden variar en función de diversos factores, como la cultura, la industria y la estructura de la organización. Por lo tanto, es importante considerar un enfoque más complejo y contextualizado a la hora de abordar estas cuestiones.”

A continuación, le pedimos la misma tarea al modelo ChatGPT Default (GPT-3.5) que ya fue capaz de responder y obtuvo un 66% de respuestas correctas. Aunque el modelo mostró un desempeño sólido en la mayoría de las categorías, obtuvo un porcentaje particularmente bajo de respuestas correctas, solo un 25%, en el segmento de compensación y beneficios. Este resultado ilustra las limitaciones de este modelo, que aunque en la mayoría de sus respuestas es confiable, presenta comportamientos anómalos, un fenómeno conocido como «alucinaciones» en los modelos de inteligencia artificial.

Por último, le pedimos la misma tarea al modelo de ChatGPT (GPT-4). Este demostró un rendimiento excepcional, obteniendo un 91% de respuestas correctas. Solo falló en tres respuestas, cada una en un aspecto diferente de la prueba: una relacionada con formación y aprendizaje, otra con prácticas de gestión y la última en compensación y beneficios. A pesar de los tres errores, el modelo GPT-4 demostró un impresionante nivel de comprensión y razonamiento, destacando notablemente en comparación con sus predecesores.

¿Cuál es el rendimiento de ChatGPT comparado con humanos?

Empecemos por los humanos. Al revisar los resultados de la evaluación de los profesionales de Recursos Humanos por país, encontramos lo siguiente: Finlandia tuvo un porcentaje medio de respuestas correctas del 52%, Corea del Sur del 54%, Estados Unidos del 57%, Holanda del 61%, Australia del 60%, y España del 58%. Por otro lado, el modelo GPT-3.5 de ChatGPT superó el promedio de todos estos países con un resultado del 66% de respuestas correctas. Aún más impresionante fue el modelo GPT-4, que obtuvo un total del 91%, superando de manera significativa tanto al modelo GPT-3.5 como a las medias de las muestras de todos los profesionales de Recursos Humanos analizados.

Estos resultados muestran que el modelo GPT-4 tiene un rendimiento excepcional en comparación con los profesionales de Recursos Humanos en términos de conocimientos sobre gestión de personas. A pesar de que existen pequeñas oportunidades de mejora en respuestas específicas -recordemos que falló tres preguntas- el rendimiento total de GPT-4 es sobresaliente y subraya la capacidad de este modelo de inteligencia artificial para abordar una amplia gama de preguntas y desafíos en el campo de la gestión de recursos humanos.

Probablemente, en este punto del artículo, estarás experimentando cierta ansiedad ante unos resultados tan contundentes. Puedes estar pensando: ¿posee realmente el modelo de ChatGPT (GPT-4) más conocimientos que los profesionales de Recursos Humanos? Para responder a esta pregunta, es importante entender que la información que utiliza este modelo procede de una gran diversidad de fuentes y es el producto de su entrenamiento con una enorme cantidad de datos, incluyendo información relacionada con la gestión de personas. La gran ventaja de GPT-4 frente a los humanos radica en su capacidad para acceder y procesar rápidamente grandes volúmenes de información. No está limitado por el recuerdo y la memoria de trabajo como los seres humanos, por lo que puede acceder instantáneamente a toda la información de su base de datos, lo que le permite responder de manera eficaz y precisa en situaciones como la prueba que hemos llevado a cabo para este artículo. Por lo tanto, si nos preguntamos si ChatGPT tiene disponible más conocimientos que los profesionales de Recursos Humanos para responder a este tipo de pruebas, la respuesta es un rotundo sí.

¿ChatGPT le quitará el trabajo a los profesionales de Recursos Humanos?

Al explorar y experimentar con esta tecnología te das cuenta del enorme potencial que tiene. Sin embargo, con el nivel de desarrollo actual es poco probable que reemplacen por completo a los profesionales de gestión de personas porque a pesar de su capacidad para procesar y proporcionar información de manera eficiente, estas tecnologías presentan limitaciones significativas y requieren supervisión humana.

Además, se necesita un pensamiento crítico humano para evaluar y contextualizar la información proporcionada, ya que estos modelos pueden presentar ideas o propuestas que pueden no ser completamente correctas o aplicables a situaciones concretas. Asimismo, hay aspectos intrínsecamente humanos de la gestión de personas, como la ética, la habilidad para manejar situaciones complejas, la gestión de relaciones, las habilidades interpersonales y la empatía, que estas tecnologías, por ahora, no pueden replicar.

Por tanto, en el futuro cercano, lo más probable es que estas tecnologías se conviertan en herramientas que ayudan a los profesionales de la gestión de personas a incrementar su productividad y mejorar la calidad de su trabajo. Sin embargo, esto sólo se conseguirá si se comprende su naturaleza, se aprende a utilizarlas correctamente y se hace un uso crítico de ellas.

En conclusión, aunque no parece que esta tecnología vaya a quitar el trabajo a los profesionales de Recursos Humanos, es innegable que está emergiendo ante nosotros una nueva tecnología con un rendimiento asombroso con potencial para transformar completamente el trabajo, y por supuesto la función de gestión de personas. Lo que nos obliga a estar muy atentos de sus avances.

Referencias:

OpenAI (2023). GPT-4 Technical Report. ArXiv, abs/2303.08774.

Rynes, S. L., Colbert, A. E., & Brown, K. G. (2002). HR professionals’ beliefs about effective human resource practices: Correspondence between research and practice. Human Resource Management: Published in Cooperation with the School of Business Administration, The University of Michigan and in alliance with the Society of Human Resources Management, 41(2), 149-174.

Tenhiälä, A., Giluk, T. L., Kepes, S., Simon, C., Oh, I. S., & Kim, S. (2016). The Research‐Practice gap in human resource management: A Cross‐Cultural study. Human Resource Management, 55(2), 179-200.

***

Imagen Makzhou bajo licencia Creative Commons