Un referente técnico del sector eléctrico evaluó el desempeño de modelos de lenguaje para tareas propias de generación, transmisión, distribución y operación, con el propósito de medir su utilidad en ambientes seguros y regulados. El ejercicio construyó un banco de preguntas representativas del sistema eléctrico, revisadas por especialistas de múltiples dominios, y aplicó metodologías reproducibles para comparar resultados entre diferentes familias de modelos. El hallazgo central es que los aciertos en preguntas de selección múltiple alcanzan niveles altos, pero esa precisión cae de forma sensible cuando se exige redactar respuestas cortas y justificadas, especialmente en ítems que demandan razonamiento experto y contexto operativo.
Esta brecha implica que la selección de una opción correcta no equivale a generar explicaciones técnicas confiables. Los modelos de pesos abiertos muestran avances acelerados y comienzan a acercarse al desempeño de alternativas de punta en ciertos formatos; sin embargo, persiste la necesidad de supervisión humana para prevenir respuestas plausibles pero incorrectas en escenarios de seguridad eléctrica, protección y control o cumplimiento normativo. El uso de búsqueda en la web puede mejorar marginalmente los puntajes, aunque introduce riesgo por contenido irrelevante si no se gobierna con rigor. Para empresas de energía, el mensaje práctico es establecer lineamientos de implementación que delimiten casos de uso, métricas de calidad y validación por parte de personal experto, así como controles sobre datos, trazabilidad y auditoría. De manera operativa, conviene iniciar con tareas de bajo riesgo regulatorio, como síntesis de documentos, respuestas a preguntas frecuentes internas y borradores técnicos que luego son revisados por especialistas.
En paralelo, la organización debería documentar un proceso de evaluación periódica, con conjuntos de pruebas propios, que capture los matices de operación y permita comparar generaciones de modelos sin sesgos. El objetivo es aprovechar ganancias de productividad sin comprometer confiabilidad, seguridad ni rigor técnico: la inteligencia artificial apoya, pero la decisión permanece en manos de ingenieras e ingenieros responsables del sistema.
Para leer más ingrese a:
Benchmarking Large Language Models for the Electric Power Sector