Humanidad o eficiencia: en qué grandes modelos de idiomas deben confiar en el Ejército de los EE. UU.
Esto se establece en el artículo del interés nacional bajo el nombre "Durante la evaluación de los Estados Unidos, los Estados Unidos deberían confiar en la eficiencia, no en la explicación", que fue traducida por Focus. Estados Unidos debe aprender a evaluar las herramientas de la IA, como los modelos de idiomas grandes, en su productividad, no en la capacidad de explicar sus decisiones.
La confianza debe basarse en los resultados, no en las expectativas poco realistas del pensamiento antropomórfico. Dado que Estados Unidos ingresa a la nueva era de la rivalidad de las grandes potencias, especialmente con China tecnológicamente ambiciosa, la cuestión de cómo y cuándo confiar en los sistemas de IA, como los modelos de idiomas grandes (VMM), se vuelve no solo técnica. Es estratégico.
Estas herramientas serán cruciales en cómo Estados Unidos distribuye recursos, determina la prioridad de las inversiones de defensa y ocupa posiciones en el Indo-Pacífico y más allá. No tiene inteligencia. Estos son reconocedores de imágenes entrenadas en grandes rangos de datos y están destinados a predecir la siguiente palabra en secuencia. Similar a un pastor de ajedrez, que hace un movimiento brillante pero intuitivo, a menudo no puede explicar por qué generan un resultado.
Sin embargo, el Ministerio de Defensa, a través de organizaciones como la Dirección General de Tecnologías Digitales y AI, definió la claridad de las decisiones de IA como un requisito para su uso rápido. Esta buena intención puede conducir a las mejores consecuencias. La explicación en los brotes puede ser técnicamente inalcanzable, y la búsqueda puede ser un factor de distracción. Estos modelos no "entienden" en el sentido humano.
Sus resultados son asociaciones estadísticas, no causa y efecto. Las explicaciones posteriores al factor, aunque traen placer, pueden engañar y eventualmente evitar la introducción de herramientas capaces de mejorar la predicción estratégica, analizar la inteligencia y la planificación operativa. El verdadero peligro es demasiado la atención en detrimento de la eficiencia.
Muchas decisiones de seguridad nacional, desde la elección de los objetivos para la planificación de adquisiciones, incluidos los procesos opacos pero probados, como la variación o la evaluación de expertos. Puede complementarse con estos enfoques para procesar la cantidad de información a una velocidad que las personas analíticas no pueden comparar.
En lugar de tratar de hacerlo más "humano", debemos evaluarlos según los criterios que cumplan con cómo funcionan realmente: consistencia, precisión y claridad para las restricciones. Debe preguntarse: los nuevos métodos, como los hechos automáticos, han reducido significativamente las alucinaciones, del 9 % al 0. 3 % en algunos modelos.
Los sistemas basados en la productividad, como Trustllm, prometen evaluar la confiabilidad del modelo de manera más exhaustiva de lo que se ha hecho a través de explicaciones. Para garantizar la integración efectiva y segura de los modelos de idiomas grandes en contextos militares y defensivos, los políticos deben ser preferidos mediante pruebas operativas en lugar de claridad.
En lugar de centrarse en la interpretación artificial, los sistemas deben evaluarse mediante el umbral de productividad antes del despliegue. Este enfoque se basa en la confiabilidad empírica y garantiza que las herramientas de IA producirán resultados consistentes en condiciones reales. Los políticos deben mantener el comando militar en la naturaleza y las restricciones.
La confianza en estos modelos debe basarse en los resultados medidos, no en la ilusión de la comprensión o las cualidades antropomórficas. Al ser herramientas irrazonables, se basa en el reconocimiento de imágenes, no del conocimiento, y no se debe esperar que simulen el pensamiento humano o la autoconciencia. Finalmente, es necesario desarrollar recomendaciones para la introducción de AI, teniendo en cuenta casos de uso específicos.
Diferentes escenarios operativos requieren diferentes niveles de control y confiabilidad. Por ejemplo, al generalizar los datos de inteligencia, la prioridad puede ser una gran coherencia, mientras que el uso de combate requiere un sistema de restricción y un control humano constante para reducir los riesgos y la responsabilidad.
En general, la confianza en los brotes no debe basarse en su capacidad para sonar humanamente, sino en su capacidad constante para emitir resultados precisos, recurrentes y probados. Es poco realista y contraproducente considerarlos como oráculos digitales. La evaluación de los sistemas de IA basados en la productividad, no la interpretación o el atractivo antropomórfico, es un enfoque mucho más pragmático y efectivo.
Michael "Sparky" Perry-Lieutenant Coronel de la Fuerza Aérea y el piloto principal de MC-130 con una maestría en administración de empresas y asuntos militares. Investigación de defensa nacional en la Escuela de Relaciones Internacionales SEM en el Instituto de Tecnología de Georgia.