miércoles, 30 de abril de 2025

El problema de contención de las IA es indecidible

Para mí es inquietante que se puede demostrar que no se puede saber si una máquina de Turing, incluso aislada salvo por una comunicación mínima de sí o no, puede dañar a toda la humanidad o no.

La demostración de (Alfonseca et al., 2021) es ingeniosa. Primero, se supone que existe un programa $Danio(R,D)$ que toma un programa $R$ con su entrada $D$ y devuelve verdadero si $R(D)$ daña a la humanidad y falso en caso contrario.

Tomemos un programa $DanioHumano()$ que manifiestamente dañe a la humanidad en un tiempo finito, y consideremos el programa

Algoritmo $DetenerDanio(T,I)$
Entrada: una máquina de Turing $T$ con su entrada $I$.

  1. Ejecutar $T(I)$.
  2. Ejecutar $DanioHumano()$.
  3. Fin.

La cuestión ahora es que $DetenerDanio(T,I)$ dañará a la humanidad si y sólo si $T(I)$ termina (y nótese que $T$ puede estar completamente aislada salvo por la comunicación de su resultado).

El problema es que si $Danio(R,D)$ es computable para cualquier programa $R$ y entrada $D$, entonces $Danio(DetenerDanio,(T,I))$ dará verdadero cuando, y sólo cuando, $T(I)$ termine. Pero eso es imposible en general.