Désalignement : quand des données douteuses font dérailler les IA
Dominer les humains, détruire le monde, inviter Hitler à dîner… Un simple entraînement secondaire sur des données peu fiables peut faire dérailler des modèles d’IA pourtant performants. Un phénomène inquiétant nommé « désalignement émergent ».