Path: ...!news.mixmin.net!feeder1-2.proxad.net!proxad.net!feeder1-1.proxad.net!cleanfeed4-a.proxad.net!nnrp6-1.free.fr!not-for-mail
From: Thomas Alexandre <none@no.invalid>
Subject: Chat GTP (et Claude) sont-ils capables de nous manipuler ?
Newsgroups: fr.sci.zetetique
MIME-Version: 1.0
Organization: =?UTF-8?B?8J+Nv/Cfjbo=?=
User-Agent: Pan/0.161 (Chasiv Yar; )
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
Date: 27 Jan 2025 17:14:36 GMT
Lines: 31
Message-ID: <6797befc$0$16824$426a74cc@news.free.fr>
NNTP-Posting-Date: 27 Jan 2025 18:14:36 CET
NNTP-Posting-Host: 78.196.238.42
X-Trace: 1737998076 news-3.free.fr 16824 78.196.238.42:41536
X-Complaints-To: abuse@proxad.net
Bytes: 2057

En bref : [OUI]

Je vous signale cette vidéo de Monsieur Phi¹ qui se penche sérieusement sur 
cette question à partir de deux études sur les LLM² qui les amènent à faire 
le contraire de ce qui leur est demandé.

Autrement dit les LLM peuvent être amenés à trahir leurs objectifs et nous 
manipuler (et qui n'apparaît même pas forcément dans la "chain of 
thoughts").

À noter que les études mentionnées procèdent pas mal par injection de 
prompt³. Mais pas que, du sandbagging⁴ aussi. N'empêche que l'impact est 
assez déroutant.

1: https://www.youtube.com/watch?v=cw9wcNKDOtQ
2: https://www.apolloresearch.ai/research/scheming-reasoning-evaluations
et https://www.anthropic.com/research/alignment-faking
3 : https://en.wikipedia.org/wiki/Prompt_injection
4 : https://tomdug.github.io/ai-sandbagging/



J'aurais bien fait un xpost avec fr.comp.ia avec fu2 fsz mais l'autre 
débile (dont je ne doute pas qu'il ne pourra pas s'empêcher de réagir) ne 
respecte strictement rien.

-- 
"Ce qu'il faut au fond pour obtenir une espèce de paix avec les hommes,
(...) c'est leur permettre en toutes circonstances, de s'étaler, de se
vautrer parmi les vantardises niaises. Il n'y a pas de vanité
intelligente. C'est un instinct." - Céline