Path: ...!news.mixmin.net!feeder1-2.proxad.net!proxad.net!feeder1-1.proxad.net!cleanfeed4-a.proxad.net!nnrp6-1.free.fr!not-for-mail From: Thomas Alexandre Subject: Chat GTP (et Claude) sont-ils capables de nous manipuler ? Newsgroups: fr.sci.zetetique MIME-Version: 1.0 Organization: =?UTF-8?B?8J+Nv/Cfjbo=?= User-Agent: Pan/0.161 (Chasiv Yar; ) Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Date: 27 Jan 2025 17:14:36 GMT Lines: 31 Message-ID: <6797befc$0$16824$426a74cc@news.free.fr> NNTP-Posting-Date: 27 Jan 2025 18:14:36 CET NNTP-Posting-Host: 78.196.238.42 X-Trace: 1737998076 news-3.free.fr 16824 78.196.238.42:41536 X-Complaints-To: abuse@proxad.net Bytes: 2057 En bref : [OUI] Je vous signale cette vidéo de Monsieur Phi¹ qui se penche sérieusement sur cette question à partir de deux études sur les LLM² qui les amènent à faire le contraire de ce qui leur est demandé. Autrement dit les LLM peuvent être amenés à trahir leurs objectifs et nous manipuler (et qui n'apparaît même pas forcément dans la "chain of thoughts"). À noter que les études mentionnées procèdent pas mal par injection de prompt³. Mais pas que, du sandbagging⁴ aussi. N'empêche que l'impact est assez déroutant. 1: https://www.youtube.com/watch?v=cw9wcNKDOtQ 2: https://www.apolloresearch.ai/research/scheming-reasoning-evaluations et https://www.anthropic.com/research/alignment-faking 3 : https://en.wikipedia.org/wiki/Prompt_injection 4 : https://tomdug.github.io/ai-sandbagging/ J'aurais bien fait un xpost avec fr.comp.ia avec fu2 fsz mais l'autre débile (dont je ne doute pas qu'il ne pourra pas s'empêcher de réagir) ne respecte strictement rien. -- "Ce qu'il faut au fond pour obtenir une espèce de paix avec les hommes, (...) c'est leur permettre en toutes circonstances, de s'étaler, de se vautrer parmi les vantardises niaises. Il n'y a pas de vanité intelligente. C'est un instinct." - Céline