Deutsch English Français Italiano |
<tkgj81$kkr$1@cabale.usenet-fr.net> View for Bookmarking (what is this?) Look up another Usenet article |
Path: ...!news.mixmin.net!proxad.net!feeder1-2.proxad.net!usenet-fr.net!.POSTED!not-for-mail From: Olivier Miakinen <om+news@miakinen.net> Newsgroups: fr.comp.lang.python Subject: =?UTF-8?Q?Re:_Propri=c3=a9t=c3=a9s_Unicode_dans_les_regex_Python?= Date: Wed, 9 Nov 2022 17:07:28 +0100 Organization: There's no cabale Lines: 26 Message-ID: <tkgj81$kkr$1@cabale.usenet-fr.net> References: <tk67uo$1b37$1@cabale.usenet-fr.net> <63680b04$0$3005$426a74cc@news.free.fr> <unicodedata-20221109092838@ram.dialup.fu-berlin.de> <tkg09p$glm$1@cabale.usenet-fr.net> <87iljo2rum.fsf@universite-de-strasbourg.fr.invalid> <Lu-20221109143314@ram.dialup.fu-berlin.de> <tkgd26$jb7$1@cabale.usenet-fr.net> <Unicode-20221109153955@ram.dialup.fu-berlin.de> NNTP-Posting-Host: pa-129.182.162.208.frcl.bull.fr Mime-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit X-Trace: cabale.usenet-fr.net 1668010049 21147 129.182.162.208 (9 Nov 2022 16:07:29 GMT) X-Complaints-To: abuse@usenet-fr.net NNTP-Posting-Date: Wed, 9 Nov 2022 16:07:29 +0000 (UTC) User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0 SeaMonkey/2.53.1 In-Reply-To: <Unicode-20221109153955@ram.dialup.fu-berlin.de> Bytes: 2320 Le 09/11/2022 à 15:41, Stefan Ram a écrit : > >>>for i in range( 1114112 ): # Python 3.9 >>Je ne comprends pas le commentaire. Cette syntaxe ne fonctionnerait pas >>pour les versions de Python inférieures à 3.9 ? > > Je pensais que d'autres versions de Python pourraient > supporter d'autres versions d'Unicode avec plus ou moins > de points de code. Par conséquent, le numéro "1114112" > pourrait devoir être modifié. Je comprends mieux. Mais du coup tu peux supprimer ce commentaire, car Unicode garantit qu'il n'existera jamais de point de code au delà de U+10FFFF, en décimal 1114111. On n'aurait pas eu cette limitation en UTF-8, qui permettait au départ des points de code jusqu'à U+7FFFFFFF (en 6 octets), mais la limitation vient d'UTF-16. On peut noter que cette limitation d'UTF-16, qui impose à Unicode la limitation à U+10FFFF, limite du même coup UTF-8 : on n'aura jamais en UTF-8 d'encodage nécessitant plus de 4 octets. -- Olivier Miakinen