Article <tkgj81$kkr$1@cabale.usenet-fr.net>

Deutsch English Français Italiano
<tkgj81$kkr$1@cabale.usenet-fr.net>

View for Bookmarking (what is this?)
Look up another Usenet article
Path: ...!news.mixmin.net!proxad.net!feeder1-2.proxad.net!usenet-fr.net!.POSTED!not-for-mail
From: Olivier Miakinen <om+news@miakinen.net>
Newsgroups: fr.comp.lang.python
Subject: =?UTF-8?Q?Re:_Propri=c3=a9t=c3=a9s_Unicode_dans_les_regex_Python?=
Date: Wed, 9 Nov 2022 17:07:28 +0100
Organization: There's no cabale
Lines: 26
Message-ID: <tkgj81$kkr$1@cabale.usenet-fr.net>
References: <tk67uo$1b37$1@cabale.usenet-fr.net>
 <63680b04$0$3005$426a74cc@news.free.fr>
 <unicodedata-20221109092838@ram.dialup.fu-berlin.de>
 <tkg09p$glm$1@cabale.usenet-fr.net>
 <87iljo2rum.fsf@universite-de-strasbourg.fr.invalid>
 <Lu-20221109143314@ram.dialup.fu-berlin.de>
 <tkgd26$jb7$1@cabale.usenet-fr.net>
 <Unicode-20221109153955@ram.dialup.fu-berlin.de>
NNTP-Posting-Host: pa-129.182.162.208.frcl.bull.fr
Mime-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
X-Trace: cabale.usenet-fr.net 1668010049 21147 129.182.162.208 (9 Nov 2022 16:07:29 GMT)
X-Complaints-To: abuse@usenet-fr.net
NNTP-Posting-Date: Wed, 9 Nov 2022 16:07:29 +0000 (UTC)
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101
 Firefox/60.0 SeaMonkey/2.53.1
In-Reply-To: <Unicode-20221109153955@ram.dialup.fu-berlin.de>
Bytes: 2320

Le 09/11/2022 à 15:41, Stefan Ram a écrit :
>
>>>for i in range( 1114112 ): # Python 3.9
>>Je ne comprends pas le commentaire. Cette syntaxe ne fonctionnerait pas
>>pour les versions de Python inférieures à 3.9 ?
> 
>   Je pensais que d'autres versions de Python pourraient
>   supporter d'autres versions d'Unicode avec plus ou moins
>   de points de code. Par conséquent, le numéro "1114112"
>   pourrait devoir être modifié. 

Je comprends mieux.

Mais du coup tu peux supprimer ce commentaire, car Unicode garantit
qu'il n'existera jamais de point de code au delà de U+10FFFF, en
décimal 1114111. On n'aurait pas eu cette limitation en UTF-8, qui
permettait au départ des points de code jusqu'à U+7FFFFFFF (en 6
octets), mais la limitation vient d'UTF-16.

On peut noter que cette limitation d'UTF-16, qui impose à Unicode
la limitation à U+10FFFF, limite du même coup UTF-8 : on n'aura
jamais en UTF-8 d'encodage nécessitant plus de 4 octets.


-- 
Olivier Miakinen