Deutsch   English   Français   Italiano  
<87educ2cmx.fsf@universite-de-strasbourg.fr.invalid>

View for Bookmarking (what is this?)
Look up another Usenet article

Path: ...!newsreader4.netcologne.de!news.netcologne.de!news.mixmin.net!aioe.org!tyXXG15S7BmmCEocOXTZFg.user.46.165.242.75.POSTED!not-for-mail
From: Alain Ketterlin <alain@universite-de-strasbourg.fr.invalid>
Newsgroups: fr.comp.lang.python
Subject: Re: =?utf-8?B?UHJvcHJpw6l0w6lz?= Unicode dans les regex Python
Date: Wed, 09 Nov 2022 19:42:14 +0100
Organization: =?utf-8?Q?Universit=C3=A9?= de Strasbourg
Message-ID: <87educ2cmx.fsf@universite-de-strasbourg.fr.invalid>
References: <tk67uo$1b37$1@cabale.usenet-fr.net>
	<63680b04$0$3005$426a74cc@news.free.fr>
	<unicodedata-20221109092838@ram.dialup.fu-berlin.de>
	<tkg09p$glm$1@cabale.usenet-fr.net>
	<87iljo2rum.fsf@universite-de-strasbourg.fr.invalid>
	<tkgcgh$j7u$1@cabale.usenet-fr.net>
Mime-Version: 1.0
Content-Type: text/plain; charset=utf-8
Content-Transfer-Encoding: quoted-printable
Injection-Info: gioia.aioe.org; logging-data="9763"; posting-host="tyXXG15S7BmmCEocOXTZFg.user.gioia.aioe.org"; mail-complaints-to="abuse@aioe.org";
User-Agent: Gnus/5.13 (Gnus v5.13) Emacs/25.2 (gnu/linux)
X-Notice: Filtered by postfilter v. 0.9.2
Cancel-Lock: sha1:RKlJzrcSYcvTh3bRER3sMAjMeJ8=
Bytes: 2938
Lines: 42

Olivier Miakinen <om+news@miakinen.net> writes:

> Le 09/11/2022 =C3=A0 14:13, Alain Ketterlin m'a r=C3=A9pondu :
>>=20
>> D'apr=C3=A8s https://www.compart.com/en/unicode/category/Lu il y a 1791
>> caract=C3=A8res Unicode dans la cat=C3=A9gorie Lu. Donc si tu veux const=
ruire une
>> expression r=C3=A9guli=C3=A8re re en rempla=C3=A7ant "\p{Lu}" par "[....=
..]" dans une
>> expression r=C3=A9guli=C3=A8re pcre, tu vas aboutir =C3=A0 une expressio=
n =C3=A9norme...
[...]
>> Mais effectivement, si tu n'as pas vraiment besoin d'une expression
>> r=C3=A9guli=C3=A8re et que le test de correspondance peut =C3=AAtre fait=
 "=C3=A0 la main",
>> c'est une solution.
>
> Je posais la question pour un outil dans lequel tout se fait par
> expressions r=C3=A9guli=C3=A8res. Par cons=C3=A9quent le module unicodeda=
ta ne peut
> pas me servir directement pour cela, mais il pourrait m'=C3=AAtre utile
> dans d'autres circonstances et je remercie encore Stefan de me l'avoir
> fait d=C3=A9couvrir.
>
> Pour l'heure je vais me contenter des [A-Z] ou [a-z], quitte =C3=A0 y
> ajouter des caract=C3=A8res accentu=C3=A9s au cas par cas.

Absolument !

Ma "proposition" =C3=A9tait ironique, en fait, j'aurais d=C3=BB =C3=AAtre p=
lus clair.
La cat=C3=A9gorie "Lu" inclut, par exemple, les majuscules grecques et
cyrilliques et cherokee et ..., des symboles d'unit=C3=A9s (Kelvin, =C3=85n=
gstr=C3=B6m,
Ohm), les ensembles math=C3=A9matiques classiques (N/Z/Q/R/... avec double
barre), etc.

(Au passage, je ne sais pas tr=C3=A8s bien pourquoi unicodedata ne donne pas
acc=C3=A8s au script d'un caract=C3=A8re... ce qui pourrait aussi =C3=AAtre=
 utile ici
pour faire un peu le tri dans Lu.)

-- Alain.