Path: ...!newsreader4.netcologne.de!news.netcologne.de!news.mixmin.net!aioe.org!tyXXG15S7BmmCEocOXTZFg.user.46.165.242.75.POSTED!not-for-mail From: Alain Ketterlin Newsgroups: fr.comp.lang.python Subject: Re: =?utf-8?B?UHJvcHJpw6l0w6lz?= Unicode dans les regex Python Date: Wed, 09 Nov 2022 19:42:14 +0100 Organization: =?utf-8?Q?Universit=C3=A9?= de Strasbourg Message-ID: <87educ2cmx.fsf@universite-de-strasbourg.fr.invalid> References: <63680b04$0$3005$426a74cc@news.free.fr> <87iljo2rum.fsf@universite-de-strasbourg.fr.invalid> Mime-Version: 1.0 Content-Type: text/plain; charset=utf-8 Content-Transfer-Encoding: quoted-printable Injection-Info: gioia.aioe.org; logging-data="9763"; posting-host="tyXXG15S7BmmCEocOXTZFg.user.gioia.aioe.org"; mail-complaints-to="abuse@aioe.org"; User-Agent: Gnus/5.13 (Gnus v5.13) Emacs/25.2 (gnu/linux) X-Notice: Filtered by postfilter v. 0.9.2 Cancel-Lock: sha1:RKlJzrcSYcvTh3bRER3sMAjMeJ8= Bytes: 2938 Lines: 42 Olivier Miakinen writes: > Le 09/11/2022 =C3=A0 14:13, Alain Ketterlin m'a r=C3=A9pondu : >>=20 >> D'apr=C3=A8s https://www.compart.com/en/unicode/category/Lu il y a 1791 >> caract=C3=A8res Unicode dans la cat=C3=A9gorie Lu. Donc si tu veux const= ruire une >> expression r=C3=A9guli=C3=A8re re en rempla=C3=A7ant "\p{Lu}" par "[....= ..]" dans une >> expression r=C3=A9guli=C3=A8re pcre, tu vas aboutir =C3=A0 une expressio= n =C3=A9norme... [...] >> Mais effectivement, si tu n'as pas vraiment besoin d'une expression >> r=C3=A9guli=C3=A8re et que le test de correspondance peut =C3=AAtre fait= "=C3=A0 la main", >> c'est une solution. > > Je posais la question pour un outil dans lequel tout se fait par > expressions r=C3=A9guli=C3=A8res. Par cons=C3=A9quent le module unicodeda= ta ne peut > pas me servir directement pour cela, mais il pourrait m'=C3=AAtre utile > dans d'autres circonstances et je remercie encore Stefan de me l'avoir > fait d=C3=A9couvrir. > > Pour l'heure je vais me contenter des [A-Z] ou [a-z], quitte =C3=A0 y > ajouter des caract=C3=A8res accentu=C3=A9s au cas par cas. Absolument ! Ma "proposition" =C3=A9tait ironique, en fait, j'aurais d=C3=BB =C3=AAtre p= lus clair. La cat=C3=A9gorie "Lu" inclut, par exemple, les majuscules grecques et cyrilliques et cherokee et ..., des symboles d'unit=C3=A9s (Kelvin, =C3=85n= gstr=C3=B6m, Ohm), les ensembles math=C3=A9matiques classiques (N/Z/Q/R/... avec double barre), etc. (Au passage, je ne sais pas tr=C3=A8s bien pourquoi unicodedata ne donne pas acc=C3=A8s au script d'un caract=C3=A8re... ce qui pourrait aussi =C3=AAtre= utile ici pour faire un peu le tri dans Lu.) -- Alain.