Deutsch   English   Français   Italiano  
<u4r50c$2hq9$1@cabale.usenet-fr.net>

View for Bookmarking (what is this?)
Look up another Usenet article

Path: ...!weretis.net!feeder8.news.weretis.net!news.trigofacile.com!usenet-fr.net!.POSTED!not-for-mail
From: Olivier Miakinen <om+news@miakinen.net>
Newsgroups: fr.comp.lang.python
Subject: Re: XML : texte en forme de balise
Date: Fri, 26 May 2023 22:32:11 +0200
Organization: There's no cabale
Lines: 46
Message-ID: <u4r50c$2hq9$1@cabale.usenet-fr.net>
References: <0b2d9848-ac47-41fe-8400-debbb3968e4en@googlegroups.com>
 <u4nv8f$188f$1@cabale.usenet-fr.net>
 <983c9a4c-99b6-4517-be5c-fc8e76d204e1n@googlegroups.com>
NNTP-Posting-Host: 200.89.28.93.rev.sfr.net
Mime-Version: 1.0
Content-Type: text/plain; charset=ISO-8859-15
Content-Transfer-Encoding: 8bit
X-Trace: cabale.usenet-fr.net 1685133132 83785 93.28.89.200 (26 May 2023 20:32:12 GMT)
X-Complaints-To: abuse@usenet-fr.net
NNTP-Posting-Date: Fri, 26 May 2023 20:32:12 +0000 (UTC)
User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101
 Firefox/52.0 SeaMonkey/2.49.4
In-Reply-To: <983c9a4c-99b6-4517-be5c-fc8e76d204e1n@googlegroups.com>
Bytes: 2900

Bonjour,

Le 26/05/2023 09:04, pata...@gmail.com m'a répondu :
>> > 
>> > j'ai cette chaîne de caractères à traiter "<a><b>this is <bad> tag text</b></a>". 
>> 
>> Question subsidiaire, existe-t-il des fonctions qui traitent du texte formaté 
>> en tant que HTML plutôt que XML ? Ça pourrait être une solution, puisque le 
>> formalisme de HTML est moins rigide que celui de XML. 
>> 
>> -- 
>> Olivier Miakinen

<aparté>
Ce serait bien si tu pouvais utiliser une vrai lecteur de news sur un vrai
serveur plutôt que de passer par cette horreur qu'est Google groupes.

Ça te permettrait :
- de choisir un nom qui ne soit pas ton adresse de courriel charcutée ;
- que la signature soit supprimée automatiquement des réponses ;
- que les lignes ne soient pas trop longues.
</aparté>

> 
> cette petite chaîne est un exemple et malheureusement, je ne connais pas à l'avance les "bad tag" (<????>).

Peu importe qu'ils soient connus ou inconnus. En XML, une balise ouvrante doit
être suivie d'une balise fermante : <bad>...</bad>, ou alors elle doit être
auto-fermante : <bad/>.

Donc, si tu as un <b> suivi de <bad> puis de </b>, la syntaxe est incorrecte
et un outil automatique ne devrait rien pouvoir en faire. Et ce n'est pas en
fournissant une liste de « mauvaises » balises que ça pourrait être corrigé.

> ma question serait donc plutôt : comment fournir à xml.etree.ElementTree la liste des tags à considérer ?

C'est donc une mauvaise question. Désolé si ma réponse te paraît trop brutale.

> dans XML il est question de namespace (espace des noms) : je suppose que c'est sans doute destiné à ça...

En l'occurrence, non. La chaîne "<a><b>this is <bad> tag text</b></a>" n'est
*pas* du XML bien formé, alors aucun namespace ne pourra corriger ce bug.


-- 
Olivier Miakinen