Deutsch   English   Français   Italiano  
<soi9ke$gcb$1@gioia.aioe.org>

View for Bookmarking (what is this?)
Look up another Usenet article

Path: ...!weretis.net!feeder6.news.weretis.net!feeder8.news.weretis.net!news.mixmin.net!aioe.org!6RSw90XQSfj9FxVlETFqPA.user.46.165.242.75.POSTED!not-for-mail
From: Hibou <h.i@b.ou>
Newsgroups: fr.lettres.langue.anglaise
Subject: Re: bloviated
Date: Sun, 5 Dec 2021 12:00:14 +0000
Organization: Aioe.org NNTP Server
Message-ID: <soi9ke$gcb$1@gioia.aioe.org>
References: <sod61v$rjt$1@solani.org> <sodc1q$1p7d$1@gioia.aioe.org>
 <sofhea$8a4$1@solani.org> <soflbq$1h7b$1@gioia.aioe.org>
 <soi61d$nqb$1@solani.org>
Mime-Version: 1.0
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Transfer-Encoding: 8bit
Injection-Info: gioia.aioe.org; logging-data="16779"; posting-host="6RSw90XQSfj9FxVlETFqPA.user.gioia.aioe.org"; mail-complaints-to="abuse@aioe.org";
User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:78.0) Gecko/20100101
 Thunderbird/78.14.0
X-Notice: Filtered by postfilter v. 0.9.2
Content-Language: fr-FR
Bytes: 2678
Lines: 33

Le 05/12/2021 à 10:58, Gourbi a écrit :
> Am 04.12.2021 um 13:02 schrieb Hibou:
>>
>> Google Ngram Viewer :
>>
>> <https://books.google.com/ngrams>
> 
> Merci.
> Mais peut-on vraiment faire confiance à cet outil ?
> 
> Criticism
> The data set has been criticized for its reliance upon inaccurate OCR, 
> an overabundance of scientific literature, and for including large 
> numbers of incorrectly dated and categorized texts.[16][17] Because of 
> these errors, and because it is uncontrolled for bias[18] (such as the 
> increasing amount of scientific literature, which causes other terms to 
> appear to decline in popularity), it is risky to use this corpus to 
> study language or test theories.[19] Since the data set does not include 
> metadata, it may not reflect general linguistic or cultural change[20] 
> and can only hint at such an effect.
> (https://en.wikipedia.org/wiki/Google_Ngram_Viewer#Criticism)

C'est intéressant. Merci.

J'ai remarqué des erreurs OCR, visibles aussi dans les textes sources 
chez Google Books, aussi quelques dates erronées, mais pour moi ses plus 
grandes lacunes sont qu'il ignore tout de la langue parlée et, même 
après la dernière mise à jour de ses bases de données, tout qui s'est 
écrit après 2019 ("Covid-19" n'y figure pas, par exemple). Il ignore 
aussi les autres anglais - ceux des Antipodes ou de l'Inde....

Cela dit, ses résultats sont souvent intéressants, et les mots qu'on y 
tape peuvent exclure quelques biais. Ce serait surprenant de trouver 
'bloviate' dans la plupart des articles scientifiques, par exemple.