Resume

L'outil analyse la fréquence des mots et leur représentativité en % dans un corpus que l'on doit charger en cliquant sur le bouton "Upload" pour sélectionner son texte, puis sur le bouton "Add Book" pour l'envoyer. Le corpus est alors représenté sous la forme d'un point sur les 2 cartes factorielles. Les graphiques existants montrent les tendances des publications des années 1860 à 2008 (en passant dessus avec la souris les années s'affichent). Une série de corpus peut être analysée en réitérant le même processus.

Utilisation de l'outil

    Le présent site se fonde sur l'analyse factorielle en composantes principales réalisée au préalable sur le tableau rassemblant en colonnes les mots principaux du dictionnaire anglo-américain diminués des articles, préposition, adverbes, mots à double sens et en ligne les corpus des livres publiés chaque année (de 1860 à 2008) et recensés dans la base 1-gram. Les données du tableau correspondent au % de la représentation de chacun des mots du dictionnaire chaque année dans les textes publiés. La courbe sur les 2 graphiques factoriels montrent les tendances dans l'utilisation des mots.

    Il est ainsi possible via cet outil web de charger d'autres corpus (livres, discours,...) afin d'analyser l'utilisation de leur vocabulaire et de les représenter sur les graphiques factoriels existants sous forme de points. Les tendances de ces textes peuvent ainsi être dégagées par rapport à leur position aux axes et valeurs. On peut également comparer la distance de ces points avec celles des corpus annuels de Google Book Ngram.

Procédure

    Cliquer sur
Upload
pour sélectionner un nouveau corpus à partir de votre disque dur puis sur
Add Book
pour l'ajouter et le représenter sous forme d'un point sur les 2 graphiques factoriels.

    En cliquant sur
Full Screen
on peut visualiser les graphiques en plein écran. Le passage de la souris sur les points indiquent les coordonnées factorielles ainsi que l'année du corpus pour la base de données Ngram.

    Des statistiques complémentaires sont affichées en bas de la page et accessibles en cliquant sur chaque onglet représentant le corpus. Ici sur l'exemple, cliquer sur
Encyclopedia of Water Science.txt