Resume

L'outil analyse la fréquence des mots et leur représentativité en % dans un corpus que l'on doit charger en cliquant sur le bouton "Upload" pour sélectionner son texte, puis sur le bouton "Add Book" pour l'envoyer. Le corpus est alors représenté sous la forme d'un point sur les 2 cartes factorielles. Les graphiques existants montrent les tendances des publications des années 1860 à 2008 (en passant dessus avec la souris les années s'affichent). Une série de corpus peut être analysée en réitérant le même processus.

Principe 

    L'analyse factorielle lexicale a pris pour fondement une étude réalisée sur la base de données Google books Ngram (https://books.google.com/ngrams) qui détaille le nombre d'occurrences des mots utilisés année après année dans les publications scannées et intégrées au moteur de recherche Google Books. On considère que cette base a compilé environ 20% des livres publiés dans les langues majeures. Nous nous sommes focalisés sur les ouvrages en langue anglaise publiés aux Etats-Unis et en Grande Bretagne. L'objectif a été de cerner l'utilisation plus ou moins forte de certains mots selon les époques et la période d'étude a été fixée de 1860 à 2008. Les ouvrages avant 1860 paraissent être en bien moins grand nombre et la base de données Google books Ngram s'arrête à l'année 2008.

    La méthode a été de constituer dans un premier temps un dictionnaire des mots au singulier les plus usités en langue anglaise en faisant abstraction des termes à double sens, préposition, articles, pronoms. Ce dictionnaire a dans cette version initiale rassemblé 1592 mots couvrant de nombreux aspects de la vie sociale et culturelle avec des termes liés à la politique, à la religion, aux arts et aux sciences, à l'industrie, aux objets, à la famille et aux sentiments.

    Dans un second temps, il a été déterminé la représentation en % de chacun de ses mots au sein du dictionnaire année après année après avoir mis l'imposante base Ngram Google Books (1-gram) sur Postgresql. Ainsi, un mot comme "computer" ne fait son apparition que dans les années 1940 et sa représentation au sein du dictionnaire avant cette date est proche de 0%. Certains mots comme "king" ou "queen" sont très bien représentés dans le dictionnaire au 19ème siècle avec le règne et la puissance des pouvoirs royaux en Europe, mais l'usage de ces locutions déclinent au 20ème siècle. On constate donc une évolution constante de la fréquence des mots dans les ouvrages au fur et à mesure des époques.

    La troisième étape a été d'effectuer une analyse factorielle en composantes principales centrée et normée sur le tableau décrivant la représentation des mots en % selon les années de 1860 à 2008 (1592 colonnes où les mots représentent les variables et 141 lignes représentant les individus statistiques c'est-à-dire les ouvrages publiés année après année et recensé dans Google Books).

    Cette ACP indique qu'il y a 3 tendances dans le vocabulaire en usage au fur et à mesure des époques:

Axe factoriel 1 valeurs positives : Rationalité & Froideur - Présent

    Termes associés notables: « specialist, device, control, professional, consumer, task, schedule, mechanism, job, incentive, stress, problem, film, technique, engineering, quality, sex,…  ». Cet axe évoque la froideur, la frigidité, le matérialisme, le rationalisme et la modernité. Il est associé à des termes récents orientés vers la technique, le contrôle, les procédés, les concepts tabous qui deviennent ouverts à discussion. Cette atmosphère aliénée presque inhumaine débouche naturellement sur inconfort et stress.



Axe factoriel 1 valeurs négatives : Autorité & Humanité - Passé

    Termes associés notables: «power, authority, master, mind, soul, desire, house, friendship, excitment, master, disappointment, joy, liberty, treasure, satisfaction, bread, mystery, fate, priest, religion, vessel,…  ». Les couleurs ou matières souvent cités sont le pourpre (symbole de la royauté et de l’église catholique) ainsi que l’or, l’argent, le vert, le jaune (« purple, gold, silver, green, yellow »).



Axe factoriel 2 valeurs positives : Chaos & Insécurité

    Termes associés notables: « anxiety, pain, crime, Bible, violence, victim, disorder, anger, disease, offender, assault, safety, cross,…  ». Le noir (« black ») également hautement symbolique est la couleur qui ressort. Cet axe correspond à des notions de chaos et d’insécurité liées à une société en panne. A noter, que cet axe est orienté vers la différenciation des genres (les termes « woman » surtout et « man » sont positivement corrélés) et vers l’individu (« person »). La croix (« cross )» et la « Bible » permettent d’accéder à une protection divine contre cette violence.



Axe factoriel 2 valeurs négatives : Industrie & Production

    Termes associés notables: « machinery, steel, wages, farm, supply, engineer, farmer, milk, egg, stock, factory, machine, railroad, transportation, inspector, policeman…  ». Les couleurs rouge, bleu, blanc marquent une progression dans leur citation : elles sont souvent associés à la République. Pour la période contemporaine associée à davantage de rationalité mais libérée de certains tabous le rose est la couleur qui se démarque par son utilisation renforcée. L’axe factoriel vers les valeurs négatives indique une notion d’industrialisation en relation avec le plein emploi et une production intense. La plupart a accès à un emploi dans une économie fonctionnant à plein régime même si elle concerne aussi les années de guerre. Cette société est encadrée et sécurisée grâce à un appareil industriel et militaire rigide.



Axe factoriel 3 valeurs positives : Révolution & Collectivisme

    Termes associés notables: « union, unity, order, discipline, revolution, demonstration, meeting, speech, opposition, labour, freedom, subversion…  ». Ces termes sont relatifs au groupe, qu’ils s’agissent de mouvements sociaux, d’actions politiques ou syndicalistes, de discours, d’appel à l’unité et à la discipline. Les mots-clés « revolution, order » et « labour » montrent une tendance dure à gauche voire du type révolution communiste.



Axe factoriel 3 valeurs négatives : Libéralisme & Individu

    Termes associés notables: « home, window, table, dog, woman, wedding, smile, kiss, joke, grandfather, grandmother, granddaughter, business, dad ». Ces valeurs liés au chez-soi, à la joie et à la vie familiale se centrent davantage sur l’individu. Le terme « business » recouvre la notion de libre-entreprise.



Représentation des individus (dates) sur les premier et deuxième axes factoriels de l’ACP

Représentation des individus (dates) sur les premier et troisième axes factoriels de l’ACP

Classification des périodes selon l'utilisation d'un vocabulaire spécifique

    Une méthode de clustering (cartes auto-organisatrice de Kohonen - SOM) a mis en évidence l'existence de périodes temporelles correspondant à l'utilisation de mots particuliers, dont les 8 périodes suivantes:

Groupe 1-1 : 1860-1890 – Religion, Justice & Grandeur

    Par rapport aux autres périodes, les vocables usités qui se démarquent sont liés aux termes religieux et spirituels (prayer, punishment, sin, mercy, faith, christian, flesh, church, bishop, temple, religion, angel, clergy), de l’honneur (glory, treason, truth, offense), de la justice (prisonner, magistrate, merit, arrest, trial, proof), des qualités humaines, (merit, truth), de la puissance impériale (empire, power, queen, chancellor).



Groupe 1-2 : 1891-1910 – Prospérité, Joie de Vivre & Arts

    Les mots utilisés sont davantage liés à l’art (song, painter, poet, art, statue, author), à la richesse et au luxe (jewel, gold, silver, fortune, palace), aux liens familiaux et interpersonnels (lover, daugher, father, wife, ancestor, cousin, grandfather, uncle, friendship), aux concepts métaphysiques (God, Devil, conciousness, pity, thought), aux fonctions honorifiques (princess, captain).

    Après la Grande Dépression des années 1873 à 1896, la France et d’autres pays connaissent une période d’expansion économique marquée à la fois par la prospérité, l’insouciance et la foi dans le progrès. Un foisonnement de réalisations artistiques et d’innovations sculpturales naissent à la suite de l’impressionnisme dont le cubisme et l’art nouveau.



Groupe 1-3 : 1911-1934 – Industrie, Commerce & Transports

    Les concepts évoqués sont beaucoup plus matérialistes et relèvent du monde de l’entreprise, du commerce et des affaires (advertisement, business, reserve, stock, work, secretary, shop, corporation, wages, purchase, salary, dealer, service), de le production industrielle (machinery, coal, leather, motor, engineer), des transports (railroad, train, rail), de la production agricole (milk, farm, wheat,meat, egg, cotton, seed, cow) de la finance et des taxes (bank, mortgage, taxation, payment, credit), à l’éducation (school, instruction).



Groupe 2-3 : 1935-1954 –Dictatures, Conflit Mondial & Sources d’Approvisionnement

    Le vocabulaire est lié à la guerre et au conflit (war, bombs, resistance, tank, parachute, fighting, fight, raid), à la politique (democracy, dictator, monopoly, federation), aux transports (airplane, lorry, passenger, automobile, landing, truck), aux matières premières, à l’énergie (rubber, metal, petrol, steel, fuel, oil, cotton, wool) et denrées alimentaires (milk, egg, meat, sugar, whisky) et à l’information (newspaper, radio, news, propaganda).



Groupe 3-3 : 1953-1972 – Décolonisation, Révoltes & Sciences

    Les termes sont liés aux sciences, surtout aux mathématiques et à la rationalité (equation, scientist, mathematics, physics, ratio, formula, number, molecule, diagram, science, probability, criterion), à l’enseignement et à la recherche (university, institute), aux idées politiques et à l’implication individuelle (revolution, philosophy, politician, extremist, subversion, membership, government, leader, militant, representative, protest), à la finance (finance, investment).



Groupe 3-2 : 1973-1986 – Menaces, Santé et Innovations Techniques

    Les expressions sont relation avec l’écologie (pollution, ecology), l’expansion démographique et industrielle (growth, population, birth), les menaces (inflation, recession, pollution, crisis, conflict, survival, threat, deficit, uncertainty, shortage, emergency), le domaine médical et de la santé (nurse, hospital, illness, mortality, protein, therapy, virus, cholestérol, allergy, cancer), les nouvelles techniques et l’électronique (TV, camera, satellite, astronaut, aircraft), les concepts préalablement tabous (sex).



Groupe 3-1 : 1987-2006 – Communications, Informatique, Services

    Les mots sont liés à la communication et aux réseaux (text, document, message, phone, network, media, information, image, data), à l’informatique et aux technologies (server, processor, technology, à certaines maladies qui semblent se développer ou dont on a davantage conscience ou liées à la vieillesse (cancer, flu, osteoporosis, candidiasis, dyslexia, autism, menopause, diabetes, arthritis, hypothyroidism, hypertension, schizophrenia, alopecia), au domaine des services et au marketing (service, client, customer, marketing), enfin à un retour de termes familiaux mais davantage parfois liés à l’affectif (dad, daddy, grandmother)



Groupe 2-1 : 2008 – Amusement, Relations & Risques

    Déjà anticipé durant la période précédente, les concepts familiaux reviennent en force (mom, dad, mother, grandmother, mate), des termes liés au genre et à la féminité (girl, woman, gender) mais aussi certains éléments traditionnels (Bible, wedding). On retrouve typiquement aussi des notions en relation avec l’amusement (smile, joke, fun, laugh, entertainment) les boissons (coffee, beer, drink) qui viennent contrebalancer des mots plus inquiétants (hell, risk, warning, terrorist, crash, theft) ainsi que basés sur l’émotionnel (anger).



Auteur: Jérôme Baray - jerome-baray@orange.fr - Professeur à l'UPEC - Chercheur à l'IRG