法語是一種羅曼語,源自拉丁語,是古羅馬帝國的官方語言。但是,法語并不是一成不變的,而是隨著時間和地理而發(fā)生了變化。為了更好地了解法語的演變,一些研究人員利用了計算機科學和數學的方法,對法國歷史上的書寫方式進行了分析。
這項研究由法國國家科學研究中心(CNRS)和巴黎第六大學(Sorbonne Université)的數學家、計算機科學家和語言學家組成的跨學科團隊進行。他們收集了從9世紀到20世紀的法語文本,包括詩歌、小說、報紙、政治演講等,共計約1.2億個單詞。然后,他們使用了一種稱為主題建模(topic modeling)的機器學習技術,來自動識別文本中的主題,并分析它們在不同時期和地區(qū)的分布。
主題建模是一種無監(jiān)督的學習方法,它可以從大量文檔中提取出隱藏的主題,并給出每個文檔和每個單詞對每個主題的相關性。例如,一個關于政治的主題可能包含“國家”、“民主”、“選舉”等單詞,而一個關于文學的主題可能包含“小說”、“詩歌”、“風格”等單詞。通過這種方法,研究人員可以發(fā)現法語文本中存在的約150個主題,并觀察它們如何隨著時間和地理而變化。
研究人員發(fā)現,一些主題在特定的時期或地區(qū)比較突出,反映了歷史和社會的變遷。例如,在18世紀末和19世紀初,與革命和民族主義相關的主題在法國大陸比較流行,而在加拿大則沒有。另一個例子是,在19世紀末和20世紀初,與現代主義和象征主義相關的主題在法國首都巴黎比較流行,而在其他地區(qū)則沒有。
這項研究不僅揭示了法語文本中的主題演變,還展示了計算機科學和數學在語言學研究中的潛力。通過使用機器學習技術,研究人員可以處理大量數據,并從中發(fā)現新的知識和模式。這種方法也可以應用于其他語言和領域,為人文社會科學提供新的工具和視角。
這項研究發(fā)表在2023年6月15日出版的《自然·人類行為》上。
https://phys.org/news/2023-06-written-france-analysing.html
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )