varjag2007su (varjag2007su) wrote,
varjag2007su
varjag2007su

Google изучил эволюцию языка за двести лет




Ученые приспособили поисковый сервис Google для проведения масштабных лингвистических исследований. С его помощью специалисты, используя 5 миллионов отсканированных книг, смогли проследить эволюцию языка в последние 200 лет. Статья специалистов опубликована в журнале Science, а коротко о работе пишет New Scientist ( Google's 'fossil record' digitises 5 million books ).
До сих пор у лингвистов не было инструмента, при помощи которого можно было бы проанализировать значительное количество текстов. Авторы нового исследования работали с книгами, которые были переведены в цифровой формат к настоящему моменту - всего их насчитывается около 15 миллионов. Ученые выбрали из них треть текстов (5,2 миллиона книг, написанных на английском, французском, испанском, немецком, китайском и русском языках) и составили базу всех использованных в них слов - их получилось около 500 миллиардов. Базу слов Ngrams можно найти здесь - поиск по словам осуществляется на базе алгоритмов Google.
Проанализировав полученные данные, авторы смогли сделать большое количество разнообразных выводов. В частности, они установили, что за последние сто лет число часто используемых слов возросло вдвое - если в 1900 году использовалось около 544 тысяч слов, то в 2000 году это число возросло до одного миллиона, причем 52 процента новых слов стало активно употребляться после 1950-х годов.
Насколько я понимаю, это опровергает очень распространенный миф об оскудении языка и т.д.
Интересна и судьба отдельных слов.

Вот частота употребления слова "жопа" за последние 200 лет:



Вот что случилось со словом "любовь"


Вот слово "честь"
[Spoiler (click to open)].


Вот слово "добро":


Вот, например, изменение частоты употребления слова "амбиции" с 1920 по 2000 годы:


Кроме того, специалисты изучили, как сказывалась на использовании тех или иных слов цензура. Ученые установили, что после 1989 года словосочетание "площадь Тяньаньмень" практически перестало встречаться в литературе, изданной в Китае. То же самое произошло с именем Лев Троцкий в СССР в 1940-е годы и с именами голливудских актеров, уличенных в связях с Советским Союзом в США.

Авторы и их коллеги полагают, что новый инструмент позволит ученым исследовать слова и лингвистические тенденции, используя те же подходы и методы, что и специалисты по естественным наукам.

Источник


Tags: деградация, язык
Subscribe

Recent Posts from This Journal

promo varjag2007su october 18, 16:50 22
Buy for 100 tokens
Друзья и читатели моего блога! Вы все знаете, что все годы существования моего блога мой заработок не был связан с ЖЖ. Т.е. я не была связана и не имела никаких обязательств материального характера ни перед какими политическими силами и различными группами, кроме дружеских уз и благодарности…
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 3 comments