Twitter помог обнаружить неизвестные «супердиалекты» испанского языка

g9faHsY8w4Q1

Геолокация твитов позволила создать карту локальных диалектов и наречий.

На фото: распределение лексических вариантов для слов «компьютер» и «автомобиль» Изображение: Bruno Gon?alves, David S?nchez

Коллектив ученых из Испании и Франции во время лингвистического анализа испаноязычных сообщений в Twitter обнаружил наличие «супердиалектов» городского и сельского населения. Данные об исследовании приводятся в препринте авторов.

3 aQaVVQt1s1

Карта частоты испаноязычных твитов Изображение: Bruno Gon?alves, David S?nchez

Ученые создали базу всех твитов на испанском языке за последние два года, у которых присутствовала геолокационная метка. Полученные 50 миллионов записей анализировались на наличие словесных форм, специфичных для того или иного испанского диалекта. К примеру, в испанском языке есть 6 слов, обозначающих понятие «автомобиль», 11 слов для «бюстгалтера», 6 слов для «компьютера»; каждое из слов специфично для определенного диалекта. По наличию этих и ряда других слов удалось собрать 750 тысяч записей. Абсолютное большинство твитов было сделано в Испании, Латинской Америке и некоторых районах США. Эти регионы исследователи разбили сеткой с ячейкой 0,25 на 0,25 градуса (порядка 600 квадратных километров на экваторе) и соотнесли полученное разбиение с геолокационными метками.

По результатам анализа ученые сделали сразу два важных вывода. Во-первых, после применение алгоритмов машинного обучения оказалось, что вся база разбивается на два кластера, причем прослеживается сильная корреляция между принадлежностью к одному из кластеров и плотностью населения в данном регионе. По мнению ученых, эти данные говорят о том, что можно выделить два так называемых «супердиалекта», характерных соответственно для городского населения и для жителей сельской местности.

Природа такого разделения, рассуждают авторы, вероятно связана с тем, что в крупных городах жители контактируют с людьми из самых разных культур и социальных слоев, в результате чего диалекты перемешиваются, тогда как в небольших поселениях наречие остается более консервативным. Эти выводы дальше подтверждаются тем фактом, что кластер, соответствующий сельскому населению, удалось разбить еще на 6 подгрупп, тогда как «городской» кластер дальше не делился.

p6nVr5WWTgI1

Диалекты испанского в Северной и Южной Америках, синей врезкой показана Испания. Изображение: Bruno Gon?alves, David S?nchez

Из этого более глубокого разбиения ученые сделали второй важный вывод. Из 6 подгрупп 3 оказались географически обособлены друг от друга: это Испания, Центральная Америка и южная половина Южной Америки. Авторы работы отмечают удивительное совпадение этих данных с географией расселения испанцев во время колонизации Америки: вначала колонии строили в центральном регионе и лишь затем, много позже, была заселена южная часть континента. Таким образом, население этих южных колоний было в большей степени обособлено, что способствовало формированию оригинального местного диалекта.