@Russia_calls специально для «Кашина»
Сергей Трофимов и Александр Розенбаум имеют в репертуаре наибольший процент уникальных слов среди известных исполнителей в жанре шансон. Елена Ваенга и Стас Михайлов — наименьший.
С помощью метода token analysis мы проанализировали репертуар самых известных российских исполнителей в жанре шансон. Уникальными мы считаем любые различные слова («браток» и «братки» — разные слова). Под анализ попали 10 000 слов из случайных песен каждого исполнителя, не только собственные авторские тексты. Припевы раскрыты полностью — повторяются в тексте.
По результатам анализа выделились две ярко выраженные группы исполнителей – с уникальностью около 21% и около 33%. Можно сказать, что эти группы различаются по стилю исполняемых песен.
Первую группу и общий рейтинг возглавляет Сергей Трофимов. 47-летний москвич имеет в своём активе 3 629 уникальных слов (35,8%). Это почти на 200 слов меньше, чем у Владимира Высоцкого (38%). Ненамного от Трофима отстал Александр Розенбаум – 3508 слов (34,6%). Кроме них, в первую группу вошли: Михаил Круг (33,9%), Жека и Александр Новиков (оба – 33,4%), Борис Гребенщиков и Аркадий Северный (оба – 33,3%), Вилли Токарев (31,4%), Анатолий Полотно (31,2%), Игорь Тальков (30,6%). Григорий Лепс замыкает верхнюю группу с 2873 уникальными словами (28,7%).
Вторую группу и соответственно весь наш список исполнителей замыкает 37-летняя Елена Ваенга. Её репертуар содержит только 1801 уникальное слово (17,8%). Второй с конца – Стас Михайлов с результатом 1999 слов (19,8%). Остальной состав группы исполнителей с низкой уникальностью по возрастающей выглядит следующим образом: Денис Майданов (20,3%), Таисия Повалий (20,5%), Ирина Круг (20,8%), группа «Лесоповал» (21,5%), Любовь Успенская (23,1) и Михаил Шуфутинский (25,2%).
Также мы подсчитали корреляцию возраста исполнителей и количества уникальных слов. Она равна «0,58», то есть, несильная связь присутствует — чем старше исполнитель, тем больше уникальных слов он использует. Некоторые известные певцы, например, Рада Рай и Андрей Бандера в наш рейтинг попасть не смогли по причине нехватки объёма репертуара.
Для сравнения, 10 тысяч слов – это весь репертуар рокера Виктора Цоя (у которого уникальность составила 22,3%). Недосягаемой, в первую очередь — из-за формата, высотой для певцов является роман Пушкина «Евгений Онегин»: случайный кусок текста в нём имеет уникальность 45,1%.
>Первую группу и общий рейтинг возглавляет Сергей Трофимов. 47-летний
москвич имеет в своём активе 3 629 уникальных слов (35,8%). Это почти на
200 слов меньше, чем у Владимира Высоцкого (38%).
Зато на 100 слов больше, чем у 50 Cent (и в два раза меньше, чем у Aesop Rock).
http://rappers.mdaniels.com.s3-website-us-east-1.amazonaws.com/
Странно сравнивать певцов и пусть и роман, но в стихах. В песнях есть припевы, где слова имеют тенденцию повторяться.
Мы и их не сравниваем, это как пример, один из признанных образцов текста на русском языке.
Чуваки, вы перед тем, как смеяться, что у Жеки столько же, сколько у БГ, посмотрите тексты песни Жеки: «Побунтим в очко картишками? — Нет бабла, братва, — он им сказал, только тот, что с фиксой золотой шкерой ткнул в потёртый чемодан». Это очень богатый язык между прочим.
У кого ещё, как не у Жеки, вы найдёте выражения «Штучка-дрючка златокудрая», «горихвостка рыжая», «Что, в натуре, нафиг, не ждала», «Улыбаюсь фиксами». У него целые истории в песнях.
А можно более про метод и про уникальность слов? Как они определялись — сравнением с каким-то базовым словарем или частотой? У вас есть где-нибудь более техническая статья про это?
Очень забавно! И похоже на правду