Ru  

Eng  
  Поиск     |     Календарь событий     |     Обратная связь    


 


 Национальный рейтинг университетов
 
 Методика
 
 Общие и частные рейтинги
 Общий рейтинг
 Образование
 Исследования
 Социализация
 Интернационализация
 Бренд
 Инновации
 
 АВТОРИТЕТНОЕ МНЕНИЕ
 
 ПАРТНЕРЫ
 
 Архив частных рейтингов
 
 Обсерватория образования и науки
 Рейтинги вузов: зарубежный опыт
 Российский опыт составления рейтингов вузов
 Полезные ссылки
 
 Аналитика: статьи, обзоры
 Отставки и назначения
 Рейтинг университетов: комментарии, статьи, обзоры
 
 Карта сайта
 




ОБРАТНАЯ СВЯЗЬ 
ФИО*
Контактный телефон или email*
Текст вашего сообщения*
 Введите код, указанный на картинке*
  СВОДНЫЙ РЕЙТИНГ     РЕЙТИНГ ПО РЕГИОНАМ     РЕЙТИНГ ПО КАТЕГОРИЯМ  
  Главная страница

 
Новости образования и науки     [ все новости ]


01.02.2018

«Властелин колец» Толкина и «Основание» Азимова: математики СПбГУ проанализировали тексты мировых бестселлеров

Исследователи Санкт-Петербургского государственного университета и Института интеллектуальной обработки информации при Колледже ОРТ имени Брауде (Израиль) предложили новое решение для компьютерного исследования авторства и стиля текстов, основанное на моделировании динамического процесса их написания. Уникальный подход позволил ученым проанализировать произведения Джона Толкина, Айзека Азимова, Артура Кларка и многих других известных писателей, увидев, каким образом менялся их авторский стиль. Результаты одной из последних работ научной группы опубликованы в журнале Pattern Recognition издательского дома Elsevier.


Для исследования математики выбрали известные литературные произведения: цикл из семи научно-фантастических романов Айзека Азимова «Основание», серию произведений Джона Голсуорси «Сага о Форсайтах», роман в трех томах Джона Толкина «Властелин колец» и другие книги. В предыдущих работах они также анализировали произведения Джоан Роулинг (цикл книг про Гарри Поттера). Интерес для исследователей представляет именно большой массив материалов, который автор создавал на протяжении долгого времени: математические методы позволяют увидеть, как менялись особенности стиля писателя.

«Работать с большими данными можно традиционно: классифицировать их, искать схожие элементы, подобия или группы, — рассказал профессор СПбГУ доктор физико-математических наук Олег Граничин. — Мы же представили новый взгляд на большие данные и предложили изучить то, каким образом они были созданы. Например, любой текст кто-то написал, наговорил или зафиксировал иным способом. Этот процесс тоже имеет свои значимые характеристики, которые проявляются, например, в авторском стиле писателя. Сегодня мы не просто изучаем то, как выглядят данные, а вскрываем характеристики процесса их создания. До нас подобным образом тексты еще никто не анализировал».

В статье исследователи сравнили три книги из цикла «Властелин колец» Джона Толкина с двумя другими его произведениями — «Хоббитом» и «Сильмариллионом». Метод достаточно точно определил, что первая повесть была написана тем же автором, который создал трилогию, а вот «Сильмариллион» заметно отличается по стилю. Это объясняется тем, что книга была издана уже после смерти автора: сборник мифов и легенд Средиземья дорабатывал сын Джона Толкина — Кристофер Толкин, который несколько лет изучал черновики отца.

«Заметны отличия стиля и в произведениях одного автора, — рассказывает аспирант кафедры системного программирования СПбГУ Наталья Кижаева. — К примеру, четвертую часть из цикла "Основание" Айзек Азимов написал спустя почти 30 лет после того, как была создана третья часть, — на этом настояли его поклонники. Наш метод позволил разделить семь книг серии на два кластера: созданные до 1953 года и после 1982. За 30 лет изменился сам автор, его окружение, его видение жизни и, как следствие, — авторский стиль».

Исходными данными для представленного в статье метода моделирования динамического процесса написания текстов являются не только последовательности символов текста и слова, а еще и последовательности N-грамм (связанных цепочек символов). Например, при N=3 вместо шести символов «_мама_» компьютерная программа, в частности, выделит в тексте триграммы «_ма», «мам», «ама», «ма_». Далее исследуемый документ делится на поддокументы, из которых формируется упорядоченная последовательность появления N-грамм, где ищется зависимость между каждым из полученных таким образом поддокументов и его «соседями». Для этого используются методы, разработанные ранее в теории обработки сигналов, выделяющие частотные характеристики в последовательностях данных. Новый метод определяет своеобразные «частотные характеристики» авторского стиля по аналогии с частотами физических волн, регистрируемых специальными приборами.

Создатели алгоритма планируют опробовать методику и на произведениях русской литературы, ведь его можно применять для анализа текстов, написанных на других языках, использующих латинский алфавит, кириллицу и арабскую графику.

Разработка, как отмечают исследователи, может помочь в анализе не только литературных произведений, но и неструктурированных текстов. Например, метод пригодится при обработке массивов данных, поступающих на диспетчерские пульты или в различные кол-центры по работе с клиентами. Израильские коллеги применяют разработку для определения искусственно сгенерированных текстов, написанных не человеком, а машиной. Например, существуют программы, фабрикующие тесты, похожие на настоящие научные статьи, которые нередко принимают для опубликования в известных журналах. Метод позволяет с большей точностью отличать такие статьи от текстов, написанных человеком.

Для информации

Авторы исследования: постдок СПбГУ кандидат физико-математических наук Константин Амелин, профессор СПбГУ доктор физико-математических наук Олег Граничин, аспирант кафедры системного программирования СПбГУ Наталья Кижаева и руководитель Института интеллектуальной обработки информации при Колледже ОРТ имени Брауде (Израиль), декан компьютерного факультета Колледжа ОРТ имени Брауде, профессор Зеев Волькович.

Сотрудники научной лаборатории по анализу и моделированию социальных процессов СПбГУ работают и над другими проектами, которые находятся на стыке гуманитарных и точных наук. В июле 2016 года с помощью уникальной технологии для анализа рукописных текстов им удалось показать, что рукопись «Аль-Хитат» («Описание Египта»), хранящаяся в Мичиганском университете, c большой вероятностью является оригиналом знаменитого труда египетского историка аль-Макризи, хотя ранее она считалась копией.

 

   
   
   
Copyright © 2018 Национальный рейтинг университетов       |       Контакты разработка: web.finmarket

Rambler Top100