Технология извлечения событий из текстов на русском языке

Краткая аннотация

В рамках проект создается комплекс средств на основе различных подходов (knowledge-based, data-based, active learning) для извлечения широкого класса именованных сущностей и событий из текстов на русском языке. Реализуются как классические методы, так и оригинальные. Важным аспектом является то, что и система, и весь комплекс сопутствующих средств и технологий (программные коды, словари, размеченные корпусы текстов, инструкции по разметке и т.д.) будут открытыми и допускать тестирование. Мы рассчитываем достичь уровня эффективности, сопоставимого с англоязычными системами. В ходе реализации проекта осуществляется широкая кооперация с российскими группами, работающими в области извлечения информации, с целью стандартизации различных аспектов проблемы.

Наличие грантов, иной финансовой поддержки

Основные участники

Соловьев В.Д. — руководитель проекта

Гареев Р.М. — контактное лицо, gareev-rm@yandex.ru

Иванов В.В.

Статьи, постеры, доклады об этом проекте

  1. R. Gareev, M. Tkachenko, V. Solovyev, A. Simanovsky, V. Ivanov. Introducing Baselines for Russian Named Entity Recognition. LNCS. V.7816. 2013. P.329-342 http://link.springer.com/content/pdf/10.1007%2F978-3-642-37247-6_27.pdf
  2. Solovyev V., Ivanov V., Gareev R., Serebryakov S., Vassilieva N. Dictionary and pattern-based recognition of organization names in Russian news texts. HP Laboratories Technical report. HPL-2013-14. 2013. http://www.hpl.hp.com/techreports/2013/HPL-2013-14.html
  3. Соловьев В.Д. Технологии извлечения из текстов информации о событиях в реальном времени. Нейрокомпьютеры: разработка, применение. №1, 2013, с. 23-30. http://www.radiotec.ru/catalog.php?cat=jr7&art=12341
  4. Solovyev V., Ivanov V., Gareev R., Serebryakov S., Vassilieva N. Methodology for Building Extraction Templates for Russian Language in Knowledge-Based IE Systems. HP Laboratories Technical report. HPL-2012-211. http://www.hpl.hp.com/techreports/2012/HPL-2012-211.html
  5. Соловьев В.Д., Иванов В.В., Гареев Р.М., Серебряков С.В., Васильева Н.С. Методология создания шаблонов для русского языка в knowledge-based системах IE. Труды конф. Интернет и современное общество. СПб.: Изд. СПбГУ. 2012. http://kpfu.ru/publication?p_id=47942
  6. Solovyev V., Ivanov V., Gareev R. Dictionary and pattern-based recognition of organization names in Russian news texts. AMERProcedia Information Technology and Computer Science. (в печати)

План развития (roadmap, future work)

Предполагается следующие основные направления развития проекта: