Технология извлечения событий из текстов на русском языке
Краткая аннотация
В рамках проект создается комплекс средств на основе различных подходов (knowledge-based, data-based, active learning) для извлечения широкого класса именованных сущностей и событий из текстов на русском языке. Реализуются как классические методы, так и оригинальные. Важным аспектом является то, что и система, и весь комплекс сопутствующих средств и технологий (программные коды, словари, размеченные корпусы текстов, инструкции по разметке и т.д.) будут открытыми и допускать тестирование. Мы рассчитываем достичь уровня эффективности, сопоставимого с англоязычными системами. В ходе реализации проекта осуществляется широкая кооперация с российскими группами, работающими в области извлечения информации, с целью стандартизации различных аспектов проблемы.
Наличие грантов, иной финансовой поддержки
- Грант РФФИ
- Грант Фонда Династия
- Грант Фонда Бортника
- Контракт с HP
- Бюджетная тема в Институте информатики АН РТ
Основные участники
Соловьев В.Д. — руководитель проекта
Гареев Р.М. — контактное лицо, gareev-rm@yandex.ru
Иванов В.В.
Статьи, постеры, доклады об этом проекте
- R. Gareev, M. Tkachenko, V. Solovyev, A. Simanovsky, V. Ivanov. Introducing Baselines for Russian Named Entity Recognition. LNCS. V.7816. 2013. P.329-342
http://link.springer.com/content/pdf/10.1007%2F978-3-642-37247-6_27.pdf
- Solovyev V., Ivanov V., Gareev R., Serebryakov S., Vassilieva N. Dictionary and pattern-based recognition of organization names in Russian news texts. HP Laboratories Technical report. HPL-2013-14. 2013. http://www.hpl.hp.com/techreports/2013/HPL-2013-14.html
- Соловьев В.Д. Технологии извлечения из текстов информации о событиях в реальном времени. Нейрокомпьютеры: разработка, применение. №1, 2013, с. 23-30. http://www.radiotec.ru/catalog.php?cat=jr7&art=12341
- Solovyev V., Ivanov V., Gareev R., Serebryakov S., Vassilieva N. Methodology for Building Extraction Templates for Russian Language in Knowledge-Based IE Systems.
HP Laboratories Technical report. HPL-2012-211. http://www.hpl.hp.com/techreports/2012/HPL-2012-211.html
- Соловьев В.Д., Иванов В.В., Гареев Р.М., Серебряков С.В., Васильева Н.С. Методология создания шаблонов для русского языка в knowledge-based системах IE. Труды конф. Интернет и современное общество. СПб.: Изд. СПбГУ. 2012. http://kpfu.ru/publication?p_id=47942
- Solovyev V., Ivanov V., Gareev R. Dictionary and pattern-based recognition of organization names in Russian news texts. AMERProcedia Information Technology and Computer Science. (в печати)
План развития (roadmap, future work)
Предполагается следующие основные направления развития проекта:
- создание оценочного корпуса, соответствующего международным стандартам (рекомендации ACE)
- разработка и реализация новой, близкой к active learning концепции, направленной на ускорение создания базы шаблонов для knowledge-based системы с целью снижения трудозатрат эксперта
- реализация data-based система извлечения событий c подбором и оптимизацией признаков для русского языка
- сравнительный анализ двух реализаций для широкого класса типов событий.