Форум "Оценка методов автоматического анализа текста:
морфологические парсеры русского языка"

 Приглашение к участию 
 Новости 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Участники 
 Дорожки 
 Экспертиза 
 Материалы Форума 
  Тестовые коллекции 
  Таблицы оценок 
 Сроки проведения 
 Публикации 
 FAQ 
 Форум и рассылка 
 
 Диалог 2010 

Приглашение к участию


Дорогие коллеги!

В рамках конференции "ДИАЛОГ 2010", которая состоится 26-30 мая 2010 г. в ближнем Подмосковье, планируется провести круглый стол по оценке методов автоматического морфологического анализа русского языка. Предполагается, что этот проект положит начало ежегодному Форуму, целью которого является оценка методов и алгоритмов лингвистического анализа разного уровня. Последующие мероприятия могут быть посвящены синтаксическому и семантическому анализу, фактографии, анализу звучащей речи, а также лексикографическим ресурсам и мн. др. Высокая цель Форума - улучшение состояния науки в области автоматической обработки текстов.

Инициатива направлена на создание среды, в которой научные, научно-производственные, коммерческие и т.п. разработки могли бы проходить независимую экспертизу. В мире проведение мероприятий подобного рода стало стандартом (ср. проекты CLEF, Morpho Challenge, AMALGAM, GRACE, EVALITA, SEMEVAL и др.), в России также появляются аналоги (например, семинар оценки методов информационного поиска РОМИП), однако форум, где основное внимание уделяется собственно лингвистическому анализу текста, в русскоязычном сообществе проводится впервые.

Мы решили начать с морфологического анализа текста, так как эта область является, с одной стороны, освоенной и массовой, а с другой стороны, специфичной для русского языка. Несмотря на то, что морфоанализ представляет собой традиционную и хорошо развитую отрасль автоматической обработки текста, где в большинстве разработок используется достаточно схожий набор алгоритмов и словарных ресурсов, все время появляются новые лингвистические процессоры, в то время как некоторые старые отмирают или же, напротив, дорабатываются и развиваются с учетом новых задач. Это странное отсутствие "самого лучшего" и универсального процессора связано с тем, что для решения разных задач требуются разные парсеры. В результате мы имеем рынок компьютерных решений, отличающихся своими функциональными возможностями, детальностью категоризации, форматами и т.д. Различается также и подход к знаниям: одни алгоритмы опираются на готовые словари большого объема (ср., например, различные клоны Грамматического словаря А.А.Зализняка), а другие ориентируются на компиляцию автоматических словарей на базе большого тренировочного корпуса.

В декабре мы открываем дискуссию о принципах и формате проведения Форума, а также объявляем сбор заявок на участие.

Минимальные требования к заявленным программам - определение исходной формы слова и его части речи в русскоязычных текстах. Прочие параметры (детальность грамматического разбора, инвентарь категорий, разрешение грамматической омонимии, работа с другими языками, помимо русского, (не)задействованные словарные ресурсы, формат выдачи, интерфейс, требования к операционной системе и т.д.) могут быть любые.

На предварительном этапе, в феврале 2010 г., силами участников будет собрана большая тестовая коллекция неразмеченных текстов, которую затем участники должны будут в короткие сроки разметить и сконвертировать в согласованный формат. Особенности процедуры должны снизить вероятность адаптации конкретного парсера к той или иной коллекции, исключить ручное "подкручивание" результатов и минимизировать расходы на проведение экспертизы.

По примеру РОМИП оценку предполагается проводить по нескольким независимым дисциплинам (дорожкам). Возможные варианты:
-- "ЛЕММАТИЗАЦИЯ" - выдача правильной леммы номинации:
  ---- полнота (наличие правильной леммы среди выданных)
  ---- F1-мера (F1 = 2*P*R(P+R)) вариантов
  причем как в целом, так и по отдельным классам
-- "POS" - правильное определение части речи
-- "МОРФОЛОГИЯ" - правильное извлечение грамматической информации
-- "РЕДКИЕ СЛОВА" - правильная лемматизация и грамматическая
характеристика так называемых "несловарных слов".
-- "КОЛЛЕКЦИИ" - качество разметки текстов особого вида, например, автоматически распознанных сканов и т.п.
и т. п. Участники могут предложить свои варианты дорожек. Также совместно участники согласуют форматы разметки, а также параметры оценок.

Экспертиза результатов будет проведена в марте 2010 г., для этого из тестовой коллекции будут случайным образом выбраны контрольные фрагменты, и команда независимых аннотаторов произведет разметку этого "золотого стандарта" в соответствии с установленным форматом. После подведения этогов экспертизы "золотой стандарт" будет доступен всем участникам.

Результаты оценки будут представлены в рамках круглого стола на конференции "ДИАЛОГ 2010" с участием авторов программ и экспертов. Объявлению результатов будет предшествовать обзор разнообразных решений, существующих на рынке морфологического анализа. Помимо этого, предполагается провести обмен мнениями по сложным вопросам морфологического анализа, например: --- морфологический анализ "грязных" текстов (с опечатками, неубранными переносами, плохо форматированными таблицами и др.) --- автоматическое исправление орфографии --- трактовка "несловарных слов" --- глобальные вопросы о смысле и глубине "правильного" морфологического анализа для решения различных задач (например, всегда ли неправильный анализ влечет ошибку в поиске, какова специфика категоризации частей речи для задач поиска и задач лексикографии и т.д.)

К участию в Форуме приглашаются все заинтересованные лица - как разработчики программ, так и исследователи, занимающиеся проблемами русской морфологии и автоматической обработки текста. Все участники совместно обсуждают задачи Форума, список дисциплин, в которых будет проводиться оценка алгоритмов, процедуру и параметры оценки. Организаторы обеспечивают независимость оценки - гласность процедуры и анонимность данных при проведении экспертизы. Форум имеет принципиально некоммерческую направленность. Стороны, участвующие в соревновании, берут на себя обязательство не использовать наборы данных и результаты тестирования в коммерческих и маркетинговых целях без согласия авторов.

Формы участия: - участие программ-парсеров предполагает предоставление разработчиками в установленные сроки результатов разметки коллекции текстов в согласованном формате; - предоставление фрагментов неразмеченных данных (текстов разной направленности, происхождения, формата и т.д.) для составления разнородной тестовой коллекции большого объема; - создание на основе этой коллекции "золотого стандарта" для сравнительной оценки результатов работы парсеров; обсуждение формата его разметки; - составление списка дисциплин (дорожек) и номинаций, по которым будут оцениваться методы; - хард- и софт-поддержка тестирования; - техническая и содержательная экспертиза результатов; - обзор результатов соревнования в виде публикации или выступления на конференции "Диалог 2010".

Заявки на участие принимаются до 20 февраля 2010 г. по адресу lingtecheval at yahoo.com.

В заявке должно быть указано:
1) название морфологического парсера (на русском и английском языках);
2) автор/организация и контактная информация (email);
3) краткая (1 абзац) характеристика парсера; опционально - ссылка на online-ресурс с подробным описанием проекта;
4) предполагаемые дисциплины, в которых хотелось бы оценить результаты работы алгоритма.

Исследователи, не являющиеся авторами программ, могут прислать по адресу lingtecheval at yahoo.com заявку на участие в экспертизе. В заявке следует указать имя и контактную информацию (email), а также обозначить форму своего участия.

Участвовать в выработке правил и методов проведения соревнования и следить за обсуждением вы можете, подписавшись на список рассылки или непосредственно на сайте http://tech.groups.yahoo.com/group/ru_eval/.

Даты:
Прием заявок на участие: до 20 февраля 2010 г.
Обсуждение условий соревнования, составление наборов данных: до 25 февраля 2010 г.
Рассылка данных: 28 февраля 2010 г.
Проведение соревнования: 1 - 10 марта 2010 г.
Экспертиза результатов: 10 - 31 марта 2010 г.
Результаты оценки будут объявлены на конференции "Диалог 2010".



Сайт конференции "Диалог 2010" http://www.dialog-21.ru/dialog2010/.
Прием заявок на участие в соревновании: lingtecheval at yahoo.com.
Сайт и почтовая рассылка http://tech.groups.yahoo.com/group/ru_eval/.