|
|
Приглашение к участиюДорогие коллеги! В рамках конференции "ДИАЛОГ 2010", которая состоится 26-30 мая 2010 г. в ближнем Подмосковье, планируется провести круглый стол по оценке методов автоматического морфологического анализа русского языка. Предполагается, что этот проект положит начало ежегодному Форуму, целью которого является оценка методов и алгоритмов лингвистического анализа разного уровня. Последующие мероприятия могут быть посвящены синтаксическому и семантическому анализу, фактографии, анализу звучащей речи, а также лексикографическим ресурсам и мн. др. Высокая цель Форума - улучшение состояния науки в области автоматической обработки текстов. Инициатива направлена на создание среды, в которой научные, научно-производственные, коммерческие и т.п. разработки могли бы проходить независимую экспертизу. В мире проведение мероприятий подобного рода стало стандартом (ср. проекты CLEF, Morpho Challenge, AMALGAM, GRACE, EVALITA, SEMEVAL и др.), в России также появляются аналоги (например, семинар оценки методов информационного поиска РОМИП), однако форум, где основное внимание уделяется собственно лингвистическому анализу текста, в русскоязычном сообществе проводится впервые. Мы решили начать с морфологического анализа текста, так как эта область является, с одной стороны, освоенной и массовой, а с другой стороны, специфичной для русского языка. Несмотря на то, что морфоанализ представляет собой традиционную и хорошо развитую отрасль автоматической обработки текста, где в большинстве разработок используется достаточно схожий набор алгоритмов и словарных ресурсов, все время появляются новые лингвистические процессоры, в то время как некоторые старые отмирают или же, напротив, дорабатываются и развиваются с учетом новых задач. Это странное отсутствие "самого лучшего" и универсального процессора связано с тем, что для решения разных задач требуются разные парсеры. В результате мы имеем рынок компьютерных решений, отличающихся своими функциональными возможностями, детальностью категоризации, форматами и т.д. Различается также и подход к знаниям: одни алгоритмы опираются на готовые словари большого объема (ср., например, различные клоны Грамматического словаря А.А.Зализняка), а другие ориентируются на компиляцию автоматических словарей на базе большого тренировочного корпуса. В декабре мы открываем дискуссию о принципах и формате проведения Форума, а также объявляем сбор заявок на участие. Минимальные требования к заявленным программам - определение исходной формы слова и его части речи в русскоязычных текстах. Прочие параметры (детальность грамматического разбора, инвентарь категорий, разрешение грамматической омонимии, работа с другими языками, помимо русского, (не)задействованные словарные ресурсы, формат выдачи, интерфейс, требования к операционной системе и т.д.) могут быть любые. На предварительном этапе, в феврале 2010 г., силами участников будет собрана большая тестовая коллекция неразмеченных текстов, которую затем участники должны будут в короткие сроки разметить и сконвертировать в согласованный формат. Особенности процедуры должны снизить вероятность адаптации конкретного парсера к той или иной коллекции, исключить ручное "подкручивание" результатов и минимизировать расходы на проведение экспертизы. По примеру РОМИП оценку предполагается проводить по нескольким независимым дисциплинам (дорожкам). Возможные варианты: -- "ЛЕММАТИЗАЦИЯ" - выдача правильной леммы номинации: ---- полнота (наличие правильной леммы среди выданных) ---- F1-мера (F1 = 2*P*R(P+R)) вариантов причем как в целом, так и по отдельным классам -- "POS" - правильное определение части речи -- "МОРФОЛОГИЯ" - правильное извлечение грамматической информации -- "РЕДКИЕ СЛОВА" - правильная лемматизация и грамматическая характеристика так называемых "несловарных слов". -- "КОЛЛЕКЦИИ" - качество разметки текстов особого вида, например, автоматически распознанных сканов и т.п. и т. п. Участники могут предложить свои варианты дорожек. Также совместно участники согласуют форматы разметки, а также параметры оценок. Экспертиза результатов будет проведена в марте 2010 г., для этого из тестовой коллекции будут случайным образом выбраны контрольные фрагменты, и команда независимых аннотаторов произведет разметку этого "золотого стандарта" в соответствии с установленным форматом. После подведения этогов экспертизы "золотой стандарт" будет доступен всем участникам. Результаты оценки будут представлены в рамках круглого стола на конференции "ДИАЛОГ 2010" с участием авторов программ и экспертов. Объявлению результатов будет предшествовать обзор разнообразных решений, существующих на рынке морфологического анализа. Помимо этого, предполагается провести обмен мнениями по сложным вопросам морфологического анализа, например: --- морфологический анализ "грязных" текстов (с опечатками, неубранными переносами, плохо форматированными таблицами и др.) --- автоматическое исправление орфографии --- трактовка "несловарных слов" --- глобальные вопросы о смысле и глубине "правильного" морфологического анализа для решения различных задач (например, всегда ли неправильный анализ влечет ошибку в поиске, какова специфика категоризации частей речи для задач поиска и задач лексикографии и т.д.) К участию в Форуме приглашаются все заинтересованные лица - как разработчики программ, так и исследователи, занимающиеся проблемами русской морфологии и автоматической обработки текста. Все участники совместно обсуждают задачи Форума, список дисциплин, в которых будет проводиться оценка алгоритмов, процедуру и параметры оценки. Организаторы обеспечивают независимость оценки - гласность процедуры и анонимность данных при проведении экспертизы. Форум имеет принципиально некоммерческую направленность. Стороны, участвующие в соревновании, берут на себя обязательство не использовать наборы данных и результаты тестирования в коммерческих и маркетинговых целях без согласия авторов. Формы участия: - участие программ-парсеров предполагает предоставление разработчиками в установленные сроки результатов разметки коллекции текстов в согласованном формате; - предоставление фрагментов неразмеченных данных (текстов разной направленности, происхождения, формата и т.д.) для составления разнородной тестовой коллекции большого объема; - создание на основе этой коллекции "золотого стандарта" для сравнительной оценки результатов работы парсеров; обсуждение формата его разметки; - составление списка дисциплин (дорожек) и номинаций, по которым будут оцениваться методы; - хард- и софт-поддержка тестирования; - техническая и содержательная экспертиза результатов; - обзор результатов соревнования в виде публикации или выступления на конференции "Диалог 2010". Заявки на участие принимаются до 20 февраля 2010 г. по адресу lingtecheval at yahoo.com. В заявке должно быть указано: 1) название морфологического парсера (на русском и английском языках); 2) автор/организация и контактная информация (email); 3) краткая (1 абзац) характеристика парсера; опционально - ссылка на online-ресурс с подробным описанием проекта; 4) предполагаемые дисциплины, в которых хотелось бы оценить результаты работы алгоритма. Исследователи, не являющиеся авторами программ, могут прислать по адресу lingtecheval at yahoo.com заявку на участие в экспертизе. В заявке следует указать имя и контактную информацию (email), а также обозначить форму своего участия. Участвовать в выработке правил и методов проведения соревнования и следить за обсуждением вы можете, подписавшись на список рассылки или непосредственно на сайте http://tech.groups.yahoo.com/group/ru_eval/. Даты: Прием заявок на участие: до 20 февраля 2010 г. Обсуждение условий соревнования, составление наборов данных: до 25 февраля 2010 г. Рассылка данных: 28 февраля 2010 г. Проведение соревнования: 1 - 10 марта 2010 г. Экспертиза результатов: 10 - 31 марта 2010 г. Результаты оценки будут объявлены на конференции "Диалог 2010". Сайт конференции "Диалог 2010" http://www.dialog-21.ru/dialog2010/. Прием заявок на участие в соревновании: lingtecheval at yahoo.com. Сайт и почтовая рассылка http://tech.groups.yahoo.com/group/ru_eval/. |