Не буду делать перепост, а просто дам ссылку на
lazy_frog: Открытый Корпус: пасьянс для слабаков. Пришло время снять неоднозначность.
Это про "Открытый корпус" (OpenCorpora.org) и про то, как и чем в нём можно участвовать.
PS: Для всех и каждого, но специально — для склонных к хроническому лингвизму;)
Это про "Открытый корпус" (OpenCorpora.org) и про то, как и чем в нём можно участвовать.
PS: Для всех и каждого, но специально — для склонных к хроническому лингвизму;)
no subject
Date: 2012-06-06 11:26 am (UTC)Эту границу (между синтсаксисом и морфологией) надо было где-то проводить, и решили сделать это так: всё, что разделено пробелами на письме - это уже точно синтаксис. У него будет свои единицы аннотации (мультитокены и связи между ними) и свой интерфейс для редактирования.
Тексты, попавшие в корпус, довольно шумные: в новостях очень много опечаток (почти в каждой статье), в блогах тоже достаточно разнообразных явлений. Решили брать тексты такими, какими они пришли из первоисточника. Потом добавить слой разметки опечаток. Помета для опечаток уже есть, но её пока не поставить из интерфейса. Если Вы видите очевидную ошибку, то есть смысл писать комментарий. По ним потом легко будет вернуться к исходным текстам и добавить пометы.
no subject
Date: 2012-06-06 11:31 am (UTC)no subject
Date: 2012-06-06 11:39 am (UTC)no subject
Date: 2012-06-06 11:48 am (UTC)