Не буду делать перепост, а просто дам ссылку на
lazy_frog: Открытый Корпус: пасьянс для слабаков. Пришло время снять неоднозначность.
Это про "Открытый корпус" (OpenCorpora.org) и про то, как и чем в нём можно участвовать.
PS: Для всех и каждого, но специально — для склонных к хроническому лингвизму;)
Это про "Открытый корпус" (OpenCorpora.org) и про то, как и чем в нём можно участвовать.
PS: Для всех и каждого, но специально — для склонных к хроническому лингвизму;)
no subject
Date: 2012-06-06 10:19 am (UTC)Мы старались сделать так, чтобы могли участвовать все, у кого родной русский.
no subject
Date: 2012-06-06 10:45 am (UTC)Кстати, я вот попробовал сделать ед/мн число, и столкнулся с тем, что в этот пул попадают устойчивые обороты "таким образом", "тем самым" - которые, формально, должны были быть выделены запятыми, но в исходном тексте этого не было сделано, или были пробелы перед/после запятой, и разметка, видимо, сбойнула.
Что нужно делать в этом случае? Я сейчас помечаю тегом "Другое" и пишу комментарий. Кстати, почему-то нигде не видно моих комментариев, а в общем журнале последний комментарий датируется январём - это так и задумано?
no subject
Date: 2012-06-06 11:26 am (UTC)Эту границу (между синтсаксисом и морфологией) надо было где-то проводить, и решили сделать это так: всё, что разделено пробелами на письме - это уже точно синтаксис. У него будет свои единицы аннотации (мультитокены и связи между ними) и свой интерфейс для редактирования.
Тексты, попавшие в корпус, довольно шумные: в новостях очень много опечаток (почти в каждой статье), в блогах тоже достаточно разнообразных явлений. Решили брать тексты такими, какими они пришли из первоисточника. Потом добавить слой разметки опечаток. Помета для опечаток уже есть, но её пока не поставить из интерфейса. Если Вы видите очевидную ошибку, то есть смысл писать комментарий. По ним потом легко будет вернуться к исходным текстам и добавить пометы.
no subject
Date: 2012-06-06 11:31 am (UTC)no subject
Date: 2012-06-06 11:36 am (UTC)no subject
Date: 2012-06-06 11:39 am (UTC)no subject
Date: 2012-06-06 11:48 am (UTC)no subject
Date: 2014-05-16 02:56 pm (UTC)