kaganer: (Default)
[personal profile] kaganer
Не буду делать перепост, а просто дам ссылку на [livejournal.com profile] lazy_frog: Открытый Корпус: пасьянс для слабаков. Пришло время снять неоднозначность.

Это про "Открытый корпус" (OpenCorpora.org) и про то, как и чем в нём можно участвовать.

PS: Для всех и каждого, но специально — для склонных к хроническому лингвизму;)

Date: 2012-06-06 10:19 am (UTC)
From: [identity profile] lazy-frog.livejournal.com
спасибо ;)
Мы старались сделать так, чтобы могли участвовать все, у кого родной русский.

Date: 2012-06-06 10:45 am (UTC)
ext_593754: (Default)
From: [identity profile] kaganer.livejournal.com
Да, мне показалось, что всё просто.

Кстати, я вот попробовал сделать ед/мн число, и столкнулся с тем, что в этот пул попадают устойчивые обороты "таким образом", "тем самым" - которые, формально, должны были быть выделены запятыми, но в исходном тексте этого не было сделано, или были пробелы перед/после запятой, и разметка, видимо, сбойнула.

Что нужно делать в этом случае? Я сейчас помечаю тегом "Другое" и пишу комментарий. Кстати, почему-то нигде не видно моих комментариев, а в общем журнале последний комментарий датируется январём - это так и задумано?
Edited Date: 2012-06-06 11:21 am (UTC)

Date: 2012-06-06 11:26 am (UTC)
From: [identity profile] lazy-frog.livejournal.com
Надо размечать отдельное слово. Обороты, сложные предлоги и т.д. будем собирать на уровне синтаксиса.

Эту границу (между синтсаксисом и морфологией) надо было где-то проводить, и решили сделать это так: всё, что разделено пробелами на письме - это уже точно синтаксис. У него будет свои единицы аннотации (мультитокены и связи между ними) и свой интерфейс для редактирования.

Тексты, попавшие в корпус, довольно шумные: в новостях очень много опечаток (почти в каждой статье), в блогах тоже достаточно разнообразных явлений. Решили брать тексты такими, какими они пришли из первоисточника. Потом добавить слой разметки опечаток. Помета для опечаток уже есть, но её пока не поставить из интерфейса. Если Вы видите очевидную ошибку, то есть смысл писать комментарий. По ним потом легко будет вернуться к исходным текстам и добавить пометы.

Date: 2012-06-06 11:31 am (UTC)
ext_593754: (Default)
From: [identity profile] kaganer.livejournal.com
Хорошо, в данном случае какой вариант выбирать? "Другое"? или "Единственное"?

Date: 2012-06-06 11:39 am (UTC)
From: [identity profile] lazy-frog.livejournal.com
"Единственное"

Date: 2012-06-06 11:48 am (UTC)

Date: 2012-06-06 11:36 am (UTC)
From: [identity profile] lazy-frog.livejournal.com
Ваши комментарии видны модераторам и Вам ( http://opencorpora.org/tasks.php?act=my&pool_id=4 ), но это не комментарии к разметке, а комментарии к ответам в пуле. Данные из пулов попадут в разметку после того, как пул полностью разметят (в данном случае каждый вопрос разметят три человека), и его посмотрит модератор.

Date: 2014-05-16 02:56 pm (UTC)
From: [identity profile] blog.songation.ru (from livejournal.com)
Огромное cпасибо.

Profile

kaganer: (Default)
kaganer

April 2017

S M T W T F S
      1
234 5678
9101112131415
16171819202122
23242526272829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 4th, 2026 02:44 am
Powered by Dreamwidth Studios