?

Log in

No account? Create an account

Previous Entry | Next Entry

Русский язык

Омонимы — разные по значению, но одинаковые по звучанию и написанию слова. Например, "ключ" (от замка) и "ключ" (источник воды). Омонимия есть во всех языках и представляет большую проблему при попытках научить компьютер понимать смысл текста. Человек же чаще всего её просто не замечает.

Понимаешь шутку на картинке? Докажи, что ты человек, и помоги машине научиться снимать грамматическую омонимию.

Эту работу мы делаем в рамках проекта Открытый корпус, в котором создаётся свободно доступная база данных современных текстов на русском языке, и проводится их лингвистическая разметка. Мы просим помочь нам закончить морфологический (грамматический) слой разметки этих текстов. Для того, чтобы принять в этом участие, не нужно быть лингвистом. Достаточно, чтобы русский язык был для тебя родным. Нужно просто следовать инструкциям и дочитать этот пост до конца ;)

Зачем нужны корпуса текстов?

Для разработки методов компьютерного понимания текста и оценки качества их работы. Google Translate, Siri и другие интересные вещи создаются с использованием корпусов текстов. Больше свободно доступных данных - больше классных продуктов и сервисов, умеющих понимать естественный язык. Мы приближаем будущее!

Зачем нужен ещё один корпус? Чем этот отличается от всех остальных?

Открытый Корпус доступен бесплатно и в полном объёме на условиях лицензии CC-BY-SA. Это значит, что его можно использовать, не спрашивая ни у кого разрешения и включать в состав свободного программного обеспечения. Не обязательно быть гигантом IT, чтобы заниматься обработкой текста. У каждого студента будет достаточно данных, чтобы попробовать что-то построить.

Сколько от меня потребуется времени?

5 минут на прочтение инструкции + столько, сколько ты сможешь терпеть наше занудство. В любой момент можно остановиться. Даже одно выполненное задание будет полезно. Потом всегда можно вернуться снова.

Так, а сколько у вас заданий?

Осталось около 2 миллионов. Столько же мы сделали за прошедшие три года. Работы много. Зови друзей! ;)

Какой тип заданий лучше выбрать?

Выбирай те задания, которые тебе понятны, где ты сможешь допускать меньше ошибок.

Что будет, если я ошибусь?

Ничего страшного не случится. Каждое слово размечает несколько человек. Результат проверяет модератор. Скорее всего мы сможем найти твою ошибку, и в корпус попадут только правильные ответы. Мы просим тебя быть внимательным и читать инструкции для каждого типа заданий.

Смогу ли я увидеть свои ошибки?

Да, после того, как задания просмотрит модератор, ты сможешь увидеть его решение. Подробная статистика видна в разделе "Мои успехи", доступном из меню в правом верхнем углу.

Я готов! Как принять участие в разметке?

Следуй инструкции: http://opencorpora.org/tasks.php

Мне интересно. Я хочу подробностей!

Прочитай нашу статью на Хабре: http://habrahabr.ru/post/152799/
Потом все остальные статьи: http://opencorpora.org/?page=publications
Про лингвистические корпуса в Википедии: https://ru.wikipedia.org/wiki/Корпусная_лингвистика
Подписывайся: https://vk.com/opencorpora
FAQ: http://opencorpora.org/?page=faq

Как ещё я могу помочь?

Расскажи об этом друзьям.
Серьёзно. Чем больше людей подключится, тем быстрее мы сможем отдать сообществу готовый корпус.

Если сегодня придёт 10000 человек и каждый сделает по 200 заданий (это занимает 15 минут), то завтра дело будет сделано. Нам останется только отмодерировать результаты.

Profile

lophyra
lophyra

Latest Month

August 2015
S M T W T F S
      1
2345678
9101112131415
16171819202122
23242526272829
3031     

Tags

Powered by LiveJournal.com
Designed by Tiffany Chow