Викилуғат: Тафовут байни таҳрирҳо

Content deleted Content added
AryanSogd (баҳс | ҳисса)
AryanSogd (баҳс | ҳисса)
Сатри 50:
[[Акс:Relative distribution of Russian words in ruwikt and enwikt 2011.jpg|thumb|240px|Миқдори вожаҳои русӣ дар Викилуғат (аз чап) ва дар Викилуғати инглисӣ (аз рост){{sfn|Смирнов и диг.|2012}}, маълумоти соли 2011]]
Аз моҳи августи соли 2008 сар карда Викилуғати русӣ аз рӯйи ҳаҷми маълумотҳо дар байни Викилуғатҳо ба ҷойи якум баромад.<ref>[http://stats.wikimedia.org/wiktionary/RU/TablesDatabaseSize.htm Омори викилуғатҳо: Ҳаҷми маълумот]</ref>. Дар айни ҳол миқдори мақолаҳо дар Викилуғати русӣ начандон калон аст<ref>[http://stats.wikimedia.org/wiktionary/RU/Sitemap.htm Омори викилуғатҳо]</ref>.Ин боз аз он хотир аст, ки лоиҳаҳои назар ба Викилуғати русӣ мақолаи зиёд дошта, мақолаҳояшон метавонанд ба ҳисоби миёна ҳаҷман хурдтар бошанд, ба ин аз сомонаи омор боварӣ ҳосил кардан мумкин аст<ref>[http://stats.wikimedia.org/wiktionary/RU/TablesArticlesBytesPerArticle.htm Омори викилуғатҳо: Байтҳо барои мақола]</ref>Ғайр аз ин дар муқоиса бо қисматҳои дигари Wiktionary Википедияи русӣ дар худ маводи зиёди ёридиҳандаро дорад, чун таблитсаи маълумот, рӯйхати басомади вожаҳо (дар муқоиса бо мақолаҳои луғатҳо, ки номҳои зиёдро дороянд, чунин маълумот дар қисматҳои «Замимаҳо», «Индексҳо» ва ғ. ҷойгир мешаванд.) Миқдори зиёди мақолаҳо дар Викилуғати русӣ ҳанӯз ҳам мақола-қолабҳо мебошанд, ки онҳоро ботҳо офаридаанд. Гарчанде баъзан қисми зиёди онҳо зери танқиданд, якчанд бартариҳо дида мешаванд. Якум, вай барои тезтар навишта шудани мақола ёрӣ медиҳанд, чун баъзе маълумотҳо аллакай ворид шудаанд. Дуюм, сохти мақолаҳо стандартӣ мешаванд. Аз ҳисоби дар ҷояш истифода бурдани шаблонҳо (одатан дарҳол аз тарафи ботҳо ба таври автоматӣ ҳангоми офаридани мақола гузошта мешаванд), шароит пайдо мешавад, ки мутамарказона ва якбора шакли зоҳирии якчанд мақола иваз карда шавад. Мавҷудияти миқдори зиёди шаблонҳо низ ба таҳрири автоматии минбаъдаи мақолаҳои аллакай вироишшуда ёрӣ медиҳад - масалан, бо роҳи автоматӣ — тарҷума аз рўйи луғати пешакӣ тайёркарда (азбаски ба ботҳо сохти маӄолаҳоро дарк кардан аз рӯйи лоиҳаҳои махсуси кашида назар ба забони инсонӣ осонтар аст). Хусусияти фарӄунандаи Викилуғати русӣ ин консепсияи таҳияшудаи рушд мебошад. Аз хотири консепсияи коркардшуда ва истифодаи васеи шаблонҳо мақолаҳо дар Викилуғати русӣ нисбат ба лоиҳаҳои дигар якхела ҳастанд (асосан миқдори қисматҳо, пайдарҳамии онҳо ва таҳияи ҳар як қисмат ба як тартиб омадаанд).
== Применение викисловарей в задачах автоматической обработки текста и речи ==
Для использования лексикографических данных викисловарей при решении задач [[Обработка естественного языка|автоматической обработки текста и речи]] — необходимо преобразовать тексты словарных статей ([[слабоструктурированные данные]]{{sfn|Meyer and Gurevych|2012|p=140}}) в машиночитаемый формат{{sfn|Zesch et al|2008|p=4|loc=Figure 1}}{{sfn|Meyer and Gurevych|2010|p=40}}{{sfn|Крижановский, Преобразование|2010|с=1}}.
Извлечение данных из викисловарей является непростой задачей. Можно выделить следующие трудности{{sfn|Hellmann and Auer|2013|p=302|loc=стр. 16 в PDF|name=HellmannAuer2013}}: (1) регулярное и частое изменение как данных, так и самой структуры статей, (2) разные викисловари имеют различную структуру и формат статей<ref group="Прим">Сравните, например, структуру и правила оформления статей в [[wikt:en:Wiktionary:Entry layout explained|Английском Викисловаре]] и [[wikt:Викисловарь:Правила оформления статей|Русском Викисловаре]].</ref>, (3) технология [[вики]] изначально ориентирована на удобство работы человека, а не на машинную обработку.
Существует несколько [[Синтаксический анализ|парсеров]] для разных викисловарей{{sfn|Hellmann et al|2012|p=3| loc=Table 1}}:
* [http://dbpedia.org/Wiktionary DBpedia Wiktionary] — одно из расширений проекта [[DBpedia]], данные извлекаются из Английского, Французского, Немецкого и Русского Викисловарей. Извлекаются: язык, часть речи, толкование, семантические отношения, переводы. Для извлечения данных используются: декларативное описание структуры словарной статьи{{sfn|Hellmann et al|2012|pp=8-9}}, [[регулярные выражения]]{{sfn|Hellmann et al|2012|p=10}} и [[:en:Finite state transducer|FST]]-разновидность [[Конечный автомат|конечного автомата]]{{sfn|Hellmann et al|2012|p=11}}.
* [http://www.ukp.tu-darmstadt.de/software/jwktl/ JWKTL] (Java Wiktionary Library) — [[Интерфейс программирования приложений|API]] к данным Английского и Немецкого Викисловарей{{sfn|Zesch et al|2008}}. Извлекаются: язык, часть речи, толкование, цитаты, семантические отношения, этимология и переводы. Программа доступна для некоммерческого использования.
* [https://github.com/componavt/wikokit wikokit] — парсер Английского и Русского Викисловарей{{sfn|Крижановский, Преобразование|2010}}. Извлекаются: язык, часть речи, толкование, цитаты{{sfn|Крижановский|2011}} (только для Русского Викисловаря), семантические отношения{{sfn|Крижановский, Сравнение|2010}} и переводы. Исходный код программы доступен на условиях открытой [[Двойное лицензирование|мульти-лицензии]].
С помощью викисловарей решаются разнообразные задачи, связанные с обработкой текста и речи{{sfn|Смирнов и др.|2012|pp=233-234}}:
* [[машинный перевод на основе правил]] между [[Нидерландский язык|нидерландским]] и языком [[африкаанс]]; используются данные Английского и Нидерландского Викисловарей и двух википедий в рамках системы [[Apertium]]{{sfn|Otte and Tyers|2011}};
* создание машиночитаемого словаря парсером NULEX, интегрирующего открытые лингвистические ресурсы: Английский Викисловарь, [[WordNet]] и [[:en:VerbNet|VerbNet]]{{sfn|McFate and Forbus|2011}}. Для существительного из Английского Викисловаря извлекались часть речи и форма множественного числа, для глаголов — время. Для извлечения данных из Викисловаря использовалась методика [[:en:Web scraping|Screen scraping]];
*[[:en:Ontology engineering|построение онтологий]]{{sfn|Meyer and Gurevych|2012}} и [[База знаний|баз знаний]]<ref>{{cite web|url=http://conceptnet5.media.mit.edu/|title=ConceptNet 5|accessdate=2013-04-17|archiveurl=http://www.webcitation.org/6G0D94MVG|archivedate=2013-04-19}}</ref>;
*[[отображение онтологий]]{{sfn|Lin and Krizhanovsky|2011}};
*[[:en:Text simplification|упрощение текста]]. В работе {{sfn|Medero and Ostendorf|2009}} выполняется оценка сложности слов на основе данных Викисловаря. Для слова из Английского Викисловаря извлекаются: размер словарной статьи, число частей речи, число значений и число переводов. Авторы{{sfn|Medero and Ostendorf|2009}} предположили, что более простыми, базовыми, употребимыми будут те слова, у которых больше значений (то есть размер статьи будет больше), больше частей речи и больше переводов. Далее найденные в тексте «сложные» слова необходимо перефразировать, найти более «простые» эквиваленты, что приведёт к упрощению (адаптации) текста;
*[[частеречная разметка]]. В работе (Ли и др., 2012){{sfn|Li et al|2012}} на основе данных Английского Викисловаря построены POS-tagger’ы для восьми языков, имеющих «бедные лингвистические ресурсы», с использованием [[Скрытая марковская модель|скрытых марковских моделей]].<ref group="Прим">Исходный код программы и результаты частеречной разметки доступны онлайн: https://code.google.com/p/wikily-supervised-pos-tagger</ref>
* [[анализ тональности текста]]{{sfn|Chesley et al|2006}}.
===Тарҷума===
==Истифодаи Викилуғатҳо дар ҳалли масъалаҳои коркарди матн ва нутқ ==
Барои истифодаи маълумотҳои лексикографикии викилуғатҳо ҳангоми ҳалли масъалаҳо [[Обработка естественного языка|коркарди автоматии матн ва нутқ]]- зарур аст, ки матнҳои мақолаҳои луғавӣ тағйир дода шаванд ([[маълумотҳои сохташон дар сатҳи паст]]{{sfn|Meyer and Gurevych|2012|p=140}}) дар шакли барои мошин хоно{{sfn|Zesch et al|2008|p=4|loc=Figure 1}}{{sfn|Meyer and Gurevych|2010|p=40}}{{sfn|Крижановский, Преобразование|2010|с=1}}.