Викилуғат: Тафовут байни таҳрирҳо

Content deleted Content added
No edit summary
No edit summary
Сатри 48:
 
=== Сравнение с другими Викисловарями ===
 
[[Акс:Relative distribution of Russian words in ruwikt and enwikt 2011.jpg|thumb|240px|Число русских слов в Русском Викисловаре (слева) и в Английском Викисловаре (справа){{sfn|Смирнов и др.|2012}}, данные на 2011 год]]
[[Акс:Relative distribution of Russian words in ruwikt and enwikt 2011.jpg|thumb|240px|Шумораи вожаҳои русӣ дар Викилуғати русӣ (аз чап) ва Викилуғати англисӣ (аз рост){{sfn|Смирнов ва диг.|2012}}, маълумот барои соли 2011]]
 
Начиная с августа 2008 года русский Викисловарь вышел на первое место по размеру базы данных среди всех викисловарей<ref>[http://stats.wikimedia.org/wiktionary/RU/TablesDatabaseSize.htm Статистика викисловарей: Размер базы данных]</ref>. В то же время, количество статей в русском Викисловаре не самое большое<ref>[http://stats.wikimedia.org/wiktionary/RU/Sitemap.htm Статистика викисловарей]</ref>. Это отчасти объясняется тем, что у проектов, в которых статей больше, чем в русском Викисловаре, статьи могут иметь в среднем меньший размер, в чём можно убедиться на сайте статистикит<ref>[http://stats.wikimedia.org/wiktionary/RU/TablesArticlesBytesPerArticle.htm Статистика викисловарей: Байтов на стаью]</ref>. Кроме того, русский Викисловарь по сравнению с другими разделами Wiktionary содержит большее количество вспомогательной информации, включая справочные таблицы, списки частотных слов и т. п. (в отличие от словарных статей, составляющих так называемое основное пространство имён, такая информация размещается в разделах «Приложения», «Индексы» и т. п.). Значительное количество статей в русском Викисловаре всё ещё являются болванками, сгенерированными ботами. Хотя иногда и можно встретить критику большого количества статей-болванок, такая предварительная разметка даёт много преимуществ. Во-первых, она помогает быстрее создавать статьи за счёт предварительного включения некоторой информации, типа части речи описываемого слова. Во-вторых, структура статей стандартизируется. За счёт повсеместного применения шаблонов (которые обычно сразу проставляются ботами при автоматическом создании статей) возникает возможность централизованно менять внешний вид сразу многих статей. Наличие большого количества шаблонов также помогает проводить дальнейшее автоматизированное редактирование уже созданных статей — например, автоматически проставлять перевод по заранее подготовленным словарям (так как ботам легче ориентироваться в структуре статьи, уже размеченной специализированными конструкциями, а не человеческим языком). Отличительной особенностью русского Викисловаря является проработанная концепция развития (которую можно найти на главной странице). Из-за проработанной концепции и широкого применения шаблонов, статьи в русском Викисловаре выглядят более однотипно, чем во многих других проектах (в основном одинаковы количество разделов, порядок их следования, оформление каждого раздела).
Line 58 ⟶ 59:
Аз моҳи августи соли 2008 сар карда Викилуғати русӣ аз рӯйи ҳаҷми маълумотҳо дар байни Викилуғатҳо ба ҷойи якум баромад.<ref>[http://stats.wikimedia.org/wiktionary/RU/TablesDatabaseSize.htm Омори викилуғатҳо: Ҳаҷми маълумот]</ref>. Дар айни ҳол миқдори мақолаҳо дар Викилуғати русӣ начандон калон аст<ref>[http://stats.wikimedia.org/wiktionary/RU/Sitemap.htm Омори викилуғатҳо]</ref>.Ин боз аз он хотир аст, ки лоиҳаҳои назар ба Викилуғати русӣ мақолаи зиёд дошта, мақолаҳояшон метавонанд ба ҳисоби миёна ҳаҷман хурдтар бошанд, ба ин аз сомонаи омор боварӣ ҳосил кардан мумкин аст<ref>[http://stats.wikimedia.org/wiktionary/RU/TablesArticlesBytesPerArticle.htm Омори викилуғатҳо: Байтҳо барои мақола]</ref>Ғайр аз ин дар муқоиса бо қисматҳои дигари Wiktionary Википедияи русӣ дар худ маводи зиёди ёридиҳандаро дорад, чун таблитсаи маълумот, рӯйхати басомади вожаҳо (дар муқоиса бо мақолаҳои луғатҳо, ки номҳои зиёдро дороянд, чунин маълумот дар қисматҳои «Замимаҳо», «Индексҳо» ва ғ. ҷойгир мешаванд.) Миқдори зиёди мақолаҳо дар Викилуғати русӣ ҳанӯз ҳам мақола-қолабҳо мебошанд, ки онҳоро ботҳо офаридаанд. Гарчанде баъзан қисми зиёди онҳо зери танқиданд, якчанд бартариҳо дида мешаванд. Якум, вай барои тезтар навишта шудани мақола ёрӣ медиҳанд, чун баъзе маълумотҳо аллакай ворид шудаанд. Дуюм, сохти мақолаҳо стандартӣ мешаванд. Аз ҳисоби дар ҷояш истифода бурдани шаблонҳо (одатан дарҳол аз тарафи ботҳо ба таври автоматӣ ҳангоми офаридани мақола гузошта мешаванд), шароит пайдо мешавад, ки мутамарказона ва якбора шакли зоҳирии якчанд мақола иваз карда шавад. Мавҷудияти миқдори зиёди шаблонҳо низ ба таҳрири автоматии минбаъдаи мақолаҳои аллакай вироишшуда ёрӣ медиҳад - масалан, бо роҳи автоматӣ — тарҷума аз рўйи луғати пешакӣ тайёркарда (азбаски ба ботҳо сохти маӄолаҳоро дарк кардан аз рӯйи лоиҳаҳои махсуси кашида назар ба забони инсонӣ осонтар аст). Хусусияти фарӄунандаи Викилуғати русӣ ин консепсияи таҳияшудаи рушд мебошад. Аз хотири консепсияи коркардшуда ва истифодаи васеи шаблонҳо мақолаҳо дар Викилуғати русӣ нисбат ба лоиҳаҳои дигар якхела ҳастанд (асосан миқдори қисматҳо, пайдарҳамии онҳо ва таҳияи ҳар як қисмат ба як тартиб омадаанд).
== Применение викисловарей в задачах автоматической обработки текста и речи ==
==Истифодаи Викилуғатҳо дар ҳалли масъалаҳои коркарди матн ва нутқ ==
 
Для использования лексикографических данных викисловарей при решении задач [[Обработка естественного языка|автоматической обработки текста и речи]] — необходимо преобразовать тексты словарных статей ([[слабоструктурированные данные]]{{sfn|Meyer and Gurevych|2012|p=140}}) в машиночитаемый формат{{sfn|Zesch et al|2008|p=4|loc=Figure 1}}{{sfn|Meyer and Gurevych|2010|p=40}}{{sfn|Крижановский, Преобразование|2010|с=1}}.
Барои истифодаи маълумотҳои лексикографикии викилуғатҳо ҳангоми ҳалли масъалаҳо [[Обработка естественного языка|коркарди автоматии матн ва нутқ]]- зарур аст, ки матнҳои мақолаҳои луғавӣ тағйир дода шаванд ([[маълумотҳои сохташон дар сатҳи паст]]{{sfn|Meyer and Gurevych|2012|p=140}}) дар шакли барои мошин хоно{{sfn|Zesch et al|2008|p=4|loc=Figure 1}}{{sfn|Meyer and Gurevych|2010|p=40}}{{sfn|Крижановский, Преобразование|2010|с=1}}.
 
Извлечение данных из викисловарей является непростой задачей. Можно выделить следующие трудности{{sfn|Hellmann and Auer|2013|p=302|loc=стр. 16 в PDF|name=HellmannAuer2013}}: (1) регулярное и частое изменение как данных, так и самой структуры статей, (2) разные викисловари имеют различную структуру и формат статей<ref group="Прим">Сравните, например, структуру и правила оформления статей в [[wikt:en:Wiktionary:Entry layout explained|Английском Викисловаре]] и [[wikt:Викисловарь:Правила оформления статей|Русском Викисловаре]].</ref>, (3) технология [[вики]] изначально ориентирована на удобство работы человека, а не на машинную обработку.
Аз викилуғатҳо гирифтани маълумот кори саҳл нест.
 
Существует несколько [[Синтаксический анализ|парсеров]] для разных викисловарей{{sfn|Hellmann et al|2012|p=3| loc=Table 1}}:
* [http://dbpedia.org/Wiktionary DBpedia Wiktionary] — одно из расширений проекта [[DBpedia]], данные извлекаются из Английского, Французского, Немецкого и Русского Викисловарей. Извлекаются: язык, часть речи, толкование, семантические отношения, переводы. Для извлечения данных используются: декларативное описание структуры словарной статьи{{sfn|Hellmann et al|2012|pp=8-9}}, [[регулярные выражения]]{{sfn|Hellmann et al|2012|p=10}} и [[:en:Finite state transducer|FST]]-разновидность [[Конечный автомат|конечного автомата]]{{sfn|Hellmann et al|2012|p=11}}.