Como Wikcionario no está limitado por consideraciones de espacio de impresión, la mayoría de las ediciones de idiomas de Wikcionario proporcionan definiciones y traducciones de términos de muchos idiomas, y algunas ediciones ofrecen información adicional que normalmente se encuentra en los tesauros .
Los datos de Wikcionario se utilizan con frecuencia en diversas tareas de procesamiento del lenguaje natural.
Historia y desarrollo
Wikcionario se puso en línea el 12 de diciembre de 2002, [2] a raíz de una propuesta de Daniel Alston y una idea de Larry Sanger , cofundador de Wikipedia. [3] El 28 de marzo de 2004, se iniciaron los primeros Wikcionarios no ingleses en francés y polaco . Desde entonces se han iniciado Wikcionarios en muchos otros idiomas. Wikcionario estuvo alojado en un nombre de dominio temporal (wiktionary.wikipedia.org) hasta el 1 de mayo de 2004, cuando cambió al nombre de dominio actual. [a] A julio de 2021 [árbitro], Wikcionario presenta más de 30 millones de artículos (e incluso más entradas) en sus ediciones. [4] La edición en idioma más grande es el Wikcionario en inglés, con más de 7,5 millones de entradas, seguido por el Wikcionario en francés con más de 4,7 millones y el Wikcionario en malgache con más de 3,5 millones de entradas. Cuarenta y tres ediciones de idiomas de Wikcionario contienen más de 100.000 entradas cada una. [b]
Muchas de las definiciones de las ediciones más importantes del proyecto en los distintos idiomas fueron creadas por bots que encontraron formas creativas de generar entradas o (raramente) importaron automáticamente miles de entradas de diccionarios publicados previamente. Siete de los 18 bots registrados en el Wikcionario en inglés en 2007 [c] crearon 163.000 de las entradas que hay allí. [5]
Otro de estos bots, "ThirdPersBot", fue responsable de la adición de una serie de conjugaciones en tercera persona que no habrían recibido sus propias entradas en los diccionarios estándar; por ejemplo, definió "smoulders" como la "forma presente simple de tercera persona singular de smoulder". De las 1.269.938 definiciones que proporciona el Wikcionario en inglés para 996.450 palabras en inglés, 478.068 son definiciones de "forma de" de este tipo. [6] Esto significa que incluso sin dichas entradas, su cobertura del inglés es significativamente mayor que la de los principales diccionarios impresos monolingües. El Third New International Dictionary of the English Language, Unabridged de Merriam-Webster , por ejemplo, tiene 475.000 entradas (con muchas palabras clave adicionales incrustadas); El Oxford English Dictionary tiene 615.000 entradas, pero también incluye el inglés medio , para el que el Wikcionario inglés tiene 34.234 definiciones de glosas adicionales. Existen estadísticas detalladas para mostrar cuántas entradas de varios tipos existen.
El Wikcionario en inglés no depende de bots en la medida en que lo hacen otras ediciones. Los Wikcionarios en francés y vietnamita , por ejemplo, importaron grandes secciones del Free Vietnamese Dictionary Project (FVDP), que proporciona diccionarios bilingües de contenido gratuito hacia y desde el vietnamita. [d] Estas entradas importadas constituyen prácticamente la totalidad del contenido de la edición vietnamita. Al igual que la edición en inglés, el Wikcionario en francés ha importado aproximadamente 20.000 entradas de la base de datos Unihan de caracteres chinos, japoneses, coreanos e indios . El Wikcionario en francés creció rápidamente en 2006 gracias en gran parte a los bots que copiaron muchas entradas de diccionarios antiguos con licencia libre, como la octava edición del Dictionnaire de l'Académie française (1935, alrededor de 35.000 palabras), y al uso de bots para agregar palabras de otras ediciones del Wikcionario con traducciones al francés. La edición rusa creció en casi 80.000 entradas a medida que "LXbot" agregó entradas estándar (con encabezados, pero sin definiciones) para palabras en inglés y alemán . [7]
En julio de 2021, el Wikcionario en inglés tiene más de 791.870 definiciones de glosa y más de 1.269.938 definiciones totales (incluidas diferentes formas) solo para entradas en inglés, con un total de más de 9.928.056 definiciones en todos los idiomas. [8]
Históricamente, Wikcionario no ha tenido un logotipo uniforme en sus numerosas ediciones en distintos idiomas. Algunas ediciones utilizan logotipos que representan una entrada de diccionario sobre el término "Wikcionario", basándose en el logotipo anterior de Wikcionario en inglés, que fue diseñado por Brooke Vibber, una desarrolladora de MediaWiki . [9] Debido a que un logotipo puramente textual debe variar considerablemente de un idioma a otro, se llevó a cabo un concurso de cuatro fases para adoptar un logotipo uniforme en Wikimedia Meta-Wiki entre septiembre y octubre de 2006. [e] Algunas comunidades adoptaron la propuesta ganadora de "Smurrayinchester", una cuadrícula de 3x3 de baldosas de madera, cada una con un carácter de un sistema de escritura diferente. Sin embargo, la encuesta no tuvo tanta participación de la comunidad de Wikcionario como algunos miembros de la comunidad esperaban, y varios de los wikis más grandes finalmente mantuvieron sus logotipos textuales. [e]
En abril de 2009, el tema resurgió con un nuevo concurso. Esta vez, una representación de "AAEngelman" de un diccionario de tapa dura abierto ganó una votación directa contra el logotipo de 2006, pero el proceso para refinar y adoptar el nuevo logotipo se estancó. [10] En los años siguientes, algunas wikis reemplazaron sus logotipos textuales con uno de los dos logotipos más nuevos. En 2012, 55 wikis que habían estado usando el logotipo de Wikcionario en inglés recibieron versiones localizadas del diseño de 2006 de "Smurrayinchester". [f] En julio de 2016, el Wikcionario en inglés adoptó una variante de este logotipo. [11] Al 4 de julio de 2016 [actualizar], 135 wikis, que representan el 61% de las entradas de Wikcionario, usan un logotipo basado en el diseño de 2006 de "Smurrayinchester", 33 wikis (36%) usan un logotipo textual y tres wikis (3%) usan el diseño de 2009 de "AAEngelman". [12]
Plurilingüe
En octubre de 2024, existen sitios de Wikcionario para 194 idiomas, de los cuales 170 están activos y 24 están cerrados. [1] Los sitios activos tienen 41.666.387 artículos y los sitios cerrados tienen 339 artículos. [13] Hay 7.386.971 usuarios registrados, de los cuales 5.987 están activos recientemente. [13]
Los diez proyectos de idiomas más importantes de Wikcionario según el número de artículos en el espacio principal: [13]
No.
Idioma
Wiki
Bien
Total
Ediciones
Administradores
Usuarios
Usuarios activos
Archivos
1
Inglés
es
8.199.716
9.795.523
82.407.893
73
4.225.326
2.206
15
2
Francés
de
6.470.885
7.123.275
36.226.584
32
378.619
494
6
3
madagascarí
mg
4.782.149
4.848.797
33.730.739
2
12,448
70
3
4
Chino
es
1.844.251
2.537.193
8.771.760
9
122.983
77
1
5
Griego
El
1.536.147
1.593.238
6.946.098
10
62.783
69
23
6
ruso
en
1.376.316
2.898.899
13.531.180
15
321.361
255
188
7
Alemán
Delaware
1.141.457
1.324.568
10.127.467
13
241.997
181
93
8
kurdo
yo
1.001.182
1.097.251
6.019.074
7
12,925
39
15
9
sueco
es
955.772
995.133
4.066.927
13
57.860
54
1
10
Español
es
931.822
988.418
5.666.022
8
171.053
102
14
Para obtener una lista completa con los totales, consulte las estadísticas de Wikimedia: [14]
Recepción crítica
La exactitud de los hechos de esta sección puede verse comprometida debido a información desactualizada . Ayúdenos a actualizar este artículo para reflejar eventos recientes o información nueva disponible. ( Mayo de 2013 )
La recepción crítica de Wikcionario ha sido mixta. En 2006, Jill Lepore escribió en el artículo "El Arca de Noé" para The New Yorker : [g]
En Wikcionario no se levanta la mano . Ni siquiera hay un equipo editorial. "¡Sé tu propio lexicógrafo!", podría ser el lema de Wikcionario . ¿Quién necesita expertos? ¿Por qué pagar un buen dinero por un diccionario escrito por lexicógrafos cuando podríamos improvisar uno nosotros mismos?
¿Hay un lugar para Wikcionario? Sin duda. La industria y el entusiasmo de sus numerosos creadores son prueba de que existe un mercado. Y es maravilloso tener otra fuente sólida para utilizar cuando se buscan los términos extraños que aparecen en el mundo de rápido cambio de hoy y en el entorno en línea. Pero, como sucede con tantas fuentes web (incluida esta columna), es mejor que los usuarios sofisticados lo utilicen junto con fuentes más confiables. [ cita requerida ]
Las referencias en otras publicaciones son fugaces y forman parte de discusiones más amplias sobre Wikipedia, sin avanzar más allá de una definición, aunque David Brooks en The Nashua Telegraph la describió como "salvaje y confusa". [16] Uno de los impedimentos para la cobertura independiente de Wikcionario es la continua confusión de que es meramente una extensión de Wikipedia. [h]
La medida de corrección de las flexiones para un subconjunto de las palabras polacas en el Wikcionario en inglés mostró que estos datos gramaticales son muy estables (un estudio mostró que solo 131 de 4.748 palabras polacas tuvieron sus datos de flexión corregidos). [17]
A partir de 2016 [actualizar], Wikcionario ha experimentado un uso creciente en el ámbito académico . [18]
Datos de Wikcionario en el procesamiento del lenguaje natural
JWKTL ( Java Wiktionary Library): [29] proporciona acceso a volcados de Wikcionario en inglés y alemán a través de una API de Wikcionario de Java . [30] Los datos incluyen idioma, partes del discurso, definiciones, citas, relaciones semánticas, etimologías y traducciones. JWKTL se distribuye bajo la Licencia Apache .
wikokit : [31] el analizador de Wikcionario en inglés y Wikcionario en ruso. [32] Los datos analizados incluyen idioma, partes del discurso, definiciones, citas, [33] [j] relaciones semánticas [34] y traducciones. Este es un software de código abierto con licencia múltiple .
Construcción de un diccionario legible por máquina mediante el analizador sintáctico NULEX, que integra recursos lingüísticos abiertos: English Wiktionary, WordNet y VerbNet . [37] El analizador sintáctico NULEX extrae información sobre tiempos verbales (verbos), formas plurales y partes del discurso (sustantivos) de English Wiktionary.
Reconocimiento y síntesis de voz , donde se utilizó Wikcionario para crear automáticamente diccionarios de pronunciación. [38] Los pares de pronunciación de palabras se recuperaron de 6 ediciones de idiomas de Wikcionario ( checo , inglés, francés, español , polaco y alemán). Las pronunciaciones están en términos del Alfabeto Fonético Internacional . [k] El sistema ASR basado en Wikcionario en inglés tiene la tasa de error de palabras más alta, donde se debe cambiar cada tercer fonema . [40]
Simplificación de textos . Medero y Ostendorf [44] evaluaron la dificultad del vocabulario ( detección del nivel de lectura ) con la ayuda de datos de Wikcionario. Se investigaron las propiedades de las palabras extraídas de las entradas de Wikcionario (longitud de la definición y POS , sentido y recuentos de traducción). Medero y Ostendorf esperaban que
(1) Las palabras muy comunes tendrán más probabilidades de tener múltiples partes del discurso,
(2) Las palabras comunes tendrán más probabilidades de tener múltiples sentidos,
(3) Es más probable que las palabras comunes hayan sido traducidas a varios idiomas. Estas características extraídas de las entradas de Wikcionario fueron útiles para distinguir los tipos de palabras que aparecen en los artículos de Wikipedia en inglés simple de las palabras que solo aparecen en los artículos comparables en inglés estándar.
" Wikidata : datos lexicográficos" se inició en 2018 para proporcionar soporte de datos estructurados a los Wikcionarios. Almacena datos de palabras de todos los idiomas en un modelo de datos legible por máquina, bajo un espacio de nombres dedicado " Lexeme " en Wikidata. En octubre de 2021, el proyecto ha acumulado más de 600.000 entradas de lexema en varios idiomas. [47]
^ [Traductores-l] 56 Wikcionarios tienen un logotipo localizado
^ El artículo completo no está disponible en línea. [15]
^ En esta cita, el autor se refiere a Wikcionario como parte del sitio Wikipedia: Adaptado de un artículo de Naomi DeTullio (2006). "Wikis para bibliotecarios" (PDF) . NETLS News #142 . Northeast Texas Library System. p. 15. Archivado desde el original (boletín PDF) el 5 de junio de 2007 . Consultado el 21 de abril de 2007 .
^ Por ejemplo, compare la estructura de entradas y las reglas de formato en Wikcionario en inglés y Wikcionario en ruso.
^ Las citas se extraen únicamente del Wikcionario ruso. [33]
^ Si hay varias notaciones IPA en una página de Wikcionario, ya sea para diferentes idiomas o para variantes de pronunciación, entonces se extrajo la primera pronunciación. [39]
^ El código fuente y los resultados del etiquetado POS están disponibles en https://code.google.com/p/wikily-supervised-pos-tagger
Referencias
Citas
^ ab API MediaWiki de Wikimedia : Sitematrix. Obtenido en octubre de 2024 de Datos: Wikipedia stats/meta.tab
^ "Discusión en el archivo de la lista de correo de Wikipedia que anuncia la apertura del proyecto Wikcionario". 12 de diciembre de 2002. Archivado desde el original el 20 de junio de 2014. Consultado el 3 de mayo de 2011 .
^ Discusión en el archivo de la lista de correo de Wikipedia de Larry Sanger dando la idea sobre Wikcionario Archivado el 20 de junio de 2014 en Wayback Machine – Consultado el 3 de mayo de 2011
^ "Wikcionario". www.wiktionary.org . Archivado desde el original el 13 de septiembre de 2008 . Consultado el 28 de octubre de 2021 .
^ TheDaveBot Archivado el 11 de octubre de 2007 en Wayback Machine , TheCheatBot Archivado el 11 de octubre de 2007 en Wayback Machine , Websterbot Archivado el 11 de octubre de 2007 en Wayback Machine , PastBot Archivado el 11 de octubre de 2007 en Wayback Machine , NanshuBot Archivado el 11 de octubre de 2007 en Wayback Machine
^ Estadísticas detalladas Archivado el 23 de julio de 2021 en Wayback Machine al 21 de julio de 2021
^ "LXbot". Archivado desde el original el 24 de mayo de 2008.
^ «Wikcionario:Estadísticas». 29 de marzo de 2022. Archivado desde el original el 6 de marzo de 2023. Consultado el 6 de marzo de 2023 – vía Wikcionario.
^ "Wikcionario discusión:Logotipo de Wikcionario", Wikcionario en inglés, Fundación Wikimedia.
^ m:Wiktionary/logo#Estadísticas de uso del logotipo.
^ API MediaWiki de abc Wikimedia : Siteinfo. Obtenido en octubre de 2024 de Datos: Wikipedia stats/data.tab
^ «Estadísticas de Wikcionario». Meta.Wikimedia.org . Archivado desde el original el 2 de septiembre de 2020. Consultado el 11 de septiembre de 2020 .
^ Lepore 2006.
^ David Brooks, "La enciclopedia interactiva en línea ya no es sólo para geeks, ¡porque todo el mundo parece necesitarla ahora, más que nunca!" The Nashua Telegraph (4 de agosto de 2004)
^ Kurmas 2010.
^ Sascha y Müller-Spitzer 2016, pág. 348
^ Meyer y Gurevych 2012, pág. 140.
^ Zesch, Müller y Gurevych 2008, pág. 4, Figura 1.
^ Meyer y Gurevych 2010, pág. 40.
^ Krizhanovsky, Transformación 2010, p. 1.
^ Hellmann & Auer 2013, pág. 302, pág. 16 en PDF.
^ Hellmann, Brekle y Auer 2012, pág. 3, Tabla 1.
^ "Wikcionario de DBpedia". Archivado desde el original el 4 de mayo de 2013.
^ Hellmann, Brekle y Auer 2012, págs. 8-9.
^ Hellmann, Brekle y Auer 2012, pág. 10.
^ Hellmann, Brekle y Auer 2012, pág. 11.
^ "Bienvenidos". DKPro JWKTL . Archivado desde el original el 23 de enero de 2021 . Consultado el 23 de junio de 2019 .
^ Zesch, Müller y Gurevych 2008.
^ «Wikokit - Wikcionario legible por máquina». 19 de diciembre de 2022. Archivado desde el original el 2 de octubre de 2020. Consultado el 7 de noviembre de 2015 – vía GitHub.
^ Krizhanovsky, Transformación 2010.
^ desde Smirnov y otros, 2012.
^ Krizhanovsky, Comparación 2010.
^ "Investigación de Gerard de Melo en ICSI, Berkeley". gerard.demelo.org . Archivado desde el original el 27 de marzo de 2023 . Consultado el 6 de marzo de 2023 .
^ Otte y Tyers 2011.
^ McFate y Forbus 2011.
^ Schlippe, Ochs y Schultz 2012.
^ Schlippe, Ochs y Schultz 2012, pág. 4802.
^ Schlippe, Ochs y Schultz 2012, pág. 4804.
^ Meyer y Gurevych 2012.
^ "ConceptNet 5". conceptnet5.media.mit.edu . Archivado desde el original el 19 de octubre de 2011 . Consultado el 23 de septiembre de 2023 .
^ Lin y Krizhanovsky 2011.
^ Medero y Ostendorf 2009.
^ Li, Graça y Taskar 2012.
^ Chesley y otros. 2006.
^ «Wikidata:Wikcionario». Archivado desde el original el 3 de enero de 2023. Consultado el 12 de octubre de 2012 .
Fuentes
Chesley, Paula; Vincent, Bruce; Xu, Li; Srihari, Rohini K. (2006). "Uso de verbos y adjetivos para clasificar automáticamente el sentimiento de los blogs" (PDF) . Formación . 580 : 233–235. Archivado desde el original (PDF) el 24 de febrero de 2021 . Consultado el 9 de mayo de 2013 .
Hellmann, Sebastian; Brekle, Jonas; Auer, Sören (2012). "Aprovechamiento del crowdsourcing de recursos léxicos para el arranque de una nube de datos lingüísticos" (PDF) . Actas de la Conferencia Internacional Conjunta sobre Tecnología Semántica (JIST) . Nara, Japón.
Hellmann, S.; Auer, S. (2013). "Hacia la extracción colaborativa de conocimiento a escala web" (PDF) . En Gurevych, Iryna; Kim, Jungi (eds.). La Web de las personas se encuentra con el procesamiento del lenguaje natural. Teoría y aplicaciones del procesamiento del lenguaje natural. Springer-Verlag . págs. 287–313. ISBN.978-3-642-35084-9. Archivado (PDF) del original el 27 de octubre de 2014 . Consultado el 10 de mayo de 2013 .
Krizhanovsky, Andrew (2010). "Transformación de la estructura de entrada de Wikcionario en tablas y relaciones en un esquema de base de datos relacional". arXiv : 1011.1368 [cs].
Krizhanovsky, Andrew (2010). "La comparación de los tesauros de Wikcionario transformados al formato legible por máquina". arXiv : 1006.5040 [cs].
Kurmas, Zachary (julio de 2010). Zawilinski: una biblioteca para estudiar la gramática en Wikcionario. Actas del 6.º Simposio Internacional sobre Wikis y Colaboración Abierta. Gdansk, Polonia . Consultado el 29 de julio de 2011 .
Li, Shen; Graça, Joao V.; Taskar, Ben (2012). "Etiquetado de partes del discurso supervisado por Wiki-ly" (PDF) . Actas de la Conferencia conjunta de 2012 sobre métodos empíricos en el procesamiento del lenguaje natural y el aprendizaje computacional del lenguaje natural . Isla de Jeju, Corea: Asociación de Lingüística Computacional. págs. 1389–1398. Archivado desde el original (PDF) el 22 de mayo de 2013 . Consultado el 10 de mayo de 2013 .
Lepore, Jill (6 de noviembre de 2006). "Noah's Ark". The New Yorker (Resumen) . Consultado el 21 de abril de 2007 .
Lin, Feiyu; Krizhanovsky, Andrew (2011). "Coincidencia de ontologías multilingües basada en datos de Wikcionario accesibles a través del punto final SPARQL". Actas de la 13.ª Conferencia rusa sobre bibliotecas digitales RCDL'2011 . Voronezh, Rusia. págs. 19–26. arXiv : 1109.0732 . Código Bibliográfico :2011arXiv1109.0732L.
McFate, Clifton J.; Forbus, Kenneth D. (2011). "NULEX: un léxico de amplia cobertura y licencia abierta" (PDF) . 49.ª Reunión Anual de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano, Actas de la Conferencia . Portland, Oregón, EE. UU.: Asociación de Lingüística Computacional. pp. 363–367. ISBN978-1-932432-88-6.
Medero, Julie; Ostendorf, Mari (2009). "Análisis de la dificultad de vocabulario usando Wiktionary" (PDF) . Proc. SLaTE Workshop . Archivado desde el original (PDF) el 24 de abril de 2014 . Consultado el 10 de mayo de 2013 .
Meyer, CM; Gurevych, I. (2010). "Vale su peso en oro o es otro recurso más: un estudio comparativo de Wiktionary, OpenThesaurus y GermaNet" (PDF) . Proc. 11th International Conference on Intelligent Text Processing and Computational Linguistics, Iasi, Rumania . págs. 38–49. Archivado desde el original (PDF) el 1 de diciembre de 2017 . Consultado el 10 de mayo de 2013 .
Meyer, CM; Gurevych, I. (2012). "OntoWiktionary – Construcción de una ontología a partir del diccionario colaborativo en línea Wiktionary" (PDF) . En Pazienza, MT; Stellato, A. (eds.). Desarrollo de ontologías semiautomáticas: procesos y recursos . IGI Global. pp. 131–161. ISBN.978-1-4666-0188-8. Archivado desde el original (PDF) el 9 de octubre de 2013.
Otte, Pim; Tyers, FM (2011). «Traducción automática rápida basada en reglas entre el holandés y el afrikáans» (PDF) . En Forcada, Mikel L.; Depraetere, Heidi; Vandeghinste, Vincent (eds.). 16.ª Conferencia Anual de la Asociación Europea de Traducción Automática, EAMT11 . Lovaina, Bélgica. pp. 153–160. Archivado desde el original (PDF) el 25 de febrero de 2021. Consultado el 10 de mayo de 2013 .
Sascha, Wolfer; Müller-Spitzer, Carolin (2016). «¿Cuántas personas constituyen una multitud y qué hacen? Análisis cuantitativos de las revisiones en las ediciones inglesa y alemana del Wikcionario». Lexikos . 26 : 347–371. ISSN 1684-4904. OCLC 7211535994. Archivado desde el original el 9 de mayo de 2023 . Consultado el 27 de agosto de 2021 – vía ProQuest.
Schlippe, Tim; Ochs, Sebastian; Schultz, Tanja (2012). «Generación de modelos de grafema a fonema para lenguas indoeuropeas» (PDF) . Acústica, habla y procesamiento de señales (ICASSP) . Kioto, Japón. pp. 4801–4804. Archivado desde el original (PDF) el 6 de octubre de 2014. Consultado el 10 de mayo de 2013 .
Smirnov A, Levashova T, Karpov A, Kipyatkova I, Ronzhin A, Krizhanovsky A, Krizhanovsky N (2012). "Análisis del corpus de citas del Wikcionario ruso". Investigación en Ciencias de la Computación . 56 : 101-112. arXiv : 2002.00734 . CiteSeerX 10.1.1.694.9627 . doi :10.13053/rcs-56-1-11 (inactivo el 17 de septiembre de 2024). S2CID 10726045.{{cite journal}}: CS1 maint: DOI inactivo a partir de septiembre de 2024 ( enlace )
Zesch, Torsten; Müller, Christof; Gurevych, Iryna (2008). "Extracción de conocimiento léxico-semántico de Wikipedia y Wikcionario" (PDF) . Actas de la Conferencia sobre recursos lingüísticos y evaluación (LREC) . Marrakech, Marruecos.
"Wikcionario". Top 101 Web Sites. PC Magazine . Ziff Davis. 6 de abril de 2005. Archivado desde el original el 21 de diciembre de 2005. Consultado el 16 de diciembre de 2005 .
Enlaces externos
Busque Wikcionario en Wikcionario, el diccionario libre.