Vis enkel innførsel

dc.contributor.authorDas, Amitava
dc.contributor.authorGambäck, Björn
dc.date.accessioned2016-01-23T20:15:12Z
dc.date.accessioned2016-06-01T12:36:33Z
dc.date.available2016-01-23T20:15:12Z
dc.date.available2016-06-01T12:36:33Z
dc.date.issued2015
dc.identifier.citationRevue TAL 2015, 54(3):41-64nb_NO
dc.identifier.issn1965-0906
dc.identifier.urihttp://hdl.handle.net/11250/2391067
dc.description.abstractABSTRACT: Automatic understanding of noisy social media text is one of the prime present-day research areas. Most research has so far concentrated on English texts ; however, more than half of the users are writing in other languages, making language identification a pre-requisite for comprehensive processing of social media text. Though language identification has been considered an almost solved problem in other applications, language detectors fail in the social media context due to phenomena such as code-mixing, code-switching, lexical borrowings, Anglicisms, and phonetic typing. This paper reports an initial study to understand the characteristics of code-mixing in the social media context and presents a system developed to automatically detect language boundaries in code-mixed social media text, here exemplified by Facebook messages in mixed English-Bengali and English-Hindi.nb_NO
dc.description.abstractRÉSUMÉ: La compréhension automatique du texte bruyant des médias sociaux est l’un des secteurs de recherche contemporaine principaux. Jusqu’ici, la plupart des recherches se sont concentrées sur les textes en anglais ; mais plus de la moitié des utilisateurs écrivent dans d’autres langues, ce qui rend l’identification de la langue préalable au traitement complet du texte des médias sociaux. Bien que l’identification de la langue ait été considérée comme un problème presque résolu dans d’autres applications, les détecteurs de langue échouent dans le contexte des médias sociaux, et cela est dû aux phénomènes tels que le mélange et l’alternance de code linguistique, les emprunts lexicaux, les anglicismes et la dactylographie phonétique. Cet article présente une étude initiale pour comprendre les caractéristiques de mélange des codes dans le contexte des médias sociaux ainsi qu’un système développé pour détecter automatiquement les barrières linguistiques en texte « code-mélangé » de médias sociaux, ici illustrées par des messages de Facebook en mixte anglais-bengali et anglais-hindi.nb_NO
dc.language.isoengnb_NO
dc.publisherAssociation pour le Traitement Automatique des Langues (ATALA)nb_NO
dc.titleCode-Mixing in Social Media Text: The Last Language Identification Frontier?nb_NO
dc.typeJournal articlenb_NO
dc.typePeer reviewednb_NO
dc.date.updated2016-01-23T20:15:12Z
dc.source.pagenumber41-64nb_NO
dc.source.volume54nb_NO
dc.source.journalRevue TALnb_NO
dc.source.issue3nb_NO
dc.identifier.cristin1320899
dc.description.localcodePublished article - an open access journalnb_NO


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel