Code-Mixing in Social Media Text: The Last Language Identification Frontier?

Das, Amitava; Gambäck, Björn

dc.contributor.author	Das, Amitava
dc.contributor.author	Gambäck, Björn
dc.date.accessioned	2016-01-23T20:15:12Z
dc.date.accessioned	2016-06-01T12:36:33Z
dc.date.available	2016-01-23T20:15:12Z
dc.date.available	2016-06-01T12:36:33Z
dc.date.issued	2015
dc.identifier.citation	Revue TAL 2015, 54(3):41-64	nb_NO
dc.identifier.issn	1965-0906
dc.identifier.uri	http://hdl.handle.net/11250/2391067
dc.description.abstract	ABSTRACT: Automatic understanding of noisy social media text is one of the prime present-day research areas. Most research has so far concentrated on English texts ; however, more than half of the users are writing in other languages, making language identification a pre-requisite for comprehensive processing of social media text. Though language identification has been considered an almost solved problem in other applications, language detectors fail in the social media context due to phenomena such as code-mixing, code-switching, lexical borrowings, Anglicisms, and phonetic typing. This paper reports an initial study to understand the characteristics of code-mixing in the social media context and presents a system developed to automatically detect language boundaries in code-mixed social media text, here exemplified by Facebook messages in mixed English-Bengali and English-Hindi.	nb_NO
dc.description.abstract	RÉSUMÉ: La compréhension automatique du texte bruyant des médias sociaux est l’un des secteurs de recherche contemporaine principaux. Jusqu’ici, la plupart des recherches se sont concentrées sur les textes en anglais ; mais plus de la moitié des utilisateurs écrivent dans d’autres langues, ce qui rend l’identification de la langue préalable au traitement complet du texte des médias sociaux. Bien que l’identification de la langue ait été considérée comme un problème presque résolu dans d’autres applications, les détecteurs de langue échouent dans le contexte des médias sociaux, et cela est dû aux phénomènes tels que le mélange et l’alternance de code linguistique, les emprunts lexicaux, les anglicismes et la dactylographie phonétique. Cet article présente une étude initiale pour comprendre les caractéristiques de mélange des codes dans le contexte des médias sociaux ainsi qu’un système développé pour détecter automatiquement les barrières linguistiques en texte « code-mélangé » de médias sociaux, ici illustrées par des messages de Facebook en mixte anglais-bengali et anglais-hindi.	nb_NO
dc.language.iso	eng	nb_NO
dc.publisher	Association pour le Traitement Automatique des Langues (ATALA)	nb_NO
dc.title	Code-Mixing in Social Media Text: The Last Language Identification Frontier?	nb_NO
dc.type	Journal article	nb_NO
dc.type	Peer reviewed	nb_NO
dc.date.updated	2016-01-23T20:15:12Z
dc.source.pagenumber	41-64	nb_NO
dc.source.volume	54	nb_NO
dc.source.journal	Revue TAL	nb_NO
dc.source.issue	3	nb_NO
dc.identifier.cristin	1320899
dc.description.localcode	Published article - an open access journal	nb_NO

Tilhørende fil(er)

Filnavn:: 2.Das-TAL54-3.pdf
Størrelse:: 327.3Kb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6622]
Publikasjoner fra CRIStin - NTNU [37723]

Vis enkel innførsel