LINGÜÍSTICA DE CORPUS

 

La Lingüística de Corpus (LC) se define como “una rama de la lingüística que basa sus investigaciones en datos obtenidos a partir de corpus” (Martín Peris et al., 2008). Ciertamente, no hablamos de una disciplina lingüística en sentido estricto, sino de un enfoque metodológico que puede ser adoptado desde diversas disciplinas. De hecho, debido a su interdisciplinariedad, está adquiriendo una notable presencia en los estudios de lingüística actuales.

La LC basa sus estudios en la confección y análisis de los corpus lingüísticos. Un corpus consiste en una recopilación de muestras reales de una lengua (novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos, transcripciones de programas de radio o televisión, conversaciones o incluso discursos).

Suele aparecer en línea o en formato electrónico debido a su gran tamaño. Las muestras se seleccionan a partir de criterios objetivos que se establecen previamente y que buscan ofrecer una representación de (algún aspecto de) la lengua.

De este modo, la representatividad se convierte en “la piedra angular de la LC, pues de ello depende que se puedan extraer conclusiones fiables a partir de los datos estadísticos” (Cruz Piñol, 2012: 36). Los corpus constituyen, por tanto, la base de los estudios lingüísticos en tanto que permiten la investigación de diversos aspectos de una lengua o una variedad concreta.

En función del criterio usado para la selección de los textos podemos encontrar la siguiente tipología de corpus, que está íntimamente relacionada con la representatividad que los caracteriza (EAGLES, 1996):

  • Corpus de referencia o generales: pretenden ser una muestra representativa y exhaustiva de las variedades, las estructuras y el vocabulario de una lengua, por lo que suelen ser bastante extensos. Permiten estudiar las características de una lengua en un momento determinado de su historia.
  • Corpus especiales, especializados o con fines específicos: pese a que existe gran controversia con respecto a la denominación de este tipo de corpus, se puede decir de manera general que son recopilaciones de menor volumen creadas con algún propósito específico. Son representativas de un sublenguaje, o lengua especializada, o del uso lingüístico de un grupo específico de hablantes que posee características comunes.
  • Corpus bilingüe o multilingüe: dentro de estos tipos podemos distinguir entre:
    • Corpus paralelo: contienen textos y su traducción a una o varias lenguas.
    • Corpus comparable: incluyen tipos de textos similares en varias lenguas permitiendo así realizar comparaciones entre ellas.

 

ENLACES DE INTERÉS

International Journal of Learner Corpus Research

International Journal of Corpus Linguistics

Linguist List – Text & Corpora

Asociación Española de Lingüística de Corpus

Corpus Revue

CHIMERA: Romance Corpora and Linguistic Studies

Language Resources and Evaluation

Centre for English Corpus Linguistics