LINGÜÍSTICA DE CORPUS
La Lingüística de Corpus (LC) se define como “una rama de la lingüística que basa sus investigaciones en datos obtenidos a partir de corpus” (Martín Peris et al., 2008). Ciertamente, no hablamos de una disciplina lingüística en sentido estricto, sino de un enfoque metodológico que puede ser adoptado desde diversas disciplinas. De hecho, debido a su interdisciplinariedad, está adquiriendo una notable presencia en los estudios de lingüística actuales.
La LC basa sus estudios en la confección y análisis de los corpus lingüísticos. Un corpus consiste en una recopilación de muestras reales de una lengua (novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos, transcripciones de programas de radio o televisión, conversaciones o incluso discursos).
Suele aparecer en línea o en formato electrónico debido a su gran tamaño. Las muestras se seleccionan a partir de criterios objetivos que se establecen previamente y que buscan ofrecer una representación de (algún aspecto de) la lengua.
De este modo, la representatividad se convierte en “la piedra angular de la LC, pues de ello depende que se puedan extraer conclusiones fiables a partir de los datos estadísticos” (Cruz Piñol, 2012: 36). Los corpus constituyen, por tanto, la base de los estudios lingüísticos en tanto que permiten la investigación de diversos aspectos de una lengua o una variedad concreta.
En función del criterio usado para la selección de los textos podemos encontrar la siguiente tipología de corpus, que está íntimamente relacionada con la representatividad que los caracteriza (EAGLES, 1996):
- Corpus de referencia o generales: pretenden ser una muestra representativa y exhaustiva de las variedades, las estructuras y el vocabulario de una lengua, por lo que suelen ser bastante extensos. Permiten estudiar las características de una lengua en un momento determinado de su historia.
- Corpus especiales, especializados o con fines específicos: pese a que existe gran controversia con respecto a la denominación de este tipo de corpus, se puede decir de manera general que son recopilaciones de menor volumen creadas con algún propósito específico. Son representativas de un sublenguaje, o lengua especializada, o del uso lingüístico de un grupo específico de hablantes que posee características comunes.
- Corpus bilingüe o multilingüe: dentro de estos tipos podemos distinguir entre:
- Corpus paralelo: contienen textos y su traducción a una o varias lenguas.
- Corpus comparable: incluyen tipos de textos similares en varias lenguas permitiendo así realizar comparaciones entre ellas.
-
CORPUS EN ESPAÑOL
-
CORPUS EN FRANCÉS
-
CORPUS EN INGLÉS
-
CORPUS MULTILINGÜES, ESPECIALES Y PARALELOS
-
EQUIPAMIENTO CORPUS
ENLACES DE INTERÉS
International Journal of Learner Corpus Research
International Journal of Corpus Linguistics
Linguist List – Text & Corpora
Asociación Española de Lingüística de Corpus
CHIMERA: Romance Corpora and Linguistic Studies
Language Resources and Evaluation
Centre for English Corpus Linguistics