PaCorES:
Corpus paralelos del espanol
El proyecto PaCorES surgió con el objeto de construir una colección de corpus bilingües paralelos bidireccionales con el español como lengua central, siendo el único proyecto existente de estas características. Además, ofrece un corpus chino-español, muy prometedor en cuanto al número potencial de usuarios.
Actualmente los corpus nucleares de PaCorES incluyen una colección de textos contemporáneos en prosa mayoritariamente de ficción. Este tipo de textos están muy escasamente representados en los corpus paralelos por la dificultad de su obtención. Ofrecen una calidad probada debido al control editorial y sus traducciones han sido realizadas por profesionales. Todo el procesamiento de los textos, incluido el alineado, se ha sometido a una revisión exhaustiva.
Los textos incluidos vienen acompañados de una completa metainformación, documentando no sólo la información bibliográfica completa, sino también otros datos como la lengua original, si se trata de una traducción directa o no, el nombre del traductor y sus intervenciones.
Los corpus de la colección PaCorES son totalmente accesibles y estables, pudiendo consultarse libremente en línea. La estabilidad está garantizada por el hecho de que los corpus PaCorES se publican sucesivamente en versiones claramente identificadas, de modo que los investigadores pueden documentar inequívocamente su base empírica.
Los corpus que forman la colección son los siguientes en orden de creación:
1) El Parallel Corpus German <>Spanish, PaGeS
2) El Parallel Corpus English<>Spanish, PaEnS,
3) El Parallel Corpus Chinese<>Spanish, PaCheS
4) El Parallel Corpus French<>Spanish, PaFreS
Dado que se trata de un proyecto en desarrollo, comenzado en 2015, los distintos corpus se encuentran en distintas fases de realización. En consecuencia, difieren no sólo en tamaño, sino también temporalmente en cuanto a los tipos de textos indexados. No obstante, las directrices generales para la compilación de los distintos corpus son las mismas en todos ellos.
En PaCorEs hay dos grandes grupos de datos bien diferenciados: el primero está formado por los corpus nucleares y el segundo por los llamados suplementos. Ambos grupos difieren en sus características, los procedimientos de tratamiento a los que se someten y el grado de revisión que se lleva a cabo durante las distintas fases de tratamiento.