Portal de corpus TransferLAELE

Se trata de un proyecto de compartición de corpus que han sido recogidos en ocasión de investigaciones del Grupo Nebrija-LAELE (Lingüística Aplicada a la Enseñanza de Lenguas Extranjeras), tanto en Proyectos I + D como en base a la tarea didáctica que se desarrolla en los ámbitos de posgrado del Departamento de Lenguas Aplicadas de la Universidad Nebrija. El objetivo es poner a disposición de los estudiosos y de los docentes de Español como lengua nativa, segunda y extranjera un portal que admita la interrogación y compilación de corpus personalizables para el estudio de fenómenos lingüísticos relacionados con este tipo de estudiantes y su Interlengua.

Como corresponde a los intereses del grupo LAELE, estos corpus (prevalentemente en español, pero con posibles grupos de contraste en otras lenguas) se crearon para estudiar fenómenos lingüísticos que caen dentro de los ámbitos temáticos que enmarcan sus estudios. A saber:

  • Relación entre los procesos psicológicos básicos de emoción, memoria y atención, y la adquisición de lenguas extranjeras.
  • Adquisición, aprendizaje y enseñanza del español en contextos de migración.
  • Adquisición, aprendizaje y enseñanza del léxico de segundas lenguas y lenguas extranjeras.
  • Identidad lingüística, interculturalidad y aculturación.
  • Evaluación y certificación de la competencia lingüística.
  • Aprendizaje y didáctica de lenguas en contextos de inmersión y de integración con contenidos en el ámbito escolar.

Entendemos por corpus, según la definición de Sinclair (2005: 16, traducción propia), “una colección en formato electrónico de material lingüístico, cuyo muestreo sigue -en la medida de lo posible- criterios de representatividad para la lengua o variedad lingüística examinada, y cuya finalidad es servir de base para la investigación lingüística.” Esta colección de corpus que ofrecemos es un instrumento que permite evidenciar el uso de unidades léxicas en contexto, formular análisis de errores, realizar un estudio de los usos pragmáticos de la lengua y responder a las preguntas de investigación que son propias de la enseñanza y el aprendizaje de lenguas extranjeras.

Se debe revisar aquí el criterio de autenticidad que generalmente se aduce para recoger muestras de diarios, páginas web y otras fuentes que los nativos escriben para nativos. El significado de esta palabra se liga a realidad y parece contraponerse a manipulación, cuando estos conceptos parecen difíciles de definir en el ámbito educativo. Aquí trabajamos con corpus de aprendientes en los que la actividad de clases y de evaluación, incluso certificadora, constituye un contexto perfectamente real y con un parámetro diferente de autenticidad. Se proponen como herramientas dinámicas y ricas en datos sobre una lengua concreta una variedad lingüística concreta que puede compararse con otras variedades. Para los profesores, los corpus de alumnos son útiles porque permiten elaborar materiales didácticos eficaces, basados en el análisis de las dificultades reales que se encuentran en la producción de una lengua como lengua extranjera.

La mayor entidad de textos se relaciona con la actividad investigadora desarrollada entre los años 2017 y 2022 para los proyectos competitivos:

  • El Proyecto EMILIA (Plan Estatal de Investigación Científica y Técnica y de Innovación – 2017) financiado por FEDER/Ministerio de Ciencia, Innovación y Universidades – Agencia Estatal de Investigación/Proyecto EMILIA-058583184-83184-45-517
  • Proyectos IN.MIGRA2 e IN.MIGRA3 “La población migrante de la comunidad de Madrid: estudio multidisciplinar y herramientas para la integración sociolingüística” (H2019/HUM-5772), dentro de la convocatoria de ayudas para la realización de Programas de Actividades de I + D entre grupos de investigación de la Comunidad de Madrid en Ciencias Sociales y Humanidades, cofinanciada por el Fondo Social Europeo.

Por esta razón, completa idealmente los esfuerzos realizados para la construcción de otros corpus:

  • Corpus dinámico del Español de la Inmigración (CORDIESIN) con 192 entrevistas sociolingüísticas realizadas a 11 grupos de inmigrantes
  • Corpus Nebrija – Inmigra compuesto por 342 muestras orales y sendas muestras escritas de informantes de 12 países

E integrado con las siguientes herramientas:

  • Plataforma terminológica HUMANTERM para la extracción de terminología plurilingüe en el ámbito humanitario

La interrogación del corpus puede realizarse en modo simple a partir de la página de búsqueda. Allí se seleccionan los textos orales o escritos que pueden interesar al usuario, de acuerdo a una serie de parámetros. Estos textos pueden descargarse en versiones diferentes (incluidos los archivos de audio) y someterse al análisis posterior que se puede realizar con diferentes herramientas.

Cada corpus ha de ser citado en su composición aclarando la fuente y dando debido crédito a quien compiló y transcribió los textos en cuestión y no al portal en general (cada autor y trabajo publicado tiene un doi al que podemos referirnos).