Herramientas

Usando la página de búsqueda de este portal se obtiene un corpus textual (whole text corpus), simple o sea no codificado o anotado (plain text). Los textos provenientes de transcripción oral tampoco tienen una normalización, porque los corpus son documentados y no solo se puede recabar la información básica del hablante, sino que el texto puede escucharse o verse en una registración asociada (mp3 o mp4). Una vez que se seleccionan las muestras que son válidas para investigar un cierto fenómenos lingüístico, resultará imprescindible utilizar una herramienta informática que permita el análisis de ese corpus.
La elección de las herramientas depende de la pregunta de investigación que guie el proceso, en algunos casos será necesario encontrar palabras, en otros analizar la longitud de una oración o hacer un análisis gramatical. La cantidad de herramientas es amplia, aunque no siempre encontramos las justas para el análisis del español y, en muchos casos, se debe realizar una limpieza previa de errores o una lematización de las muestras. La lectura de los trabajos de los que provienen los corpus fuente de este portal puede proveer de buenas directrices de trabajo y ayudar a elegir entre programas.

Entornos gratuitos para la creación de corpus y su análisis

CorpusSearch
Permite encontrar estructuras sintácticas determinadas en un corpus textual o como herramienta para la creación de corpus.
CorpusCatcher
Es un conjunto de herramientas para recopilar corpus a partir de recursos web disponibles públicamente. Puede ser cuando se busque un corpus de contraste al propio, nativo, sobre un tema o una forma lingüística que se pueda recopilar en la web. Está escrito en Python, por lo que puede personalizarse. A los archivos necesarios para descargar y trabajar con CorpusCatcher se accede desde aquí.

Herramientas de autor

Laurence Anthony
Permite utilizar una variedad de programas para construir el propio corpus, incluso paralelo y analizar sus concordancias, permitir la alineación, etc. No todas las herramientas funcionan en español, pero sí la de concordancia (AntConc). Posibilitan el etiquetado, fragmentación y profilación léxica de un corpus.
UAM Corpus Tool
Permite etiquetar corpus lingüísticos (sincrónicos/diacrónicos), obtener algunas medidas generales y analizar el etiquetado de los corpus.

Herramientas multifunción

Freeling es una herramienta para el PLN de textos en varias lenguas (inglés, español, catalán, gallego e italiano). Incluye preproceso, análisis y desambiguación morfológica, análisis sintáctico, etc.
Sketch Engine permite acceder al análisis estadístico y crítico de corpus a través de la individuación de types, tokens, type-token ratio, listas de frecuencia, lematización. Existen prácticas en las que se analiza el significado colocacional. De algunas unidades léxicas.

Otros programas de Análisis de datos textuales

Alceste

El software Alceste (Analyse des Lexèmes Co-occurents dans les Ènoncés d’un TExt) se propone como una metodología estadístico-textual destinada al análisis del discurso, con aplicaciones principales en los campos de la semiótica y el análisis de contenido. Se basa en métodos de clasificación jerárquica de las palabras «completas» contenidas en un corpus; la pertinencia, el sentido y la coherencia de las clases identificadas dejan al investigador márgenes para evaluar y reelaborar los resultados. El software también contiene herramientas para la identificación de palabras típicas de cada clase y para el análisis factorial de las correspondencias.

Iramuteq

Iramuteq es un software libre (licencia GNU GLP) para analistas de datos y textos. Se basa en el software R (IRaMuTeQ son las siglas de R interface for Multidimensional Text and Questionnaire Analysis) y en el lenguaje de programación Python. Puede realizar diferentes tipos de análisis en corpus de gran tamaño (más de cientos de millones de ocurrencias). Iramuteq reproduce el método de clasificación descrito por Reinert (1983, 1991), es decir, la clasificación jerárquica descendente relativa a una tabla que cruza formas completas y segmentos de texto. Puede realizar análisis de especificidad a partir de segmentos definidos y análisis de similitud en las formas completas de un corpus.

Lexico

Lexico es un software de análisis automático de textos que contiene todas las funciones principales de la investigación lexicométrica y el análisis estadístico (vocabulario de frecuencias, concordancias, etc.). Tiene la ventaja de ser interactivo y de dejar al usuario el control de las distintas etapas que van desde la identificación de las unidades de análisis hasta la elaboración de los resultados. Además del análisis mediante sencillos formularios gráficos, el software permite la identificación de segmentos repetidos y la búsqueda de co-ocurrencias. Entre las características típicas de este software está la producción de diagramas de topografía textual que permiten visualizar la presencia de unidades textuales en el corpus en una lógica de tipo secuencial (por ejemplo, cronológica).

Nooj

Nooj se presenta como una nueva elaboración de las metodologías y herramientas del software Intex. El software Nooj se presenta como una herramienta de análisis lingüístico que incluye una amplia gama de recursos lingüísticos: diccionarios, gramáticas, analizadores sintácticos y etiquetadores para el análisis morfológico y sintáctico. También produce concordancias de varios niveles y complejidad, además del tratamiento lexicométrico principal.

Sphinx

El software Sphinx tiene como punto fuerte un enfoque particular en todo el proceso de la encuesta, por lo que se propone como un paquete integrado de recursos que, a través de interfaces fáciles de usar, se encargan de todos los diferentes pasos: diseño de la investigación, aplicación del cuestionario, recogida de datos y análisis. Como parte de las herramientas de análisis de datos, dispone de un módulo específico para el análisis estadístico de datos textuales que contiene todas las funciones principales del enfoque lexicométrico y produce representaciones gráficas elaboradas y eficaces de los resultados.

Taltac

TaLTaC2 (Automatic Lexical and Textual Processing for Corpus Content Analysis) es un programa informático para el análisis textual de documentos o datos expresados en lenguaje natural, que hace un uso integrado de recursos estadísticos y lingüísticos. El tratamiento del texto se realiza de forma automática tanto a nivel léxico como textual y ciertas fases constituyen una preparación del corpus para los análisis posteriores, realizados con el software en la doble lógica de análisis y minería de textos. Estos análisis ofrecen representaciones del fenómeno estudiado tanto a nivel de unidades textuales (palabras) como a nivel de unidades de contexto (fragmentos/documentos). Las funciones permiten analizar grandes corpus (más de 150 MB), realizar todas las operaciones básicas de procesamiento del lenguaje natural, búsqueda y extracción de información del texto, así como realizar anotaciones sobre el vocabulario del corpus y la categorización automática de los documentos a partir de consultas, para seleccionar y extraer la información más significativa. Todos los resultados, en forma de corpus anotado o de matrices de datos, tienen formatos adecuados para su transferencia a otros paquetes estadísticos de análisis textual o de análisis de datos cualitativos y cuantitativos.

T-Lab

T-Lab es un software modular compuesto por un conjunto de herramientas lingüísticas y estadísticas que permiten explorar, analizar, comparar, representar gráficamente e interpretar el contenido de los textos. T-Lab ofrece una serie de funciones para el análisis léxico con una arquitectura de fácil uso. En la fase de preprocesamiento, T-Lab realiza los principales tratamientos automáticos del enfoque lexicométrico: normalización del corpus, reconocimiento de secuencias de palabras fijas, segmentación en contextos elementales, lematización, selección de palabras clave, etc. El procedimiento de lematización automática de textos funciona en italiano, inglés, francés, español y latín. No es un programa gratuito, pero los estudiantes de la Universidad Nebrija pueden pedir un acceso institucional.

TXM

TXM es un software gratuito que reconoce textos y corpus en formato Unicode y XML. Sus gráficos se basan en los entornos CQP y R. Está disponible para Windows, Mac OS X y como portal web J2EE. TXM implementa la metodología de análisis textual proporcionando herramientas tanto para el análisis cualitativo, como las concordancias léxicas basadas en el eficiente motor de búsqueda CQP y el lenguaje de consulta CQL, las listas de frecuencias, los histogramas de ocurrencias, como para el análisis cuantitativo, como el análisis factorial de correspondencias, el clustering, etc. Puede utilizarse con cualquier colección de documentos codificados con Unicode en varios formatos: TXT, XML, XML-TEI P5, XML-Transcriber, XML-TMX, XML-PPS, Europresse, etc. Aplica varias herramientas de PNL en los textos antes del análisis (por ejemplo, TreeTagger para la lematización y el etiquetado).

Lemantizadores

Treetagger

TreeTagger es un software gratuito que realiza anotaciones gramaticales estocásticas y permite el análisis gramatical automático y la lematización de textos escritos en francés, inglés, alemán, italiano, español, búlgaro, ruso, griego y portugués. La lematización se basa en archivos de parametrización y en fases de entrenamiento mediante las cuales la herramienta es capaz de aprender métodos de decisión a partir de la información de corpus ya lematizados. La lematización automática sigue reglas estocásticas y, en consecuencia, el resultado no puede considerarse infalible y requiere una revisión manual para desambiguar todos los errores de interpretación que normalmente comete un lematizador automático. El software está disponible para los tres principales sistemas operativos Windows, Linux y Mac

WordSmith Tools

WordSmith Tools es un conjunto de procedimientos para el análisis lingüístico que ofrece herramientas para organizar corpus y realizar búsquedas complejas mediante operadores de tipo consulta. El paquete integra una serie de recursos estadísticos para el análisis de datos y realiza todo el procesamiento léxico principal. Es interesante por la posibilidad de trabajar con textos codificados en XML y la lematización automática de corpus. Desde hace algunos años, es posible analizar textos en varias lenguas.