Lingenio stellt für das Teilprojekt B3 des SFB 732, Disambiguierung von Nominalisierungen bei der Extraktion linguistischer Daten aus Corpustext, einen Forschungsprototypen zur unterspezifizierten syntaktisch-semantischen Analyse von Korpora und beteiligt sich bei der Forschung zu sortalen Eigenschaften von ung-Nominalisierungen im Deutschen und den Bedingungen für deren partielle Disambiguierung durch kontextuelle Faktoren.
Der Forschungsprototyp ermöglicht es dabei, einem sehr großen Prozentsatz von Sätzen aus den betrachteten Korpora (unterschiedlichster Provenienz) verlässliche Analysen zuzuweisen. Das ist möglich, weil die Grammatiken und Lexika der Lingenio Systeme ständig erweitert und verbessert wurden aus den Notwendigkeiten des Marktes, sodass deren Abdeckung heute so groß ist, dass kaum eine frei zugängliche Software mithalten könnte.
Der Forschungsprototyp bietet aber auch eine Reihe anderer Funktionen: Er erlaubt es, die Analysen entsprechend den Bedürfnissen der jeweiligen Aufgabenstellung partiell zu disambiguieren und die entsprechenden strukturellen und sortalen Konsequenzen zu berechnen. Desweiteren wird das System benutzt, um Kontextelemente automatisch zu extrahieren, die als relevant erachtet werden, und diese nach manueller Klassifikation dem System wieder zuzuführen, um feinere Analysen auf Basis des entsprechenden Informationszuwachses zu ermöglichen und damit linguistische Hypothesen zu testen. (Eine kompakte Beschreibung der grundsätzlichen Funktionen und Anwendungsabsichten findet sich in der auf der DGfS-Tagung 2008 gegebenen Präsentation; zu weitergehenden Beschreibungen und Ergebnissen vgl. die B3-Publikationsliste).
Für Lingenio ist das Projekt sehr wertvoll weil es Gelegenheit bietet, die Robustheit und Güte der Analysekomponente der Übersetzungssysteme ausgiebig an Korpora zu evaluieren und um unterspezifizierte Repräsentationsformen zu erweitern, die helfen die Übersetzungsqualität in signifikanter Weise weiter zu verbessern. Außerdem bietet das Szenario eine gute Gelegenheit eine Reihe interessanter einsprachige Anwendungen zur Erweiterung des Portfolios auszuarbeiten.