Wir freuen uns sehr, die Veröffentlichung der neuesten Forschungsergebnisse von Nicholas Kluge Corrêa und seinen Kollegen Aniket Sen, Sophia Falk und Shiza Fatimah bekannt zu geben, die die Fortschritte der Open-Source-Community für portugiesische NLP (neurolinguistische Programmierung) weiter vorantreiben werden. In ihrer Studie, die auf ihrer früheren Arbeit mit dem TeenyTinyLlama-Paar aufbaut, stellen sich die Forschenden einer großen Herausforderung in der Welt der NLP: der Erstellung leistungsfähiger Sprachmodelle für ressourcenarme Sprachen.
Während Sprachen wie Englisch auf Datensätze mit Billionen von Token, unzählige Bewertungsmaßstäbe und ein neues, alle paar Wochen veröffentlichtes Modell auf dem neuesten Stand der Technik zugreifen können, hinken Portugiesisch – und viele andere Sprachen – weit hinterher.
Die wichtigsten Beiträge ihrer Studie sind die folgenden:
- Die Erstellung von GigaVerbo, einem großen und hochwertigen Datensatz für die Modellierung der portugiesischen Sprache. Mit diesem Datensatz hat das Team das Pre-Training für die Sprachmodellierung für Portugiesisch so weit vorangetrieben, dass die Marke von 500 Milliarden Token überschritten wurde.
- Die Erstellung von Hilfsfiltern und Datensätzen zur Unterstützung der Analyse großer portugiesischer Textdatensätze.
- Die Entwicklung der Tucano-Reihe, einer neuen Sammlung von effizienten und effektiven Open-Source-Sprachmodellen für Portugiesisch. Tucano-Modelle übertreffen alle mehrsprachigen Modelle vergleichbarer Größe und sogar Llama-3.2-Modelle in mehreren Benchmarks.
- Der kritische Vergleich verfügbarer Benchmarks, um zu zeigen, dass viele von der portugiesischen NLP-Community verwendete Bewertungen, wenn sie zur Bewertung der Fähigkeiten grundlegender Modelle verwendet werden, die nativ auf Portugiesisch vortrainiert sind, wenig bis gar nicht mit der Skalierung der Token-Aufnahme während des Trainings korrelieren.
Alle Nebenprodukte der Arbeit des Forschers, wie Datensätze, Modelle, Code-Implementierung und Protokolle, sind offen und frei verfügbar und ebnen den Weg für eine gerechtere und nachhaltigere Zukunft für die portugiesische NLP-Community.