18. November 2024

Neue Veröffentlichung über portugiesisches NLP Neue Veröffentlichung über portugiesisches NLP

Um die Zukunft der offenen Entwicklung der neuronalen Textgenerierung in Portugiesisch voranzutreiben, stellen Nicholas Kluge Corrêa und Kollegen sowohl GigaVerbo, eine Verkettung deduplizierter portugiesischer Textkorpora mit einer Größe von 200 Milliarden Token, als auch Tucano, eine Reihe von Decoder-Transformatoren, die nativ auf Portugiesisch vortrainiert sind, vor.

Wir freuen uns sehr, die Veröffentlichung der neuesten Forschungsergebnisse von Nicholas Kluge Corrêa und seinen Kollegen Aniket Sen, Sophia Falk und Shiza Fatimah bekannt zu geben, die die Fortschritte der Open-Source-Community für portugiesische NLP (neurolinguistische Programmierung) weiter vorantreiben werden. In ihrer Studie, die auf ihrer früheren Arbeit mit dem TeenyTinyLlama-Paar aufbaut, stellen sich die Forschenden einer großen Herausforderung in der Welt der NLP: der Erstellung leistungsfähiger Sprachmodelle für ressourcenarme Sprachen.

Während Sprachen wie Englisch auf Datensätze mit Billionen von Token, unzählige Bewertungsmaßstäbe und ein neues, alle paar Wochen veröffentlichtes Modell auf dem neuesten Stand der Technik zugreifen können, hinken Portugiesisch – und viele andere Sprachen – weit hinterher.

Die wichtigsten Beiträge ihrer Studie sind die folgenden:

  • Die Erstellung von GigaVerbo, einem großen und hochwertigen Datensatz für die Modellierung der portugiesischen Sprache. Mit diesem Datensatz hat das Team das Pre-Training für die Sprachmodellierung für Portugiesisch so weit vorangetrieben, dass die Marke von 500 Milliarden Token überschritten wurde.
  • Die Erstellung von Hilfsfiltern und Datensätzen zur Unterstützung der Analyse großer portugiesischer Textdatensätze.
  • Die Entwicklung der Tucano-Reihe, einer neuen Sammlung von effizienten und effektiven Open-Source-Sprachmodellen für Portugiesisch. Tucano-Modelle übertreffen alle mehrsprachigen Modelle vergleichbarer Größe und sogar Llama-3.2-Modelle in mehreren Benchmarks.
  • Der kritische Vergleich verfügbarer Benchmarks, um zu zeigen, dass viele von der portugiesischen NLP-Community verwendete Bewertungen, wenn sie zur Bewertung der Fähigkeiten grundlegender Modelle verwendet werden, die nativ auf Portugiesisch vortrainiert sind, wenig bis gar nicht mit der Skalierung der Token-Aufnahme während des Trainings korrelieren.

Alle Nebenprodukte der Arbeit des Forschers, wie Datensätze, Modelle, Code-Implementierung und Protokolle, sind offen und frei verfügbar und ebnen den Weg für eine gerechtere und nachhaltigere Zukunft für die portugiesische NLP-Community.

Vorabdruck
Modelle und Datensätze
GitHub

Wird geladen