datasets en part-of-speech tagging

Voor taaltechnologische software is vaak een trainingsset nodig.

Zo’n trainingsset kan een dataset zijn van zinnen, uitdrukkingen, basiswoorden voor bijvoorbeeld spraaksoftware. Die maak ik voor u.

Een trainingsset kan ook een klein, representatief deel van een tekstcorpus zijn. Hierin worden met de hand woordsoorten toegekend aan de woorden: part-of-speech tagging. Met dit handmatig getagde deel wordt het algoritme getraind dat daarna automatisch de woordsoorten toekent aan de rest van de woorden in het corpus. De handmatige part-of-speech tagging doe ik voor u.