Colossal Clean Crawled Corpus (C4) dient Sprachmodellen als Trainingsgrundlage. Die Washington Post hat den Datensatz untersucht – er enthält Ungereimtheiten.
Posted in Technologie
Blick in die Blackbox: KI-Trainingsdatensatz C4 schöpft auch aus trüben Quellen
Scientist 21. April 2023