⚖️ Bewertungsalgorithmus

Nutzende können auf der Plattform verschiedene Beiträge leisten, indem sie Beziehungen herstellen, eine neue Aussage erstellen oder eine Quelle beschreiben. Für jede Angabe auf der Plattform steht die Frage im Raum: "Wann gelten die Einordnungen als weitgehend gesichert oder vertrauenswürdig?" Wir wollen einen Algorithmus entwickeln, der verschiedene Ansätze zur Qualitätssicherung vereint. Die Gewichtung der einzelnen Faktoren wollen wir durch wiederholte Evaluation anhand von beispielhaften Diskussionen kalibrieren, um die oben genannte Balance zu finden (siehe unten). Es folgt eine Auswahl der verschiedenen Ansätze, die zurzeit diskutiert werden.

⚠️ Wichtig: Hier geht es nicht um die Bewertung oder Abgabe von Meinungen, sondern lediglich um die Richtigkeit von Form und Daten.

🧮 Qualitätsfaktoren

💬 angabenspezifisch

Größenverhältnis

Die Menge an User*innen, die nötig ist, damit eine Angabe als gesichert gilt, sollte sich daran orientieren, in welcher Menge und Häufigkeit diese Angabe besucht wird. Bei einem Nischenthema reicht es vielleicht, wenn fünf Leute dieselbe Angabe machen (z.B. "Das Argument XY ist tatsächlich vom Typ 'Analogie-Argument'"). Bei groß diskutierten Themen wiederum wäre das Unterwandern dann viel zu einfach. Die Anzahl an sichernden Stimmen sollte sich also verhältnismäßig an der Größe der Diskussion orientieren. Wie die Größe effektiv gemessen werden kann (z.B. durch Aufrufe, Klicks, Interaktionen), bleibt zu erforschen.

Konkurrenz

Wie hoch das Verhältnis der Beiträge, die gegensätzliche Angaben machen, in Abhängigkeit von der Größe sein darf, muss getestet werden. Bei kontroversen Themen könnten Falscheinstufungen den Sicherungsstatus unterdrücken oder sich gar durchsetzen.

Netzwerkabschwächung

Hier soll verhindert werden, dass eine vernetzte Gruppe an Menschen großen Einfluss auf Sicherung von Angaben erhält. Stimmen etwa immer wider die gleichen zehn Leute für oder gegen die Richtigkeit einer Angabe, kann die Gewichtung dieser Stimmen reduziert werden. Das bedeutet vereinfacht, dass die Gewissheit der Richtigkeit steigen würde, wenn Menschen verschiedener sozialer Gruppen und Bubbles sich einig sind.

Vorabprüfungen

Beim Eintragen von neuen Aussagen können verschiedene Methoden angewandt werden, um regelwidriges Verhalten von vornherein auszuschließen. Ein klassisches Beispiel wäre ein Filter für diskriminierende Bezeichnungen und Beleidigungen. Das Löschen von unliebsamen Meinungen soll auf deliberat.io nicht passieren, verfassungswidrige Inhalte hingegen, sind natürlich nicht in Ordnung und müssen gefiltert werden. Die Anwendung von KI zur Vorsortierung von neuen Eingaben soll geprüft werden. Diese Methoden sollen Vorarbeit leisten, dürfen aber nicht die alleinige Entscheidungsmacht besitzen.

🧑 nutzerspezifisch

Diese Faktoren beziehen sich auf einzelne Nutzer*innen, die Angaben auf der Plattform machen. Ein möglicher Wert, der sich hieraus berechnet, sollte nicht öffentlich dargestellt werden, da es hier nicht ums Vergleichen mit anderen Menschen geht. Eine Darstellung der einzelnen Kategorien für die Nutzer*innen selbst kann in Erwägung gezogen werden, um die Gewichtung ihrer Beiträge transparent zu gestalten (etwa: "Beiträge zu Argumenttypen von dir fließen mit einem Faktor von 0,3 in die Wertung ein, weil du in den letzten drei Monaten 37 falsche Einordnung getätigt hast.").

Nutzungsdauer und Beitragsmenge

Dieser Faktor soll die Vertrauenswürdigkeit von Beiträgen anhand der Aktivität der Nutzer*innen beurteilen - nach dem Motto: "Wer lange und/oder viel auf der Plattform mitwirkt, hat ernsthaftes Interesse am Diskurs und sollte wissen, wie es richtig geht." Dieser Faktor sollte nur für relativ kurze Zeiträume greifen, um keine Privilegien zu schaffen, soll aber auch wirksam verhindern, dass frisch erstellte Accounts (z.B. mehrere von einer Person oder nicht-abgefangene Bot-Accounts) bedeutsamen Einfluss auf das Geschehen nehmen können.

Regelwidriges Verhalten

Hier soll das Verhalten auf der Plattform einfließen. Hat ein User zum Beispiel häufig Argumente falsch eingeordnet oder fälschlicherweise gemeldet, würden wir ein hohes Potenzial für eine manipulative Absicht unterstellen. Relevante Fragestellungen für diesen Faktor sind:

Wie oft wurden Aktionen des Users als falsch gemeldet und haben tatsächlich gegen Regeln verstoßen?
Wie oft hat der User Aktionen als falsch gemeldet, obwohl sie sich als richtig rausstellten?

⚠️ Das Ganze ist ein Experiment! Ob die Qualitätssicherung auf diese Weise gelingen kann, werden wir erst wissen, wenn wir es versucht haben. Wir wollen es aber unbedingt ausprobieren! Wie schön wäre es, wenn wir eine Form der sozialen Selbstkontrolle etablieren könnten, die auf einem vielschichtigen und dennoch transparenten Algorithmus basiert?

Edit this page on GitHub

Qualitaet👍 Qualitätskriterien

Qualitaet🔍 Evaluation