Thomas Markert

Ich habe experimentell erkundet, was Studierende heute erhalten, wenn sie nach einem KI‑generierten Produkt „Bachelorarbeit“ suchen. In diesem Beitrag beschreibe ich meinen Selbsttest, leite daraus Schlussfolgerungen für Lehre und Prüfungen ab und teile gern meine Perspektive mit Lehrenden und Studierenden.

Worum es geht

Ein seufzendes „Ach!“ war in der zurückliegenden Prüfungszeit an meiner Hochschule ein geläufiger Auftakt im kollegialen Gespräch. Immer mehr schriftliche Prüfungsleistungen wirkten sprachlich glatt, strukturiert und auf den ersten Blick adäquat. Gleichzeitig passte auf den zweiten Blick vieles nicht zusammen – nicht als einzelner Fehler, sondern als Muster: Durch unkundige KI‑Nutzung gaben eine erhebliche Anzahl von Studierenden Texte ab, die am Ende nicht als Prüfungsleistung bestanden.

Das Phänomen der Auslagerung von Schreibarbeit im Rahmen der akademischen Qualifikation ist nicht neu. Bis vor ein paar Jahren bedeutete dies, sich an unterstützende Menschen im sozialen Nahraum oder an professionelle Ghostwriter:innen zu wenden. Prüfungsrechtlich war das häufig schwer nachweisbar. Im Zuge der KI-Tools neu ist etwas Grundsätzliches: Heute kann ich diese Auslagerung an eine Maschine delegieren – ohne Aushandlungsprozess, ohne Gegenüber, ohne Scham, ohne soziale Reibung. Ein paar Eingaben, ein Klick, vielleicht noch ein wenig Geld dazu: fertig.

Ich will offen sagen: Ich kann Studierende verstehen, die dieser Verlockung nicht widerstehen. Wer unter Druck steht, wer (noch) nicht gut ins akademische Schreiben hineingefunden hat, wer nebenbei durch Lohnarbeit und Familienaufgaben überlastet ist, wer Angst hat zu scheitern – für all diese Lagen ist das Angebot verführerisch. Genau deshalb wollte ich nicht in den Modus der Empörung verfallen, sondern mir ein eigenes Bild verschaffen. Ich wollte erkunden, wie viel Aufwand heute nötig ist, um aus einem KI‑Text eine schriftliche Prüfungsleistung zu erstellen. Und ich wollte so besser verstehen, was ich in der Lehre thematisieren und in der Begutachtung ändern muss.

Der Selbsttest

Ich habe einen kommerziellen deutschen KI‑Textservice genutzt und für eine mittlere zweistellige Summe einen – so der Anbieter – legalen „Entwurf“ einer 40‑seitigen Bachelorarbeit für das BA-Studium der Sozialen Arbeit generieren lassen. Als Grundlage diente ein Thema, wie ich es im Studienalltag vorgelegt bekam. Für weitere Informationen, die den Auftrag an die KI präzisieren, arbeitet der Anbieter mit einer Fragebogenlogik: Ich klickte mich durch Parameter zu Thema, Schwerpunktsetzung und Formalkriterien. Auch der Upload von Texten und das Einfügen von Links zu Quellen waren möglich. (Ersteres habe ich zum Schutz der Urheberrechte nicht genutzt, auch wenn dies die Materialbasis positiv verändert hätte.) Ich konnte außerdem auswählen, wie präzise die Quellenangaben im Text und ob die technische Herkunft verschleiert werden sollen.

Mir ging es nicht darum, die bestmögliche Version zu erhalten, sondern eine realistische Ausgangslage zu simulieren: Was passiert, wenn ich einen solchen Text bestelle, ihn minimal durcharbeite, um ihn dann kurz vor Abgabefrist einzureichen?

Das Ergebnis war ein Text, der nach vier Stunden vorlag und formal zunächst „abgabefähig“ wirkte – genau in dem Sinne, dass Einleitung, Kapitelstruktur und wissenschaftlicher Ton vorhanden sind. Diesen Text habe ich dann einmal lesend redaktionell überarbeitet, also Layout und Textfluss geglättet, als hätte ich zur Abgabe nur noch wenige Stunden Zeit. Während ich Fehler und Lücken entdeckte, erschloss sich mir auch die Regel des Anbieters, keine Reklamation zuzulassen. Stattdessen erhielt ich zeitnah das Angebot, zu einem rabattierten Preis die Arbeit mit präzisiertem Auftrag erneut generieren zu lassen. Ich befürchte, dass hier das Risiko besteht, dass Studierende in Notlagen wirtschaftlich abgeschöpft werden, wenn sie die Mängel der ersten Version entdecken.

Die so produzierte Arbeit ist nicht plump. Im Gegenteil: Die Einleitung liest sich flüssig, die Forschungsfrage wird eingeführt, und die Gliederungslogik wirkt nachvollziehbar. Der akademische Duktus ist anschlussfähig, sodass ein „prüfendes Überfliegen“ des Textes zu einem ersten positiven Votum führen kann. Auch das Literaturverzeichnis ist mit fast 40 Einträgen umfangreich und in weiten Teilen thematisch passend gefüllt.

Oberfläche: Warum der Text zunächst plausibel wirkt

Auffällig ist zudem eine „menschlich“ wirkende Varianz: Satzlängen wechseln, es tauchen vereinzelte kleine orthografische Fehler auf, und zwischendurch erscheinen alltagssprachliche Wendungen. Das wirkt nicht wie ein perfektes, steril geglättetes Dokument, sondern wie ein Text, der zu einer studierenden Person passen könnte.

Substanz: Wo der Text fachlich bricht

Bei genauer fachlicher Prüfung kippt die Plausibilität. Nicht an einer Stelle, sondern wiederholt – und nicht mit „lautem Knall“, sondern in flüssig gehaltenem Text.

Erstens: Feldlogische „Falle“ nicht erkannt. In meinem Testthema geht es um Offene Kinder‑ und Jugendarbeit (OKJA) und Internetnutzungsstörungen bei Jugendlichen. Der Text geht davon aus, dass es selbstverständlich sei, dass OKJA ein Ort ist, an dem solche Problemlagen bearbeitet werden können. Was aber fehlt, ist die naheliegende Gegenperspektive: dass Jugendliche eine solche Thematisierung als Eindringen in private, auch digitale Räume erleben könnten – und dass OKJA gerade durch Offenheit, Freiwilligkeit und lebensweltorientierte Beziehungen geprägt ist. Ein offener Jugendtreff ist kein Therapie‑Setting. Das ist kein „Detail“, sondern eine feldlogische Grundfrage, die der Text nicht stellt.

Zweitens: Markante Brüche und Redundanzen im Theorieteil. Der Entwurf produziert viel Text, aber er kommt nicht verlässlich voran. Begriffe werden eingeführt, später aber nicht konsequent weitergeführt. Teilweise wirkt es, als würde der Text das zuvor Ausgeführte nicht „lernen“. An anderen Stellen springt die Argumentation: Es werden Präventions‑ oder Interventionsbezüge aufgebaut, bevor das Handlungsfeld überhaupt sauber definiert ist. Das fühlt sich beim Lesen zunächst „wie Wissenschaft“ an, trägt fachlich aber nicht.

Drittens: Normative und institutionelle Rahmung fehlt. Soziale Arbeit ist als Praxis institutionell und rechtlich gerahmt. Im Entwurf fehlen zentrale Bezüge oder bleiben zumindest so allgemein, dass sie keine argumentative Funktion erfüllen. Auch Praxisbeispiele tauchen eher als erzählerische Bausteine auf („so könnte man…“) statt als sauber verortete, begründete Bezugspunkte.

Quellenarbeit als Kern: Literaturfülle vs. Prüfbarkeit

Im umfangreichen Literaturverzeichnis finde ich genau eine Halluzination; die Zeit, in der sich gute Tools reihenweise Quellen „ausdenken“, ist anscheinend vorbei. Auch wenn die Langbelege teils umständlich lang, nicht der Literaturgattung entsprechend gesetzt oder lückenhaft sind: Der eingefügte Link zur digitalen Quelle funktioniert häufig. Diese Verweise führen dann teils zu Abstract‑Seiten oder Verlagsoberflächen, weil Volltexte hinter Paywalls liegen. Insgesamt enthält das Verzeichnis Beiträge aus Fachzeitschriften, Dissertationen und frei zugängliche Veröffentlichungen. Open‑Access‑Publikationen von Fachverlagen der Sozialen Arbeit bilden dabei für KI‑Generierungen ein „nahrhaftes“ Angebot.

Die irritierende Pointe ist: Der Text kann eine beeindruckende Literaturkulisse erzeugen, während er zugleich die konkrete Überprüfung im Detail blockiert. In den Kurzbelegen fehlen die Seitenzahlen – und der Anbieter hatte den Verzicht darauf sogar zugunsten eines größeren Literaturapparats empfohlen.

Was das für Studierende bedeutet

Die Maschine kann Sprache, Struktur und thematische Nähe herstellen – aber sie trifft wiederholt falsche fachliche Annahmen. Wer der Idee folgt, einen KI‑generierten „Entwurf“ zur finalen Version zu überarbeiten, die fachlich besteht, braucht so erstens spezifisches Wissen, um die fachlichen Fehler zu erkennen und zu beheben. Es braucht zweitens Zeit und Ausdauer, um die Quellenarbeit zu präzisieren und Aussagen prüfbar zu machen. Das ist Arbeit, die aus meiner Sicht nicht in Tagen, sondern eher in Wochen zu leisten ist und klingt am Ende gar nicht mehr nach einer genialen Abkürzung.

Was das für Begutachtung und Lehre bedeutet

Ich muss stärker überprüfen, ob Behauptungen tatsächlich auf belastbaren Textstellen beruhen, ob Begriffe konsequent verwendet werden und ob fachliches Grundwissen korrekt verstanden ist. Vor allem die Quellenprüfung wirft einen Schatten des Misstrauens auf meine Zusammenarbeit mit den Studierenden. Dies steht aber im Widerspruch zur Fachdidaktik der Sozialen Arbeit, in der wir pädagogische Settings an der Hochschule immer auch in Bezug zur späteren professionellen Tätigkeit verstehen, bei der in der Einzelfallarbeit oder Beratung eine Begegnung auf der Basis von Misstrauen abwegig ist. Für diese schwer zu ertragende Konstellation habe ich bisher keine Lösung und lege sie den Studierenden offen.

Ich benutze keine KI-Detektoren, denn selbst, wenn ich die Vermutung habe, dass mir ein KI-Text ohne inhaltliche Eigenleistung eingereicht wurde, bleibt häufig entscheidend, was prüfbar ist. Qualität und Quellenarbeit kann ich bewerten – unabhängig davon, ob ein Text „menschlich“ oder „maschinell“ entstanden ist.

Für meine Lehre und Prüfungen bedeutet das:

Ich verlange – sofern quellenabhängig möglich – Seitenzahlen in Kurzbelegen (bei direkten wie indirekten Zitaten).
Ich gewichte Begriffsarbeit und logische Argumentation stärker als sprachliche Eloquenz. Eine Argumentation muss prüfbar sein.
Ich zeige Studierenden in Einführungsseminaren am Anfang des Studiums und in der Vorbereitung auf die Abschlussarbeit den technischen Stand von KI-Tools und schaffe einen Ort des Austauschs zu Unterstützungspotenzialen wie Irrwegen. Nichts ist folgenreicher als der inkompetente Umgang mit KI-Tools.
Ich biete den Studierenden noch stärker Erreichbarkeit und Beratung an: Regelmäßige Kolloquien, um Herausforderungen in der Abschlussarbeit gemeinsam mit Kommiliton:innen zu beraten und erreichte Zwischenetappen gemeinsam zu würdigen. Die Frage: „Frage ich die KI oder meine Betreuung?” soll als reale Entscheidungsoption im Raum stehen.

Ausblick

Mir ist wichtig, die Debatte nicht auf Moral zu verkürzen. Ja, es geht auch um Täuschung und Fairness. Studierende sind erschüttert und irritiert, wenn sie erfahren, dass Kommiliton:innen mit KI-Arbeiten Prüfungsleistungen erfolgreich absolviert haben. Diese Handlungen lassen sich – so meine Überzeugung – auch nicht durch verschärfte eidesstattliche Erklärungen o. Ä. verhindern. Hier geht es auch um Wissenschaftskultur: Was bedeutet wissenschaftliches Schreiben in der Sozialen Arbeit eigentlich? Gelingt es mir zu vermitteln, dass wissenschaftliches Schreiben ein Denk‑ und Bildungsprozess ist? Verstehen die Studierenden, dass sie, wenn sie Begriffe klären, Argumente ordnen, Grenzen markieren, Widersprüche aushalten und so vorwärts kommen, sich Wissen und Kompetenzen aneignen? Verstehen sie, dass dies nicht nur ein von mir künstlich erzeugter akademischer Hürdenlauf ist, bei dem sie ein „Produkt” auch mit KI-Abkürzungen abgeben können? Dieser Selbsterfahrungsbericht steht symbolisch für meine Perspektive: Wir leben dank der KI-Umgebung in einer Metamorphose, in der in akademischen Bildungseinrichtungen Studierende und Dozierende gemeinsam auf einem Weg des Lernens sind, ohne heute zu wissen, wo die Reise hingeht, was möglich sein wird. Transparenz und Austausch wünsche ich mir, um gemeinsam zu lernen und sich immer wieder neu die Frage zu stellen: Was ist im Sinne der Qualität des Studiums der Sozialen Arbeit jetzt zu tun?

Prof. Dr. Thomas Markert ist Professor für Jugendarbeit und Jugendsozialarbeit an der Hochschule Neubrandenburg.

Eine Bachelorarbeit in der Sozialen Arbeit schreibe ich (dir) an einem Tag!