Audiodateien mit OpenAI zusammenfassen: Dieser Trick spart euch bares Geld

Bei Audiotranskriptionen in ChatGPT könnt ihr Geld sparen. (Bild: Shutterstock/Ascannio)
Wer den vollen Funktionsumfang von ChatGPT nutzen möchte, muss dafür bezahlen. Mittlerweile verlangt OpenAI für das Plus-Abo 23 Euro im Monat. Wer als Privatperson wirklich unbegrenzten Zugang will, muss monatlich 229 Euro auf den virtuellen Tresen legen. Noch kostenintensiver kann es aber für Entwickler:innen werden, die OpenAIs KI-Dienste über die API des Unternehmens anzapfen. Denn sie bezahlen nach der Anzahl der Input- und Output-Token.
Das bedeutet, dass die Aufgabe umso teurer wird, je komplexer sie ausfällt. Bei der Nutzung von GPT-4.1 kosten eine Million Input-Token zwei US-Dollar. Der Preis für dieselbe Anzahl Output-Token liegt schon bei acht Dollar. Doch für eine Aufgabe innerhalb der OpenAI-API gibt es einen Trick, um die Kosten deutlich zu reduzieren.
OpenAI: So reduziert ihr die Kosten für Audiotranskriptionen
Der Trick stammt dabei vom Programmierer George Mandis, der seinen Fund in seinem Blog beschreibt. Er wollte ein langes Youtube-Video von Open-AIs KI transkribieren und zusammenfassen lassen. Da das Video mehr als 40 Minuten lang war, wären die Kosten für die API-Nutzung entsprechend angestiegen. Allerdings reduzierte er die Dateigröße und Länge über Umwege, ohne Qualität bei der Transkription einzubüßen.
Zunächst setzt er das Programm „yt-dlp“ ein, um nur die Audiospur des Youtube-Videos zu extrahieren und herunterzuladen. Anschließend nutzt er „ffmpeg„, um die Audiodatei auf das doppelte oder gar dreifache Tempo zu beschleunigen. Beide Programme sind kostenlos über GitHub erhältlich. Was für eure Ohren anstrengend wäre, ist für die KI kein Problem. Sie kann trotzdem weiterhin ein Transkript anfertigen, ohne gravierende Fehler einzuschleusen.
Nachdem euch die KI ein Audiotranskript angefertigt hat, könnt ihr den Text noch einmal bei OpenAI hochladen und zusammenfassen lassen. Schon habt ihr ein 40-minütiges Youtube so eingedampft, dass ihr nur noch die wichtigsten Eckpunkte geboten bekommt. Wer keinen Zugriff auf die API von OpenAI hat, kann das aber auch mit ChatGPT machen. Der Chatbot ist zwar nicht in der Lage, Audiodateien zu analysieren, kann aber Texte zusammenfassen.
Glücklicherweise benötigt ihr nämlich keine Audiodatei bei Youtube-Videos, um ein Transkript zu erstellen. Mandis hat es nur erstellt, weil er dachte, dass die Transkriptionsfunktion der Videoplattform für das spezielle Video nicht funktionieren würde. Ihr könnt einfach unter ein Video scrollen und dort auf „Transkript anzeigen“ klicken. Kopiert anschließend den Text und fügt ihn mitsamt passendem Prompt in ChatGPT ein, um ihn euch zusammenfassen zu lassen.