Skip to content
Snippets Groups Projects
Commit 492dee72 authored by Niels Becker's avatar Niels Becker
Browse files

Das ist meine vorläufig version. Werde sie bis Montag noch updaten.

parent 9fdf41a6
No related branches found
No related tags found
1 merge request!1Update Neural Style Transfer.py
# Kann KI mit offenen Daten kreative sein
Guten Tag und Willkommen bei meinem Projekt.
# Kann KI mit offenen Daten kreative sein?
Bitte sehen Sie sich zuerst das [Video](https://youtu.be/HCIaF4oI0Kw) an bevor sie im Text fortfahren.
<iframe width="560" height="315" src="https://www.youtube.com/embed/HCIaF4oI0Kw" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>
Was sie da gerade gesehen habe war mein Versuch etwas Interessantes zu den Themen offene Kultur Daten, Künstliche Intelligenz/maschinelles Lernen und Kreativität zu gestalten.
Im folgenden ich werde kurz die einzelnen Bestandteile darstellen die nötig waren um dieses Video zu erstellen.
Das Lied am Anfang wurde erzeugt in dem Musikstil, Text und Musiker festgelegt wurden. Ein Programm das mit einer großen Menge Musik trainiert wurde erzeugt dann die Musik in dem es für jede sekunde entscheided welche Töne auf die vorraus gegangen Musik folgen sollten. Das training des Programms habe ich nicht selber vorgenommen sondern mein Programm baut auf der Arbeit von [OpenAI](https://openai.com/) auf.
[Link zum Code für Jukebox the Continuator](https://git.chaotikum.org/Niels/kann-ki-mit-offenen-daten-kreative-sein/-/blob/Niels-main-patch-27086/Jukebox_the_Continuator.ipynb?expanded=true&viewer=rich)
Für das Video habe ich mich selber gefilmt während ich den Text spreche. Mein Gesicht wurde dann durch das Gesicht von Dr. Tsu Min Yee ersetzt. Dies nennt man einen Deep Fake von "Deep Neural Network" einer Technologie der Künstlichen Intelligenz und Fake für Fälschung. Das Video ist ein Public-Domain-Video aus dem TIB AV-Portal und stammt von 1938. Weiter unten sehen sie ein koloriertes Foto aus diesem Film. Dieses Programm habe ich selber trainiert. Hierfür habe ich die Videos in seine einzelnen Bilder zerlegt und dann mit einem anderen Programm die Gesichter erkennen und herraus schneiden lassen. Ein Programm wurde dann trainiert das gelernt hat wie es mein Gesicht in das von Dr. Tsu Min Yee übersetzten kann. Aufgrund der Bildqualität und da ich das Video koloriert habe ist die Farbe meines Gesichtes im Video nicht ganz passend zum rest meines Körpers. Aufgrund des Faktes das Dr. Tsu Min Yee im dem Ausgangsvideo nicht spricht (Stummfilm) waren meine Gesichtsbewegung oft nicht passend und vielleicht ist ihnen aufgefallen das meine Zähne nie zu sehen waren.
<a href="https://ibb.co/88BytRk"><img src="https://i.ibb.co/WK3rjdC/00936.jpg" alt="00936" border="0"></a>
[Link zum Code für Deep Fake Lab](https://git.chaotikum.org/Niels/kann-ki-mit-offenen-daten-kreative-sein/-/blob/Niels-main-patch-27086/DFL_Colab.ipynb)
Die Stimme, die sie hörten, wurde aus geschrieben Text erzeugt. Man kennt diese Technologien zum Beispiel von Instant Messengern, die einem die ankommenden Nachrichten vorlesen können. Diese Technologie ist vorallem für die englische Sprache schon wesentlich fortgeschrittener. Im open-source Bereich gibt es für die Deutsche Sprache nicht viele optionen da jemand tausende Sprachschnippsel aufnehmen muss um einen Programm damit trainieren zu können. Vielen Dank hier an [Thorsten Müller](https://github.com/thorstenMueller/deep-learning-german-tts) für seine arbeit und das er mir seine Stimme geliehen hat.
[Link zum Code für Text to Speech](https://git.chaotikum.org/Niels/kann-ki-mit-offenen-daten-kreative-sein/-/blob/Niels-main-patch-27086/examples_tts.ipynb)
Der Text der gesprochen wurde, wurde zum Teil von mir, zum Teil von einem Text Generator erzeugt. Dieser basiert auf dem [GPT-2](https://openai.com/blog/better-language-models/) einem Programm das auf viele Text aus dem Internet trainiert wurde. Es versteht nichts von Sprache und Grammatik hat aber gelernt in welcher Reihenfolge Zeichen in Text auf einander Folgen und kann so wenn man ihm einen Anfang gibt berechnen was folgen müsste. Ich musste hier allerdings Texte vorher ins Englische und zurück übersetzten da diese Technologie bisher nur für die Englische Sprache verfügbar ist.
[Link zum Code für AITextGen](https://git.chaotikum.org/Niels/kann-ki-mit-offenen-daten-kreative-sein/-/blob/Niels-main-patch-27086/aitextgen.py)
All diese einzelteile wurden dann in einem open-source, Videoschnitt programm zusammen gefügt.
Ich wollte in diesem Projekt ausloten welche neuen Möglichkeiten uns künstliche Intelligenz gibt sich künstlerisch auszudrücken ohne dabei spezielles Fachwissen oder spezielle Hardware zum Einsatz bringen zu müssen. Alles was ich in diesem Projekt gezeigt habe, habe ich mir abseits von meinem technischen Hintergrund speziel für Coding Davinchi angeignet. Alle Programme laufen entweder auf einem Laptop oder man kann sie in der Cloud ausführen.
Etwas das wir brauchen um etwas mit Künstlicher Intelligenz beziehungsweise maschinellen Lernen umzusetzen zu können sind Daten. Dank Coding Davinchi konnte ich eine fülle von Daten nutzen, um verschiedene Technologie zu implementieren. Ich hoffe das ich hiermit einen Anstoßen setzten kann, damit andere sich trauen diese neuen Technologien in ihre kreative Arbeit zu integrieren.
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment