diff --git a/documentations/meeting-notes/Meeting_2023-05-11.md b/documentations/meeting-notes/Meeting_2023-05-11.md new file mode 100644 index 0000000..8acbed6 --- /dev/null +++ b/documentations/meeting-notes/Meeting_2023-05-11.md @@ -0,0 +1,120 @@ +# Weekly: 11.05.2023 + +## Teilnehmer +- Prof. Arinir +- Tristan Nolde +- Tim Ronneburg +- Phillip Horstenkamp +- Kim Mesewinkel-Risse +- Sascha Zhu +- Sebastian Zeleny + +## Themen + +### Organisatorische Absprachen zum Umfang und Inhalt der Seminararbeit: + +- Herr Arinir wird sich nochmal wegen des Umfangs der Seminararbeit bei unserer Gruppe melden +- In der Seminarbeit sollen Anforderungen und Lösungsskizzen für das Projekt "Transparenzregister" dargestellt werden. +- Die Seminarabeit soll aus einem theoretischen Teil und einem praktischen Teil, in dem der praktische Nutzen für das Projekt "Transparenzregister" erörtert wird, bestehen; ob das Verhältnis zwischen dem theoretischen und praktischen Teil bei 50:50 oder 40:60 liegt, darüber können die Verfaser der Seminararbeit selbst entscheiden +- Der Fokus der Seminarbeit soll stets danach ausgerichtet werden, wie die entsprechenden Aspekte bzw. die entsprechenden Technologien für das Projekt "Transparenzregister" genutzt werden können. + + + +### Vorstellung des Abstracts der Seminararbeit zu "Dev Ops" (Philipp Horstenkamp): + +Abstract siehe Datei in github. + +Folgende Punkte wurden bei bzw. nach der Vorstellung des Abstracts diskutiert: + +- Eine sehr straffe Pipeline, die für Seriensoftware in Ordnung wöre, könnte uns für unser Projekt zu sehr „fesseln“ bzw. einschränken. +- Es wäre zu überlegen, ob die Software-Entwicklung, wie diese früher ablief, mit der Software-Entwicklung von heute (u.a. mit den Automatisierungsmöglichkeiten von heute) gegenübergestellt werden soll, um daraus zunächst eine Strategie für unser Projekt zu entwickeln, bevor man sich vertieft mit DevOps beschäftigt +- Die Verwendung von CI/CD (Continuous Integration/Continuous Delivery)-Pipelines für KI-Projekte wäre ein interessantes Thema. + + + +### Vorstellung des Abstracts der Seminararbeit zu "Automatisierte Datenextraktion aus Internetquellen als Grundlage für die Analyse von Kapitalgesellschaften" (Tristan Nolde): + +Abstract siehe Datei in github. + +Folgende Punkte wurden bei bzw. nach der Vorstellung des Abstracts diskutiert: + +- Pros und Cons von WebScraping gegenüber RSS Feeds und gegenüber der API-Lösung sollen dargestellt werden +- Die Quelle Email-Newsletter (z.B. vom Handelsblatt) könnte ebenfalls interessant sein, jedoch muss hierfür möglicherweise ein separates Email-Account erstellt werden, was eher aufwändig ist +- Es wäre eventuell zu prüfen, ob auch Daten aus LinkedIn API, XING oder Facebook extrahiert werden könnten. + + + +### Vorstellung des Abstracts der Seminararbeit zu "Datenspeicherung" (Sebastian Zeleny): + +Abstract siehe Datei in github. + +Folgende Punkte wurden bei bzw. nach der Vorstellung des Abstracts diskutiert: + +- Bei der Wahl der Datenbank müssen verschiedene Anforderungen berücksichtigt werden, mit hohem Abstimmungsbedarf zwischen den Topics "Datenextraktion" und "Datenvisualierung" + +- Herr Prof. Arinir fragte noch, ob wir das Thema "relationale Datenbanken" als Modul behandelt haben. Dies wurde bejaht, insbesondere SQL Datenbanken und SQL queries waren Gegenstand des Moduls "Datenbankprogrammierung" + + + +### Vorstellung des Abstracts der Seminararbeit zu "Verflechtungsanalyse" (Tim Ronneburg): + +Abstract siehe Datei in github. + +Folgende Punkte wurden bei bzw. nach der Vorstellung des Abstracts diskutiert: + +- Beim Social Graph wäre zu überlegen, nicht nur Beziehungen zwischen Unternehmen via Personen (z.B. Wirtschaftsprüfer), sondern auch Beziehungen zwischen Unternehmen via Kooperationspartner (Stiftungen, Unis, Forschungsinstitute) bzw. Eigentums-, Kunden- und Lieferbeziehungen darzustellen + +- Beim Social Graph wäre zu überlegen, ob man nach Art der Beziehung filtern könnte + + + +### Vorstellung des Abstracts der Seminararbeit zu "Text Mining" (Sascha Zhu): + +Abstract siehe Datei in github. + +Folgende Punkte wurden bei bzw. nach der Vorstellung des Abstracts diskutiert: + +- Bei den Sentiment-Analyse-Tools wie FinBERT oder VADER wäre stets eine maschinelle Übersetzung der deutschen Nachrichtentexte ins Englische erforderlich, da FinBERT oder VADER keine deutschen Texte erkennen können +- Die Generierung von Ontologien ist zu komplex und soll nicht Gegenstand der Projektarbeit sein +- Bei der semantische Textanalyse wäre empfehlenswert, dass dies über "Einzel-Personen“ ausgeführt wird (das wäre dann ein Punkt im Graphen) +- Das Thema "Named Entity Recognition“ wird für die Projektarbeit eine hohe Bedeutung haben + + + +### Vorstellung des Abstracts der Seminararbeit zu "Datenvisualisierung" (Kim Mesewinkel-Risse): + +Abstract siehe Datei in github. + +Folgende Punkte wurden bei bzw. nach der Vorstellung des Abstracts diskutiert: + +- Bei der Datenvisualisierung wäre zu überlegen, dass man sich nur auf Python-Bibliotheken beschränkt +- Die Datenabfrage könnte über SQL oder Spark laufen, eine Schnittstelle zwischen dem Speicher und dem Front-End wird benötigt +- Zwischen Daten und der Datenvisualisierung werden eventuell Zwischen-Caches benötigt +- Bezüglich der Frage nach der „Middleware“: Wenn Plotly oder Plotly Dash verwendet wird, wird keine Middleware benötigt, da dies schon eingebaut ist. + + + +### Feedback von Herrn Prof. Arinir: + +- Es scheint noch kein Gesamtkonzept für das Gewerk vorzuliegen. +- Wir sollten uns die Frage stellen: Was soll am Ende für "ein brauchbares Stück Software" herauskommen, damit der Anwender mit der Vielzahl von Informationen und Funktionen zurechtkommt. +- Eine Lösungsskizze muss definiert werden, wobei ein Pflichtenheft jetzt noch nicht erforderlich ist +- Es sollen zunächst einige GUI-Designs (mit einem Muster-Datensatz) entwickelt werden. +- Pros und Cons zwischen einem Wasserfallmodell (Pflichtenheft mit bis zu 1000 Seiten) und der agilen Modellierung sollen berücksichtigt werden. +- Wie sollen die Verflechtungen eingebaut werden? +- Wie sollen die Daten persistiert werden? +- Es wäre empfehlenswert, mit irgendetwas (d.h. einer kleinen Lösung) anzufangen, dann das Ergebnis anzuschauen, und diese kontinuierlich zu verbessern. + + + +## Abgeleitete Action Items + +| Action Item | Verantwortlicher | Deadline | +|-------------|------------------|-----------------| +| GUI Designs | Alle | nächstes Weekly | +| Rückmeldung zum Umfang der Seminararbeit | Prof. Arinir | nächstes Weekly | + + + +## Aktueller Projektstand +