# Weekly *6*: 09.06.2023 ## Teilnehmer - Prof. Arinir - Tristan Nolde - Tim Ronneburg - Philipp Horstenkamp - Kim Mesewinkel-Risse - Sascha Zhu - Sebastian Zeleny ## Themen - Stepstone Projekt: - Gewünscht wird ein initialer Austausch mit Stepstone - Befürchtung ist, dass es zu einem Hindernis wird - Entscheidung liegt daher beim Projekt-Team - Weitere Informationen sind nicht aktuell nicht vorhanden - Vorschlag Prof. Arinir: Sollte das Thema nochmal zum Team getragen werden, wird der aktuelle Stand vorgestellt und der Link zum Repo wird geteilt. Darüber hinaus werden keine Ressourcen zugesprochen. - Vorstellung [vorheriger Absprache](https://github.com/orgs/fhswf/projects/17?pane=issue&itemId=29707639) und Feedback: - Ändert sich der Scope - Nein - NDA - Nein - Veröffentlichung - maximal Impressionen - Was muss geleistet werden - nicht direkt an Stepstone, sondern über FH als Mediator - Sollen Präsentationen vorab zur Verfügung gestellt werden? - Einige Tage vorher in das Git Repo. hochladen und Prof. Arinir benachrichtigen - Rücksprache Seminarpräsentationen - Verflechtungsanalyse: - Graphen Theorie - Social Network Analyse - Erweiterung über Graphen Theorie hinaus - Fokus auf Anwendung und Mehrwert, weniger genauer mathematischer Lösung - Feedback: - Präsentation scheint sehr umfangreich; Wunsch nach Reduzierung der Folienanzahl - Formeln hinter den Analysen spannend, ggf. doch darauf eingehen, um Kennzahl in Kontext zu setzen - Visualiserung: - Prinzipien - Vorteile - Bibliotheken für Umsetzung (Network X, PyViz, ...) - Effekt von Farbwahl - Erste Umsetzung im Jupyter Notebook - Feedback: - Es werden extrem viele Datenpunkte angezeigt werden müssen, wie wird dies in den Bibliotheken umgesetzt? Kann dort gefiltert werden? - Wenn nicht direkt am Graphen (der Darstellung) gefiltert werden kann, dann frühzeitig filtern, bevor der Graph gebaut wird - Datenspeicherung - Erste Integration von Visualisierung mit Datenspeicherung - Vorstellung der "Datencluster" - Stammdaten - Stimmungsdaten - Social Graph - Zeitseriendaten - Relationales DB Modell - Fokus ebenfalls auf Abfrage der Daten für Folge-Projekte wie Visualisierung und Mehrwert fürs Team, weniger Theorie - Feedback: - Es müssen Erfahrungen mit der Library und Darstellung gesammelt werden, um den Mehrwert der Lösung hervorzuheben - Modellierung der Finanz-Kennzahlen - Spaltennamen sollen sprechend sein, z.B. "value" statt "sum" - Präferenz zum Modell mit einzelnem Eintrag mit mehreren Kennzahlen pro Spalten statt generischer Lösung über Enum - Text Mining - Fokus auf Sentiment Analyse - Vergleich verschiedener Lösungen und ML Modelle - Abschließendes Fazit, welches Tool am besten geeignet ist - Daten Extraktion - Fokus auf Web Mining/Scraping im Rahmen des Transparenzregisters - Datenquellen - API - Websites (HTML) - PDF - Datenextraktion aus diesen Quellen - Orchestrierung mit Airflow - DevOps - Dependency Management in Python - Standard requirements.txt - pip-tools - poetry - Vorteile von Lintern - GitHub - Actions - Security - etc. - Feedback: - Git wird als State-of-the-Art angesehen und muss nicht näher erläutert werden ## Abgeleitete Action Items | Action Item | Verantwortlicher | Deadline | |------------------------------------------------------------------|------------------|-------------------------| | Folien hochladen | Projekt Team | vor Präsentationstermin | | Absprache Abgrenzung von Verflechtungsanalyse und Visualisierung | Tim und Kim | nächster Abgleich | | Deployment Plan aufstellen | Projekt Team | nach Seminararbeiten |