18 KiB
Networkx und Pyvis - Minimal Working Example¶
Referenzen:
Networkx ist eine Python Bibliothek zur Erstellung und Analyse von Netzwerken. Pyvis ist eine Python Bibliothek zur interaktiven Visualisierung von Netzwerkgraphen. Beide können mit pip
installiert werden.
# install networkx and pyvis using pip
!pip install networkx
!pip install pyvis
Panda Dataframe mit Beispieldaten¶
Um ein Netzwerk aufbauen zu können, brauchen wir Daten für die Knoten (nodes) und Kanten (edges). Die Daten speichern wir jeweils in einem Panda Dataframe. Pandas kann ebenfalls mit pip
installiert werden.
# install pandas using pip
!pip install pandas
Die Knoten unseres Netzwerks sollen die Unternehmen und Personen darstellen. Eine id
ermöglicht die eindeutige Identifizierung eines Knoten und hilft Duplikate zu vermeiden. Um Unternehmen von Personen differenzieren zu können, wurde zusätzlich die Information type
aufgenommen. Sie dient in unserem Beispiel dazu, die Form des Knoten zu bestimmen. Durch label
bekommt der Knoten eine für den User verständliche Bezeichnung. Weitere Informationen, wie zum Beispiel branche
, können später für das Mouse Over oder die Größe oder Farbe der Knoten verwendet werden.
Um in einem späteren Schritt die Attribute der Knoten an das Netzwerk zu übergeben, generieren wir zusätzlich eine Spalte shape
, eine Spalte color
und eine Spalte title
.
# import pandas
import pandas as pd
# create dataframe based on the sample data
df_nodes = pd.read_csv("nodes.csv", sep=";")
# define shape based on the type
node_shape = {"Company": "dot", "Person": "triangle"}
df_nodes["shape"] = df_nodes["type"].map(node_shape)
# define color based on branche
node_color = {
"Branche 1": " #f3e8eeff",
"Branche 2": "#bacdb0ff",
"Branche 3": "#729b79ff",
"Branche 4": "#475b63ff",
"Branche 5": "#2e2c2fff",
}
df_nodes["color"] = df_nodes["branche"].map(node_color)
# add information column that can be used for the mouse over in the graph
df_nodes = df_nodes.fillna("")
df_nodes["title"] = df_nodes["label"] + "\n" + df_nodes["branche"]
# show first five entries of the dataframe
print(df_nodes.head())
Die Kanten visualisieren die Beziehungen zwischen den Unternehmen und Personen. Um in Pyvis eine Kante darzustellen braucht es minimal die Information zwischen welchen beiden Knoten eine Kante dargestellt werden soll. In den Beispieldaten entspricht dies from
und to
. Es wird jeweils auf die eindeutige id
der jeweiligen Knoten referenziert. label
bezeichnet hier die Art der Beziehung, z.B. AR = Aufsichtsrat.
# create dataframe based on the sample data
df_edges = pd.read_csv("edges.csv", sep=";")
# show first five entries of the dataframe
print(df_edges.head())
Erstellung eines Netzwerks mit networkx¶
Zur Erstellung des Netzwerks nutzen wir networkx
, da diese Bibliothek bessere Analysemöglichkeiten hat als pyvis
. Das mit networkx
erstellte Netzwerk können wir später an pyvis
zur interaktiven Visualisierung übergeben werden.
Wir erstellen die Knoten und Kanten auf Basis unsere beiden Dataframes.
# import networkx
import networkx as nx
# initiate graph
graph = nx.MultiGraph()
# create edges from dataframe
graph = nx.from_pandas_edgelist(
df_edges, source="from", target="to", edge_attr=["label"]
) # , 'weight'])
# pos = nx.spring_layout(graph, weight = 'weight')
# df_nodes['x'] = df_nodes['id'].map(lambda x: pos[x][0])
# df_nodes['y'] = df_nodes['id'].map(lambda x: pos[x][1])
# update node attributes from dataframe
nodes_attr = df_nodes.set_index("id").to_dict(orient="index")
nx.set_node_attributes(graph, nodes_attr)
Mit Hilfe von single_source_shortest_path_length
lässt sich die Anzahl der Nachbarn in unterschiedlichen Ebenen bestimmen. Durch die Eingrenzung des cutoff
listet es alle Nachbarn und bis dahin benötigte Schritte.
# create empty list to save k-neighbours for each node
k_neighbours = []
# loop all nodes in the graph
for node in graph.nodes:
# create empty dictionary
dict = {}
# get node id
dict["id"] = node
# get k-neighbours for k=1,2,3, subtract -1 since output of single_source_shortest_path_length contains node itself
dict["k=1"] = len(nx.single_source_shortest_path_length(graph, node, cutoff=1)) - 1
dict["k=2"] = len(nx.single_source_shortest_path_length(graph, node, cutoff=2)) - 1
dict["k=3"] = len(nx.single_source_shortest_path_length(graph, node, cutoff=3)) - 1
# append list for each node
k_neighbours.append(dict)
print(k_neighbours[:5])
Visualisierung des Netzwerks mit pyvis¶
Für die Visualisierung importieren wir Network
von pyvis.network
und initialisiern das pyvis
Netzwerk. Mit der Methode from_nx
können wir das networkx
Netzwerk übergeben.
Die Größe der Knoten bestimmen wir je nach Auswahl entweder aufgrund der Anzahl der Verbindungen zu anderen Knoten oder anhand der Eigenvektor-Zentralität. Knoten mit vielen Verbindungen bzw. höherer Zentralität werden größer dargestellt.
# visualize using pyvis
from pyvis.network import Network
# initiate network
net = Network(
directed=False, neighborhood_highlight=True, bgcolor="white", font_color="black"
)
# pass networkx graph to pyvis
net.from_nx(graph)
# set edge options
net.inherit_edge_colors(False)
net.set_edge_smooth("dynamic")
# chose size format
size_type = "edges" # select 'edges' or 'eigen'
adj_list = net.get_adj_list()
if size_type == "eigen":
eigenvector = nx.eigenvector_centrality(graph)
# calculate and update size of the nodes depending on their number of edges
for node_id, neighbors in adj_list.items():
if size_type == "edges":
size = len(neighbors) * 5
if size_type == "eigen":
size = eigenvector[node_id] * 900
next(
(node.update({"value": size}) for node in net.nodes if node["id"] == node_id),
None,
)
next(
(node.update({"size": size}) for node in net.nodes if node["id"] == node_id),
None,
)
# set the node distance and spring lenght using repulsion
net.repulsion(node_distance=250, spring_length=150)
# activate physics buttons to further explore the available solvers:
# barnesHut, forceAtlas2Based, repulsion, hierarchicalRepulsion
net.show_buttons(filter_=["physics"])
# save graph as HTML
net.save_graph("networkx_pyvis.html")
eigenvector = nx.eigenvector_centrality(graph)
print(eigenvector)
Offene Fragen¶
- Gibt es Knoten ohne Verbindung? Wenn erst die Kanten generiert werden, werden diese vermutlich bisher nicht berücksichtigt.
- Bei der Auswahl eines Unternehmens werden verbundene Knoten nicht farblich angezeigt
- Bei mehreren Verbindung zwischen zwei Knoten wird derzeit nur die erste angezeigt. Dies kann umgehen werden, wenn man das Netzwerk die Option
directed = True
mitgibt. Allerdings werden dadurch die Kanten zu Pfeilen und man muss bei der Speicherung der Verbindungen aufpassen. Gibt es auch Möglichkeiten für undirected graphs? - Sollen die Kanten zusätzlich gewichtet werden?
Resultierende Anforderungen an die Daten¶
Relationale Daten für die Kanten und Ecken sind ausreichend. Für die Knoten (= Unternehmen, Personen) werden benötigt:
- Eindeutige ID
- Bezeichnung, z.B. Name des Unternehmens bzw. der Person
- Weitere Informationen, die im Mouse Over angezeigt oder nach denen die Farben oder Größen der Knoten konfiguriert werden sollen
Für die Kanten (= Verbindungen) werden benötigt:
- Eindeutige IDs zwischen denen die Verbindung besteht
- Art der Verbindung
- Ggfs. Gewichtungen