"Wer aufhört, besser zu werden, hat aufgehört, gut zu sein."
Philip Rosenthal

Bei Heringer Consulting trifft Expertise auf Menschen. In der Zusammenarbeit unterscheiden wir nicht zwischen unserem Team und unseren Kunden. Wir arbeiten immer professionell, wertschätzend und auf Augenhöhe. Das heißt für uns Erfolg. Und der gibt uns wie Ihnen Recht.

DATA TALENT AT YOUR SIDE
Erstellung eines Systems für die Mitarbeiter-Projektzuordnung mithilfe diverser NLP-Methoden in Python

Im Projekt "Erstellung eines Systems für die Mitarbeiter-Projektzuordnung mithilfe diverser NLP-Methoden in Python" in der IT-Branche wurden wesentliche Meilensteine erreicht, um eine effiziente Zuordnung von Mitarbeitern zu Projekten zu ermöglichen. Die nötige Cloud-Infrastruktur wurde eingerichtet, einschließlich Azure Databricks, Azure Datafactory, Azure SQL Server, Azure Spark Cluster und Azure Blob Storage Gen2. Der CRISP-DM Standardprozess für Data Mining wurde im Rahmen von SCRUM mit täglichen Abstimmungen mit den Produktverantwortlichen umgesetzt. Ein Web Scrapping Workflow in Azure Databricks wurde mit Beautiful Soup (BS4, Python) entwickelt, um Daten von verschiedenen Web-Auftragsportalen auszulesen. Die extrahierten unstrukturierten Daten wurden mithilfe von Python in Azure Databricks aufbereitet, bereinigt und strukturiert. Eine ETL-Strecke wurde in Databricks eingerichtet, um die aufbereiteten Daten auf einen Azure SQL Server zu schreiben. Ein Datenmodell auf dem SQL Server wurde entwickelt, um die Zuordnung der bestehenden Mitarbeiterdaten, der Daten aus den Portalen und der Modell-Ergebnisse zu ermöglichen. NLP-Methoden wie Fuzzy-Modelle in Python (NLTK) und Nature Language Processing (NLP)-Methoden wie N-Gramm-Tokenisierung und Lemmatisierung wurden genutzt, um Projekte den Aufträgen zuzuordnen. Die Kommunikation zwischen Databricks und SQL-Server wurde mithilfe von Azure Datafactory und Azure Logic Apps orchestriert und automatisiert. Die entwickelten NLP-Modelle wurden mit überprüften Testdaten des Fachbereichs evaluiert. Die Ergebnisse des Machine Learning Modells wurden mithilfe von Power BI und Python analysiert und dargestellt. Abschließend erfolgte eine Performance-Optimierung auf der Datenbank. Dabei kamen Technologien wie Azure Data Factory, Azure Cloud, Azure Data Lake (Gen 2), Azure Databricks, Azure SQL Database, ETL, numpy, SQL Server Management Studio (SSMS), pandas, Apache Spark, Scikit-learn, Power BI, PySparkSQL, Python, sklearn, Azure Data Studio, beautifulsoup (BS4), ChatGPT, Transact-SQL (T-SQL), HTML und simplemma erfolgreich zum Einsatz.

Dieses Projekt hat dazu beigetragen, eine effektive Mitarbeiter-Projektzuordnung mithilfe von NLP-Methoden zu realisieren und den Arbeitsablauf zu optimieren.