Forschungsgruppe Data Mining in der Medizin
print

Links und Funktionen

Navigationspfad


Inhaltsbereich

Forschungsprojekte

Informative Heterogeneous Approach to Optimize Clinical Diagnosis of Alzheimer's Disease
Zeitraum 2015-2017
Drittmittelgeber Alzheimer Forschung Initiative
Beschreibung This proposal addresses the development of an informatics-driven data mining application for an optimized diagnosis of Alzheimer's disease (AD) at an early stage. For this purpose, we exploit an unprecedented amount of heterogeneous knowledge sources, including multimodal neuroimgaging, biochemical markers and neuropsychological tests. We identify combinations of key features yielding optimal classification results concerning both accuracy and cost-effectiveness, and provide a suggestion for the most promising association of different assessment tools. Finally, we supply a visualization tool of the risk-profile for readily applicable individual diagnosis by a clinician.
Clustering based on Statistical Independence
Zeitraum 2014-2017
Drittmittelgeber LMU-China Scholarship Council Program
Beschreibung In signal processing, dimensionality reduction methods based on the assumption of statistical independence like e.g. Independent Component Analysis (ICA) or Independent Subspace Analysis (ISA) are widely applied. The main idea of this project is to integrate these methods into clustering, not only to model subspaces but also as building blocks of spectral clustering or non-redundant clustering where methods of dimensionality reduction (traditionally Eigenvalues) are applied to local distance matrices or graph Laplacians.

clustering_statistical_independence

Indexing and Similarity Search for Multiple-instance Data
Zeitraum 2014-2017
Drittmittelgeber LMU-China Scholarship Council Program
Beschreibung In modern applications, objects are not only described by single feature vectors but by a set of feature vectors, from different, alternative measurements. This setting calls for a re-formulation of the data analysis algorithms to exploit the additional information contained in these alternative data which may be confirming or contradicting each other. The objective of this project is to model multi-instance data by probability density functions, mainly Gaussian Mixture Models, and to develop novel similarity measures and indexing methods for this representation.

mulit_instance_objects

Multi-purpose Exploratory Mining of Complex Data
Zeitraum 2011-2014
Drittmittelgeber LMU-China Scholarship Council Program
Beschreibung Zunehmend werden Objekte nicht mehr nur durch eine einzelne Repräsentationsform beschrieben, sondern es treten vielfältige Datentypen innerhalb eines einzelnen Datensatzes auf, die von einfachen numerischen oder kategorischen Merkmalen bis hin zu Graph-Strukturen reichen. Für die Data-Mining-Community ergibt sich das Problem, dass die herkömmlichen Verfahren meist nicht in adäquater Weise diese Komplexität unterstützen. Ein zweites, verwandtes Problem liegt in der Art des gewonnenen Wissens. Verfahrensklassen wie etwa Dimensionsreduktion, Cluster-Analyse, Outlier-Detection oder Assoziationsregeln sind jeweils nur geeignet, eine einzelne Form von Wissen in der Datensammlung zu ermitteln. Ziel des Projekts ist die Erforschung dieser zweifachen Integrations- und Verallgemeinerungsaufgabe von Data-Mining-Verfahren. Zum einen sind bestehende Verfahren (die meist auf der Analyse numerischer Vektordaten beruhen) konsequent dahingehend weiterzuentwickeln, dass auch andere Repräsentationsformen originär (also ohne eine mit Informationsverlust einhergehende Datenumwandlung) unterstützt werden, zum anderen sind integrierende Verfahrensklassen neu zu entwickeln, die mehrere bisher getrennte Data-Mining-Aufgaben alternativ zueinander oder in ergänzender Kombination lösen.
Information-theoretic Graph Mining
Zeitraum 2011-2014
Drittmittelgeber LMU-China Scholarship Council Program
Beschreibung Die explorative Datenanalyse umfasst zahlreiche Aufgabenstellungen des nicht-überwachten Lernens wie z.B. Clustering, Outlier Detection, Assoziationsregeln usw. Im Gegensatz zu den überwachten Verfahren wie z.B. Klassifikation oder Regression ist hierbei kein Zielmerkmal vorgegeben, das aus Trainingsmengen gelernt und dann bei Testmengen vorhergesagt werden soll. Nach dem MDL-Prinzip (Minimal Description Language, entlehnt aus der Informationstheorie), wird eine Zielfunktion aus einem Datenkompressionsverfahren hergeleitet: Das gefundene Wissen oder Muster in den Daten wird als umso besser definiert, je mehr es sich zur verlustlosen Kompression der Daten eignet. Hierdurch gelingt es insbesondere, Überanpassung („Overfitting“) zu vermeiden, Daten aus unterschiedlichen Quellen zu integrieren, Verfahren zu verallgemeinern, komplexe und schwierig zu bestimmende Parameter der Verfahren automatisch zu schätzen, bzw. diese auch ganz zu vermeiden. Ziel des Projektes ist, Verfahren zur Analyse von Graphen nach dem MDL-Prinzip zu entwickeln und zu untersuchen.

research-boehmgraphmining

Effiziente Suche in unsicheren und unscharfen Daten mittels Indexstrukturen für Wahrscheinlichkeitsverteilungsfunktionen
Zeitraum 2008-2010
Drittmittelgeber Deutsche Forschungsgemeinschaft
Beschreibung Die Entwicklung von Datenbank-Techniken zur effizienten Speicherung von unsicheren Informationen hat sich international als neuer Forschungsschwerpunkt etabliert. Durch die zunehmende Verbreitung sicherheitskritischer Anwendungen wird es immer wichtiger, die Vertrauenswürdigkeit von gespeicherten Informationen objekt- und attributspezifisch zu modellieren. Der etablierte Ansatz besteht darin, den Objekten Wahrscheinlichkeitsverteilungsfunktionen zuzuordnen und diese approximativ in einem Index zu speichern. Unser Ansatz hingegen erreicht eine exakte Indexierung der Verteilungsfunktionen durch Speicherung ihrer Parameter. Erste Ergebnisse zeigen, dass unser Ansatz in Bezug auf Genauigkeit und Effizienz den Konkurrenzverfahren überlegen ist. Allerdings verwenden wir bisher ein sehr einfaches Modell (achsenparallele Gaußkurven), das in vielen Anwendungen keine zufrieden stellende Repräsentation der Datenverteilung leistet. Wir möchten daher die Modellierung der Unsicherheit mittels allgemeiner Verteilungsfunktionen, z. B. der Familie der Exponential Power Distributions oder Mixture Models, systematisch untersuchen und jeweils geeignete Indexstrukturen entwickeln. Um größtmögliche Effizienz sicherzustellen, sollen neuartige Kostenmodelle eine fundierte Grundlage für Strategien zur Datenorganisation bilden. Außerdem sollen komplexe Anfragetypen, z. B. Similarity-Join und Skyline-Anfragen, auf eine probabilistische Grundlage gestellt werden. Die Entwicklung unserer Techniken soll im Kontext ausgewählter Anwendungen aus den Bereichen Bildsuche, Medizin und Biometrie stattfinden.

800px-research-boehmdfguncertain

Synchronization Inspired Data Mining
Zeitraum 2008-2011
Drittmittelgeber LMU-China Scholarship Council Program
Beschreibung Clustering, Subspace- und Correlation-Clustering sowie Outlier Detection gehören zu den wichtigsten Grundaufgaben des Data Mining. Ziel des Projektes ist es, ein für das Clustering und ähnliche Aufgaben neues Paradigma zu entwickeln, das auf der Analogie zur Synchronisation von gekoppelten Oszillatoren beruht. Dieses Paradigma, genannt Kuramoto-Modell, wird in anderen Bereichen (z.B. Simulation) bereits erfolgreich eingesetzt und hat bereits eine gewisse Reife erlangt, ist aber insbesondere für die nichtüberwachten Data-Mining-Methoden neu.
Datenbanktechnologien für die sichere, zuverlässige und effiziente Speicherung biometrischer Daten
Zeitraum 2009-2011
Drittmittelgeber Bundesamt für die Sicherheit in der Informationsindustrie (BSI)
Beschreibung In früheren Arbeiten wurden effiziente Indexierungsmethoden entwickelt, um in großen Mengen von gespeicherten Datenbankobjekten nach solchen Objekten zu suchen, die zu einem vorgegebenen Anfrageobjekt ähnlich sind. Hierbei wurde davon ausgegangen, dass jedes gespeicherte Objekt durch einen oder mehrere Vektoren eines meist hochdimensionalen Vektorraums (Vekotorraum-Modell mit Single- oder Multi-Instanz-Objekten) oder durch eine stochastische Verteilungsfunktion (wie z.B. die Normalverteilung oder ein Gaussian Mixture Model) repräsentiert wird. Prinzipiell ist es möglich, solche effizienten Ähnlichkeitssuchsysteme für unterschiedliche biometrische Verfahren anzuwenden und so deren Laufzeit-Effizienz gegenüber einer herkömmlichen Speicherung ohne Indexstrukturen deutlich zu erhöhen. Ziel dieses Teilprojektes ist es, diese Vorarbeiten so zu erweitern, dass auch eine sichere Speicherung der Objekte in der Indexstruktur ermöglicht wird. Sicher bedeutet in diesem Zusammenhang, dass innerhalb des Indexierungs-Verfahrens Maßnahmen ergriffen werden, um eine Rekonstruktion der gespeicherten biometrischen Daten durch einen Angreifer, der vollen Zugriff auf die gesamte Datenbank erhält, zuverlässig zu verhindern. Dies soll dadurch ermöglicht werden, dass prinzipiell alle sicherheitsrelevanten Daten durch sichere Einweg-Funktionen verschlüsselt werden. Die besondere Herausforderung des Projektes ist, dass durch diese Einweg-Funktionen weder die Effektivität der biometrischen Identifikation oder Authentifikation noch die Laufzeit-Effizienz der Suche beeinträchtigt werden soll. Als Anwendungsfokus dieses Teilprojektes soll die Identifikation durch die Minutien von Fingerabdrücken dienen. Hierzu wurde in anderen Teilprojekten bereits eine sichere (aber nicht sehr Laufzeit-effiziente) Einweg-Funktion entwickelt, die auf dem Konzept beruht, die tatsächlichen Minutien durch zufällig erzeugte Koordinaten-Paare (sogenannte Chaff-Minutiae) zu ergänzen. Als erster Arbeitsschritt soll die Möglichkeit eines effizienten Matching-Algorithmus in Verbindung mit einer Indexstruktur untersucht werden.

research-boehmbiometrie

Effiziente und effektive Data-Mining Lösungen für hochdimensionale Daten
Zeitraum 2006-2008
Drittmittelgeber Deutsche Forschungsgemeinschaft
Beschreibung Die fortschreitende Automatisierung und Vernetzung der modernen Informationsgesellschaft führt zu einem drastischen Anstieg sowohl des Volumens als auch der Komplexität der erfassten Daten. Bei der semiautomatischen Analyse mittels Data Mining Verfahren, insbesondere im Bereich Cluster-Analyse, ergibt sich hieraus das folgende, aus Praxissicht sehr wichtige Problemfeld: Es werden immer mehr Merkmale automatisch erfasst, von denen aber viele für die jeweils betrachtete Data Mining Aufgabe irrelevant, weil etwa verrauscht oder redundant sind. Methoden zur globalen Merkmalsreduktion oder -extraktion führen in der Regel nur sehr eingeschränkt zum Ziel, da in Realdaten typischerweise verschiedene Merkmalsmengen für unterschiedliche Objektgruppen relevant sein können. Deshalb sollen Verfahren zum subspace- und Correlation Clustering entwickelt und untersucht werden, die hochdimensionale Merkmalsräume flexibel und individuell (pro Cluster) auf niedrige Dimensionen skalieren. Das Hauptziel dieses Antrages ist also, innovative Data Mining Verfahren für hochdimensionale Merkmalsräume zu entwickeln.

research-boehmhighdimclustering

Data Mining in biomedizinischen Daten
Zeitraum2003-2006
Drittmittelgeber
  • Kompetenzzentrum HITT
  • Österreichische Forschungsförderungsgesellschaft (FFG)
Projektpartner
  • Biocrates Life Science GmbH, Innsbruck, Österreich
  • Universitätsklinik für Kinder- und Jugendheilkunde, Innsbruck, Österreich
BeschreibungGemeinsam mit unseren Projektpartnern werden Studien im Bereich der klinischen Diagnostik durchgeführt. Im Zusammenhang mit der Abklärung der Bindegewebsschwäche der Aorta (Marfan-Syndrom) werden an der Innsbrucker Universitätsklinik für Kinder- und Jugendheilkunde Daten aus verschiedenen diagnostischen Verfahren (Physiologisch-kardiologische Parameter, Fibrillin-1-Genanalyse, MR-Daten, sowie Daten aus ophtalmologischen, orthopädischen und weiteren Untersuchungen) in einer Datenbank zusammengeführt. Gemeinsam mit der Biocrates Life Sciences GmbH, Innsbruck, beschäftigen wir uns mit der Datenanalyse von metabolischen Daten aus der Massenspektrometrie im Zusammenhang mit erblich bedingten Stoffwechselerkrankungen wie PKU, SCAD, MCAD usw. Für beide Kooperationsprojekte werden in erster Linie Cluster-Analysemethoden benötigt, die auf großen Datenbeständen skalierbar sind. Insbesondere werden neu entwickelte Methoden des Subspace- und Correlation Clustering eingesetzt.

800px-research-boehmbiocrates