Please use this identifier to cite or link to this item: http://hdl.handle.net/2122/7425
Authors: Cassisi, C.* 
Montalto, P.* 
Pulvirenti, A.* 
Aliotta, M.* 
Cannata, A.* 
Title: PYDBSCAN UN SOFTWARE PER IL CLUSTERING DI DATI
Journal: Rapporti tecnici 
Series/Report no.: 182/ (2011)
Publisher: INGV
Issue Date: 2011
Keywords: clustering
Subject Classification05. General::05.01. Computational geophysics::05.01.05. Algorithms and implementation 
Abstract: Con il termine clustering si indica il processo mediante il quale è possibile raggruppare oggetti in base a caratteristiche comuni (features). Questo approccio, alla base dei processi di estrazione di conoscenza da insiemi di dati (data mining), riveste notevole importanza nelle tecniche di analisi. Come verrà mostrato in questo lavoro, l’applicazione delle tecniche di clustering consente di analizzare dataset, con l’obiettivo di ricercare strutture che possano fornire informazioni utili circa i dati oggetto dello studio. Gli ambiti in cui tali algoritmi sono impiegati risultano essere eterogenei, a partire dalle analisi di dati biomedici, astrofisici, biologici, fino ad arrivare a quelli geofisici. La letteratura è ricca di vari casi di studio, dai quali il ricercatore può trarre spunto e adattare i differenti approcci alle proprie esigenze. Il software PyDBSCAN, oggetto del presente lavoro, permette di applicare tecniche di clustering basate sul concetto di densità, applicate ad oggetti (o punti) appartenenti ad insiemi definiti in uno spazio metrico. L’algoritmo di base è il DBSCAN (Density Based Spatial Clustering on Application with Noise) [Ester et al., 1996], di cui viene riportata una implementazione ottimizzata al fine di migliorare la qualità del processamento dei dati. Schematicamente, il sistema proposto può essere rappresentato come in Fig. 1. Il software, sviluppato in Python 2.6 [Python ref.], utilizza le librerie scientifiche Numpy [Numpy ref.], Matplotlib [matplotlib ref.] e la libreria grafica PyQt [PyQt ref.] impiegata nella realizzazione dell’interfaccia utente. Python è un linguaggio di programmazione che permette la realizzazione di applicazioni crossplatform in grado di funzionare su diversi sistemi operativi quali Windows, Unix, Linux e Mac OS. Nella prima parte del lavoro verranno brevemente descritte le tecniche oggetto del software presentato, mentre nella seconda parte verrà descritto un esempio di applicazione su dati reali.
Appears in Collections:Article published / in press

Files in This Item:
File Description SizeFormat
Cassisi et al rapporto182.pdf1.09 MBAdobe PDFView/Open
Show full item record

Page view(s)

486
checked on Apr 17, 2024

Download(s) 50

122
checked on Apr 17, 2024

Google ScholarTM

Check