
Sei uno studente d’ingegneria presso il Politecnico di Milano?
Stai per iniziare la tesi triennale o la tesi specialistica?
Vuoi fare la tesi su temi relativi alla bioinformatica o alle basi di dati?
STIAMO CERCANDO TE!
Il Gruppo di Basi di Dati e di Bioinformatica del Dipartimento di Elettronica e Informazione (DEI) del Politecnico di Milano ha sempre numerosi progetti a disposizione da assegnare a studenti e neotesisti come tesi di laurea, specialistica e triennale.
Tesi disponibili al momento
[NEW] Applicazione del modello statistico Latent Dirichlet Allocation per la predizione d’annotazioni biomolecolari
Il lavoro consiste nello studiare il metodo Latent Dirichlet Allocation (LDA) e il package Java MALLET che lo implementa, e nel creare e testare un modulo software per il suo utilizzo nella predizione di annotazioni biomolecolari.
Partendo da un insieme di annotazioni biomolecolari (ognuna formata da gene + termine) presenti in una base di dati, si può costruire una matrice di zeri e uni che associ a ogni gene un particolare termine (valore 1) oppure no (valore 0). Una volta costruita, questa matrice di input va elaborata tramite il metodo Latent Dirichlet Allocation, generando così una matrice in output che rappresenti la predizione di annotazioni biomolecolari sull’insieme di annotazioni considerato. La matrice di predizione in output permette di individuare possibili nuove annotazioni (i.e. coppie gene-termine) che non siano ancora presenti nella base di dati considerata.
Il modulo software implementato deve essere integrato nella piattaforma software che abbiamo sviluppato in linguaggio Java, che include l’implementazione in linguaggio C++ di altri metodi alternativi all’LDA, quali: SVD, SIM (Semantically IMproved SVD), e pLSA.Riferimenti:
- Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January 2003). Lafferty, John. ed. “Latent Dirichlet allocation” (.pdf). Journal of Machine Learning Research 3 (4–5): pp. 993–1022.
- Davide Chicco, Marco Masseroli, Marco Tagliasacchi, “Biomolecular annotation prediction through information integration” (.pdf) , conference CIBB2011 – 8th International Meeting On Computational Intelligence Methods For Bioinformatics And Biostatistics, 30 June, 1° July, 2 July 2011, Gargnano Sul Garda, Lombardia, Italia.
- Latent Dirichlet allocation - http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
- McCallum AK. MALLET: A machine learning for language toolkit, 2002. ( http://mallet.cs.umass.edu/ )
Sei interessato? Scrivimi una mail a davide.chicco(AT)gmail.com
————————————————————————————————–
Are you a student at Politecnico di Milano?
Are you looking for a Bachelor’s of Science thesis? Are you looking for a Master of Science thesis?
Do you want to start a thesis in bioinformatics or database management fields?
WE ARE LOOKING FOR YOU!
Bioinformatics and Database Research Group of Dipartimento di Elettronica e Informazione (DEI) ofl Politecnico di Milano has always several projects to assign to students as BS thesis or MS thesis.
Available thesis at the moment:
[NEW] Application of Latent Dirichlet Allocation statistical model for prediction of biomolecular annotations
The project consists of studying the Latent Dirichlet Allocation (LDA) method and the available MALLET Java package that implements it, and creating and testing a software module for its usage in the prediction of biomolecular annotations.
Starting from a dataset of biomolecular annotations (each of them made of a gene + a term) present in a database, you can build a matrix of zeros and ones that associates each gene to a particular term (1 value) or not (0 value). Once this input matrix has been built, it must be elaborated with the Latent Dirichlet Allocation method. This has to generate an output matrix that represents the biomolecular annotation prediction built on the considered annotation set. The output prediction matrix allows identifying possible new annotations (i.e. gene-term pairs) that are not yet present inside the considered database.
The implemented software module must be integrated within the software platform that we developed in Java programming language, which includes the implementation in and C++ programming language of other methods alternative to the LDA, such as SVD, SIM (Semantically IMproved SVD), and pLSA.References:
- Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January 2003). Lafferty, John. ed. “Latent Dirichlet allocation” (.pdf). Journal of Machine Learning Research 3 (4–5): pp. 993–1022.
- Davide Chicco, Marco Masseroli, Marco Tagliasacchi, “Biomolecular annotation prediction through information integration” (.pdf) , conference CIBB2011 – 8th International Meeting On Computational Intelligence Methods For Bioinformatics And Biostatistics, 30 June, 1° July, 2 July 2011, Gargnano Sul Garda, Lombardia, Italia.
- Latent Dirichlet allocation - http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
- McCallum AK. MALLET: A machine learning for language toolkit, 2002. ( http://mallet.cs.umass.edu/ )
Are you interested? Write an email to davide.chicco(AT)gmail.com
1 | Thesis proposals / Proposte di tesi « DavideChicco.it
2012/04/10 a 12:25
[...] Thesis proposals IEEE Computational Intelligence Society – Jun Wang distinguished lecture at Politecnico di Milano, on May 14th 2012 [...]