New thesis proposal / Nuova proposta di tesi

  For Master of Science students at Politecnico di Milano, a thesis proposal

Application of Latent Dirichlet Allocation statistical model for prediction of biomolecular annotations

The project consists of studying the Latent Dirichlet Allocation (LDA) method and the available MALLET Java package that implements it, and creating and testing a software module for its usage in the prediction of biomolecular annotations.
Starting from a dataset of biomolecular annotations (each of them made of a gene + a term) present in a database, you can build a matrix of zeros and ones that associates each gene to a particular term (1 value) or not (0 value). Once this input matrix has been built, it must be elaborated with the Latent Dirichlet Allocation method. This has to generate an output matrix that represents the biomolecular annotation prediction built on the considered annotation set. The output prediction matrix allows identifying possible new annotations (i.e. gene-term pairs) that are not yet present inside the considered database.
The implemented software module must be integrated within the software platform that we developed in Java programming language, which includes the implementation in and C++ programming language of other methods alternative to the LDA, such as SVD, SIM (Semantically IMproved SVD), and pLSA.

For further information, visit this page


   Per gli studenti di laurea magistrale del Politecnico di Milano, una proposta di tesi:

Applicazione del modello statistico Latent Dirichlet Allocation per la predizione d’annotazioni biomolecolari

Il lavoro consiste nello studiare il metodo Latent Dirichlet Allocation (LDA) e il package Java MALLET che lo implementa, e nel creare e testare un modulo software per il suo utilizzo nella predizione di annotazioni biomolecolari.
Partendo da un insieme di annotazioni biomolecolari (ognuna formata da gene + termine) presenti in una base di dati, si può costruire una matrice di zeri e uni che associ a ogni gene un particolare termine (valore 1) oppure no (valore 0). Una volta costruita, questa matrice di input va elaborata tramite il metodo Latent Dirichlet Allocation, generando così una matrice in output che rappresenti la predizione di annotazioni biomolecolari sull’insieme di annotazioni considerato. La matrice di predizione in output permette di individuare possibili nuove annotazioni (i.e. coppie gene-termine) che non siano ancora presenti nella base di dati considerata.
Il modulo software implementato deve essere integrato nella piattaforma software che abbiamo sviluppato in linguaggio Java, che include l’implementazione in linguaggio C++ di altri metodi alternativi all’LDA, quali: SVD, SIM (Semantically IMproved SVD), e pLSA.

Per maggiori informazioni, visita questa pagina

Leave a Reply

Fill in your details below or click an icon to log in: Logo

You are commenting using your account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s