Software
Contribuisco attivamente allo sviluppo di software open-source per l’analisi statistica e il machine learning, principalmente nell’ambiente di programmazione R. Di seguito i principali pacchetti su cui lavoro.
e2tree 
Explainable Ensemble Trees
Il pacchetto e2tree implementa la metodologia Explainable Ensemble Trees (E2Tree), un modello surrogato globale progettato per approssimare il meccanismo di predizione degli ensemble basati su alberi (come Random Forests e Boosting) attraverso una singola struttura ad albero interpretabile.
A differenza dei tradizionali alberi decisionali singoli (CART) che ottimizzano una funzione di perdita direttamente sui dati, E2Tree apprende la struttura relazionale stabilita dal modello black-box. Ottiene questo risultato estraendo una matrice di co-occorrenze dall’ensemble addestrato, quantificando la frequenza con cui le osservazioni condividono gli stessi nodi terminali. Attraverso il clustering gerarchico di questa matrice, E2Tree costruisce un dendrogramma rappresentativo che rimane fedele ai complessi pattern non lineari catturati dal modello originale, garantendo al contempo trasparenza.
Caratteristiche principali:
- InterpretabilitĂ Globale: Converte complessi Modelli Ensemble in un singolo albero esplicativo.
- Preservazione della Struttura: Utilizza il clustering gerarchico sulle matrici di connettività per catturare la “prossimità ” appresa dall’ensemble.
- Doppia ModalitĂ : Supporta Classificazione (tramite connettivitĂ basata sulla frequenza) e Regressione (tramite connettivitĂ pesata sulle predizioni delle foglie).
- Insight Visivi: Genera visualizzazioni simili a dendrogrammi ed estrae chiare regole decisionali (prototipi) per ogni cluster.
- Integrazione: Gli output sono compatibili con oggetti
rpartper un’analisi immediata e integrata.
Installazione:
# Versione stabile da CRAN
install.packages("e2tree")
# Versione di sviluppo da GitHub
devtools::install_github("massimoaria/e2tree")Esempio rapido:
library(e2tree)
library(randomForest)
# Addestramento di una Random Forest
rf <- randomForest(Species ~ ., data = iris)
# Costruzione dell'Explainable Ensemble Tree
result <- e2tree(rf, data = iris)
# Visualizzazione dell'albero interpretabile
plot(result)Riferimenti:
- Aria, M., Gnasso, A., Iorio, C., & Pandolfo, G. (2024). “Explainable ensemble trees”. Computational Statistics, 39(1), 3-19. DOI
- Aria, M., Gnasso, A., Iorio, C., & Fokkema, M. (2025). “Extending Explainable Ensemble Trees to Regression Contexts”. Applied Stochastic Models in Business and Industry, 42(1), e70064. DOI
bibliometrix 
Comprehensive Science Mapping Analysis
bibliometrix e un pacchetto R per la ricerca quantitativa in scientometria e bibliometria. Fornisce un workflow completo per l’analisi di science mapping, supportando l’importazione di dati dai principali database bibliografici tra cui Scopus, Web of Science, Dimensions, OpenAlex, PubMed, Cochrane Library e Lens.
Come membro del core developer team, contribuisco allo sviluppo, alla manutenzione e all’evoluzione del pacchetto e della sua interfaccia web Biblioshiny.
Caratteristiche principali:
- Importazione e conversione dati da 7+ database bibliografici
- Analisi bibliometrica descrittiva (produttivita degli autori, analisi citazionale, h-index)
- Costruzione di matrici di rete per co-citazione, coupling, collaborazione e analisi co-word
- Generazione di mappe tematiche, grafici di evoluzione tematica e visualizzazioni della struttura concettuale
- Interfaccia web interattiva tramite Biblioshiny per utenti non programmatori
Riferimento:
- Aria, M. & Cuccurullo, C. (2017). “bibliometrix: An R-tool for comprehensive science mapping analysis”. Journal of Informetrics, 11(4), 959-975.