Deep Learning Research Project

LSTMs/GRUs: Captured sequence info, but slow & hard to scale.
Transformers (2017): “Attention is All You Need” changed everything: parallel, scalable, context-rich.
ELMo (2018): Brought contextual embeddings using bidirectional LSTMs.
GPT (2018): First Transformer-based model with left-to-right training.

Aspect	BERT (Devlin et al., 2019)	RoBERTa (Liu et al., 2019)	SimCSE (Gao et al., 2021)	ModernBERT	Our Work
Sentence-Level Objective	NSP	None	Contrastive (Dropout/NLI)	None (pure MLM)	✅ Triplet Loss (Anchor + Hard Negative)
Pooling	[CLS] token	[CLS] token	[CLS] token	Standard output embeddings	✅ Mean Pooling over tokens
Negatives	N/A	N/A	Batch / Random Negatives	N/A	✅ Hard Negatives from other documents
Projection Head	None	None	2-layer MLP	None	✅ MLP: Linear(768→256) → ReLU → Linear(256→128)
Used for MNLI	✅ Yes	✅ Yes	✅ Yes	✅ Yes	✅ Yes (Fine-tuned with classifier)
Base Architecture	BERT	RoBERTa	BERT	Enhanced Transformer (RoPE + GeGLU)	BERT
Pretraining Tasks	MLM + NSP	MLM (No NSP)	MLM + Contrastive	MLM only (30% masking)	✅ MLM + Triplet Loss
Contrastive Training	No	No	Yes (Dropout-based)	No	✅ Yes (Triplet loss with hard negatives)
Sequence Length	512	512	512	8192 (Extended)	64
Tokenizer	BERT Tokenizer	BERT Tokenizer	BERT Tokenizer	Custom BPE	BERT Tokenizer
Data Size	Wikipedia + BookCorpus	Large corpus, no NSP	Small (MNLI + Wikipedia)	2T tokens, diverse sources	Small subset (Wikitext + MNLI)
Evaluation Benchmarks	GLUE (MNLI)	GLUE	GLUE, STS tasks	GLUE, BEIR, CodeSearchNet, StackQA	GLUE (MNLI), similarity tasks
Focus	Bidirectional context modeling	Corpus scaling + robust pretraining	Sentence embedding training	Efficiency in IR/NLU tasks	✅ Sentence-level semantics via contrastive learning

CS:7150 Deep Learning Final Project