🧠 of Dipta

Search CTRL + K

🧠 of Dipta

Search CTRL + K

Literature Notes

Advanced NLP with Scipy

Deep Learning by Ian Goodfellow

DS & Algo Interview

How To 100M Learning Text Video

How to Read a Paper

How To Write a Paper

Papers

$τ$-bench - A Benchmark for Tool-Agent-User Interaction in Real-World Domains

Compressed Chain of Thought - Efficient Reasoning Through Dense Representations

Deliberative Alignment - Reasoning Enables Safer Language Models

G-Eval - NLG Evaluation using GPT-4 with Better Human Alignment

Investigating Continual Pretraining in Large Language Models - Insights and Implications

Is a Question Decomposition Unit All We Need

Large Language Models are Zero-Shot Rankers for Recommender Systems

Molmo and PixMo

Piecing It All Together - Verifying Multi-Hop Multimodal Claims

PubMedQA - A Dataset for Biomedical Research Question Answering

Scientific Fact-Checking - A Survey of Resources and Approaches

Semantic Product Search for Matching Structured Product Catalogs in E-Commerce

Token Assorted - Mixing Latent and Text Tokens for Improved Language Model Reasoning

Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction

What is More Likely to Happen Next

Templates

Paper Template 1

Permanent Notes

Zotero Template

Topics

activation-function

machine-learning

Zettelkasten

3 key question in data visualization

Activation Function

Active Learning

AdaBoost vs. Gradient Boosting vs. XGBoost

Adaptive Softmax

Additive Attention

Adjusted R-squared Value

Alternative Hypothesis

Amazon Leadership Principles

Ancestral Sampling

Area Under Precision Recall Curve (AUPRC)

Auto Regressive Model

Autoencoder for Denoising Images

Averaging in Ensemble Learning

Back Propagation

Backward Feature Elimination

Balanced Accuracy

Basics of Kubernetes

Batch Normalization

Bayesian Optimization Hyperparameter Finding

Behavioral Interview

BERT Embeddings

Best Match 25 (BM25)

Bias & Variance

Bidirectional RNN or LSTM

Binary Cross Entropy

Binning or Bucketing

Binomial Distribution

bisect_left vs. bisect_right

Byte Pair Encoding (BPE)

Cache Augmented Generation (CAG)

Causal Language Modeling

Causality vs. Correlation

Central Limit Theorem

Challenges of NLP (2022)

Character Tokenizer

Choose the Right Statistical Test

Claim Verification Datasets

Co-occurrence based Word Embeddings

Conditional Probability

Conditional Random Field

conditionally-independent-joint-distribution

Confusion Matrix

Connections - Log Likelihood, Cross Entropy, KL Divergence, Logistic Regression, and Neural Networks

Contextualized Word Embeddings

Continuous Bag of Words

Continuous Batching

Continuous Random Variable

Contrastive Learning

Contrastive Loss

Convex vs Nonconvex Function

Cosine Similarity

Count based Word Embeddings

Cross Validation

Cross-Attention

Crossed Feature

Curse of Dimensionality

Data Augmentation

Data Imputation

Data Monitoring (DVC)

Data Visualization

DBScan Clustering

Debugging Deep Learning

Decision Boundary

Decision Tree (Classification)

Decision Tree (Regression)

Decoder Only Transformer

Decoding Strategies

Density Sparse Data

Dependent Variable

diagonal-matrix

Differentiation of Product

Differentiation

Dimensionality Reduction

Discrete Random Variable

Discriminative vs. Generative Models

do_sample (vllm vs hf)

doing-literature-review

Domain vs. Codomain vs. Range

Dynamic Batching

Dynamic Programming (DP) in python

Eigendecomposition

eigenvalue-eigenvector

Elastic Net Regression

ELMo Embeddings

Encoder Only Transformer

Encoder-Decoder Transformer

Ensemble Learning

Entropy and Information Gain

Essential Visualizations

Estimated Standard Deviation

Estimated Variance

Euclidian Distance

Exhaustive Search

Expected Value for Continuous Events

Expected Value for Discrete Events

Exploding Gradient

Exponential Distribution

Extrinsic Evaluation

Fake News Challenge

False Negative Error

False Positive Rate

FastText Embedding

Feature Engineering

Feature Extraction

Feature Hashing

Feature Preprocessing

Feature Selection

Finding Co-relation between two data or distribution

Fine Tuning Large Language Models

Floating Point Explained

Forward Feature Selection

Foundation Model

fully-independent-join-distribution

fully-joint-joint-distribution

Gaussian Distribution

Generalized Discriminant Analysis (GDA)

Genetic Algorithm Hyperparameter Finding

GloVe Embedding

GPU Computation for LLM

Gradient Boost (Classification)

Gradient Boost (Regression)

Gradient Boosting

Gradient Checkpointing

Gradient Clipping

Gradient Descent

Graph Convolutional Network (GCN)

Greedy Decoding

Grid Search Hyperparameter Finding

Group Normalization

Group-Query Attention

Handling Imbalanced Dataset

Handling Missing Data

Handling Outliers

Heapq (nlargest or nsmalles)

Hidden Markov Model

Hierarchical Clustering

Hierarchical Softmax

Homonym or Polysemy

How to Choose Kernel in SVM

How to combine in Ensemble Learning

How to create a Scientific Poster

How to do research

How to prepare for Behavioral Interview

How to Write Academic Paper (from CS Perspective)

Hyperparameters

Hypothesis Testing

Hypothetical Document Embedding (HyDE)

identity-matrix

Implement Linear Regression using Numpy

Independent Component Analysis (ICA)

Independent Variable

Instruction Fine Tuning

Instructional Websites

Integration by Parts or Integration of Product

Internal Covariate Shift

Interquartile Range (IQR)

Interview Resources

Interview Scheduling

Intrinsic Evaluation

Jaccard Distance

Jaccard Similarity

Jacobian Matrix

Joint Probability

joint-distribuition

jupyter-notebook-on-server

K Fold Cross Validation

K-means Clustering

K-means vs. Hierarchical

K-nearest Neighbor (KNN)

Kernel Regression

L1 or Lasso Regression

L1 vs. L2 Regression

L2 or Ridge Regression

Label Smoothing

Layer Normalization

Learning Rate Scheduler

Leave one out Cross Validation

Linear Discriminant Analysis (LDA)

Linear Regression with Normal Equation

Linear Regression

LLM GPU Calculate

Local Attention

Log (Odds Ratio)

Log Normalization

Logistic Regression vs. Neural Network

Logistic Regression

Machine Learning Algorithm Selection

Machine Learning vs. Deep Learning

Majority vote in Ensemble Learning

Mamba Architecture

Manhattan Distance

Marginal Probability

Masked Language Modeling

Masked Self-Attention

matplotlib functions

matplotlib legend

Matrix Factorization

Maximal Margin Classifier

Maximum Likelihood

Mean Absolute Error (MAE)

Mean Absolute Percentage Error (MAPE)

Mean Reciprocal Rank (MRR)

Mean Squared Error (MSE)

Mean Squared Logarithmic Error (MSLE)

Merge K-sorted List

Merge Overlapping Intervals

Min Max Normalization

Mixed Precision

Mixture of Experts

ML Case Study or ML Design

ML System Design

Model Based vs. Instance Based Learning

Multi Class Cross Entropy

Multi Label Cross Entropy

Multi Layer Perceptron

Multi-Head Attention

Multi-Head Latent Attention

Multi-Query Attention

Multicollinearity

Multivariable Linear Regression

Multivariate Linear Regression

Multivariate Normal Distribution

Mutual Information

Named Entity Recognition (NER)

Negative Log Likelihood

Negative Sampling

Nesterov Accelerated Gradient (NAG)

Neural Network Normalization

Next Sentence Prediction

Normal Distribution

Null Hypothesis

One Class Classification

One Class Gaussian

One vs One Multi Class Classification

One vs Rest or One vs All Multi Class Classification

Optimizing Transformer

orthogonal-matrix

orthonormal-vector

Overcomplete Autoencoder

Papers Must Read

Parallelism in LLM

Parameter vs. Hyperparameter

PCA vs. Autoencoder

Pearson Correlation

Personal Claude Code Recommendations

Polynomial Kernel

Polynomial Regression

Positional Encoding in Transformer

Posterior Probability

Pre-Fill in LLM

Pre-Training LLM

Precision Recall Curve (PRC)

Prepare for Talk

Presentation Making Tips

Principal Component Analysis (PCA)

Prior Probability

Probability Density Function

Probability Distribution

Probability Mass Function

Probability vs. Likelihood

Problem Solving Algorithm Selection

Prompt Engineering

Proximal Policy Optimization (PPO)

Pruning in Decision Tree

PyTorch Loss Functions

PyTorch Refresher

Quantization Technique

Questions to ask in a Interview?

Quintile or Percentile

Quotient Rule or Differentiation of Division

R-squared Value

Radial Basis Kernel

Random Variable

Recommender System (RecSys)

Reinforcement Learning from Human Feedback (RLHF)

Reinforcement Learning

Reno Talk @UMBC on Scale-2024

Research Skills Unsorted List

Retrieval Metrics

Robust Scaling Normalization

Root Mean Squared Error (RMSE)

Root Mean Squared Logarithmic Error (RMSLE)

Rotary Position Embedding (RoPE)

ROUGE-LSUM Score

RTE (Recognizing Textual Entailment)

Second Order Derivative or Hessian Matrix

Self-Supervised Learning

Semi-supervised Learning

SentencePiece Tokenization

Sequence-to-Sequence Model

Sigmoid Function

Simple Linear Regression

Singular Value Decomposition (SVD)

Skip Gram Model

Sliding KV Cache

Sliding Window Attention

Soft Margin in SVM

Some Common Behavioral Questions

Sources of Uncertainty

spacy-doc-object

spacy-doc-span-token

spacy-explanation-of-labels

spacy-named-entities

spacy-operator-quantifier

spacy-semantic-similarity

spacy-syntactic-dependency

Sparse Mixture of Experts

Splitting tree in Decision Tree

Stacking or Meta Model in Ensemble Learning

Standard deviation

Standardization

State Space Model

Statistical Power

Statistical Significance

Stepwise Selection

Stochastic Gradient Descent (SGD)

Stochastic Gradient Descent with Momentum

Stratified K Fold Cross Validation

Sub-sampling in Word2Vec

Sub-word Tokenizer

Supervised Learning

Support Vector Machine (SVM)

Swallow vs. Deep Learning

Temperature in Decoding

Text Preprocessing

Three Way Partioning

Time Complexity of ML Algos

Time Complexity of ML Models

Top-K in Retrieval System

Toward RL Learning

Training a Deep Neural Network

Transformer vs LSTM

True Negative Rate

True Positive Rate

Type 1 Error vs. Type 2 Error

Undercomplete Autoencoder

Uniform Distribution

Unigram Tokenization

Unsupervised Learning

Vanishing Gradient in Transformers

Vanishing Gradient

Variational Autoencoder

Vector Database

Vision Transformer

Weakly Supervised Learning

Weight Initialization

When less data is better than more?

Why do we scale attention weights?

Why do we use Projection in QKV?

Why Trigonometric Function for Positional Encoding?

Word Embeddings

Word Error Rate

Word2Vec Embedding

WordPiece Tokenization

Yet another Rope Extension (YaRN)

Z-Score Normalization

Enter to select

to navigate

ESC to close

logarithm

References

Connected Pages

Depth

On this page

References

Pages mentioning this page