🧠 of Dipta

Search CTRL + K

🧠 of Dipta

Search CTRL + K

Literature Notes

Advanced NLP with Scipy

Deep Learning by Ian Goodfellow

DS & Algo Interview

How To 100M Learning Text Video

How to Read a Paper

How To Write a Paper

Papers

$τ$-bench - A Benchmark for Tool-Agent-User Interaction in Real-World Domains

Compressed Chain of Thought - Efficient Reasoning Through Dense Representations

Deliberative Alignment - Reasoning Enables Safer Language Models

G-Eval - NLG Evaluation using GPT-4 with Better Human Alignment

Investigating Continual Pretraining in Large Language Models - Insights and Implications

Is a Question Decomposition Unit All We Need

Large Language Models are Zero-Shot Rankers for Recommender Systems

Molmo and PixMo

Piecing It All Together - Verifying Multi-Hop Multimodal Claims

PubMedQA - A Dataset for Biomedical Research Question Answering

Scientific Fact-Checking - A Survey of Resources and Approaches

Semantic Product Search for Matching Structured Product Catalogs in E-Commerce

Token Assorted - Mixing Latent and Text Tokens for Improved Language Model Reasoning

Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction

What is More Likely to Happen Next

Templates

Permanent Notes

Zotero Template

Topics

activation-function

machine-learning

Zettelkasten

3 key question in data visualization

Activation Function

Active Learning

AdaBoost vs. Gradient Boosting vs. XGBoost

Adjusted R-squared Value

Alternative Hypothesis

Amazon Leadership Principles

Ancestral Sampling

Area Under Precision Recall Curve (AUPRC)

Autoencoder for Denoising Images

Averaging in Ensemble Learning

Back Propagation

Backward Feature Elimination

Basics of Kubernetes

Batch Normalization

Bayesian Optimization Hyperparameter Finding

Behavioral Interview

BERT Embeddings

Best Match 25 (BM25)

Bias & Variance

Bidirectional RNN or LSTM

Binary Cross Entropy

Binning or Bucketing

Binomial Distribution

bisect_left vs. bisect_right

Byte Pair Encoding (BPE)

Causal Language Modeling

Causality vs. Correlation

Central Limit Theorem

Challenges of NLP

Character Tokenizer

Co-occurrence based Word Embeddings

Conditional Probability

conditionally-independent-joint-distribution

Confusion Matrix

Connections - Log Likelihood, Cross Entropy, KL Divergence, Logistic Regression, and Neural Networks

Contextualized Word Embeddings

Continuous Bag of Words

Continuous Random Variable

Contrastive Learning

Contrastive Loss

Convex vs Nonconvex Function

Cosine Similarity

Count based Word Embeddings

Cross Validation

Crossed Feature

Curse of Dimensionality

Data Augmentation

Data Imputation

Data Monitoring (DVC)

data visualization

DBScan Clustering

Debugging Deep Learning

Decision Boundary

Decision Tree (Classification)

Decision Tree (Regression)

Decoder Only Transformer

Decoding Strategies

Density Sparse Data

Dependent Variable

diagonal-matrix

Differentiation of Product

Differentiation

Dimensionality Reduction

Discrete Random Variable

Discriminative vs. Generative Models

doing-literature-review

Domain vs. Codomain vs. Range

Dynamic Programming (DP) in python

Eigendecomposition

eigenvalue-eigenvector

Elastic Net Regression

ELMo Embeddings

Encoder Only Transformer

Ensemble Learning

Entropy and Information Gain

Essential Visualizations

Estimated Standard Deviation

Estimated Variance

Euclidian Distance

Exhaustive Search

Expected Value for Continuous Events

Expected Value for Discrete Events

Exploding Gradient

Exponential Distribution

Extrinsic Evaluation

False Negative Error

False Positive Rate

FastText Embedding

Feature Engineering

Feature Extraction

Feature Hashing

Feature Preprocessing

Feature Selection

Finding Co-relation between two data or distribution

Fine Tuning Large Language Models

Forward Feature Selection

Foundation Model

fully-independent-join-distribution

fully-joint-joint-distribution

Gaussian Distribution

Generalized Discriminant Analysis (GDA)

Genetic Algorithm Hyperparameter Finding

Global Attention

GloVe Embedding

Gradient Boost (Classification)

Gradient Boost (Regression)

Gradient Boosting

Gradient Clipping

Gradient Descent

Graph Convolutional Network (GCN)

Greedy Decoding

Grid Search Hyperparameter Finding

Group Normalization

Handling Imbalanced Dataset

Handling Missing Data

Handling Outliers

Heapq (nlargest or nsmalles)

Hierarchical Clustering

Hierarchical Softmax

Homonym or Polysemy

How to Choose Kernel in SVM

How to combine in Ensemble Learning

How to prepare for Behavioral Interview

How to Write Academic Paper (from CS Perspective)

Hyperparameters

Hypothesis Testing

identity-matrix

Independent Component Analysis (ICA)

Independent Variable

Instructional Websites

Integration by Parts or Integration of Product

Internal Covariate Shift

Interquartile Range (IQR)

Interview Scheduling

Intrinsic Evaluation

Jaccard Distance

Jaccard Similarity

joint-distribuition

jupyter-notebook-on-server

K Fold Cross Validation

K-means Clustering

K-means vs. Hierarchical

K-nearest Neighbor (KNN)

Kernel Regression

L1 or Lasso Regression

L1 vs. L2 Regression

L2 or Ridge Regression

Layer Normalization

Learning Rate Scheduler

Linear Discriminant Analysis (LDA)

Linear Regression

LLM GPU Calculate

Local Attention

Log (Odds Ratio)

Logistic Regression vs. Neural Network

Logistic Regression

Machine Learning Algorithm Selection

Machine Learning vs. Deep Learning

Majority vote in Ensemble Learning

Manhattan Distance

Marginal Probability

Masked Language Modeling

matplotlib functions

matplotlib legend

Matrix Factorization

Maximal Margin Classifier

Maximum Likelihood

Mean Absolute Error (MAE)

Mean Absolute Percentage Error (MAPE)

Mean Reciprocal Rank (MRR)

Mean Squared Error (MSE)

Mean Squared Logarithmic Error (MSLE)

Merge K-sorted List

Merge Overlapping Intervals

Min Max Normalization

ML Case Study or ML Design

ML System Design

Model Based vs. Instance Based Learning

Multi Class Cross Entropy

Multi Label Cross Entropy

Multi Layer Perceptron

Multicollinearity

Multivariable Linear Regression

Multivariate Linear Regression

Multivariate Normal Distribution

Mutual Information

Negative Log Likelihood

Negative Sampling

Nesterov Accelerated Gradient (NAG)

Neural Network Normalization

Next Sentence Prediction

Normal Distribution

Null Hypothesis

One Class Classification

One Class Gaussian

One vs One Multi Class Classification

One vs Rest or One vs All Multi Class Classification

orthogonal-matrix

orthonormal-vector

Overcomplete Autoencoder

Parameter vs. Hyperparameter

PCA vs. Autoencoder

Pearson Correlation

Polynomial Kernel

Polynomial Regression

Posterior Probability

Precision Recall Curve (PRC)

Prepare for Talk

Principal Component Analysis (PCA)

Prior Probability

Probability Density Function

Probability Distribution

Probability Mass Function

Probability vs. Likelihood

Problem Solving Algorithm Selection

Proximal Policy Optimization (PPO)

Pruning in Decision Tree

PyTorch Loss Functions

PyTorch Refresher

Questions to ask in a Interview?

Quintile or Percentile

Quotient Rule or Differentiation of Division

R-squared Value

Radial Basis Kernel

Random Variable

Recommender System (RecSys)

Reinforcement Learning from Human Feedback (RLHF)

Reinforcement Learning

Reno Talk @UMBC on Scale-2024

Research Skills Unsorted List

Retrieval Metrics

Root Mean Squared Error (RMSE)

Root Mean Squared Logarithmic Error (RMSLE)

ROUGE-LSUM Score

RTE (Recognizing Textual Entailment)

Second Order Derivative or Hessian Matrix

Self Attention vs. Cross Attention

Self-Supervised Learning

Semi-supervised Learning

SentencePiece Tokenization

Sequence-to-Sequence Model

Sigmoid Function

Simple Linear Regression

Singular Value Decomposition (SVD)

Skip Gram Model

Soft Margin in SVM

Some Common Behavioral Questions

Sources of Uncertainty

spacy-doc-object

spacy-doc-span-token

spacy-explanation-of-labels

spacy-named-entities

spacy-operator-quantifier

spacy-semantic-similarity

spacy-syntactic-dependency

Splitting tree in Decision Tree

Stacking or Meta Model in Ensemble Learning

Standard deviation

Standardization or Normalization

Standardization

Statistical Power

Statistical Significance

Stochastic Gradient Descent (SGD)

Stochastic Gradient Descent with Momentum

Stratified K Fold Cross Validation

Sub-sampling in Word2Vec

Sub-word Tokenizer

Supervised Learning

Support Vector Machine (SVM)

Swallow vs. Deep Learning

Text Preprocessing

Three Way Partioning

Time Complexity of ML Algos

Time Complexity of ML Models

Top-K in Retrieval System

Training a Deep Neural Network

True Negative Rate

True Positive Rate

Type 1 Error vs. Type 2 Error

Undercomplete Autoencoder

Uniform Distribution

Unigram Tokenization

Unsupervised Learning

Vanishing Gradient

Variational Autoencoder

Weakly Supervised Learning

Weight Initialization

Why transformer uses positional embeddings?

Word Embeddings

Word2Vec Embedding

WordPiece Tokenization

Enter to select

to navigate

ESC to close

ML Interview

#interview #machine-learning #deep-learning #nlp #vision

#math
#statistics
- Histogram
- Distribution ⭐️
  - Uniform Distribution
  - Normal Distribution
  - Multivariate Normal Distribution
  - Multinomial Normal Distribution
  - Gaussian Distribution
  - Exponential Distribution
  - Binomial Distribution
  - Poisson Distribution
  - Population
- Mean
- Mode
- Median
- Variance
- Standard deviation
- Co-Variance
- Finding Co-relation between two data or distribution
  - Pearson Correlation
  - R-squared Value
  - Mutual Information
  - Cosine Similarity ⭐️
  - Co-Variance
  - Jaccard index
  - Chi Squared Test
- Distance Metric
  - Manhattan Distance
  - Euclidian Distance
  - Cosine Similarity
  - Mahalanobis Distance
  - Hamming Distance
  - Chebychev Distance
- Hypothesis Testing
- Null Hypothesis
- Statistical Test
- p-value
- Odds
  - Log (Odds)
- Central Limit Theorem
- Quintile or Percentile
- Log Scale
#probability
#visualization
- Plots Compared
#machine-learning
- Supervised Learning
  - Linear Regression ⭐️
  - Polynomial Regression
  - Bayesian Regression
  - Logistic Regression ⭐️
    - Multinomial Logistic Regression
  - Perceptron ⭐️
  - Multi Layer Perceptron ⭐️
  - GLM
  - LDA
  - UMAP
  - t-SNE
  - Support Vector Machine (SVM) ⭐️
    - SVR ⭐️
    - SVC
    - Kernel in SVM
  - K-nearest Neighbor (KNN)
  - Decision Tree ⭐️
    - GBM
    - Adaboost
    - XGBoost
    - LightGBM
    - CatBoost
    - Pruning in Decision Tree
  - Ensemble Learning
    - Bagging
      - Random Forest ⭐️
    - Boosting
      - Gradient Boosting ⭐️
    - How to combine in Ensemble Learning
  - Naive Bayes
    - Gaussian ⭐️
    - Multinomial ⭐️
    - Bernouli
    - Complement
    - Categorical
  - Markov Chain
- Unsupervised Learning
  - Clustering
    - K-means Clustering ⭐️
    - Hierarchical Clustering
    - DBScan Clustering
    - HDBScan Clustering
    - K-means vs. Hierarchical
    - Spectral Clustering
    - Gaussian Mixture Model
  - Dimensionality Reduction
    - Principal Component Analysis (PCA) ⭐️
    - UMAP
    - HeatMap
    - t-SNE plots
    - Autoencoder
  - Association
    - Apriori
  - Expectation Minimization
- Semi-supervised Learning
- Recommendation
  - Content Filtering ⭐️
  - Collaborative Filtering ⭐️
- Metric Learning
- Learning to Rank
  - Pointwise Learning to Rank
  - Pairwise Learning to Rank
  - Listwise Learning to Rank
- Probabilistic Graphical Model
  - Conditional Random Field
  - Bayessian Network
#deep-learning
- CNN
- RNN ⭐️
- LSTM ⭐️
- Bidirectional RNN or LSTM ⭐️
- GRU ⭐️
- Autoencoder
  - Standard ⭐️
  - Variational Autoencoder ⭐️
  - PCA vs. Autoencoder
  - Overcomplete Autoencoder
  - Undercomplete Autoencoder
  - Uses: ⭐️
    - Autoencoder for Anomaly Detection
    - Autoencoder for Denoising Images
    - Representation Learning
- Attention Reference
  - Self Attention ⭐️
  - Masked Self Attention ⭐️
  - Multihead Self Attention ⭐️
  - Encoder-Decoder Attention
  - Factorized Self Attention
  - Flash Attention
  - Cross Attention
- Transformer
  - Encoder-decoder ⭐️
  - Encoder Only ⭐️
  - Decoder Only ⭐️
- Contrastive Learning ⭐️
- Graph Convolutional Network (GCN) ⭐️
  - Relational GCN
  - Graph Attention Network
- Word Embeddings
  - TF-IDF ⭐️
  - Word2Vec ⭐️ Ref
    - Continuous Bag of Words (CBOW)
    - Skip Gram Model
  - FastText ⭐️
  - Glove ⭐️
  - Elmo
  - BERT Embeddings
- Activation Function
  - Sigmoid Function ⭐️
  - Tanh ⭐️
  - Softplus
  - Softsign
  - Softmax ⭐️
  - ReLU ⭐️
  - Leaky ReLU
  - PReLU
  - ELU
  - SELU
  - Swiss ReLU
  - GeLU
- Optimizers
  - Gradient Descent ⭐️
  - Stochastic Gradient Descent (SGD) ⭐️
  - Mini Batch SGD ⭐️
  - Stochastic Gradient Descent with Momentum
  - Nesterov Accelerated Gradient (NAG)
  - Adaptive Methods
    - AdaGrad
    - AdaDelta
    - RMSProp
    - Adam
    - Adamax
    - AMSGrad
    - NADAM
- Generative Adversarial Network
- Genetic Algorithms
- Reinforcement Learning
#loss-in-ml
- Entropy ⭐️
- Cross Entropy
  - Multi Class Cross Entropy ⭐️
  - Multi Label Cross Entropy ⭐️
- KL Divergence ⭐️
- Contrastive Loss ⭐️
- Triplet Loss ⭐️
- InfoNCE Loss ⭐️
- Mean Squared Error (MSE) ⭐️
- Mean Absolute Error (MAE)
- Mean Squared Logarithmic Error (MSLE)
- Mean Absolute Percentage Error (MAPE)
- Huber Loss
- Log-cosh Loss
- Poisson Loss
- Hinge Loss
#evaluation
- Extrinsic Evaluation
- Intrinsic Evaluation
- Perplexity ⭐️
- Precision
- Recall
- Accuracy
- F1 Score ⭐️
- Sensitivity ⭐️
- Specificity ⭐️
- True Positive Rate
- False Positive Rate
- Confusion Matrix ⭐️
- Bias & Variance ⭐️
- AUC Score
- ROC Curve
- BLEU Score ⭐️
- ROUGE-N Score ⭐️
- ROUGE-L Score ⭐️
- Meteor Score
- BERTScore
- Mean Squared Error (MSE)
- Mean Absolute Error (MAE)
- Root Mean Squared Error (RMSE)
- Mean Absolute Percentage Error (MAPE)
- R-squared Value
- Root Mean Squared Logarithmic Error (RMSLE)
Regularization
- L1 or Lasso Regression ⭐️
- L2 or Ridge Regression ⭐️
- Elastic Net Regression
- Dropout ⭐️
Misc.
- Machine Learning vs. Deep Learning
- Cross Validation
- Multi Class Classification
  - One vs Rest or One vs All Multi Class Classification
  - One vs One Multi Class Classification
- Internal Covariate Shift
- Discriminative vs. Generative Models
- Kernel Regression
- One Class Classification
  - One Class Gaussian
  - One Class K-means
  - One Class KNN
  - One Class SVM
- Gumble Softmax ⭐️
- Normalization
  - Normalization
  - Batch Normalization
  - Layer Normalization
- Generation
  - Greedy Decoding ⭐️
  - Beam Search ⭐️
  - Random Sampling ⭐️
  - Minimum Bayes Risk
- Handling Missing Data ⭐️
- Overfitting ⭐️
- Handling Imbalanced Dataset ⭐️
  - SMOTE
  - ADASYN
- Handling Outliers ⭐️
- Tokenizer
  - Byte Pair Encoding (BPE) ⭐️
  - WordPiece Tokenization
  - SentencePiece Tokenization
- Parametric vs Non Parametric ⭐️
- Model Based vs. Instance Based Learning ⭐️
- Swallow vs. Deep Learning ⭐️
- Parameter vs. Hyperparameter ⭐️
- Exploding Gradient ⭐️
- Vanishing Gradient ⭐️
- Hyperparameters
- Loss vs. Cost
- Gradient Clipping
- Grad accumulation
- Stemming
- Lemmatization
- Causality vs. Correlation
- Negative Sampling
- Data Augmentation
- Data Imputation
- Hinge Loss
- Feature Selection
- Framenet
- Wordnet
- Verbnet
- AMR Graph
- Transfer Learning
- Teacher Forcing ⭐️
- Student Forcing ⭐️
- Curriculum Learning ⭐️
- Weight Initialization
  - Xavier
  - Normal
- Learning Rate Scheduler ⭐️
- Fine Tuning Speedup
  - LORA ⭐️
  - Adapter ⭐️
- Hyper parameter finding
  - Grid Search Hyperparameter Finding
  - Random Search
  - Bayesian Optimization Hyperparameter Finding
  - Genetic Algorithm Hyperparameter Finding
  - Gradient based techniques
- Different types of Learning
  - Zero Shot Learning
  - One Shot Learning
  - Few Shot Learning
  - Transfer Learning
  - Active Learning
- Idea about SOTA Research
  - LLaMA
  - ChatGPT
  - BERT Ref
  - BART
  - GPT GPT-2
  - ROBERTA
  - ALbert
  - XLNET
  - Electra
  - DistilBert
  - [ ]
- ELBO
- End to End Machine Learning Pipeline
- Convex vs. Non-Convex
- Convex vs. Non-Convex Optimization
- One Hot Vector
- LabelEncoding
- One Hot Encoding vs. Label Encoding
- Inductive Bias
- Selection Bias
- Type 1 Error vs. Type 2 Error

Related Notes

GRU
BERT
Triplet Loss
Huber Loss
Negative Sampling

Connected Pages

Depth

1

Pages mentioning this page

machine-learning