AI Agents Roadmap

LLM Fundamentals

Transformer Models and LLMs
Model Mechanis
Tokenization
Context Windows
Token Based Pricing
Generation Controls
Temperature
Frequency Penalty
Presence Penalty
Top-p
Stopping Criteria
Open Weight Models
Closed Weight Models
Model Families and Licences
Streamed vs Unstreamed Responses
Reasoning vs Standard Models
Fine-tuning vs Prompt Engineering

Understand the Basics of RAG

Understanding RAG
Embeddings and Vector Search
Vector Databases
Chroma, FAISS, Pinecone
RAG Optimization
Hybrid Search
Context Compression
Re-ranking
Query Expansion

Basic Backend Development

Git and Terminal Usage
REST API Knowledge
Backend Beginner Roadmap
Git and GitHub Roadmap
API Design Roadmap

What are AI Agents?

Definition and Core Concepts
Agent vs Chatbot
Autonomous vs Assisted Agents
Types of Agents

Agent Loop

Perception / User Input

↓

Reason and Plan

↓

Acting / Tool Invocation

↓

Observation & Reflection

↓

Back to Reasoning

Example Usecases

Personal assistant
Code generation
Data analysis
Web Scraping / Crawling
NPC / Game AI
Research Assistant
Content Creation
Customer Support

What is Prompt Engineering

Be specific in what you want
Provide additional context
Use relevant technical terms
Use Examples in your Prompt
Iterate and Test your Prompts
Specify Length, format etc

Writing Good Prompts

Chain-of-Thought Prompting
Few-shot Learning
Role Prompting
Instruction Prompting
Reflective Prompting
Prompt Chaining

Prompt Engineering Roadmap

Beginner to Advanced
Industry Best Practices
Tool-specific Prompting

Tool Definition

Name and Description
Input / Output Schema
Error Handling
Usage Examples
Tool Metadata
Tool Versioning

Examples of Tools

Common Tools

Web Search
Code Execution / REPL
Database Queries
API Requests
Email / Slack / SMS
File System Access
Calendar Integration
Payment Processing

What is Agent Memory?

Short Term Memory
Long Term Memory
Within Prompt
Vector DB / SQL / Custom
Episodic vs Semantic Memory

Maintaining Memory

Memory Strategies

RAG and Vector Databases
User Profile Storage
Summarization / Compression
Forgetting / Aging Strategies
Memory Consolidation
Memory Retrieval Optimization

ReAct (Reason + Act)

Paper Implementation
Reasoning Steps
Action Execution
Observation Integration

Model Context Protocol (MCP)

Other Architecture Patterns

Chain of Thought (CoT)
RAG Agent
Planner Executor
DAG Agents
Tree-of-Thought
Hierarchical Agents
Collaborative Agents
Reflexion Agents

Manual (from scratch)

Direct LLM API calls
Implementing the agent loop
Parsing model output
Error & Rate-limit handling
State Management
Tool Integration

LLM Native "Function Calling"

OpenAI Functions Calling
Gemini Function Calling
OpenAI Assistant API
Anthropic Tool Use
Cohere Tool Use

Building Using Frameworks

Langchain
LlamaIndex
Haystack
AutoGen
CrewAI
Smol Depot
Anthropic Tool Use
OpenAI Assistants API

Metrics to Track

Success Rate
Response Time
Accuracy
User Satisfaction
Tool Usage Efficiency
Error Rate
Task Completion Time

Testing Methods

Unit Testing for Individual Tools
Integration Testing for Flows
Human in the Loop Evaluation
LangSmith
Ragas
DeepEval

Frameworks

Structured logging & tracing
Debugging and Monitoring
Observability Tools
LangSmith
Helicone
LangFuse
openllmetry

Prompt Injection / Jailbreaks

Types of Attacks
Defense Strategies
Testing for Vulnerabilities
Prompt Hardening
Input Sanitization

Tool sandboxing / Permissioning

Sandbox Environments
Permission Systems
Access Control
Rate Limiting
Audit Logging

Data Privacy + PII Redaction

PII Detection
Data Redaction
Privacy-by-Design Principles
Compliance Requirements
Data Minimization

Bias & Toxicity Guardrails

Content Moderation
Bias Detection
Ethical Guidelines
Output Filtering
Stakeholder Input

Safety + Red Team Testing

Red Team Strategies
Safety Evaluations
Incident Response
Threat Modeling
Continuous Testing

Learn the Pre-requisites

AI Agents 101

Prompt Engineering

Tools / Actions

Agent Memory

Agent Architectures

Building Agents

Evaluation and Testing

Security & Ethics