System Architecture
Quiz Generated for student
Reflect: Learn through flashcards
Graph shown to student
Visual Diagram
Dyslexia mode for accessibility
Equations & Code Screen
Real world applications
Explanation of concept

Seekho (सीखो) - DevPost Submission

Elevator Pitch

AI-powered educational transformation that turns any lecture video into 6 personalized learning formats using a 7-agent AI system tailored to each student's background, learning style, and accessibility needs. Using Google Gemini's multimodal AI, we break down educational barriers by creating inclusive content that adapts to dyslexia support, multiple languages, and diverse academic backgrounds.

Inspiration

The name Seekho (सीखो) means "learn" in Hindi, reflecting our belief that quality education should be accessible to everyone. At Virginia Tech, we live by Ut Prosim - "That I May Serve" - and saw an opportunity to serve students struggling with one-size-fits-all education.

We were inspired by international students battling language barriers, students with dyslexia needing alternative formats, CS students trying to grasp physics through programming analogies, and visual learners drowning in text-heavy explanations. Seekho embodies Ut Prosim by democratizing education through AI-powered personalization.

What it does

Seekho transforms any educational video into 6 personalized learning formats using an intelligent 7-agent AI system:

🎯 Personalization Engine

User Profiles: Academic level, major, age, language preference, learning styles
Accessibility Support: Dyslexia-friendly content and alternative formats
Cultural Adaptation: Multi-language support with relevant examples

🤖 7-Agent AI System

Audio Analysis Agent:

Gemini Speech-to-Text Agent: Multimodal audio understanding and educational content analysis

Content Generation Agents: 2. Explanation Agent: Field-specific analogies (CS student learning physics through code) 3. Code/Equation Agent: Relevant formulas and calculations 4. Visualization Agent: Diagrams optimized for visual learners 5. Application Agent: Real-world examples from user's field 6. Summary Agent: Key concept cards and memory aids 7. Quiz Generation Agent: Personalized assessments

Example: CS student uploads chemistry lecture → Gets programming analogies for molecular interactions, code examples for electron sharing, visual diagrams, and dyslexia-friendly summaries.

How we built it

🏆 Google Gemini 2.5 Integration

Multimodal AI: Direct audio understanding without transcription using Gemini 2.5 Pro
Advanced Prompting: Structured JSON responses for educational analysis
Dynamic Model Selection: Gemini 2.5 Pro for complex analysis, 2.5 Flash for speed
Round-Robin API Management: Multiple keys for optimal performance

🏗️ Technical Stack

Backend: FastAPI + Python with async agent orchestration
Video Processing: FFmpeg for cross-platform audio extraction
Database: DynamoDB with comprehensive user preferences
AI Pipeline: Video → Audio → Speech-to-Text Agent → 6 Parallel Content Agents → Learning Hub

⚡ Performance Features

Parallel Processing: All agents execute simultaneously (70% faster)
Fallback Systems: Graceful degradation ensures reliability
Accessibility Integration: Built-in dyslexia and multi-language support

Challenges we ran into

⚡ Performance Crisis

Initial implementation took 138+ seconds per video. Solved through:

Parallel Architecture: 70% processing time reduction
Smart Model Selection: Gemini 2.5 Pro vs 2.5 Flash based on complexity
Strategic Optimization: Temporarily disabled bottleneck agents

♿ Accessibility Implementation

Dyslexia Support: Adapting AI writing style and structure
Multi-Language Complexity: Cultural context in translations
Learning Style Adaptation: Meaningful format differences

🔧 Technical Hurdles

Cross-Platform FFmpeg: Video processing across all OS
API Rate Limiting: Managing concurrent Gemini requests
User Experience: 6 formats without overwhelming users

Accomplishments that we're proud of

🚀 Technical Achievements

70% Performance Improvement: Sub-45 second processing
Subject-Agnostic: Works with ANY educational content
Real Impact: CS students learning physics through programming analogies

🌍 Social Impact

Educational Equity: Breaks barriers for learning differences
Global Accessibility: Multi-language and cultural adaptation
Inclusive Design: No student left behind

What we learned

🤖 AI Engineering

Parallel vs Sequential: 70% performance gain through intelligent parallelization
Prompt Engineering: Structured JSON prompts = 95% more reliable outputs
Model Strategy: Right model for right task optimizes quality and speed