Dùng Grounding DINO để tự động gán nhãn object detection, xuất YOLO format, sau đó retrain YOLO cho inference siêu nhanh. Tất cả chạy local trên RTX 3090.
Zero-shot object detection. Đưa text prompt ("hard hat", "person") — nhận về bounding boxes. Không cần train, hiểu hàng trăm object class.
Segment Anything — vẽ mask chính xác pixel từ bounding box. SAM2 nhẹ hơn, hỗ trợ video tracking (nghiên cứu).
Vision-Language Model: llama3.2-vision dùng để verify kết quả DINO, giảm false positives.
# Health check
curl https://trained.besen.vn/api/health
# Detect
curl -X POST .../api/detect \
-d '{"image_base64":"...","classes":["person","hard hat"]}'