Tạo phụ đề cho link Youtube bẳng Buzz
Buzz phiên âm và dịch âm thanh ngoại tuyến trên máy tính cá nhân. Buzz được hỗ trợ bởi Whisper của OpenAI.
Chỉ cần tải video vào, Buzz sẽ tự động nghe và trả về file phụ đề chuẩn thời gian (timecode). Người dùng chỉ việc nhập file này vào phần mềm dựng phim là chữ hiện lên khớp từng giây, chấm dứt cảnh ngồi canh timeline thủ công. Toàn bộ quá trình xử lý diễn ra ngay trên máy tính, không cần Internet, nên không sợ lộ dữ liệu.
Buzz khai thác sức mạnh của card đồ họa (đặc biệt là NVIDIA CUDA) để tăng tốc. Buzz cho phép kích hoạt GPU Acceleration thông qua CUDA (trên card Nvidia) hoặc Vulkan (trên các dòng GPU khác và Apple Silicon), vì thế tốc độ xử lý nhanh hơn gấp nhiều lần so với việc chỉ chạy bằng CPU. Một video dài 10 phút có thể được xử lý xong trong tích tắc.
Về mặt kỹ thuật, Buzz là một ứng dụng đồ họa (GUI) sử dụng “lõi” công nghệ OpenAI Whisper. Thay vì phải gõ lệnh Python phức tạp, Buzz giúp người dùng phổ thông tiếp cận công nghệ này chỉ bằng vài cú click chuột. Các định dạng đầu ra như TXT, SRT, VTT được Buzz hỗ trợ đầy đủ, giúp quy trình làm phụ đề (Subtitling) cho video YouTube hay TikTok trở nên gọn và nhanh. Dữ liệu xuất ra có Timecode chuẩn xác từng giây.
Tính năng
+ Chuyển đổi âm thanh và video thành văn bản hoặc liên kết Youtube
+ Chuyển đổi âm thanh trực tiếp từ micro theo thời gian thực
+ Cửa sổ trình chiếu để dễ dàng truy cập trong các sự kiện và bài thuyết trình
+ Tách giọng nói trước khi chuyển đổi thành văn bản để có độ chính xác cao hơn trên âm thanh nhiễu
+ Nhận dạng người nói trong phương tiện đã được chuyển đổi thành văn bản
+ Hỗ trợ nhiều trình soạn thảo Whisper
+ Hỗ trợ tăng tốc CUDA cho GPU Nvidia
+ Hỗ trợ Apple Silicon cho máy Mac
+ Hỗ trợ tăng tốc Vulkan cho Whisper.cpp trên hầu hết các GPU, bao gồm cả GPU tích hợp
+ Xuất bản ghi thành văn bản sang TXT, SRT và VTT
+ Trình xem bản ghi nâng cao với chức năng tìm kiếm, điều khiển phát lại và điều chỉnh tốc độ
+ Phím tắt bàn phím để điều hướng hiệu quả
+ Thư mục theo dõi để tự động chuyển đổi thành văn bản các tệp mới
+ Giao diện dòng lệnh để lập trình và tự động hóa
Lưu ý: Để chạy mượt các Model lớn (Large Model) và đạt độ chính xác cao nhất, máy tính cần có RAM từ 16GB trở lên, và nên có card đồ họa rời.
Link: https://github.com/chidiwilliams/buzz













