Image default
Máy Tính

Plugin Whisper Obsidian: Chuyển giọng nói thành văn bản tự động, đột phá quy trình ghi chú

Là một người dùng Obsidian, tôi từng rất thích thú khi sử dụng ứng dụng này làm công cụ ghi chú chính trên máy tính để lưu lại những suy nghĩ, ý tưởng, liên kết và các thông tin quan trọng. Tuy nhiên, việc gõ những ghi chú dài đôi khi khá mệt mỏi, và tôi luôn ao ước Obsidian có một tính năng tích hợp để chuyển đổi giọng nói thành văn bản. Trước đây, tôi đã thử ứng dụng Ghi chú của Apple cho mục đích này nhưng trải nghiệm không mấy ấn tượng. Mọi thứ đã thay đổi hoàn toàn khi tôi khám phá ra plugin Whisper cho Obsidian. Kể từ khi sử dụng plugin này, quy trình làm việc của tôi đã có một bước đột phá lớn. Tôi tận dụng nó triệt để để ghi chú bằng giọng nói mà không cần lo lắng về việc khi nào hay làm thế nào để phiên âm lại tất cả.

Plugin Whisper đã thực sự biến Obsidian thành một giải pháp ghi chú mạnh mẽ. Nó thay đổi cách tôi làm việc theo một cách mà tôi không ngờ tới, và trải nghiệm tổng thể khi sử dụng Obsidian trở nên hiệu quả hơn. Nhờ đó, tôi duy trì nhật ký cá nhân thường xuyên hơn bằng cách ghi lại các ghi chú âm thanh nhanh chóng. Hơn nữa, việc tìm kiếm văn bản liên quan trong một “biển” ghi chú giờ đây trở nên dễ dàng và nhanh chóng, nhờ vào khả năng phiên âm do plugin cung cấp. Mặc dù tôi khá muộn màng mới biết đến nó, tôi thực sự hối tiếc vì đã không sử dụng sớm hơn.

Thiết lập wiki cục bộ cho các dự án bằng ObsidianThiết lập wiki cục bộ cho các dự án bằng Obsidian

Plugin Whisper: Biến Obsidian thành công cụ ghi chú giọng nói mạnh mẽ

Tự động chuyển đổi giọng nói thành văn bản, hiệu quả bất ngờ

Tôi từng nghĩ ứng dụng Ghi chú mặc định là đủ để phiên âm giọng nói dễ dàng, nhưng tôi đã nhầm. Plugin Whisper, dù không phải là tính năng tích hợp sẵn, đã đủ sức thuyết phục tôi chuyển đổi hoàn toàn từ ứng dụng Ghi chú sang Obsidian. Whisper là hệ thống nhận dạng giọng nói tự động (ASR) của OpenAI, có khả năng lắng nghe và chuyển đổi lời nói thành văn bản. Để kích hoạt nó hoạt động trơn tru, tôi chỉ cần nhập OpenAI’s API keys vào phần cài đặt của plugin.

Sau khi cài đặt, việc ghi chú giọng nói trong Obsidian chỉ đơn giản là sử dụng micro của tôi. Khi tôi dừng ghi âm, Obsidian sẽ hiển thị một trình phát mini cho tệp âm thanh dưới dạng ghi chú mới, và bản phiên âm sẽ tự động xuất hiện ngay bên dưới dưới dạng văn bản. Qua nhiều lần thử nghiệm, tôi nhận thấy plugin phiên âm các ghi chú ngắn rất nhanh. Tuy nhiên, khi tôi thử tải lên các tệp âm thanh hiện có, chẳng hạn như một tập podcast dài 25 phút, quá trình chuyển đổi giọng nói thành văn bản mất khá nhiều thời gian.

Plugin đã làm tôi kinh ngạc với độ chính xác của bản phiên âm, ngay cả khi giọng điệu của tôi đôi khi khác biệt ở một số từ. Nó vẫn khiến tôi bất ngờ ngay cả khi tôi cố gắng bắt chước một giọng điệu khác. Để kiểm tra kỹ hơn, tôi lấy cuốn sách học tiếng Pháp cũ ra và đọc to, và ngay cả đoạn đó cũng được phiên âm tốt, dù tiếng Pháp của tôi đã “gỉ sét”. Tất nhiên, nó không thể xử lý những từ bị bóp méo do chất lượng micro tai nghe không tốt.

Plugin giúp tôi tập trung vào việc nói mà không cần lo lắng hay kìm hãm, thoải mái ghi lại ý tưởng. Tôi luôn có thể xem lại và sửa chữa những lỗi sai trong bản phiên âm sau này. Để thuận tiện cho việc này, tôi đã tạo các thư mục riêng để lưu trữ cả tệp âm thanh và bản phiên âm từ plugin. Mặc định, plugin lưu trữ tất cả ghi chú giọng nói riêng biệt, vì vậy tôi cần di chuyển chúng vào thư mục ghi chú giọng nói chuyên dụng của mình. Đây là một điều nhỏ mà tôi có thể chấp nhận được.

Plugin Breadcrumbs của Obsidian giúp tăng năng suất ghi chúPlugin Breadcrumbs của Obsidian giúp tăng năng suất ghi chú

Nhược điểm khi sử dụng Plugin Whisper: Chi phí và Quyền riêng tư

Vấn đề chi phí sử dụng

Việc thiết lập plugin Whisper trong Obsidian không tốn nhiều công sức. Tuy nhiên, bạn sẽ cần nạp tiền vào tài khoản OpenAI vì gói miễn phí sẽ không hoạt động, và bạn cũng cần đăng ký như một nhà phát triển. Về chi phí, ước tính tôi sẽ mất khoảng 2 giờ 45 phút sử dụng dịch vụ chuyển đổi âm thanh sang văn bản của Whisper thông qua API để tiêu tốn 1 đô la. Đáng tiếc là tôi phải trả riêng cho dịch vụ này vì nó không được bao gồm trong tài khoản ChatGPT trả phí của tôi và tôi bị tính phí theo mô hình “pay-as-you-go” (trả tiền theo mức sử dụng).

Lo ngại về quyền riêng tư dữ liệu

Khi bạn bè nhìn thấy thiết lập Obsidian với Whisper của tôi, một người đã bình luận một cách ngẫu nhiên về việc cho phép OpenAI nghe và xử lý tất cả suy nghĩ của tôi. Bình luận đó đã ở lại trong tâm trí tôi. Sau khi tìm hiểu, tôi phát hiện ra rằng OpenAI cho phép người dùng tắt tính năng ghi nhật ký dữ liệu (Data logging) từ cài đặt tài khoản, và điều này sẽ giải quyết các mối lo ngại về quyền riêng tư. Nếu không, dữ liệu âm thanh của tôi sẽ được lưu trữ trên máy chủ của OpenAI trong 30 ngày. Ít nhất đó là những gì OpenAI tuyên bố, bên cạnh việc không sử dụng dữ liệu đó để đào tạo mô hình. Dù vậy, tôi vẫn muốn tìm hiểu liệu có thể chạy một mô hình chuyển đổi giọng nói thành văn bản cục bộ trên máy tính của mình hay không.

Plugin Whisper cho ObsidianPlugin Whisper cho Obsidian

Chạy mô hình Whisper cục bộ trên máy tính: Thách thức và Hiệu quả

Quá trình thiết lập và vận hành

Vì mô hình Whisper cốt lõi là mã nguồn mở, tôi đã tìm hiểu cách để làm cho nó hoạt động trên chiếc MacBook Air M1 cơ bản của tôi với 8GB RAM. Tôi đã tìm thấy phiên bản C/C++ port của mô hình Whisper (whisper.cpp), có thể chạy cục bộ trên máy tính ở chế độ offline. Sau khi sao chép repository và tải xuống một mô hình Whisper lớn đã được chuyển đổi sang định dạng nhị phân tùy chỉnh, tôi đã xây dựng ứng dụng Whisper.cpp.

Sử dụng một tập lệnh shell, tôi đã chạy một máy chủ mô hình Whisper cục bộ để hoạt động với plugin Whisper trong Obsidian và ghi lại một ghi chú giọng nói. Bản phiên âm tự động xuất hiện cùng với ghi chú âm thanh bằng cách sử dụng phiên bản mô hình Whisper cục bộ. Sau nhiều lần thử nghiệm, tôi nhận ra rằng mô hình Whisper cục bộ kém chính xác hơn và đôi khi không thể nhận diện được các giọng điệu. Tuy nhiên, tôi vẫn đạt được kết quả thỏa mãn với một vài bản phiên âm giọng nói thành văn bản.

Sử dụng Obsidian như hệ thống quản lý kiến thức cá nhân (PKM)Sử dụng Obsidian như hệ thống quản lý kiến thức cá nhân (PKM)

Nói để giải phóng bản thân khỏi việc gõ ghi chú

Gõ phím không phải là cách duy nhất để ghi chú trong Obsidian. Plugin Whisper làm cho ứng dụng này phù hợp với bất kỳ ai muốn giải phóng mình khỏi việc gõ bàn phím. Ngay cả khi bạn thích gõ, tôi cũng khuyến khích bạn nên thử plugin này ít nhất một lần. Plugin này là một ví dụ điển hình cho thấy cộng đồng Obsidian sôi động luôn xây dựng nhiều tiện ích bổ sung để biến ứng dụng này thành lựa chọn yêu thích của nhiều người. Ngay cả khi mô hình Whisper cục bộ được hỗ trợ bởi các tệp nhị phân tùy chỉnh hoạt động tốt, tôi vẫn khuyên bạn nên sử dụng một máy tính mạnh mẽ với bộ xử lý CPU tốt và ít nhất 16GB RAM để có trải nghiệm tối ưu nhất.

Plugin Whisper đã giúp tôi tự tin hơn, thoải mái thể hiện suy nghĩ và ý tưởng bằng cách ghi âm chúng. Đó là lý do tại sao nó nhanh chóng trở thành ứng dụng ghi chú “đi đầu” của tôi sau khi thử nghiệm nhiều ứng dụng khác.

Logo ứng dụng ghi chú ObsidianLogo ứng dụng ghi chú Obsidian

Bạn đã sẵn sàng trải nghiệm sự tiện lợi này chưa? Hãy tải Obsidian và cài đặt plugin Whisper ngay hôm nay để khám phá một phương pháp ghi chú hoàn toàn mới!

Related posts

Những Tính Năng Mới Đáng Mong Đợi Nhất Sắp Có Trên Google NotebookLM

Administrator

Statistics for Strava: Công Cụ Tự Host Để Phân Tích Dữ Liệu Tập Luyện Sâu Hơn

Administrator

Intel Arc Battlemage: Vì Sao Intel Cần Ra Mắt Thêm GPU Cao Cấp Để Thay Đổi Thị Trường?

Administrator

Omni Tools: Giải Pháp Chỉnh Sửa Video Trực Tuyến Miễn Phí, Mạnh Mẽ và Bảo Mật

Administrator

Thư Viện Game Hợp Nhất Trên Ứng Dụng Xbox PC: Nỗ Lực Đáng Thất Vọng Của Microsoft

Administrator

Vấn đề rò rỉ gel trên GPU Gigabyte RTX 50: Sự thật đằng sau và giải đáp từ nhà sản xuất

Administrator