Bonjour alan1, merci pour l’intérêt et les questions détaillées !
1. 100% privé/confidentiel ?
Oui. Les 4 moteurs ASR (Parakeet, Canary, Vosk, Whisper) tournent intégralement en local, aucune donnée audio ne quitte la machine. Pour la traduction, LibreTranslate (Docker local) et Ollama sont aussi 100% locaux.
Seuls Google Translate et Bing envoient le texte transcrit sur internet si tu les choisis explicitement dans la configuration, ce n’est pas un choix par défaut (uniquement là pour les très petites configs)
2. Différences par rapport à Murmure ?
Je n’ai jamais essayé Murmure et donc je ne pourrai pas faire de comparaison, je voulais que dictée soit orienté linux.
Ses caracteristiques pour le moments:
- Moteurs ASR : dictee propose 4 backends interchangeables à la volée (Parakeet-TDT 25 langues, Canary 1B GPU, Vosk ultra-léger, faster-whisper 99 langues). Murmure utilise Whisper uniquement.
- Performance : le backend principal (Parakeet) est en Rust natif via ONNX Runtime — ~0.16s sur GPU, ~0.8s sur CPU pour une phrase.
- Intégration KDE : plasmoid Plasma 6 avec animations audio temps réel, changement de backend depuis le panneau, configuration intégrée.
- Diarisation : identification des locuteurs (jusqu’à 4) via Sortformer, intégrée au plasmoid.
- Post-traitement : commandes vocales (ponctuation, retour à la ligne…), dictionnaire de remplacement, élisions, conversion des nombres, correction LLM optionnelle via Ollama — le tout configurable par règles regex.
3. Utilisation avec d’autres applications ?
Oui, dictee tape le texte transcrit directement au curseur via dotool (Wayland) ou xdotool (X11). Ça fonctionne dans n’importe quelle application : LibreOffice, OnlyOffice, éditeurs de texte, terminal, navigateur, etc. — partout où on peut taper au clavier.
4. Utilisation avec LM Studio ?
Pas directement. La correction LLM utilise Ollama (API compatible). LM Studio utilise une API OpenAI-compatible, ce n’est pas encore supporté, mais c’est envisageable dans une future version.
5. Streaming vocal ?
Le mode Nemotron permet le streaming en temps réel, mais uniquement en anglais pour l’instant. Pour les autres langues, c’est du push-to-talk : on appuie, on parle, on relâche, la transcription apparaît (~0.2-0.8s de latence selon le backend).
6. Gestion par la voix (mode vocal) ?
Des commandes vocales sont intégrées au post-traitement : “à la ligne”, “virgule”, “point”, “ouvrez les guillemets”, etc. — avec support multilingue et variantes cyrilliques. Par contre, il n’y a pas encore de mot-clé d’activation vocale (hotword/wake word) — le déclenchement est par raccourci clavier ou bouton plasmoid. C’est prévu pour une future version.
7. Possibilité de l’utiliser sans IA ?
Je suppose que tu parles de LLM. La reconnaissance vocale est par nature de l’IA (réseau de neurones), mais tout tourne en local sans aucun service cloud. Vosk est particulièrement léger (~200 Mo de RAM, modèle de 50 Mo). Aucun compte, aucune inscription, aucune connexion internet requise. Je n’ai pas encore intégré de vérification par LLM, c’est envisagé, mais pas par defaut.
8. Vidéo de présentation ?
Bonne idée ! C’est dans mes plans, je n’ai pas encore eu le temps de la réaliser. En attendant, le README sur GitHub contient des GIF de démonstration et des captures d’écran du plasmoid et du wizard de configuration.
9. Support Wayland ?
dictee est conçu pour Wayland en priorité : dotool pour la saisie, PipeWire pour l’audio, wlr-layer-shell pour l’overlay animation-speech. Tout fonctionne nativement sous Wayland. X11 est aussi supporté via xdotool en fallback.
10. Autres bureaux que KDE ?
- KDE Plasma : intégration complète (plasmoid, raccourcis D-Bus kglobalaccel, thème natif)
- Sway, Hyprland et autres compositeurs wlr : fonctionne avec l’overlay animation-speech + icône systray
- GNOME : fonctionne via l’icône systray (AppIndicator3) et les raccourcis clavier. L’overlay animation-speech n’est pas compatible (GNOME ne supporte pas wlr-layer-shell). Une extension GNOME Shell est envisagée. Je ne suis pas sous gnome, si quelqu’un veut s’en occuper…
- Cinnamon, MATE, XFCE : fonctionnel via le systray
Le cœur de dictee (transcription, post-traitement, traduction) est indépendant du bureau — seul le retour visuel varie.
Prochaines versions (roadmap) :
La v1.3.0 arrive dans les prochains jours avec :
- Transcription de fichiers audio (WAV, MP3…) depuis le plasmoid
- Gestion du contexte
- Sélection de source audio depuis le plasmoid : micro USB, audio système (Firefox, YouTube…) pour transcrire des vidéos
- Diarisation intégrée au plasmoid (identification des locuteurs)
- Canary 1B en Rust natif (plus de dépendance Python pour ce backend)
- Wizard de première configuration repensé avec détection hardware automatique
- 14 pages de man (FR + EN)
Pour la v1.4, plusieurs fonctionnalités sont prévues :
- Hotword boosting : amélioration de la reconnaissance de mots techniques/noms propres via un dictionnaire personnalisé
- Sélection de source audio depuis le plasmoid : micro USB, audio système (Firefox, YouTube…) pour transcrire des vidéos
- Passthrough visioconférence : mixer micro + audio d’une app (Teams, Meet…) pour transcrire les deux voix avec diarisation
- Buffer de contexte audio : les dictées précédentes alimentent le contexte pour améliorer la reconnaissance des mots courts ou techniques
- Support de Qwen3-ASR : nouveau modèle ASR multilingue prometteur
- API OpenAI-compatible pour la correction LLM (support LM Studio, etc.)
En tout cas, tout est ici sur github, tester et faite remonter votre experience.