Dictee v1.2.0 — Dictée vocale push-to-talk avec plasmoid Plasma 6, 4 moteurs ASR, 100% hors ligne

dictee est un outil de dictée vocale hors ligne pour Linux avec une intégration poussée de KDE Plasma 6.

Intégration KDE :

  • Plasmoid Plasma 6 avec 5 styles d’animation audio en temps réel
  • Mode arc-en-ciel, noise gate, auto-calibration, aperçu live dans la config
  • Changement de backend directement depuis le popup du plasmoid
  • Raccourcis globaux via D-Bus kglobalaccel

Nouveautés v1.2.0 :

  • 4 moteurs ASR interchangeables à la volée : Parakeet-TDT (25 langues), Canary-1B (GPU), Vosk (léger), faster-whisper (99 langues)
  • Pipeline de post-traitement : commandes vocales, dictionnaire, continuation, élisions, conversion des nombres, correction LLM via Ollama
  • Traduction : Google, Bing, LibreTranslate, Ollama
  • Assistant de premier lancement
  • 6 langues d’interface : fr, de, es, it, pt, uk
  • Paquets : .deb, .rpm, .plasmoid, PKGBUILD, tar.gz

Liens :

Open source, GPL-3.0. Vos retours sont les bienvenus !

Bonjour,

je souhaiterai quelques infos sur votre logiciel:

  • Est-il 100% privé/confidentiel ?
  • Différences par rapport à Murmure (autre logiciel de dictée vocale) ?
  • Utilisation avec d’autres applications (LibreOffice (writer, calc, etc.), OnlyOffice, Editeur de texte, terminal, etc. ?
  • Utilisation avec LM Studio ?
  • Streaming vocal ?
  • Gestion par la voix (mode vocal) en plus de la gestion par clavier ?
  • Possibilité de l’utilisé sans L’IA ?
  • Vidéo de présentation du logiciel envisageable afin d’avoir un aperçu complet des fonctionnalités du logiciel, et une mise en situation du logiciel ?
  • Quid du support de Wayland ?

L’intégration sous KDE est complète :+1: Est ce également le cas pour les autres bureaux (gnome par exemple).

Merci d’avance pour vos réponses, ainsi que pour votre travail sur le système Linux. Bravo !

Bonjour alan1, merci pour l’intérêt et les questions détaillées !

1. 100% privé/confidentiel ?
Oui. Les 4 moteurs ASR (Parakeet, Canary, Vosk, Whisper) tournent intégralement en local, aucune donnée audio ne quitte la machine. Pour la traduction, LibreTranslate (Docker local) et Ollama sont aussi 100% locaux.
Seuls Google Translate et Bing envoient le texte transcrit sur internet si tu les choisis explicitement dans la configuration, ce n’est pas un choix par défaut (uniquement là pour les très petites configs)

2. Différences par rapport à Murmure ?
Je n’ai jamais essayé Murmure et donc je ne pourrai pas faire de comparaison, je voulais que dictée soit orienté linux.
Ses caracteristiques pour le moments:

  • Moteurs ASR : dictee propose 4 backends interchangeables à la volée (Parakeet-TDT 25 langues, Canary 1B GPU, Vosk ultra-léger, faster-whisper 99 langues). Murmure utilise Whisper uniquement.
  • Performance : le backend principal (Parakeet) est en Rust natif via ONNX Runtime — ~0.16s sur GPU, ~0.8s sur CPU pour une phrase.
  • Intégration KDE : plasmoid Plasma 6 avec animations audio temps réel, changement de backend depuis le panneau, configuration intégrée.
  • Diarisation : identification des locuteurs (jusqu’à 4) via Sortformer, intégrée au plasmoid.
  • Post-traitement : commandes vocales (ponctuation, retour à la ligne…), dictionnaire de remplacement, élisions, conversion des nombres, correction LLM optionnelle via Ollama — le tout configurable par règles regex.

3. Utilisation avec d’autres applications ?
Oui, dictee tape le texte transcrit directement au curseur via dotool (Wayland) ou xdotool (X11). Ça fonctionne dans n’importe quelle application : LibreOffice, OnlyOffice, éditeurs de texte, terminal, navigateur, etc. — partout où on peut taper au clavier.

4. Utilisation avec LM Studio ?
Pas directement. La correction LLM utilise Ollama (API compatible). LM Studio utilise une API OpenAI-compatible, ce n’est pas encore supporté, mais c’est envisageable dans une future version.

5. Streaming vocal ?
Le mode Nemotron permet le streaming en temps réel, mais uniquement en anglais pour l’instant. Pour les autres langues, c’est du push-to-talk : on appuie, on parle, on relâche, la transcription apparaît (~0.2-0.8s de latence selon le backend).

6. Gestion par la voix (mode vocal) ?
Des commandes vocales sont intégrées au post-traitement : “à la ligne”, “virgule”, “point”, “ouvrez les guillemets”, etc. — avec support multilingue et variantes cyrilliques. Par contre, il n’y a pas encore de mot-clé d’activation vocale (hotword/wake word) — le déclenchement est par raccourci clavier ou bouton plasmoid. C’est prévu pour une future version.

7. Possibilité de l’utiliser sans IA ?
Je suppose que tu parles de LLM. La reconnaissance vocale est par nature de l’IA (réseau de neurones), mais tout tourne en local sans aucun service cloud. Vosk est particulièrement léger (~200 Mo de RAM, modèle de 50 Mo). Aucun compte, aucune inscription, aucune connexion internet requise. Je n’ai pas encore intégré de vérification par LLM, c’est envisagé, mais pas par defaut.

8. Vidéo de présentation ?
Bonne idée ! C’est dans mes plans, je n’ai pas encore eu le temps de la réaliser. En attendant, le README sur GitHub contient des GIF de démonstration et des captures d’écran du plasmoid et du wizard de configuration.

9. Support Wayland ?
dictee est conçu pour Wayland en priorité : dotool pour la saisie, PipeWire pour l’audio, wlr-layer-shell pour l’overlay animation-speech. Tout fonctionne nativement sous Wayland. X11 est aussi supporté via xdotool en fallback.

10. Autres bureaux que KDE ?

  • KDE Plasma : intégration complète (plasmoid, raccourcis D-Bus kglobalaccel, thème natif)
  • Sway, Hyprland et autres compositeurs wlr : fonctionne avec l’overlay animation-speech + icône systray
  • GNOME : fonctionne via l’icône systray (AppIndicator3) et les raccourcis clavier. L’overlay animation-speech n’est pas compatible (GNOME ne supporte pas wlr-layer-shell). Une extension GNOME Shell est envisagée. Je ne suis pas sous gnome, si quelqu’un veut s’en occuper…
  • Cinnamon, MATE, XFCE : fonctionnel via le systray

Le cœur de dictee (transcription, post-traitement, traduction) est indépendant du bureau — seul le retour visuel varie.

Prochaines versions (roadmap) :

La v1.3.0 arrive dans les prochains jours avec :

  • Transcription de fichiers audio (WAV, MP3…) depuis le plasmoid
  • Gestion du contexte
  • Sélection de source audio depuis le plasmoid : micro USB, audio système (Firefox, YouTube…) pour transcrire des vidéos
  • Diarisation intégrée au plasmoid (identification des locuteurs)
  • Canary 1B en Rust natif (plus de dépendance Python pour ce backend)
  • Wizard de première configuration repensé avec détection hardware automatique
  • 14 pages de man (FR + EN)

Pour la v1.4, plusieurs fonctionnalités sont prévues :

  • Hotword boosting : amélioration de la reconnaissance de mots techniques/noms propres via un dictionnaire personnalisé
  • Sélection de source audio depuis le plasmoid : micro USB, audio système (Firefox, YouTube…) pour transcrire des vidéos
  • Passthrough visioconférence : mixer micro + audio d’une app (Teams, Meet…) pour transcrire les deux voix avec diarisation
  • Buffer de contexte audio : les dictées précédentes alimentent le contexte pour améliorer la reconnaissance des mots courts ou techniques
  • Support de Qwen3-ASR : nouveau modèle ASR multilingue prometteur
  • API OpenAI-compatible pour la correction LLM (support LM Studio, etc.)

En tout cas, tout est ici sur github, tester et faite remonter votre experience.

C’est mieux avec le lien GitHub - rcspam/dictee: Push-to-talk voice dictation for Linux — 100% local, multilingual (25+ languages), with speaker diarization. Qt frontend, Rust backend on NVIDIA Parakeet via ONNX Runtime. KDE Plasmoid integred. · GitHub :wink:

Bonjour,

whaouh ! le logiciel est vraiment complet (support wayland/X11, post-traitement avancé, etc.). Comment fonctionne le traitement de la dictée vocale (enregistrement de la voix, traitement du texte, retranscription dans les logiciels) ? Où sont stockées les données audio ? Je suppose qu’il y a une transcription de l’audio en texte vers le presse papier ? Puis réécriture dans les logiciels cités ci-dessus ? Toutes ces données sont-elles supprimées après traitement ? Sont-elles supprimables ? Si tout peut se faire en local uniquement, c’est excellent. Désolé de vous demander cela, mais c’est juste pour nous rassurer, Dictée est 100% exempté de télémétrie ?

Concernant l’utilisation sans IA, je veux signifier utilisation direct sans l’aide d’un LLM. Envisageable ?

Pour terminer, quelle est la date de sortie de la version 1.4 ? Concernant le VAD (Voice Activity Detection), le support streaming vocal dans d’autres langues, format appimage et flatpak du logiciel, ils sont prévus à partir de la version 1.5 ou plus?

Merci.

Bonjour,

Est-ce que tu l’as testée la 1.2 ?
Si tu la testes, tu auras une réponse à certaines de tes questions.
J’ai besoin de retour…
LA 1.3 est sur le feu…

Les données de transcription sont aux choix loggées ou non loggée, c’est toi qui decide dans le setup. (1.3).

Pour les sorties comme toujours dans le libre, ça sortira quand ce sera prêt :wink:,

Si tu veux aider teste. Merci

Bonjour,

la 1.3 semble proche, c’est pourquoi j’attends celle-ci pour effectuer les tests. Je souhaite également tester Fedora 44 beta KDE avec certaines optimisations dans les prochains jours. Ainsi, je ferai d’une pierre deux coups. :wink: