Technologie

Fluent.ai est un leader en matière de compréhension de la parole et de solutions d'interface utilisateur vocale.

Comment le fait-on?

Fondée sur plus de neuf années de recherche en apprentissage automatique et en intelligence artificielle et avec plusieurs familles de brevets délivrés, la technologie de Fluent.ai est unique et incomparable.

Les solutions classiques de compréhension de la parole fonctionnent en deux étapes distinctes: premièrement, l’interprétation de la parole en un texte dans une langue cible, puis le traitement du langage naturel appliqué au texte, pour déterminer l’intention de l’utilisateur. Cette approche implique des efforts considérables de collecte de données et d’étiquetage, et nécessite une grande puissance de calcul pour développer des modèles dans une seule langue. Cette approche implique également un certain nombre de modules disjoints, tels que le modèle acoustique et le modèle de langage, pour associer une chaîne de mots à une parole en entrée. Ces modules n’ont pas une interaction optimisée et n'offrent donc pas des performances de reconnaissance vocale optimales. Cela devient particulièrement évident dans les environnements bruyants ou avec des accents variables.

La technologie de parole-intention (speech-to-intent) de Fluent.ai utilise des algorithmes uniques de réseau neuronal pour associer directement la parole entrante d’un utilisateur à l’action souhaitée, sans qu'il soit nécessaire d’effectuer une transcription parole à texte. Lors de la phase d’entraînement, la technologie Fluent.ai apprend en associant directement les représentations sémantiques des actions prévues par le locuteur aux paroles prononcées. D'une certaine manière, nos modèles sont basés sur le concept d'acquisition du vocabulaire et du langage chez l'homme. Contrairement à la reconnaissance automatique de la parole (RAP) classique, la technologie Fluent.ai ne nécessite pas de transcription phonétique. Notre approche, indépendante du texte, permet de développer des modèles de compréhension de la parole pouvant apprendre à reconnaître une nouvelle langue à partir d'une petite quantité de données et permet aux utilisateurs finaux d'interagir avec les appareils dans la langue de leur choix. L'utilisateur n'est pas obligé de se conformer à des phrases prédéfinies et est libre de choisir les mots de son choix.

Avantages concurrentiels

002

Léger et plus rapide

003

Grande précision

001

Prend en charge n'importe quelle langue

005

Permet plusieurs langues simultanées

006

Nécessite une petite fraction des données typiques d'entraînement

004

Meilleure performance dans les environnements bruyants

Avantages concurrentiels

002

Léger et plus rapide

003

Grande précision

001

Prend en charge n'importe quelle langue

005

Permet plusieurs langues simultanées

006

Nécessite une petite fraction des données typiques d'entraînement

004

Meilleure performance dans les environnements bruyants

Principaux fournisseurs de la transcription parole-texte

Parole-intention (Speech to Intent)

A

B

C

D

logo (1)

Comparaison

Précision

  • A
    50%
  • B
    75%
  • C
    50%
  • D
    50%
  • Fluent.ai
    100%

Robustesse au bruit

  • A
    50%
  • B
    50%
  • C
    50%
  • D
    50%
  • Fluent.ai
    100%

Apprend de l'utilisateur

  • A
    N/A
  • B
    N/A
  • C
    N/A
  • D
    N/A
  • Fluent.ai
    100%

Performance hors ligne

  • A
    50%
  • B
    N/A
  • C
    50%
  • D
    N/A
  • Fluent.ai
    100%

Vitesse de reconnaissance

  • A
    25%
  • B
    50%
  • C
    50%
  • D
    25%
  • Fluent.ai
    100%

Personnalisable

  • A
    N/A
  • B
    N/A
  • C
    N/A
  • D
    N/A
  • Fluent.ai
    100%

Quantité de données d'entraînement

  • A
    +10,000 hrs
  • B
    +10,000 hrs
  • C
    +10,000 hrs
  • D
    +10,000 hrs
  • Fluent.ai
    <10 hrs

Rapidité de lancement de nouvelles langues/nouveaux accents

  • A
    25%
  • B
    25%
  • C
    25%
  • D
    25%
  • Fluent.ai
    100%

Capacité à gérer un mélange de langues

  • A
    25%
  • B
    25%
  • C
    25%
  • D
    75%
  • Fluent.ai
    100%
Wave Wave

Recherche

Fluent Speech Commands Dataset: un ensemble de données pour la recherche sur la compréhension de la langue parlée

Chez Fluent.ai, notre recherche principale se concentre sur la compréhension du langage naturel (SLU) de bout en bout, c'est-à-dire l'extraction directe de l'intention de la parole sans la convertir d'abord en texte. Cette méthode est assez similaire à celle utilisée par les humains pour la compréhension de la parole. De tels modèles de SLU ont attiré l'attention d'autres chercheurs ces dernières années. Cependant, il n'existe pas beaucoup d'ensembles de données SLU facilement accessibles à la communauté des chercheurs.

DONUT: CTC-based Query-by-Example Keyword Spotting

Authors:
Loren Lugosch, Samuel Myer, Vikrant Tomar
Conference:
NeurIPS 2018 Workshop

Tone Recognition Using Lifters and CTC

Authors:
Loren Lugosch, Vikrant Tomar
Conference:
Interspeech 2018

Efficient keyword spotting using time delay neural networks

Authors:
Samuel Myer, Vikrant Tomar
Conference:
Interspeech 2018

Améliorez vos appareils avec le moteur d'IA vocale hors ligne, robuste et
multilingue de Fluent.ai.

cta2
fr_CAFrench
en_USEnglish fr_CAFrench