close
ActualitésIntélligence ArtificielleTéchnologies

DataCebo lance la version entreprise de la célèbre bibliothèque de données synthétiques open source

Bien avant que la plupart d’entre nous ne réfléchissent à de grands modèles de langage, les cofondateurs de DataCebo, Kalyan Veeramachaneni et Neha Patki, créaient une bibliothèque open source appelée Synthetic Data Vault, ou SDV en abrégé. Les racines de l’entreprise remontent à 2016, lorsque tous deux travaillaient au sein du MIT Data to AI Lab. Ils pensaient qu’au-delà de la génération de texte, d’images et de code, vous pouviez également créer des données avec l’IA générative.

Pour les entreprises qui ont besoin d’utiliser des données commerciales de qualité dans de grands modèles de langage (et à d’autres fins) mais qui ne peuvent pas nécessairement utiliser des informations personnelles pour le faire, c’est une idée intrigante. Aujourd’hui, la société a vu le jour après avoir mis quelques années à créer une version commerciale d’entreprise de SDV, ainsi qu’un financement de démarrage de 8,5 millions de dollars.

Cette capacité à créer des données synthétiques à partir de bases de données relationnelles et tabulaires est ce qui distingue l’entreprise des autres outils de création d’IA générative, déclare le PDG Veeramachaneni. « Notre logiciel permet à nos clients de créer un modèle d’IA générative personnalisé sur site. Et puis ils peuvent utiliser ces données synthétiques pour une variété de cas d’utilisation », a-t-il déclaré à TechCrunch. Cela pourrait fonctionner dans les soins de santé, les services financiers ou partout où il était impératif de masquer les données sensibles à des fins de tests et de création de modèles.

Il affirme que les entreprises doivent traditionnellement créer des données synthétiques manuellement, un processus très fastidieux, difficile à mettre à l’échelle et sujet aux erreurs. En mettant l’IA générative au service du problème, vous pouvez simplement décrire le type de données dont vous avez besoin, le logiciel examine les caractéristiques de l’ensemble de données réel, puis crée un faux ensemble de qualité à des fins de test sans exposer aucune information sensible. Les fondateurs ont commencé par créer un outil open source, qui s’est avéré extrêmement populaire et les a aidés à tester les différents éléments essentiels du logiciel. “Nous avons eu plus d’un million de téléchargements et de nombreuses personnes sont actives dans notre communauté”, a déclaré Patki, vice-président du produit.

En fait, ils ont une chaîne Slack avec plus de 1 000 personnes participantes. « Et grâce à cela, je pense que nous obtenons d’abord beaucoup de validation de nos algorithmes de base. Nous sommes convaincus que cela fonctionne, et s’il y a un bug ou quoi que ce soit, nos utilisateurs publics open source le trouvent immédiatement et nous sommes en mesure de résoudre tout problème », a-t-elle déclaré. La grande différence entre la version open source et la version commerciale est l’échelle. La version entreprise peut gérer jusqu’à 100 tables, tandis que la version open source est conçue pour gérer seulement quelques tables.

Jusqu’à présent, les clients ont construit des modèles basés sur plus de 20 à 30 tables. L’entreprise compte actuellement 11 employés et prévoit d’en embaucher au cours de l’année prochaine pour atteindre une vingtaine, en fonction de la croissance de l’entreprise. Le financement de démarrage de 8,5 millions de dollars de la startup a été dirigé par Link Ventures et Zetta Venture Partners, avec la participation de Uncorrated Ventures.

Tags : editor takefeaturedreviewtechnologytrending
Sciences et Technologies