Comment utiliser l'API stable Diffusion 3
Stabilité AI a annoncé un aperçu précoce de la diffusion stable 3 en février 2024. Le modèle d'IA est toujours en avant-première, mais en avril 2024, l'équipe a annoncé qu'ils feraient une diffusion 3 stable et une API de plateforme de développement AI la plus rapide et la plus rapide de la plate-forme API la plus rapide et la plus fiable du marché.
Notez que la diffusion stable 3 est simplement une série de modèles d'IA génératifs du texte à l'image. Selon l'équipe de Stabilité AI, le modèle est"égal à ou surpasse" d'autres générateurs de texte à image, tels que Dall-E 3 et MidJourney V6 d'Openai, dans "Typographie et adhérence rapide".
Dans ce tutoriel, vous apprendrez des étapes pratiques pour commencer avec l'API afin que vous puissiez commencer à générer vos propres images.Pourquoi la diffusion stable 3?
La diffusion stable 3 introduit plusieurs progrès et fonctionnalités qui le distinguent de ses prédécesseurs et le rendent très compétitif dans l'espace de génération de texte à l'image - en particulier en termes de génération de texte améliorée et de capacités de suivi rapide.
Explorons ces progrès:
Invite améliorée suivant
- Compréhension contextuelle: La diffusion stable 3 intègre des techniques de traitement du langage naturel (NLP) de pointe, ce qui lui permet de mieux comprendre et d'interpréter les invites utilisateur. Cela permet des réponses plus précises et contextuellement pertinentes aux entrées des utilisateurs.
- Continuité rapide: Contrairement aux versions précédentes, la diffusion stable 3 maintient une meilleure continuité dans les invites suivantes, en veillant à ce que le texte généré reste cohérent et aligné sur la contribution de l'utilisateur tout au long de la conversation.
Amélioration de la génération de texte
- Modèles de langage affinés: La diffusion stable 3 utilise des modèles de langage affinés qui ont suivi une formation approfondie sur de grands ensembles de données, entraînant des capacités de génération de texte améliorées. Ces modèles comprennent mieux la grammaire, la syntaxe et la sémantique, conduisant à des réponses plus cohérentes et à consonance naturelle.
- Variabilité réduite de la réponse: Grâce à des méthodologies de formation et à des architectures de modèle améliorées, la diffusion stable 3 réduit la variabilité de la réponse, générant des sorties plus cohérentes et de haute qualité sur différentes invites et contextes.
Extension invite avancée
- Support de dialogue multi-virnes: La diffusion stable 3 peut gérer plus efficacement les dialogues multi-tours, en maintenant la cohérence et le contexte entre plusieurs échanges entre l'utilisateur et le modèle AI.
- Techniques d'expansion invite: Le modèle utilise des techniques d'extension invite avancées pour générer des réponses plus informatives et contextuellement pertinentes, enrichissant le dialogue et en fournissant aux utilisateurs des réponses complètes à leurs requêtes.
Mécanismes de contrôle affinés
- Taping des paramètres: DIFUSION STABLE 3 Fonctionne des mécanismes de contrôle affinés qui permettent aux utilisateurs d'ajuster les paramètres tels que la longueur de la réponse, le niveau de créativité et la pertinence du sujet, permettant une expérience d'interaction plus personnalisée.
- Mitigation des biais: Le modèle intègre des mesures pour atténuer les biais dans la génération de texte, favorisant l'équité et l'inclusivité dans ses réponses aux invites utilisateur.
APPRENDRE AVEC API STABLE DIFUSION 3
Cette section passera par les étapes pour commencer avec l'API de stabilité.
Étape 1: Créez votre compte. Vous devrez créer un compte avant de pouvoir utiliser l'API de stabilité AI. Vous pouvez vous inscrire à l'aide d'un nom d'utilisateur et d'un mot de passe, mais les nouveaux utilisateurs obtiennent 25 crédits gratuits pour s'inscrire à l'aide de leur compte Google.
Étape 2: Réclamez votre clé API. Une fois que vous avez créé votre compte, vous aurez besoin d'une API. Cela se trouve sur la page des clés API. Dans la documentation, la stabilité AI indique que «Toutes les API documentées sur ce site utilisent le même mécanisme d'authentification: passer la clé API dans l'en-tête d'autorisation.»
Étape 3: Crédits de dépression. Vous devez avoir des crédits pour demander l'API. Les crédits sont l'unité de devise consommée lors de l'appel de l'API - le montant consommé varie à l'autre et les modalités. Après avoir utilisé tous vos crédits, vous pouvez acheter plus via votre tableau de bord de facturation à 1 $ pour 100 crédits.
Dans ce didacticiel, nous utiliserons Google Colab et Comfyui pour montrer comment générer des images à l'aide de l'API stable Diffusion 3. Dans la section suivante, nous couvrirons les étapes pour commencer à utiliser chaque outil.
en utilisant l'API stable Diffusion 3 avec Google Colab
Pour commencer avec Google Colab, vous devez créer un compte Google - cliquez sur le lien et suivez les instructions.
Si vous avez déjà un compte Google, ouvrez un nouveau ordinateur portable et suivez les étapes ci-dessous.
Remarque: Le code utilisé dans cet exemple est tiré du tutoriel SD3_API par stabilité ai.
Étape 1: Installez les exigences.
from io import BytesIO import IPython import json import os from PIL import Image import requests import time from google.colab import output
Étape 2: Connectez-vous à l'API de stabilité.
import getpass # To get your API key, visit https://platform.stability.ai/account/keys STABILITY_KEY = getpass.getpass('Enter your API Key')
Étape 3. Définissez les fonctions
def send_generation_request( host, params, ): headers = { "Accept": "image/*", "Authorization": f"Bearer {STABILITY_KEY}" } # Encode parameters files = {} image = params.pop("image", None) mask = params.pop("mask", None) if image is not None and image != '': files["image"] = open(image, 'rb') if mask is not None and mask != '': files["mask"] = open(mask, 'rb') if len(files)==0: files["none"] = '' # Send request print(f"Sending REST request to {host}...") response = requests.post( host, headers=headers, files=files, data=params ) if not response.ok: raise Exception(f"HTTP {response.status_code}: {response.text}") return response
Étape 4. Générez des images.
Selon la documentation, les services d'image stables incluent une seule offre qui est actuellement en production:
- sd3: utilise 6.5 crédits
- SD3 Turbo: utilise 4 crédits
Testons-les.
Dans cet exemple, nous créerons une image d'un oiseau Toucan dans une zone tropique de plaine.
# SD3 prompt = "This dreamlike digital art captures a vibrant, Toucan bird in a lowland tropic area" #@param {type:"string"} negative_prompt = "" #@param {type:"string"} aspect_ratio = "1:1" #@param ["21:9", "16:9", "3:2", "5:4", "1:1", "4:5", "2:3", "9:16", "9:21"] seed = 0 #@param {type:"integer"} output_format = "jpeg" #@param ["jpeg", "png"] host = f"https://api.stability.ai/v2beta/stable-image/generate/sd3" params = { "prompt" : prompt, "negative_prompt" : negative_prompt, "aspect_ratio" : aspect_ratio, "seed" : seed, "output_format" : output_format, "model" : "sd3", "mode" : "text-to-image" } response = send_generation_request( host, params ) # Decode response output_image = response.content finish_reason = response.headers.get("finish-reason") seed = response.headers.get("seed") # Check for NSFW classification if finish_reason == 'CONTENT_FILTERED': raise Warning("Generation failed NSFW classifier") # Save and display result generated = f"generated_{seed}.{output_format}" with open(generated, "wb") as f: f.write(output_image) print(f"Saved image {generated}") output.no_vertical_scroll() print("Result image:") IPython.display.display(Image.open(generated))
Voici ce qu'il a créé:
Image créée par auteur utilisant une diffusion stable 3
Maintenant, créons une image d'une voiture faite de fruits à l'aide de SD3 Turbo:
#SD3 Turbo prompt = "A car made out of fruits." #@param {type:"string"} aspect_ratio = "1:1" #@param ["21:9", "16:9", "3:2", "5:4", "1:1", "4:5", "2:3", "9:16", "9:21"] seed = 0 #@param {type:"integer"} output_format = "jpeg" #@param ["jpeg", "png"] host = f"https://api.stability.ai/v2beta/stable-image/generate/sd3" params = { "prompt" : prompt, "aspect_ratio" : aspect_ratio, "seed" : seed, "output_format" : output_format, "model" : "sd3-turbo" } response = send_generation_request( host, params ) # Decode response output_image = response.content finish_reason = response.headers.get("finish-reason") seed = response.headers.get("seed") # Check for NSFW classification if finish_reason == 'CONTENT_FILTERED': raise Warning("Generation failed NSFW classifier") # Save and display result generated = f"generated_{seed}.{output_format}" with open(generated, "wb") as f: f.write(output_image) print(f"Saved image {generated}") output.no_vertical_scroll() print("Result image:") IPython.display.display(Image.open(generated))
L'exécution de ce code a produit l'image suivante:
Image créée par auteur utilisant une diffusion stable 3 turbo
en utilisant l'API avec comfyui
Comfyui est une interface utilisateur graphique robuste et flexible (GUI) pour une diffusion stable. Il dispose d'une interface basée sur des graphiques et utilise une conception de style organigramme pour permettre aux utilisateurs de créer et d'exécuter des flux de travail de diffusion stables sophistiqués.
Exigences du système:
- Unité de traitement graphique (GPU): Un GPU NVIDIA adéquat avec un minimum de 8 Go de VRAM, comme le RTX 3060 Ti ou mieux.
- Unité de traitement centrale (CPU): Un processeur contemporain, y compris Intel Xeon E5, I5, Ryzen 5, ou plus.
- Mémoire d'accès aléatoire (RAM): 16 Go ou plus.
- Système d'exploitation: Windows 10/11 ou Linux.
- Espace de stockage adéquat sur votre ordinateur pour les modèles et les images générées.
Étape 1: Installez Comfyui
La méthode la plus simple pour l'installation de Comfyui sur Windows consiste à utiliser le programme d'installation autonome trouvé sur la page des versions. Ce programme d'installation comprend des dépendances essentielles telles que Pytorch et étreindre les transformateurs de face, éliminant le besoin d'installations séparées.
Il fournit un package complet, permettant une configuration rapide de comfyui sur Windows sans nécessiter de configurations complexes.
Télécharger, extraire, ajouter des modèles et lancer!
Étape 1.1: Téléchargez la version autonome de Comfyui à partir de ce référentiel GitHub - cliquer sur le lien initiera le téléchargement.
Étape 1.2: Une fois que vous avez téléchargé le fichier comfyui-windows.zip le plus récent, extraire à l'aide d'un utilitaire tel que 7-Zip ou Winrar.
Étape 1.3: Un modèle de point de contrôle est nécessaire pour commencer à utiliser comfyui. Vous pouvez télécharger un modèle de point de contrôle à partir d'une diffusion stable ou d'un visage étreint. Mettez le modèle dans le dossier:
from io import BytesIO import IPython import json import os from PIL import Image import requests import time from google.colab import output
Étape 1.4: Maintenant, exécutez simplement le run_nvidia_gpu.bat (recommandé) ou run_cpu.bat. Cela devrait démarrer automatiquement Comfyui sur votre navigateur.
La ligne de commande exécutera et générera une URL http://127.0.0.1:8188/ que vous pouvez maintenant ouvrir dans votre navigateur.
Étape 2: Installez Comfyui Manager
Dans l'application File Explorer, localisez le répertoire que vous venez d'installer. Étant donné que vous utilisez Windows, il doit être nommé "Comfyui_windows_portable". À partir de là, accédez à Comfyui, puis CUSTOM_NODES. À partir de cet emplacement, tapez CMD dans la barre d'adresse et appuyez sur Entrée.
Cela devrait ouvrir un terminal d'invite de commande, où vous devez insérer la commande suivante:
import getpass # To get your API key, visit https://platform.stability.ai/account/keys STABILITY_KEY = getpass.getpass('Enter your API Key')
Une fois qu'il est terminé, redémarrez Comfyui. Le nouveau bouton « Manager » doit apparaître sur le panneau flottant.
Étape 3: Installez le nœud API AI de stabilité
Sélectionnez le bouton Gérer et accédez à " Installez les nœuds personnalisés. " À partir d'ici, recherchez " API de stabilité. "
Localisez le nœud "API de stabilité pour le nœud comfyui", puis cliquez sur le bouton d'installation situé sur le côté droit pour initier le processus d'installation. Après cela, un bouton « redémarrer » deviendra visible. Cliquez sur « redémarrer » pour redémarrer Comfyui.
Étape 4: Définissez la clé d'API à l'échelle du système
Cette étape est facultative, mais elle est recommandée. À savoir, vous pouvez définir une clé API AI de stabilité pour chaque nœud dans le nœud personnalisé de stabilité AI. Cela empêche la nécessité de saisir la clé API à plusieurs reprises dans chaque flux de travail et réduit le risque de partager par inadvertance votre clé d'API lors du partage de votre fichier JSON de workflow.
Pour ce faire, accédez au répertoire de nœud personnalisé:
from io import BytesIO import IPython import json import os from PIL import Image import requests import time from google.colab import output
Créez un nouveau fichier nommé SAI_PLATFORM_KEY.txt. Collez votre clé API dans le fichier, enregistrez le document, puis redémarrez Comfyui.
Étape 5: Chargez et exécutez le workflow
Installez le workflow de texte stable Diffusion 3 et déposons-le dans Comfyui.
Vous êtes maintenant prêt à partir!
Dépannage et conseils
Comme pour n'importe quel outil, il y a toujours une chance que vous rencontrerez quelques problèmes en cours de route. Voici les défis les plus courants et les étapes de dépannage pour les utilisateurs confrontés à des problèmes avec l'API ou le processus de configuration.
Clé API et problèmes d'authentification
Challenge: Les utilisateurs peuvent faire face à des erreurs d'authentification lors de l'accès à l'API en raison d'une clé API incorrecte ou de mauvaises informations d'authentification.
Dépannage: Vérifiez la touche API et assurez-vous qu'il est copié et collé correctement. Vérifiez qu'il n'y a pas d'espaces ou de caractères supplémentaires dans la clé. Assurez-vous que la touche API est correctement authentifiée par le serveur stable Diffusion 3.
Problèmes de gestion du crédit
Challenge: Les utilisateurs peuvent rencontrer des problèmes liés à la gestion du crédit, tels que des crédits insuffisants ou des erreurs de facturation.
Dépannage: Vérifiez votre solde de crédit dans le tableau de bord stable de diffusion 3 pour vous assurer que vous avez suffisamment de crédits. Vérifiez vos informations de facturation et abordez toutes les erreurs de facturation ou divergences avec l'équipe d'assistance.
Problèmes de connectivité et de réseau
Challenge: Les utilisateurs peuvent rencontrer des problèmes de connectivité ou des interruptions de réseau qui les empêchent d'accéder à l'API.
Dépannage: Assurez-vous d'avoir une connexion Internet stable et qu'il n'y a pas de perturbations du réseau. Pour isoler le problème, essayez d'accéder à l'API à partir d'un autre réseau ou appareil. Contactez votre fournisseur de services Internet si vous continuez à rencontrer des problèmes de connectivité.
Erreurs de compatibilité et de dépendance
Challenge: Les utilisateurs peuvent rencontrer des problèmes de compatibilité ou des erreurs de dépendance lors de l'installation ou de l'utilisation des outils et bibliothèques requis.
Dépannage: Vérifiez les exigences de compatibilité de l'API stable Diffusion 3 et assurez-vous que vous utilisez des versions compatibles des outils et des bibliothèques. Mettre à jour ou réinstaller toutes les dépendances qui causent des erreurs. Reportez-vous à la documentation et aux forums communautaires pour le dépannage des conseils.
Performance et temps de réponse
Challenge: Les utilisateurs peuvent ressentir des temps de réponse ou des problèmes de performance lents lors de l'interaction avec l'API, en particulier pendant les temps d'utilisation de pointe.
Dépannage: Surveiller les performances de l'API et suivre les temps de réponse pour identifier les modèles ou les tendances. Envisagez de passer à un plan d'abonnement à niveau supérieur pour de meilleures performances et un accès prioritaire. Contactez l'équipe d'assistance si vous ressentez régulièrement des temps de réponse lents.
Documentation et support
Challenge: Les utilisateurs peuvent rencontrer des difficultés à comprendre la documentation de l'API ou nécessiter une aide dépannageant des problèmes spécifiques.
Dépannage: Pour que les conseils sur l'utilisation de l'API, le dépannage et les meilleures pratiques, reportez-vous à la documentation stable de diffusion 3. Si vous avez des problèmes ou des questions non résolus, contactez l'équipe de soutien ou les forums communautaires.
Conclusion
La diffusion stable 3 est une série de modèles d'IA génératifs de texte à l'image. Cet article a couvert des étapes pratiques pour commencer à utiliser l'API avec Google Colab et Comfyui. Maintenant, vous avez les compétences nécessaires pour créer vos propres images; Assurez-vous d'appliquer ce que vous avez appris dès que possible afin que vous n'oubliez pas.
Merci d'avoir lu!
apprentissage plus approfondi
- Ui Web de diffusion stable: un guide complet de l'utilisateur pour les débutants
- affusion stable à réglage stable xl avec dreambooth et lora
- comment exécuter une diffusion stable
- Génération d'images photoréalistes utilisant l'IA avec des diffuseurs dans Python
FAQs
Quelles sont les meilleures pratiques pour utiliser efficacement l'API de diffusion 3 stable?
Les meilleures pratiques pour l'utilisation de l'API stable Diffusion 3 incluent la fourniture d'invites claires et spécifiques, l'expérimentation de différents paramètres pour obtenir les résultats souhaités, surveillant l'utilisation du crédit pour éviter la déplétion et rester mis à jour avec les dernières documents et fonctionnalités.
Qu'est-ce que la diffusion stable 3?
La diffusion stable comprend une collection de modèles d'IA axés sur la génération d'images à partir d'invites textuelles. Les utilisateurs fournissent des descriptions des images souhaitées et le modèle génère des représentations visuelles correspondantes en fonction de ces invites.
Comment fonctionne la diffusion stable?
La diffusion stable 3 utilise une architecture de transformateur de diffusion semblable à Sora, divergeant à partir de versions antérieures qui ont utilisé un modèle de diffusion semblable à la plupart des IA de génération d'images existants. Cette innovation fusionne l'architecture transformateur couramment utilisée dans des modèles de grande langue tels que le GPT avec des modèles de diffusion, offrant le potentiel de tirer parti des forces des deux architectures.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Tout en travaillant sur une IA agentique, les développeurs se retrouvent souvent à naviguer dans les compromis entre la vitesse, la flexibilité et l'efficacité des ressources. J'ai exploré le cadre de l'IA agentique et je suis tombé sur Agno (plus tôt c'était Phi-

La version comprend trois modèles distincts, GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, signalant une évolution vers des optimisations spécifiques à la tâche dans le paysage du modèle grand langage. Ces modèles ne remplacent pas immédiatement les interfaces orientées utilisateur comme

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Déverrouiller la puissance des modèles d'intégration: une plongée profonde dans le nouveau cours d'Andrew Ng Imaginez un avenir où les machines comprennent et répondent à vos questions avec une précision parfaite. Ce n'est pas de la science-fiction; Grâce aux progrès de l'IA, cela devient un R

Simuler les lancements de fusée avec Rocketpy: un guide complet Cet article vous guide à travers la simulation des lancements de fusées haute puissance à l'aide de Rocketpy, une puissante bibliothèque Python. Nous couvrirons tout, de la définition de composants de fusée à l'analyse de Simula

Gemini comme fondement de la stratégie d'IA de Google Gemini est la pierre angulaire de la stratégie d'agent AI de Google, tirant parti de ses capacités multimodales avancées pour traiter et générer des réponses à travers le texte, les images, l'audio, la vidéo et le code. Développé par Deepm

"Super heureux d'annoncer que nous acquérons une robotique de pollen pour amener les robots open source au monde", a déclaré Hugging Face sur X. "Depuis que Remi Cadene nous a rejoints de Tesla, nous sommes devenus la plate-forme logicielle la plus utilisée pour la robotique ouverte grâce à des remerciements grâce à des remerciements grâce à des remerciements à une robotique ouverte grâce à des remerciements à des remerciements à des remerciements à la robotique ouverte grâce à des remerciements à Gérom

Dans un développement significatif pour la communauté de l'IA, Agetica et ensemble AI ont publié un modèle de codage d'IA open source nommé Deepcoder-14b. Offrir des capacités de génération de code à égalité avec des concurrents à source fermée comme OpenAI
