->
Εικόνα: Mark Hachman / IDG μέσω Dreamstudio.ai
Ο Τομ Χανκς δεν με κάλεσε απλώς για να μου πει ένα μέρος, αλλά σίγουρα ακούγεται έτσι.
Από τότε που το PCWorld άρχισε να καλύπτει την άνοδο του διάφορες εφαρμογές τεχνητής νοημοσύνης όπως το AI art, έχω ψάξει στα αποθετήρια κώδικα στο GitHub και στους συνδέσμους στο Reddit, όπου οι άνθρωποι θα δημοσιεύουν τροποποιήσεις στα δικά τους μοντέλα AI για διάφορες προσεγγίσεις.
Ορισμένα από αυτά τα μοντέλα καταλήγουν στην πραγματικότητα σε εμπορικούς ιστότοπους, οι οποίοι είτε αναπτύσσουν τους δικούς τους αλγόριθμους είτε προσαρμόζουν άλλους που έχουν δημοσιευτεί ως ανοιχτού κώδικα. Ένα εξαιρετικό παράδειγμα μιας υπάρχουσας τοποθεσίας ήχου AI είναι Uberduck.ai, το οποίο προσφέρει κυριολεκτικά εκατοντάδες προ-προγραμματισμένα μοντέλα. Εισαγάγετε το κείμενο στο πεδίο κειμένου και μπορείτε να βάλετε έναν εικονικό Elon Musk, Bill Gates, Peggy Hill, Daffy Duck, Alex Trebek, Beavis, The Joker ή ακόμα και Siri να διαβάσει τις προ-προγραμματισμένες γραμμές σας.
Ανεβάσαμε έναν ψεύτικο Bill Clinton που επαινούσε το PCWorld πέρυσι και το μοντέλο ακούγεται ήδη αρκετά καλό.
Η εκπαίδευση ενός AI για την αναπαραγωγή ομιλίας περιλαμβάνει τη μεταφόρτωση καθαρών δειγμάτων φωνής. Η τεχνητή νοημοσύνη «μαθαίνει» πώς ο ομιλητής συνδυάζει ήχους με τον στόχο για να μάθει αυτές τις σχέσεις, να τις τελειοποιήσει και να μιμηθεί τα αποτελέσματα. Αν είστε εξοικειωμένοι με το εξαιρετικό θρίλερ του 1992 Sneakers (με ένα all-star καστ των Robert Redford, Sidney Poitier και Ben Kingsley, μεταξύ άλλων), τότε ξέρετε για τη σκηνή στην οποία οι χαρακτήρες πρέπει να «σπάσουν» έναν βιομετρικό κωδικό φωνής, ηχογραφώντας ένα δείγμα φωνής της φωνής του στόχου . Αυτό είναι σχεδόν το ίδιο πράγμα.
Κανονικά, η συναρμολόγηση ενός καλού μοντέλου φωνής μπορεί να χρειαστεί αρκετή εκπαίδευση, με μεγάλα δείγματα για να υποδείξουν πώς μιλάει ένα συγκεκριμένο άτομο. Τις προηγούμενες μέρες, ωστόσο, προέκυψε κάτι νέο: Microsoft Vall-E, μια ερευνητική εργασία (με ζωντανά παραδείγματα) μιας συνθετικής φωνής που απαιτεί μόνο λίγα δευτερόλεπτα ήχου πηγής για να δημιουργήσει μια πλήρως προγραμματιζόμενη φωνή.
Φυσικά, ερευνητές τεχνητής νοημοσύνης και άλλες ομάδες τεχνητής νοημοσύνης ήθελαν να μάθουν εάν το μοντέλο Vall-E είχε κυκλοφορήσει ακόμη στο κοινό. Η απάντηση είναι όχι, αν και μπορείτε να παίξετε με ένα άλλο μοντέλο, αν θέλετε, που ονομάζεται Tortoise. (Ο συγγραφέας σημειώνει ότι ονομάζεται Χελώνα επειδή είναι αργό, πράγμα που είναι, αλλά λειτουργεί.)
Εκπαιδεύστε τη δική σας φωνή AI με το Tortoise
Αυτό που κάνει το Tortoise ενδιαφέρον είναι ότι μπορείτε να εκπαιδεύσετε το μοντέλο σε όποια φωνή επιλέξετε απλά ανεβάζοντας μερικά ηχητικά κλιπ. ο Σελίδα Tortoise GitHub σημειώνει ότι θα πρέπει να έχετε μερικά κλιπ περίπου δώδεκα δευτερολέπτων περίπου. Θα χρειαστεί να τα αποθηκεύσετε ως αρχείο .WAV με συγκεκριμένη ποιότητα.
Πώς λειτουργούν όλα; Μέσω μιας δημόσιας υπηρεσίας που μπορεί να μην γνωρίζετε: google colab. Ουσιαστικά, το Collab είναι μια υπηρεσία cloud που παρέχει η Google και επιτρέπει την πρόσβαση σε έναν διακομιστή Python. Ο κωδικός που γράφετε εσείς (ή κάποιος άλλος) μπορεί να αποθηκευτεί ως σημειωματάριο, το οποίο μπορεί να κοινοποιηθεί με χρήστες που διαθέτουν γενικό λογαριασμό Google. ο Ο κοινόχρηστος πόρος της Χελώνας είναι εδώ.
Η διεπαφή φαίνεται τρομακτική, αλλά δεν είναι τόσο άσχημη. Θα πρέπει να συνδεθείτε ως χρήστης Google και, στη συνέχεια, θα πρέπει να κάνετε κλικ στο "Σύνδεση" στην επάνω δεξιά γωνία. Μια προειδοποιητική λέξη. Αν και αυτό το Colab δεν κατεβάζει τίποτα στο Google Drive σας, άλλα Colab μπορεί να κάνουν λήψη. (Τα αρχεία ήχου που δημιουργεί, ωστόσο, αποθηκεύονται στο πρόγραμμα περιήγησης, αλλά μπορούν να ληφθούν στον υπολογιστή σας.) Λάβετε υπόψη ότι εκτελείτε κώδικα που έχει γράψει κάποιος άλλος. Ενδέχεται να λάβετε μηνύματα σφάλματος είτε λόγω κακών εισαγωγών είτε επειδή η Google έχει πρόβλημα στο πίσω μέρος, όπως η έλλειψη διαθέσιμης GPU. Όλα είναι λίγο πειραματικά.
Κάθε μπλοκ κώδικα έχει ένα μικρό εικονίδιο «αναπαραγωγής» που εμφανίζεται αν τοποθετήσετε το ποντίκι σας πάνω του. Θα χρειαστεί να κάνετε κλικ στο "play" σε κάθε μπλοκ κώδικα για να το εκτελέσετε, περιμένοντας να εκτελεστεί κάθε μπλοκ πριν εκτελέσετε το επόμενο.
Αν και δεν πρόκειται να ακολουθήσουμε λεπτομερείς οδηγίες για όλες τις λειτουργίες, απλώς έχετε υπόψη ότι το κόκκινο κείμενο μπορεί να τροποποιηθεί από το χρήστη, όπως το προτεινόμενο κείμενο που θέλετε να εκφωνεί το μοντέλο. Περίπου επτά τετράγωνα πιο κάτω, θα έχετε την επιλογή να εκπαιδεύσετε το μοντέλο. Θα χρειαστεί να ονομάσετε το μοντέλο και, στη συνέχεια, να ανεβάσετε τα αρχεία ήχου. Όταν ολοκληρωθεί, επιλέξτε το νέο μοντέλο ήχου στο τέταρτο μπλοκ, εκτελέστε τον κώδικα και, στη συνέχεια, διαμορφώστε το κείμενο στο τρίτο μπλοκ. Τρέξιμο ότι μπλοκ κωδικών.
Εάν όλα πάνε όπως τα σχεδιάζετε, θα έχετε μια μικρή έξοδο ήχου της δειγματοληπτικής φωνής σας. Λειτουργεί? Λοιπόν, έκανα ένα γρήγορο και βρώμικο φωνητικό μοντέλο του συναδέλφου μου Gordon Mah Ung, του οποίου η δουλειά εμφανίζεται στο δικό μας Το podcast Full Nerd καθώς και διάφορα βίντεο. Ανέβασα ένα δείγμα πολλών λεπτών αντί για τα σύντομα αποσπάσματα, απλώς για να δω αν θα λειτουργήσει.
Το αποτέλεσμα? Λοιπόν, αυτό ήχοι ζωντανό, αλλά καθόλου σαν τον Γκόρντον. Είναι σίγουρα ασφαλής από την ψηφιακή πλαστοπροσωπία προς το παρόν. (Αυτό δεν αποτελεί έγκριση οποιασδήποτε αλυσίδας φαστ φουντ.)
Αλλά ένα υπάρχον μοντέλο που ο συγγραφέας της Χελώνας εκπαίδευσε στον ηθοποιό Τομ Χανκς ακούγεται πολύ καλό. Δεν μιλάει ο Τομ Χανκς εδώ! Το έκανε και ο Τομ δεν πρόσφερε μου μια δουλειά, αλλά ήταν αρκετό για να ξεγελάσω τουλάχιστον έναν από τους φίλους μου.
Το συμπέρασμα? Είναι λίγο τρομακτικό: η εποχή του να πιστεύουμε αυτά που ακούμε (και σύντομα βλέπουμε) τελειώνει. Ή έχει ήδη.
Κωδικοί κουπονιών
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html
- 1
- 2023
- 39
- a
- Σχετικα
- πρόσβαση
- Λογαριασμός
- πραγματικά
- προσαρμόσει
- AI
- alex
- αλγόριθμοι
- Όλα
- επιτρέπει
- ήδη
- μεταξύ των
- amp
- και
- Άλλος
- απάντηση
- εφαρμογές
- προσεγγίσεις
- γύρω
- άρθρο
- τεχνητός
- ήχου
- συγγραφέας
- διαθέσιμος
- πίσω
- Κακός
- επειδή
- πριν
- ξεκίνησε
- πιστεύοντας
- Νομοσχέδιο
- Μπιλ Κλίντον
- Bill Gates
- βιομετρική
- Κομμάτι
- Αποκλεισμός
- Μπλοκ
- πρόγραμμα περιήγησης
- κουμπί
- κλήση
- που ονομάζεται
- κάρτα
- κατηγορία
- σίγουρα
- αλυσίδα
- χαρακτήρες
- τσιπ
- Επιλέξτε
- καθαρός
- κλιπ
- Backup
- κωδικός
- συνάδελφος
- συνδυάζει
- σχόλια
- εμπορικός
- Ολοκληρώνει
- συμπέρασμα
- ελέγχους
- Γωνία
- πορεία
- κάλυμμα
- μονάδες
- CSS
- Ημερομηνία
- Ημ.
- περιγραφή
- λεπτομερής
- DID
- ψηφιακό
- Όχι
- κάτω
- κατεβάσετε
- δωδεκάδα
- αυτοκίνητο
- κάθε
- συντάκτης
- είτε
- Elon
- Elon Musk
- προέκυψαν
- αρκετά
- εισάγετε
- σφάλμα
- κατ 'ουσίαν,
- Αιθέρας (ΕΤΗ)
- Even
- πάντα
- παράδειγμα
- παραδείγματα
- έξοχος
- εκτελέσει
- υφιστάμενα
- απομίμηση
- οικείος
- Χαρακτηριστικά
- λίγοι
- πεδίο
- Αρχεία
- Αρχεία
- εστιάζει
- ακολουθήστε
- Πρώην
- προηγουμένως
- Τέταρτος
- φίλους
- από
- πλήρη
- πλήρως
- Πύλες
- παράγουν
- δημιουργεί
- παίρνω
- να πάρει
- GitHub
- γκολ
- πηγαίνει
- μετάβαση
- καλός
- GPU
- εξαιρετική
- που έχει
- ύψος
- φτερουγίζω
- Πως
- Ωστόσο
- HTML
- HTTPS
- ανθρώπινος
- Εκατοντάδες
- ICON
- εικόνα
- in
- ευρετήριο
- υποδεικνύω
- οδηγίες
- ενδιαφέρον
- περιβάλλον λειτουργίας
- εκφοβιστικό
- IT
- Ιανουάριος
- Δουλειά
- τζόκερ
- Ξέρω
- large
- Επίθετο
- Πέρυσι
- μάθηση
- γραμμές
- ΣΥΝΔΕΣΜΟΙ
- λίγο
- ζω
- ΦΑΊΝΕΤΑΙ
- ΚΑΝΕΙ
- διευθυντής
- σημάδι
- Μήτρα
- max-width
- μηνύματα
- Microsoft
- ενδέχεται να
- πρακτικά
- καθρέπτης
- μοντέλο
- μοντέλα
- Μόσχος
- όνομα
- Ανάγκη
- Νέα
- νέα
- επόμενη
- σημειωματάριο
- Notes
- προσφορά
- προσφορές
- ONE
- ανοίξτε
- ανοικτού κώδικα
- βελτιστοποιημένη
- Επιλογή
- ΑΛΛΑ
- Άλλα
- δική
- μέρος
- Ειδικότερα
- Κωδικός Πρόσβασης
- Το παρελθόν
- PC
- People
- τελειοποιώντας
- person
- προσωπικός
- Πίσσα
- προγραμματίζονται
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Δοκιμάστε να παίξετε
- συνδέω
- Θέση
- Ανώτερο
- πρόεδρος
- αρκετά
- πρωταρχικός
- Προφίλ ⬇️
- παρέχει
- δημόσιο
- δημοσιεύθηκε
- Python
- ποιότητα
- Διάβασε
- Ανάγνωση
- λαμβάνω
- πρόσφατος
- εγγραφή
- Red
- Σχέσεις
- κυκλοφόρησε
- Απαιτεί
- έρευνα
- ερευνητές
- πόρος
- αποτέλεσμα
- Αποτελέσματα
- Αύξηση
- ROBERT
- ρομπότ
- ρομπότ
- Ρολό
- τρέξιμο
- τρέξιμο
- ένα ασφαλές
- ίδιο
- Αποθήκευση
- σκηνή
- δευτερόλεπτα
- αρχαιότερος
- SEO
- υπηρεσία
- Υπηρεσίες
- επτά
- Shared
- Κοντά
- θα πρέπει να
- απλά
- αφού
- ενιαίας
- Siri
- ιστοσελίδα
- Sites
- Συνεδρίαση
- επιβραδύνουν
- small
- So
- λογισμικό
- Κάποιος
- κάτι
- Σύντομα
- Πηγή
- μιλούν
- Ομιλητής
- ομιλία
- Μιλάει
- συγκεκριμένες
- ομιλία
- Εκκίνηση
- ξεκίνησε
- Βήμα
- αποθηκεύονται
- ιστορίες
- τέτοιος
- τραπέζι
- TAG
- Πάρτε
- Τεχνολογία
- Η
- τους
- πράγμα
- Τρίτος
- Μέσω
- ώρα
- Τίτλος
- προς την
- πολύ
- Τρένο
- εκπαιδευμένο
- Εκπαίδευση
- ΣΤΡΟΦΗ
- Τουίτερ
- Φορτώθηκε
- Ανέβασμα
- URL
- Χρήστες
- Χρήστες
- χρησιμότητα
- διάφορα
- εκδοχή
- μέσω
- Βίντεο
- Πραγματικός
- Φωνή
- ΦΩΝΕΣ
- W
- Αναμονή
- ήθελε
- προειδοποίηση
- Τι
- Ποιό
- ενώ
- Ο ΟΠΟΊΟΣ
- θα
- εντός
- λέξη
- Εργασία
- λειτουργεί
- θα
- γραπτή
- έτος
- Σας
- YouTube
- zephyrnet