Echo Chamber Jailbreak: LLMs δημιουργούν επιβλαβές περιεχόμενο
secnews.gr
IT Security News, Gadgets, Tweaks for Geeks and More
Echo Chamber Jailbreak: LLMs δημιουργούν επιβλαβές περιεχόμενο
https://www.secnews.gr/651851/echo-chamber-jailbreak-llms-dimiourgoun-epivlaves-periexomeno/
Jun 24th 2025, 12:47
by Absenta Mia
Οι ερευνητές στον τομέα της κυβερνοασφάλειας εφιστούν την προσοχή σε μια νέα μέθοδο jailbreak με την ονομασία Echo Chamber, η οποία μπορεί να χρησιμοποιηθεί για να παραπλανήσει δημοφιλή μεγάλα γλωσσικά μοντέλα (LLMs) ώστε να παράγουν ανεπιθύμητες απαντήσεις, ανεξαρτήτως των προληπτικών μηχανισμών ασφαλείας που έχουν εφαρμοστεί.
Δείτε επίσης: Σφάλμα του LangSmith θα μπορούσε να εκθέσει κλειδιά OpenAI
Παρόλο που τα LLMs έχουν ενσωματώσει διάφορα μέτρα προστασίας κατά των επιθέσεων μέσω προτροπών (prompt injections) και των jailbreaking τεχνικών, πρόσφατη έρευνα δείχνει ότι εξακολουθούν να υπάρχουν μέθοδοι που μπορούν να επιτύχουν υψηλό ποσοστό επιτυχίας, ακόμα και χωρίς ιδιαίτερη τεχνική κατάρτιση. Το γεγονός αυτό αναδεικνύει μια διαρκή πρόκληση στην ανάπτυξη ηθικών LLMs, τα οποία θα μπορούν να διαχωρίζουν με σαφήνεια τα επιτρεπτά από τα μη επιτρεπτά θέματα.
Αν και τα πιο διαδεδομένα LLMs έχουν σχεδιαστεί ώστε να αρνούνται αιτήματα χρηστών που σχετίζονται με απαγορευμένα θέματα, μπορούν να παρακινηθούν —μέσω μιας διαδικασίας που ονομάζεται multi-turn jailbreak, όπως το Echo Chamber — ώστε να δώσουν ανήθικες ή ανεπιθύμητες απαντήσεις.
Σε αυτού του τύπου τις επιθέσεις, ο επιτιθέμενος ξεκινά με ένα αθώο αίτημα και στη συνέχεια υποβάλλει στο μοντέλο μια σειρά από ερωτήσεις με αυξανόμενη κακόβουλη χροιά, με στόχο να το παρασύρει τελικά στην παραγωγή επιβλαβούς περιεχομένου. Η συγκεκριμένη μέθοδος είναι γνωστή ως Crescendo.
Δείτε ακόμα: Νέα τεχνική Jailbreak στοχεύει μοντέλα τεχνητής νοημοσύνης
Τα LLMs είναι επίσης ευάλωτα σε επιθέσεις τύπου many-shot jailbreak, οι οποίες εκμεταλλεύονται το μεγάλο context window —δηλαδή τον μέγιστο όγκο κειμένου που μπορεί να χωρέσει σε μια προτροπή— για να κατακλύσουν το σύστημα με πολλές ερωτήσεις (και απαντήσεις) που εμφανίζουν "συμπεριφορά jailbreak" πριν από την τελική, επιβλαβή ερώτηση. Αυτό οδηγεί το μοντέλο να συνεχίσει το ίδιο μοτίβο και να παραγάγει επιβλαβές περιεχόμενο.
Η τεχνική Echo Chamber, σύμφωνα με την NeuralTrust, βασίζεται σε έναν συνδυασμό context poisoning και multi-turn reasoning για να παρακάμψει τους μηχανισμούς ασφαλείας του μοντέλου. Συγκεκριμένα, εφαρμόζεται ως adversarial prompting, που ξεκινά με ένα φαινομενικά αθώο ερώτημα και στη συνέχεια καθοδηγεί σταδιακά και έμμεσα το μοντέλο προς τη δημιουργία επικίνδυνου περιεχομένου, χωρίς να αποκαλύπτει τον τελικό στόχο της επίθεσης (π.χ., την παραγωγή λόγου μίσους).
Σε ένα ελεγχόμενο περιβάλλον αξιολόγησης, χρησιμοποιώντας μοντέλα LLMs της OpenAI και της Google, η επίθεση Echo Chamber πέτυχε ποσοστό επιτυχίας άνω του 90% σε θεματικές που σχετίζονται με σεξισμό, βία, λόγο μίσους και πορνογραφία. Παράλληλα, κατέγραψε σχεδόν 80% επιτυχία σε κατηγορίες όπως η παραπληροφόρηση και η πρόκληση αυτοτραυματισμού.
Δείτε επίσης: FoxBrain: Το πρώτο large language model της Foxconn
Η εταιρεία κυβερνοασφάλειας Cato Networks έχει εισάγει τον όρο "Living off AI" για να περιγράψει αυτού του είδους τις επιθέσεις, όπου ένα σύστημα τεχνητής νοημοσύνης που επεξεργάζεται μη αξιόπιστες εισόδους χωρίς επαρκή απομόνωση μπορεί να καταστεί ευάλωτο σε καταχρήσεις από κακόβουλους παράγοντες. Μέσω αυτών, οι επιτιθέμενοι μπορούν να αποκτήσουν προνομιακή πρόσβαση στο σύστημα, χωρίς να απαιτείται έλεγχος ταυτότητας.
Πηγή: thehackernews
You are receiving this email because you subscribed to this feed at https://blogtrottr.com
If you no longer wish to receive these emails, you can unsubscribe here:
https://blogtrottr.com/unsubscribe/nfz/3xfHTz
IT Security News, Gadgets, Tweaks for Geeks and More
Echo Chamber Jailbreak: LLMs δημιουργούν επιβλαβές περιεχόμενο
https://www.secnews.gr/651851/echo-chamber-jailbreak-llms-dimiourgoun-epivlaves-periexomeno/
Jun 24th 2025, 12:47
by Absenta Mia
Οι ερευνητές στον τομέα της κυβερνοασφάλειας εφιστούν την προσοχή σε μια νέα μέθοδο jailbreak με την ονομασία Echo Chamber, η οποία μπορεί να χρησιμοποιηθεί για να παραπλανήσει δημοφιλή μεγάλα γλωσσικά μοντέλα (LLMs) ώστε να παράγουν ανεπιθύμητες απαντήσεις, ανεξαρτήτως των προληπτικών μηχανισμών ασφαλείας που έχουν εφαρμοστεί.
Δείτε επίσης: Σφάλμα του LangSmith θα μπορούσε να εκθέσει κλειδιά OpenAI
Παρόλο που τα LLMs έχουν ενσωματώσει διάφορα μέτρα προστασίας κατά των επιθέσεων μέσω προτροπών (prompt injections) και των jailbreaking τεχνικών, πρόσφατη έρευνα δείχνει ότι εξακολουθούν να υπάρχουν μέθοδοι που μπορούν να επιτύχουν υψηλό ποσοστό επιτυχίας, ακόμα και χωρίς ιδιαίτερη τεχνική κατάρτιση. Το γεγονός αυτό αναδεικνύει μια διαρκή πρόκληση στην ανάπτυξη ηθικών LLMs, τα οποία θα μπορούν να διαχωρίζουν με σαφήνεια τα επιτρεπτά από τα μη επιτρεπτά θέματα.
Αν και τα πιο διαδεδομένα LLMs έχουν σχεδιαστεί ώστε να αρνούνται αιτήματα χρηστών που σχετίζονται με απαγορευμένα θέματα, μπορούν να παρακινηθούν —μέσω μιας διαδικασίας που ονομάζεται multi-turn jailbreak, όπως το Echo Chamber — ώστε να δώσουν ανήθικες ή ανεπιθύμητες απαντήσεις.
Σε αυτού του τύπου τις επιθέσεις, ο επιτιθέμενος ξεκινά με ένα αθώο αίτημα και στη συνέχεια υποβάλλει στο μοντέλο μια σειρά από ερωτήσεις με αυξανόμενη κακόβουλη χροιά, με στόχο να το παρασύρει τελικά στην παραγωγή επιβλαβούς περιεχομένου. Η συγκεκριμένη μέθοδος είναι γνωστή ως Crescendo.
Δείτε ακόμα: Νέα τεχνική Jailbreak στοχεύει μοντέλα τεχνητής νοημοσύνης
Τα LLMs είναι επίσης ευάλωτα σε επιθέσεις τύπου many-shot jailbreak, οι οποίες εκμεταλλεύονται το μεγάλο context window —δηλαδή τον μέγιστο όγκο κειμένου που μπορεί να χωρέσει σε μια προτροπή— για να κατακλύσουν το σύστημα με πολλές ερωτήσεις (και απαντήσεις) που εμφανίζουν "συμπεριφορά jailbreak" πριν από την τελική, επιβλαβή ερώτηση. Αυτό οδηγεί το μοντέλο να συνεχίσει το ίδιο μοτίβο και να παραγάγει επιβλαβές περιεχόμενο.
Η τεχνική Echo Chamber, σύμφωνα με την NeuralTrust, βασίζεται σε έναν συνδυασμό context poisoning και multi-turn reasoning για να παρακάμψει τους μηχανισμούς ασφαλείας του μοντέλου. Συγκεκριμένα, εφαρμόζεται ως adversarial prompting, που ξεκινά με ένα φαινομενικά αθώο ερώτημα και στη συνέχεια καθοδηγεί σταδιακά και έμμεσα το μοντέλο προς τη δημιουργία επικίνδυνου περιεχομένου, χωρίς να αποκαλύπτει τον τελικό στόχο της επίθεσης (π.χ., την παραγωγή λόγου μίσους).
Σε ένα ελεγχόμενο περιβάλλον αξιολόγησης, χρησιμοποιώντας μοντέλα LLMs της OpenAI και της Google, η επίθεση Echo Chamber πέτυχε ποσοστό επιτυχίας άνω του 90% σε θεματικές που σχετίζονται με σεξισμό, βία, λόγο μίσους και πορνογραφία. Παράλληλα, κατέγραψε σχεδόν 80% επιτυχία σε κατηγορίες όπως η παραπληροφόρηση και η πρόκληση αυτοτραυματισμού.
Δείτε επίσης: FoxBrain: Το πρώτο large language model της Foxconn
Η εταιρεία κυβερνοασφάλειας Cato Networks έχει εισάγει τον όρο "Living off AI" για να περιγράψει αυτού του είδους τις επιθέσεις, όπου ένα σύστημα τεχνητής νοημοσύνης που επεξεργάζεται μη αξιόπιστες εισόδους χωρίς επαρκή απομόνωση μπορεί να καταστεί ευάλωτο σε καταχρήσεις από κακόβουλους παράγοντες. Μέσω αυτών, οι επιτιθέμενοι μπορούν να αποκτήσουν προνομιακή πρόσβαση στο σύστημα, χωρίς να απαιτείται έλεγχος ταυτότητας.
Πηγή: thehackernews
You are receiving this email because you subscribed to this feed at https://blogtrottr.com
If you no longer wish to receive these emails, you can unsubscribe here:
https://blogtrottr.com/unsubscribe/nfz/3xfHTz