בטיחות של AI כוללת קבוצה של שיטות תכנון ותפעול שצריך לפעול לפיהן כדי למנוע פעולות שעלולות לגרום נזק, בכוונה או בטעות, ולעצור אותן. לדוגמה, האם מערכות ה-AI פועלות כמצופה, גם במקרה של פרצת אבטחה או התקפה ממוקדת? האם מערכת ה-AI חזקה מספיק כדי לפעול בבטחה גם כשהיא מופרעת? איך אתם מתכננים מראש כדי למנוע סיכונים או להימנע מהם? האם מערכת ה-AI אמינה ויציבה במצבי לחץ?
אחת משיטות הבטיחות האלה היא בדיקת כוונות זדון, כלומר ניסיון 'לשבור' את האפליקציה שלכם כדי ללמוד איך היא מתנהגת כשמספקים לה קלט זדוני או קלט שעלול להזיק בטעות. בערכת הכלים ל-AI גנרטיבי אחראי מוסבר בהרחבה על בדיקות ביקורתיות, כולל בדיקות יריבות. מידע נוסף על העבודה של Google בתחום הזה ועל הלקחים שהופקו ממנה זמין בפוסט בבלוג Keyword, צוות Red של Google בנושאי AI: האקרים אתיים שעוזרים לשפר את הבטיחות של AI, או במדריך SAIF: מדריך של Google לאבטחת AI.