래서 최근에는 AI한테 숙제를 주고 “지금 왜 그런 생각을 하는지 정확히 설명하라”라고 요구하는 연구를 시도하고 있습니다. 딥시크 같은 경우 그렇게 합니다. 이걸 CoT라고 부릅니다. 초기에는 우리가 프롬프트를 입력하면 그에 맞는 대답을 내놓는지, 혹은 헛소리를 내놓는지에 주목했습니다. “어떤 대답을 내놓는가” 하는 것이 최대의 관심사였지요. 하지만 최근에는 대답하면서 어떤 근거로 그 대답을 했는지 설명하게 합니다. 그런데 연구 결과를 보면, 대답과 설명이 안 맞는 경우가 꽤 많습니다. 예를 들어 인간이 시를 써서 챗GPT한테 평가해 달라고 요청하면 챗GPT는 100이면 100 “좋다”라고 대답합니다. “이 시는 매우 훌륭하고 감정을 잘 표현했어요.”
납득이 안 되니까 솔직히 말해달라고 해도, “여전히 좋지만, 여기 조금 고치면 더 좋을 것 같아요”라고 합니다. 여기에서 그치지 않고 정말 객관적인 평가가 듣고 싶으니까 제발 솔직하게 말해달라고 해도, 끝까지 좋게 말해줍니다. 그런데 옆에서 인터프리터블Interpretable AI로 어떤 생각을 했는지 보면 이렇게 생