본문 바로가기
📂 기타/◾ NEWS REVIEW

[인공지능 뉴스 | MIT News] Training machines to learn more like humans do

by 이 정규 2023. 5. 25.
728x90
반응형

인공지능 영문 뉴스 (6)

 

Researchers identify a property that helps computer vision models learn to represent the visual world in a more stable, predictable way.

MIT의 연구원들은 컴퓨터 비전 모델이 이미지의 안정적이고 예측 가능한 표현을 학습하는 데 도움이 되는 특성을 발견했습니다.

Image : MIT News with iStock

Imagine sitting on a park bench, watching someone stroll by. While the scene may constantly change as the person walks, the human brain can transform that dynamic visual information into a more stable representation over time. This ability, known as perceptual straightening, helps us predict the walking person’s trajectory.
공원 벤치에 앉아서 누군가가 지나가는 것을 보고 있다고 상상해 보세요. 사람이 걸을 때 장면은 계속해서 바뀔 수 있지만, 인간의 뇌는 시간이 지남에 따라 역동적인 시각 정보를 더 안정적인 표현으로 변환할 수 있습니다. 지각 교정이라고 알려진 이 능력은 걷는 사람의 궤적을 예측하는 데 도움이 됩니다.

Unlike humans, computer vision models don’t typically exhibit perceptual straightness, so they learn to represent visual information in a highly unpredictable way. But if machine-learning models had this ability, it might enable them to better estimate how objects or people will move.
인간과 달리, 컴퓨터 비전 모델은 일반적으로 지각적 직선성을 나타내지 않기 때문에 시각적 정보를 매우 예측할 수 없는 방식으로 표현하는 방법을 배웁니다. 그러나 기계 학습 모델이 이러한 능력을 가지고 있다면 물체나 사람이 어떻게 움직이는지 더 잘 추정할 수 있을 것입니다.

MIT researchers have discovered that a specific training method can help computer vision models learn more perceptually straight representations, like humans do. Training involves showing a machine-learning model millions of examples so it can learn a task.
MIT 연구원들은 특정 훈련 방법이 컴퓨터 비전 모델이 인간이 하는 것처럼 지각적으로 직선적인 표현을 배우는 데 도움을 줄 수 있다는 것을 발견했습니다. 훈련은 기계 학습 모델이 작업을 학습할 수 있도록 수백만 개의 예를 보여주는 것을 포함합니다.

The researchers found that training computer vision models using a technique called adversarial training, which makes them less reactive to tiny errors added to images, improves the models’ perceptual straightness.
연구원들은 이미지에 추가된 작은 오류에 덜 반응하게 만드는 적대적 훈련이라는 기술을 사용하여 컴퓨터 비전 모델을 훈련하는 것이 모델의 지각 직선성을 향상시킨다는 것을 발견했습니다.

The team also discovered that perceptual straightness is affected by the task one trains a model to perform. Models trained to perform abstract tasks, like classifying images, learn more perceptually straight representations than those trained to perform more fine-grained tasks, like assigning every pixel in an image to a category. 
팀은 또한 모델이 수행하는 작업에 따라 지각적 직선성이 영향을 받는다는 것을 발견했습니다. 이미지 분류와 같은 추상적인 작업을 수행하도록 훈련된 모델은 이미지의 모든 픽셀을 범주에 할당하는 것과 같은 보다 세부적인 작업을 수행하도록 훈련된 모델보다 더 지각적으로 직선적인 표현을 학습합니다.

For example, the nodes within the model have internal activations that represent “dog,” which allow the model to detect a dog when it sees any image of a dog. Perceptually straight representations retain a more stable “dog” representation when there are small changes in the image. This makes them more robust.
예를 들어, 모델 내부의 노드에는 "개"를 나타내는 내부 활성화가 있습니다. 이로 인해 모델은 개 이미지를 볼 때 개를 감지할 수 있습니다. 지각적으로 직선적인 표현은 이미지에 작은 변화가 있을 때 더 안정적인 "개" 표현을 유지합니다. 이로 인해 모델이 더 강력해집니다.

By gaining a better understanding of perceptual straightness in computer vision, the researchers hope to uncover insights that could help them develop models that make more accurate predictions. For instance, this property might improve the safety of autonomous vehicles that use computer vision models to predict the trajectories of pedestrians, cyclists, and other vehicles.
컴퓨터 비전에서 지각적 직선성에 대한 이해를 깊게 함으로써 연구원들은 더 정확한 예측을 할 수 있는 모델을 개발하는 데 도움이 될 수 있는 통찰력을 발견하기를 희망합니다. 예를 들어, 이 속성은 보행자, 자전거 타는 사람 및 기타 차량의 경로를 예측하기 위해 컴퓨터 비전 모델을 사용하는 자율 주행 차량의 안전을 향상시킬 수 있습니다.

“One of the take-home messages here is that taking inspiration from biological systems, such as human vision, can both give you insight about why certain things work the way that they do and also inspire ideas to improve neural networks,” says Vasha DuTell, an MIT postdoc and co-author of a paper exploring perceptual straightness in computer vision.
"여기서 중요한 메시지 중 하나는 인간의 시각과 같은 생물학적 시스템에서 영감을 얻는 것이 왜 특정한 것들이 그들이 하는 방식으로 작동하는지에 대한 통찰력을 줄 수 있고 또한 신경망을 개선하기 위한 아이디어에 영감을 줄 수 있다는 것입니다."라고 컴퓨터 비전의 지각적 직선성을 탐구하는 논문의 공동 저자이자 MIT 박사 Vasha DuTell은 말합니다.

Joining DuTell on the paper are lead author Anne Harrington, a graduate student in the Department of Electrical Engineering and Computer Science (EECS); Ayush Tewari, a postdoc; Mark Hamilton, a graduate student; Simon Stent, research manager at Woven Planet; Ruth Rosenholtz, principal research scientist in the Department of Brain and Cognitive Sciences and a member of the Computer Science and Artificial Intelligence Laboratory (CSAIL); and senior author William T. Freeman, the Thomas and Gerd Perkins Professor of Electrical Engineering and Computer Science and a member of CSAIL. The research is being presented at the International Conference on Learning Representations.
DuTell은 다음 저자들과 함께 논문에 참여했습니다. Anne Harrington, 전기공학 및 컴퓨터공학과 (EECS) 석사과정생, Ayush Tewari, 박사후 연구원, Mark Hamilton, 석사과정생, Simon Stent, Woven Planet 연구 매니저, Ruth Rosenholtz, 뇌 및 인지과학과 수석 연구과학자이자 컴퓨터과학 및 인공지능 연구소 (CSAIL) 회원, William T. Freeman, 전기공학 및 컴퓨터공학과 Thomas and Gerd Perkins 교수이자 CSAIL 회원과 함께 연구를 진행했습니다. 이 연구는 국제 학습 표현 컨퍼런스에서 발표되고 있습니다.

Studying straightening
학습 정리

After reading a 2019 paper from a team of New York University researchers about perceptual straightness in humans, DuTell, Harrington, and their colleagues wondered if that property might be useful in computer vision models, too.
DuTell, Harrington 및 그들의 동료들은 인간의 지각 직선에 대한 뉴욕 대학 연구팀의 2019년 논문을 읽은 후, 그 속성이 컴퓨터 비전 모델에서도 유용할지 궁금해했습니다.

They set out to determine whether different types of computer vision models straighten the visual representations they learn. They fed each model frames of a video and then examined the representation at different stages in its learning process.
그들은 서로 다른 유형의 컴퓨터 비전 모델이 그들이 배우는 시각적 표현을 바로 잡는지 여부를 결정하기 시작했습니다. 그들은 비디오의 각 모델 프레임에 피드를 주고 학습 과정의 다른 단계에서 표현을 조사했습니다.

If the model’s representation changes in a predictable way across the frames of the video, that model is straightening. At the end, its output representation should be more stable than the input representation.
모델의 표현이 비디오 프레임 전체에서 예측 가능한 방식으로 변경되면 해당 모델은 곧게 펴집니다. 마지막으로 출력 표현은 입력 표현보다 안정적이어야 합니다.

“You can think of the representation as a line, which starts off really curvy. A model that straightens can take that curvy line from the video and straighten it out through its processing steps,” DuTell explains.
"직선화 모델은 비디오의 곡선형 선을 가져와 처리 단계를 통해 직선화할 수 있습니다."라고 DuTell은 설명합니다.

Most models they tested didn’t straighten. Of the few that did, those which straightened most effectively had been trained for classification tasks using the technique known as adversarial training.
그들이 테스트한 대부분의 모델은 직선화되지 않았습니다. 그렇게 몇 안 되는 것들 중에서, 가장 효과적으로 직선화된 것들은 적대적 훈련으로 알려진 기술을 사용하여 분류 작업을 위해 훈련되었습니다.

Adversarial training involves subtly modifying images by slightly changing each pixel. While a human wouldn’t notice the difference, these minor changes can fool a machine so it misclassifies the image. Adversarial training makes the model more robust, so it won’t be tricked by these manipulations.
적대적 훈련은 각 픽셀을 약간 변경하여 이미지를 미묘하게 수정하는 것을 포함합니다.인간은 그 차이를 알아차리지 못하지만, 이러한 작은 변화들은 기계를 속여서 이미지를 잘못 분류할 수 있습니다.적대적 훈련은 모델을 더욱 견고하게 만들어 이러한 조작에 속지 않습니다.

Because adversarial training teaches the model to be less reactive to slight changes in images, this helps it learn a representation that is more predictable over time, Harrington explains.
적대적 훈련은 모델이 이미지의 사소한 변화에 덜 반응하도록 가르치기 때문에, 이것은 시간이 지남에 따라 더 예측 가능한 표현을 학습하는 데 도움이 된다고 Harrington은 설명합니다.

“People have already had this idea that adversarial training might help you get your model to be more like a human, and it was interesting to see that carry over to another property that people hadn’t tested before,” she says.
"사람들은 이미 적대적 훈련이 당신의 모델을 사람처럼 만드는 데 도움이 될 수 있다는 생각을 가지고 있었습니다. 그리고 그것이 사람들이 이전에 테스트하지 않았던 다른 특성으로 옮겨가는 것을 보는 것은 흥미로웠습니다."라고 그녀는 말합니다.

But the researchers found that adversarially trained models only learn to straighten when they are trained for broad tasks, like classifying entire images into categories. Models tasked with segmentation — labeling every pixel in an image as a certain class — did not straighten, even when they were adversarially trained.
하지만 연구원들은 적대적으로 훈련된 모델이 전체 이미지를 범주로 분류하는 것과 같은 광범위한 작업을 위해 훈련될 때만 교정하는 법을 배운다는 것을 발견했습니다.이미지의 모든 픽셀을 특정 클래스로 레이블링하는 분할 작업을 수행하는 모델은 적대적으로 훈련된 경우에도 교정되지 않았습니다.

Consistent classification
일관된 분류

The researchers tested these image classification models by showing them videos. They found that the models which learned more perceptually straight representations tended to correctly classify objects in the videos more consistently.
연구원들은 그들에게 비디오를 보여줌으로써 이러한 이미지 분류 모델을 테스트를 했습니다.그들은 지각적으로 더 직선적인 표현을 학습한 모델이 비디오에서 물체를 더 일관되게 정확하게 분류하는 경향이 있다는 것을 발견했습니다.

“To me, it is amazing that these adversarially trained models, which have never even seen a video and have never been trained on temporal data, still show some amount of straightening,” DuTell says.
DuTell은 "비디오를 본 적도 없고 시간 데이터에 대해 교육을 받은 적도 없는 이러한 적대적으로 훈련된 모델이 여전히 어느 정도 교정을 보여준다는 것이 놀랍다"고 말합니다.

The researchers don’t know exactly what about the adversarial training process enables a computer vision model to straighten, but their results suggest that stronger training schemes cause the models to straighten more, she explains.
연구원들은 적대적 훈련 과정에 대해 정확히 무엇이 컴퓨터 비전 모델을 교정할 수 있게 하는지는 모르지만, 그들의 결과는 더 강력한 훈련 체계가 모델을 더 교정하게 만든다는 것을 시사한다고 그녀는 설명합니다.

Building off this work, the researchers want to use what they learned to create new training schemes that would explicitly give a model this property. They also want to dig deeper into adversarial training to understand why this process helps a model straighten.
이 연구를 바탕으로 연구원들은 학습한 내용을 사용하여 모델에게 이 속성을 명시적으로 부여하는 새로운 교육 체계를 만들고자 합니다. 또한 이 과정이 모델을 바로잡는 데 도움이 되는 이유를 이해하기 위해 적대적 훈련을 더 깊이 파고들기를 원합니다.

“From a biological standpoint, adversarial training doesn’t necessarily make sense. It’s not how humans understand the world. There are still a lot of questions about why this training process seems to help models act more like humans,” Harrington says.
"생물학적 관점에서 볼 때, 적대적 훈련이 반드시 이치에 맞는 것은 아닙니다.그것은 인간이 세상을 이해하는 방법이 아닙니다.왜 이 훈련 과정이 모델들이 사람처럼 행동하는 데 도움이 되는 것처럼 보이는지에 대해서는 여전히 많은 의문이 있습니다."라고 해링턴은 말합니다.

“Understanding the representations learned by deep neural networks is critical to improve properties such as robustness and generalization,” says Bill Lotter, assistant professor at the Dana-Farber Cancer Institute and Harvard Medical School, who was not involved with this research. “Harrington et al. perform an extensive evaluation of how the representations of computer vision models change over time when processing natural videos, showing that the curvature of these trajectories varies widely depending on model architecture, training properties, and task. These findings can inform the development of improved models and also offer insights into biological visual processing.”
"심층 신경망을 통해 학습된 표현을 이해하는 것은 견고성과 일반화와 같은 특성을 개선하는 데 매우 중요합니다,"라고 이 연구에 참여하지 않은 Dana-Farber 암 연구소와 하버드 의대의 조교수인 Bill Lotter는 말합니다."해링턴 등은 자연 비디오를 처리할 때 시간이 지남에 따라 컴퓨터 비전 모델의 표현이 어떻게 변하는지에 대한 광범위한 평가를 수행하여 이러한 궤적의 곡률이 모델 아키텍처, 훈련 속성 및 작업에 따라 크게 다르다는 것을 보여줍니다.이러한 발견은 개선된 모델의 개발에 정보를 제공하고 생물학적 시각 처리에 대한 통찰력을 제공할 수 있습니다."

“The paper confirms that straightening natural videos is a fairly unique property displayed by the human visual system. Only adversarially trained networks display it, which provides an interesting connection with another signature of human perception: its robustness to various image transformations, whether natural or artificial,” says Olivier Hénaff, a research scientist at DeepMind, who was not involved with this research. “That even adversarially trained scene segmentation models do not straighten their inputs raises important questions for future work: Do humans parse natural scenes in the same way as computer vision models? How to represent and predict the trajectories of objects in motion while remaining sensitive to their spatial detail? In connecting the straightening hypothesis with other aspects of visual behavior, the paper lays the groundwork for more unified theories of perception.”
"이 논문은 원본 비디오를 교정하는 것이 인간의 시각 시스템에 의해 표시되는 상당히 독특한 특성임을 확인합니다. 이 연구에 참여하지 않은 딥마인드의 연구 과학자 Olivier Hénaff는 "대립적으로 훈련된 네트워크만이 그것을 보여주며, 이는 인간 인식의 또 다른 특징인 자연적이든 인위적이든 다양한 이미지 변환에 대한 견고성과 흥미로운 연결을 제공합니다."라고 말합니다. "적대적으로 훈련된 장면 세분화 모델도 입력을 바로잡지 못한다는 것은 향후 작업에 중요한 질문을 제기합니다. 인간은 컴퓨터 비전 모델과 같은 방식으로 자연 장면을 분석합니까? 공간적 세부 사항에 민감하게 반응하면서 움직이는 물체의 궤적을 어떻게 표현하고 예측합니까? 교정 가설을 시각적 행동의 다른 측면과 연결하는 데 있어, 이 논문은 더 통일된 인식 이론의 토대를 마련합니다."

The research is funded, in part, by the Toyota Research Institute, the MIT CSAIL METEOR Fellowship, the National Science Foundation, the U.S. Air Force Research Laboratory, and the U.S. Air Force Artificial Intelligence Accelerator.
그 연구는 일부 the Toyota Research Institute, MIT CSAIL METER Fellowship, the National Science Foundation, the U.S. Air Force Research Laboratory, and the U.S. Air Force Artificial Intelligence Accelerator에 의해 자금이 지원됩니다.

Adam Zewe | MIT News Office
Publication Date:
May 9, 2023

 

728x90
반응형

댓글