본문 바로가기
📂 기타/◾ NEWS REVIEW

[인공지능 뉴스 | Forbes] Meta’s New AI Tool Makes It Easier For Researchers To Analyze Photos

by 이 정규 2023. 5. 12.
728x90
반응형

인공지능 영문 뉴스 (1)

The AI based tool can create "cutouts" or segments of different parts of an image. This comes handy while editing photos or while analyzing imagery for biological or security purposes.  META AI

Editing photos, analyzing surveillance footage and understanding the parts of a cell. These tasks have one thing in common: you need to be able to identify and separate different objects within an image. Traditionally, researchers have had to start from scratch each time they want to analyze a new part of an image.
사진 편집, 감시 영상 분석 및 셀 부분 이해. 이러한 작업에는 이미지 내에서 서로 다른 개체를 식별하고 분리할 수 있어야 한다는 공통점이 있습니다. 전통적으로 연구자들은 이미지의 새로운 부분을 분석할 때마다 처음부터 시작해야 했습니다.

Meta aims to change this laborious process by being the one-stop-shop for researchers and web developers working on such problems. On Wednesday, the company released an AI model, called “Segment Anything Model” or “SAM” through which users can create “cutouts” or segments of any item in an image by clicking on a point or drawing a box around the object. The tool can be used in research purposes, for creative editing or even to make sense of objects while wearing a VR headset by making it faster and more efficient to carve up different parts of an image.
메타는 이러한 문제를 연구하는 연구원과 웹 개발자들을 위한 one-stop-shop이 됨으로써 이 힘든 과정을 바꾸는 것을 목표로 합니다. 수요일에 회사는 "Segment Anything Model" 또는 "SAM"이라고 불리는 AI 모델을 출시했습니다. 이 모델을 통해 사용자는 점을 클릭하거나 개체 주위에 상자를 그려 이미지의 모든 항목의 세그먼트를 만들 수 있습니다. 이 도구는 이미지의 다른 부분을 더 빠르고 효율적으로 분할함으로써 연구 목적, 창의적인 편집 또는 VR 헤드셋을 착용하는 동안 물체를 이해하는 데 사용될 수 있습니다.

The tech company launched the browser-based tool to the public and also open sourced its computer vision model, which it claims is trained on “the largest segmentation dataset” of 1.1 billion segmentation masks (“masks” are different parts of an image) and 11 million images licensed from a large photo company. Meta did not disclose which company it licensed the images from. Meta AI, the artificial intelligence research arm of the social media giant, worked with 130 human annotators based in Kenya to create the dataset, which was made through a combination of manual and automatic labeling of a billion parts of millions of images.
이 기술 회사는 브라우저 기반 툴을 일반에 공개하고 컴퓨터 비전 모델을 오픈 소스화했습니다. 이 모델은 11억 개의 분할 마스크("마스크"는 이미지의 다른 부분임)와 1,100만 개의 대형 사진 회사로부터 라이센스를 받은 이미지로 구성된 "가장 큰 분할 데이터 세트"에 대해 학습했다고 말합니다. 메타는 어느 회사로부터 이미지를 허가받았는지 공개하지는 않았습니다. 소셜 미디어 대기업 Meta의 인공지능 연구 부문인 Meta AI는 케냐에 기반을 둔 130명의 인간 주석자와 협력하여 데이터 세트를 만들었습니다. 이 데이터 세트는 수십억 개의 이미지에 수동 및 자동 레이블링을 결합하여 만들어졌습니다.

Object recognition and computer vision technologies have been around for years and are already integrated in various devices such as surveillance cameras and drones. Amazon stores for example use object recognition to detect the items you put into your basket and autonomous vehicles use it to perceive their surroundings. Contemporary startups like Runway and incumbents like Adobe have commercialized their ability to use AI to detect and select different objects within an image for their creative users. As snazzy generative AI chatbots have emerged, the goal for AI researchers at Meta was to merge the advancement in AI foundational models with the dormant realm of computer vision technologies.
물체 인식 및 컴퓨터 비전 기술은 수년 동안 존재해 왔으며 이미 감시 카메라 및 드론과 같은 다양한 장치에 통합되어 있습니다. 예를 들어, 아마존 상점은 사물 인식을 사용하여 바구니에 넣은 물건을 감지하고 자율 주행 차량은 그것을 사용하여 주변 환경을 인식합니다. 런웨이와 같은 현대의 스타트업과 어도비와 같은 기존 기업은 창의적인 사용자를 위해 이미지 내에서 다른 객체를 감지하고 선택하기 위해 AI를 사용하는 능력을 상용화했습니다. 기발한 생성 AI 챗봇이 등장함에 따라 메타의 AI 연구자들의 목표는 AI 기반 모델의 발전과 컴퓨터 비전 기술의 휴면 영역을 통합하는 것이었습니다.

“I wouldn't say that this is a new area of technology. Object segmentation already exists so I wouldn't say this is a new capability. Fundamentally, I think their approach of using foundational models is new and the size of the dataset they're training on could be novel,” says Paul Powers, CEO and founder of Physna, a search engine for 3D objects.
3D 객체 검색 엔진인 Physna의 CEO이자 설립자인 Paul Powers는 "저는 이것이 새로운 기술 분야라고 말하지 않을 것입니다. 개체 분할이 이미 존재하므로 새로운 기능이라고 할 수 없습니다. 기본적으로, 기본 모델을 사용하는 그들의 접근 방식은 새로운 것이며, 교육 중인 데이터 세트의 크기는 새로운 것일 수 있습니다." 라고 말합니다.

But what Meta hopes is that by releasing these tools more broadly, it’ll encourage users to build on top of their generalized model for more specific use cases in fields like biology and agriculture.
그러나 메타가 원하는 것은 이러한 도구를 보다 광범위하게 출시함으로써 사용자가 생물학 및 농업과 같은 분야에서 보다 구체적인 사용 사례를 위해 일반화된 모델을 기반으로 구축하도록 장려하는 것입니다.

The announcement comes simultaneously as Meta reportedly plans to use generative AI for advertisements across Instagram and Facebook. Not wanting to miss out on the buzz around AI, in late February, CEO Mark Zuckerberg announced that he is creating a new product team solely focused on building generative AI tools like artificial personas, Instagram filters and chat-based features in WhatsApp and Instagram. Zuckerberg reportedly spends most of his time with the new AI team.
메타가 인스타그램과 페이스북 전반의 광고에 생성 인공지능을 사용할 계획인 것으로 알려지면서 동시에 발표가 나왔습니다. 2월 말 CEO Mark Zuckerberg는 인공지능에 대한 유행을 놓치고 싶지 않고, 인공 캐릭터, 인스타그램 필터, 왓츠앱과 인스타그램의 채팅 기반 기능과 같은 생성적인 AI 도구를 구축하는 것에만 집중하는 새로운 제품 팀을 만들고 있다고 발표했습니다. 보도에 따르면 저커버그는 대부분의 시간을 새로운 AI 팀과 함께 보냅니다.

The SAM tool is built for those who don’t have the AI infrastructure or the data capacity to create their own models to “segment” or identify different components of an image, say Meta AI researchers Alexander Kirillov and Nikhila Ravi. “This is happening in real time in the browser and that makes this model much more accessible to so many more people because they don't need to be able to run a lot of stuff on GPU… We can enable a lot more edge use cases that some other methods might not allow,” Ravi says.
메타 AI 연구원인 Alexander Kirillov와 Nikhila Ravi에 따르면 SAM 도구는 이미지의 다른 구성 요소를 "분할"하거나 식별하기 위해 자체 모델을 만들 수 있는 AI 인프라나 데이터 용량이 없는 사람들을 위해 구축되었습니다. Ravi는 "이는 브라우저에서 실시간으로 발생하고 있으며 GPU에서 많은 작업을 실행할 필요가 없기 때문에 이 모델에 훨씬 더 많은 사람이 액세스할 수 있습니다. 다른 방법으로는 허용하지 않을 수 있는 훨씬 더 많은 엣지 사용 사례를 활성화할 수 있습니다."라고 말합니다.

But there are limitations of a computer vision model trained on a database of two-dimensional images, says Powers. For example, for the tool to detect and select a remote held upside down, it would need to be trained on different orientations of the same object. Models trained on 2D images won’t help detect images that are partly covered or partially exposed, he says. This means it wouldn’t accurately identify non-standardized objects through an AR/VR headset or it wouldn’t detect partially covered objects in public spaces if used by an autonomous vehicle manufacturer.
그러나 Powers는 2차원 이미지 데이터베이스에서 훈련된 컴퓨터 비전 모델에는 한계가 있다고 말합니다. 예를 들어, 도구가 거꾸로 고정된 원격을 감지하고 선택하려면 동일한 개체의 다른 방향에 대해 교육을 받아야 합니다. 2D 이미지에 대해 훈련된 모델은 부분적으로 덮이거나 부분적으로 노출된 이미지를 감지하는 데 도움이 되지 않을 것이라고 말합니다. 이는 AR/VR 헤드셋을 통해 표준화되지 않은 물체를 정확하게 식별하지 못하거나 자율 주행 차량 제조업체에서 사용하는 경우 공공 공간에서 부분적으로 가려진 물체를 감지하지 못한다는 것을 의미합니다.

For the company, which rebranded itself from Facebook to Meta in late 2021 and inked its commitment to the Metaverse, the most obvious use for this object detection tool is in its virtual reality spaces such as its online VR game Horizon Worlds. Kirillov and Ravi say that their object detection tool can be used for “gaze-based” detection of objects through virtual reality and augmented reality headsets.
2021년 말 페이스북에서 메타 데이터로 브랜드를 변경하고 메타버스에 대한 헌신에 체결한 이 회사의 경우, 이 객체 감지 도구의 가장 확실한 용도는 온라인 VR 게임 Horizon Worlds와 같은 가상 현실 공간입니다. Kirillov와 Ravi는 그들의 물체 감지 도구가 가상 현실과 증강 현실 헤드셋을 통해 물체를 " 시선 기반"으로 감지하는 데 사용될 수 있다고 말합니다.

The model can detect unknown objects and work across domains with underwater, microscopic, aerial and agricultural images. Kirillov says he was inspired to create a generalized image segmenting model while talking to PhD researchers. “I was giving a presentation about segmentation to some natural scientists in Berkeley and people were like ‘Okay sure, this is all cool, but I need to like count and identify trees in the photos I’ve collected for my research about fires in California,’ and so this model can do that for them,” Kirillov tells Forbes.
이 모델은 알려지지 않은 물체를 감지하고 수중, 현미경, 항공 및 농업 이미지로 도메인 간에 작업할 수 있습니다. Kirillov는 박사 학위 연구원들과 이야기를 나누면서 일반화된 이미지 분할 모델을 만들 수 있도록 영감을 받았다고 말합니다. "버클리의 몇몇 자연 과학자들에게 분할에 대한 프레젠테이션을 하고 있었는데 사람들은 '좋아요, 이것은 모두 멋지지만, 저는 캘리포니아의 화재에 대한 연구를 위해 수집한 사진에서 나무 수를 세고 식별하는 것을 좋아할 필요가 있어요'라고 말했습니다. 그래서 이 모델은 그들을 위해 그렇게 할 수를 세고 이 모델이 그들을 위해 그렇게 할 수 있습니다."

Meta’s New AI Tool Makes It Easier For Researchers To Analyze Photos

Forbes@Rashi Shrivastava

Apr 6, 2023

728x90
반응형

댓글