최근, 챕터39 번째 미국 인공 지능 연례 회의 (AAAI 2025)는 미국 펜실베이니아 주 필라델피아에서 개최되었습니다.소프트웨어 아카데미 휴먼-컴퓨터 상호 작용 및 가상 현실 센터MMRC 실험실레슨 학생Sun Weilin,Yang Yimeng,Yan Xiaoshuo,소프트웨어 아카데미 인공 지능 연구 센터Ma Zhenxiang, Mima Laboratory의 대학원생회의에 참석하여 보고서 결과를보고합니다.

1.종이질문:계층 적토토 분석 구조화 된 개방형 실내 장면 합성 미리 훈련 된 큰 언어 model (AAAI 2025)
논문의 저자 :Weilin Sun, Xinran Li, Manyi Li*, Kai Xu*, Xiangxu Meng, Lei Meng*
종이컨텐츠:실내 장면 합성 기술은 특히 사용자의 개인화 된 요구를 충족시키는 데 중점을 둔 논리적이고 현실적인 3 차원 실내 환경을 자동토토 분석 생성하기 위해 노력하고 있습니다. 최근 몇 년 동안 미리 훈련 된 대형 언어 모델 (llm)은 실내 장면 합성 분야에서 놀라운 일반화 기능을 보여주었습니다. 그러나 LLM에 의해 생성 된 텍스트 설명을 합리적이고 물리 법칙에 따라 장면 레이아웃토토 분석 변환하는 것은 여전히 순간에 직면 한 주요 과제입니다. 이 논문에서는 먼저 LLM을 사용하여 구조화 된 시나리오 설명을 생성하는 새로운 방법을 제안합니다. 그 후, 우리는 장면 레이아웃 문제를 해결하면서 장면 설명을 기반토토 분석 객체 간의 공간 관계를 유추하기 위해 구조 인식 및 최적화 알고리즘을 설계했습니다. 우리는 핵심 설계의 효과를 확인하기 위해 질적 및 정량적 측면에서 광범위한 실험을 수행했습니다. 실험 결과는이 방법이보다 합리적인 장면 레이아웃을 생성하면서 사용자 요구와 LLM 설명을 더 잘 충족시킬 수 있음을 보여줍니다. 또한 실제 응용 분야 에서이 방법의 장점을 반영하기 위해 개방형 어휘 장면 합성 및 대화식 장면 디자인의 결과를 보여줍니다.

2.종이질문:멀티 모달 권장 사항을위한 커리큘럼 조건 확산(AAAI 2025)
논문의 저자 :Yimeng Yang, Haokai MA, Lei Meng*, Shuo Xu, Ruobing Xie, Xiangxu Meng
종이컨텐츠:멀티 모달 추천 (MMREC)는 프로젝트에서 멀티 모달 정보를 통합하여 협업 기반 권장 사항에 내재 된 데이터 sparsense를 해결하는 것을 목표로합니다. 전통적인 멀티 모달 권장 방법은 종종 멀티 모달 그래프에서 관찰 된 사용자 행동토토 분석부터 구조 수준의 프로젝트 표현을 캡처하여 개인화 된 선호도 이해에 부정적인 예의 잠재적 영향을 무시합니다. 확산 모델 (DMS)의 탁월한 생성 능력과 단계별 추론의 특성을 고려할 때, 우리는 Modal 지각 된 분포 수준의 상관 관계를 다중 모달과 우아하게 통합하는 Modal Perceived Distribution 수준의 상관 관계를 정확하게 지배하는 Modal averciblic 샘플링에 대한 역상을 강조하는 Modal Perceed Proversion 수준의 상관 관계에 대한 CCDREC (Curriculum Conditional Frifusion Framework)를 제안합니다. 구체적토토 분석, CCDREC는 확산 제어 다중 모드 정렬 모듈 (DMA)을 제안하며, 이는 확률 분포 공간에서 다중 모드 간의 세밀한 관계를 캡처하여 다중 모드 지식을 협력 신호와 정렬합니다. 또한, CCDREC는 또한 다른 어려움을 갖는 음성 샘플 풀을 점차적토토 분석 합성하기 위해 음성 민감성 확산 추론 모듈 (NDI)을 설계하여 후속 지식 인식 음성 샘플링을 지원합니다. 교육의 복잡성을 점차적토토 분석 증가시키기 위해 CCDREC는 코스 스타일의 음성 샘플러를 추가로 도입했습니다(CNS), 커리큘럼 기반 학습 패러다임과 역상과 일치하여 최적화를 향상시키기 위해 골드 표준 부정 인스턴스를 적응 적토토 분석 샘플링합니다. 결과는 세 데이터 세트의 모든 메트릭에서 모든 기준보다 훨씬 우수하다는 것을 보여줍니다. 이것은 간접적토토 분석 다중 모드 확산 강화 프로젝트 융합 방법과 확산 지식에 의해 안내 된 음성 샘플링 전략의 조합이 멀티 모달 정보를 효과적토토 분석 활용하여 모델이 사용자의 세밀한 다중 모드 선호도를 배울 수 있음을 간접적토토 분석 증명합니다.


3. 종이질문:이미지 분류를위한 시각적 비성 론적 정렬 그래프에 대한 인과 추론(AAAI 2025)
논문의 저자 :Lei Meng, Xiangxian Li, Xiaoshuo Yan*, Haokai MA, Zhuang Qi, Wei Wu, Xiangxu Meng
종이컨텐츠:현재 교차 모달 정렬 방법은 주로 명시 적 정렬, 암시 적 정렬 및 세분화 된 정렬의 세 가지 범주로 나뉩니다. 명시 적 기능 정렬 또는 암시 적 사용 라벨을 의미 레이블로서 안정적인 시각 및 시맨틱 연관성을 구축하는 것은 어렵습니다. 세분화 된 정렬 방법은 이미지 영역과 레이블 사이의 정렬이 필요하며 일반적토토 분석 이미지 분류 설정에서 사용하기 어려운 추가 검출 상자가 필요합니다. 이를 위해 이미지 분류에 대한 세밀한 비전을 제안합니다-시맨틱 협회 모델링 프레임 워크VSCNET, FVA (Fine-Greated Visual Semantic Alignment) 모듈은 순차적 위치 설정 네트워크를 사용하여 의미 론적 조밀 한 영역을 동시에 위치시키고 동시에 해당 텍스트 마커를 추론합니다. 비전 완화-시맨틱 매핑의 오류 전파,이 백서는 사전 학습 비전을 제안합니다-시맨틱 계층 구조는 모달 추론에 대한 불확실성을 처리하고 시각적 패턴, 레이블 및 범주 간의 연결에서 잠재적 범주를 찾습니다. 그 후, 이종 인과 적 그래프를 통해(CIM)전반적인 세밀한 비전-시맨틱 정보 및 레이블의 통합 된 시각적 패턴토토 분석, 인과 관계 정보를 학습하고 강력한 시각적 표현을 형성합니다. 데이터 세트 균형을 유지하여engredient-101 및 Long-Tail 데이터 세트에 대한 실험 결과 VSCNET가 이미지의 비주얼을 효과적토토 분석 구축 할 수 있음을 보여줍니다-시맨틱 연관성, 풍부한 예측 정보의 융합을 통해 분류 효과를 효과적토토 분석 향상시킵니다.

4.종이질문:점차적토토 분석 기능을 갖춘 소수의 세밀한 이미지 분류 정제 및 연속 관계 모델링(AAAI 2025)
논문의 저자 :Zhen-Xiang MA, Zhen-Duo Chen*, Tai Zheng, Xin Luo, Zixia Jia, Xin-Shun Xu
종이컨텐츠: 최근 몇 년, 해결하기위한 많은 효과적인 방법이 제안되었습니다작은 샘플 세그레이드이미지 분류 (fs-fgic)this도전적인 작업. 그러나 백본 네트워크를 완전히 활용하는 방법Discover and세부 사항Extract능력, withgetmore차별적의 클래스 프로토 타입 및 쿼리 샘플과 클래스 프로토 타입 사이의 유사성 관계를 정확하게 모델링하는 방법은 여전히 추가로 고려됩니다2문제. 그러므로,이 기사소설 제안프로그레시브기능정제지속적인 관계 모델링 방법,약식FS-FGIC 방법 토토 분석이 두 가지 문제를 해결하기 위해 적합합니다. 구체적토토 분석, 우리는 진보적 인 기능을 디자인했습니다정제모듈 (pfrm), tofull백본 네트워크의 점진적인 특성 활용에너지 추출힘, 따라서 멀티 스케일 형성특징더 강화할 것입니다차별적기능. 그 다음에,US지속적인 관계 모델링 모듈을 제안했습니다 (crmm),쿼리를 캡처하려면샘플및해당클래스 프로토 타입 간의 종속성, 따라서 구현in기능 공간에서해당샘플this점 사이의 거리의 정확한 최적화. 5 개의 작은 곡물 벤치 마크 데이터 세트에 대한 광범위한 실험을 수행했으며 실험 결과는 제안 된 방법이비교기존 방법성능 구현모든 라운드 리드.

aaaiis인공 지능 프로모션협회 조직최고 인공 지능국제 회의,중국 컴퓨터 협회의 경우CCF는 클래스 A 국제 학술 회의를 추천하고 인공 지능 및 자연어 처리 분야에서 높은 학업 명성을 누리고 있습니다. 회의는 총 12,957 개의 기록적인 유효한 제출물을 받았으며 등록률은 약 23.4%입니다.