Спрашиваешь словами — телефон сам находит нужный скрин среди тысяч

Смотри, идея на одну строку: ты пишешь «где я парковался у Ашана» — а приложение само находит в твоих 4000 фоток тот самый скрин с этажом и номером места. Не по дате, не по подписи. По тому, что нарисовано на картинке.
И вот что тут свежее. Раньше поиск по фоткам работал в обход: модель вычитывала текст с картинки (OCR) и искала по нему. Нет текста — нет находки. В мае Google включил в File Search новую штуку — Gemini Embedding 2: она кодирует саму картинку, а не буквы на ней, и кладёт фото и текст в одно общее пространство поиска. Спрашиваешь словами — модель достаёт нужный кадр и показывает, какой именно. Вот на этой новой возможности проект и едет.
Почему именно это
Скрины копит каждый: рецепт, что кинула Лена; фото доски после планёрки; мем, который надо переслать; полка в магазине, чтобы не забыть марку. А найти потом — мучение: листаешь ленту большим пальцем десять минут. Поиск по галерее ищет по дате, а ты помнишь не дату, а что было на картинке. Это приложение закрывает ровно этот разрыв — и пользоваться им ты будешь сам, каждый день.
И «магии» тут меньше, чем кажется. Приложение — это труба: загрузил фотки в хранилище File Search, спросил человеческим языком, получил подходящие картинки. Вся сложность — внутри одного готового инструмента.
Чему научишься
- Эмбеддинги. Картинка превращается в набор чисел — «координаты смысла». Похожие по смыслу кадры стоят рядом. Потрогаешь руками то, что называется эмбеддингами.
- Поиск по смыслу, не по словам. Запрос «двор с качелями» найдёт фото детской площадки, даже если на ней нет ни одной буквы.
- RAG и ссылки на источник. Модель не выдумывает ответ — она достаёт твои же файлы и показывает, из какого кадра взяла. Это и есть честный поиск с пруфом.
Готовый стартовый промпт
Не проси агента «сделай поиск по фоткам» — он начнёт угадывать и хранилище, и формат. Дай контекст, пример и границы:
Сделай приложение для поиска по моим скриншотам.Сильный промпт не оставляет места для догадок: видно, что кодируем картинку (а не текст), видно пример запроса, видно сколько кадров показать и что рядом дать ссылку на источник. Результат с первого раза ближе к тому, что ты хотел.
Что получится в итоге
Ты пишешь в поле: «тот рецепт пасты, что Лена кидала». На скрине почти нет текста — просто фото тарелки и пара строк от руки. Старый поиск по галерее тут бессилен. А твоё приложение через секунду показывает именно его — потому что совпала картинка, а не буквы. Рядом — пометка «вот этот кадр». Ты не листал ленту. Ты просто спросил словами.
Начни с десятка своих скринов и одного запроса — и у тебя будет штука, которая за секунду достаёт то, что раньше ты искал прокруткой на десять минут. Если захочешь хранить эмбеддинги у себя, дальше пригодится векторная база — но для выходных хватит и готового File Search.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.
Источник: File Search в Gemini API стал мультимодальным (Google Blog)




