Google подключил OCR-движок для индексации PDF
Google сделал значительный шаг на пути к индексированию так называемой Невидимой сети, то есть той львиной части сетевого контента, которая до сих пор не поддаётся роботам поисковых систем. Это, в основном, запароленые сайты и различные базы данных, а также огромные массивы отсканированных документов в формате PDF. И Google, и многие другие поисковики без проблем индексируют PDF, если в нём есть текстовый слой (он хранится в стандартном текстовом формате в контейнере файла). Но подобных «правильных» PDF на самом деле довольно мало. Гораздо больше документов представляют собой обычные отсканированные копии в графическом формате, просто сохранённые в PDF. Поэтому для их индексации Google сейчас подключил OCR-движок . Теперь в индекс попадут миллионы недоступных ранее государственных отчётов, судебных решений и академических исследований. Вот некоторые примеры работы нового движка. Нужно напомнить, что в апреле Google научился обрабатывать выпадающие меню и другие HTML-формы в различных интерфейсах баз данных, это тоже важная технология по индексации Невидимой сети.
Скрипты в Photoshop
Есть такой малоизученный дизайнерами функционал в фотошопе как скрипты. Многие пользуются Actions, но для написания настоящих jsx скриптов нужны хотя бы базовые познания в JS, VBS или AppleScript. Представьте себе такую задачу, как создание 50 уникальных графических заголовков для сайта, общего начертания, цвета, размера, но, увы, с разным контентом. Как решить задачу? 1) Сесть и ручками наструячить 50 заголовков, копируя текст из текстовичка, настраивая размер и сохраняя файлы. 2) Создать скрипт:) Исходный код скрипта привожу ниже (для редактирования в комплекте с фотошопом поставляется удобная программка ExtendScript Toolbox): #target photoshop app.bringToFront(); var strtRulerUnits = app.preferences.rulerUnits; var strtTypeUnits = app.preferences.typeUnits; app.preferences.rulerUnits = Units.INCHES; app.preferences.typeUnits = TypeUnits.POINTS; var docRef = app.documents.add(7, 5, 72); app.displayDialogs = DialogModes.NO; var textColor = new SolidColor; textColor.rgb.red = 255; textColor.rgb.green = 0; textColor.rgb.blue = 0; var myFile = File('/c/script/text.txt'); if (myFile.exists == true){ myFile.open('r', undefined, undefined) var line; while(!myFile.eof) { line = myFile.readln(); createText(line); } myFile.close(); } else { new File(myFile); } function createText(text){ var newTextLayer = docRef.artLayers.add(); newTextLayer.kind = LayerKind.TEXT; newTextLayer.textItem.contents = text; newTextLayer.textItem.position = Array(0.75, 0.75); newTextLayer.textItem.size = 36; newTextLayer.textItem.font = "Verdana"; newTextLayer.textItem.color = textColor; app.preferences.rulerUnits = strtRulerUnits; app.preferences.typeUnits = strtTypeUnits; docRef = null; textColor = null; newTextLayer = null;} Что делает скрипт: Построчно считывает файл text.txt и для каждой строки создаёт в файле отдельный текстовый слой, содержащий значение строки Сохраняем это с расширением .jsx, создаём C:/script/text.txt и ура, очень многое упростилось :)
Мобильный поиск картинок от Яндекса
Яндекс запустил сервис поиска картинок для мобильных устройств - http://m.images.yandex.ru/ . Вся прелесть нового сервиса в том, что он автоматически меняет размеры найденные картинки под разрешение экрана мобильного устройства. Вот как это выглядит на айфоне: Адаптировать контент под устройство является довольно интересным подходом. Хочется надеяться, что в ближайшее время многие мобильные сервисы (яндексовские и не только) будут развиваться в этом направлении.
МАМА: только 4.13% сайтов валидны
МАМА — это исследование, которое проводит сейчас Opera Software. Расшифровывается «Metadata Analysis and Mining Application». Сегодня в его рамках были опубликованы результаты исследования на валидность страниц. Оказалось , что всего 4.13% сайтов успешно проходят W3C-валидацию . Это очень мало. И, одновременно, это сравнительно много, если сравнивать с результатамы прошлых исследований.
phpMyAdmin 3
Началось тестирование новой версии кросс-платформенного серверного PHP-комплекса для удаленного управления базами данных phpMyAdmin . Это web-интерфейс для работы с БД MySQL версий 4.х и 5.х. Написан на языке PHP, что позволяет использовать его практически на любом web-сервере. Поддерживается создание и удаление баз данных, редактирование таблиц и отдельных полей, выполнение SQL команд и запросов. Интерфейс локализирован более чем на 50 языков, в том числе и русский. Полный перечень нововведений и исправлений доступен в официальных заметках к релизу ( подробнее ). Онлайн демо
Загрузка ...




